qw741 发表于 2025-1-30 19:50:06

美方大模型和ds的区别,通俗易懂版本


不是梁的思路。而是研究人员的思路,梁是投资人他几乎不懂ai算法。

这个就是小模型与大模型的结合。美国的是任何一条指令都需要从所有数据库进行检索,而ds进行了分类,对任意一个指令首先会进行分类然后在小模型里面就行检索。

如此,1、美方的准确率高,但资源耗损巨大;2、ds首先进行分类后就增加了错误检索的几率,但极大减少了耗损。

这个其实思路并不复杂, 类似决策树指令的还原。不过实现起来还是有一定难度的,这个难度被ds的研发人员攻克了。

qw741 发表于 2025-1-30 20:28:00

而且,随着子分类模型的训练次数的增加,自主学习的准确性会越来越高。

那就意味着在资源耗损明显优势的前提下, 模型的准确率也会逐步提高直至追平

领航者 发表于 2025-1-30 20:29:27

一针见血,中美科技竞争,我们能把成本打下来,他们接不了招也是输

雁塔晨钟 发表于 2025-1-31 06:06:02

但是你不能用别人的模型来训练啊,后面要是你无法继续用openai的模型训练你的子模型,那你的模型不就废了

dkwen853 发表于 2025-1-31 07:12:10

openai用别人免费的数据训练模型挣钱也在被告么,开源免费分享给其他人

qw741 发表于 2025-1-31 08:50:01

雁塔晨钟 发表于 2025-1-31 06:06
但是你不能用别人的模型来训练啊,后面要是你无法继续用openai的模型训练你的子模型,那你的模型不就废了 ...

这个不存在。目前来看ds连cuda架构都绕过了,直接调用的芯片指令。

openai很多底层算法并不稀奇,而且都是以往技术的集成或优化,不存在抄袭的必要。

当然,搭便车是常见的现象,openai就没没有上过车吗?不可能。

qw741 发表于 2025-1-31 08:50:44

dkwen853 发表于 2025-1-31 07:12
openai用别人免费的数据训练模型挣钱也在被告么,开源免费分享给其他人

搭便车和后发优势,本来就是普遍现象。

只不过挡了别人财路,而且是巨大的,当然会受不了。

pnxx 发表于 2025-1-31 08:52:42

你说的是不需要太多硬件的原因。 主要质疑点前期训练可能用了open结果作为老师模型所谓的蒸馏或者说标准结果校准自己的模型。

qw741 发表于 2025-1-31 08:58:10

pnxx 发表于 2025-1-31 08:52
你说的是不需要太多硬件的原因。 主要质疑点前期训练可能用了open结果作为老师模型所谓的蒸馏或者说标准结 ...

openai难道就没有用蒸馏吗?

而且ds是开源,又怎么说?

pnxx 发表于 2025-1-31 09:28:09

qw741 发表于 2025-1-31 08:58
openai难道就没有用蒸馏吗?

而且ds是开源,又怎么说?

我也是搞 Ai应用的,收集治理高质量丰富的训练数据需要庞大的资金成本和人力成本。 一般公司干不了,都是基于facebook 模型或其他基座训练。 使用 open ai 接口做问答标注数据校准模型是一个路子,省了很多成本,你得有个老师模型告诉你什么回答是对什么回答是错的,才能校准提高准确率。   OpenAI 第一个搞出来大模型的哪有老师模型指导?它的成本很高很正常。

pnxx 发表于 2025-1-31 09:31:37

当然 deepseek 优化算法提高效率这点创新不错的。

Dynpro 发表于 2025-1-31 09:32:38

pnxx 发表于 2025-1-31 09:28
我也是搞 Ai应用的,收集治理高质量丰富的训练数据需要庞大的资金成本和人力成本。 一般公司干不了,都是 ...

当然有指导了,2017年谷歌那篇论文不就是吗?还有之后的BERT等语言模型。
页: [1]
查看完整版本: 美方大模型和ds的区别,通俗易懂版本