网大论坛

 找回密码
 立即注册
查看: 816|回复: 10

DeepSeek到底有没有对OpenAI的数据进行“蒸馏”?

[复制链接]

未关注公众号会员1

87

积分

0

贡献

0

奖励
发表于 前天 23:49 | 显示全部楼层 |阅读模式
老美的指控真的假的?

禁止发言

1096

积分

0

贡献

0

奖励
发表于 昨天 00:05 来自手机 | 显示全部楼层
真的假不了,假的真不了

新手上路

Rank: 1

40

积分

0

贡献

0

奖励
发表于 昨天 00:06 来自手机 | 显示全部楼层
很想学学怎么蒸馏。个人觉得不可能。那是一个黑盒子,自己去建立逻辑联系。现在知道的算法都是从基础数据出发。

高级战友

Rank: 4

571

积分

0

贡献

0

奖励
发表于 昨天 00:11 来自手机 | 显示全部楼层
NDY99 发表于 2025-1-30 00:06
很想学学怎么蒸馏。个人觉得不可能。那是一个黑盒子,自己去建立逻辑联系。现在知道的算法都是从基础数据出 ...

2.1 知识蒸馏基本框架

知识蒸馏采取Teacher-Student模式:将复杂且大的模型作为Teacher,Student模型结构较为简单,用Teacher来辅助Student模型的训练,Teacher学习能力强,可以将它学到的知识迁移给学习能力相对弱的Student模型,以此来增强Student模型的泛化能力。复杂笨重但是效果好的Teacher模型不上线,就单纯是个导师角色,真正部署上线进行预测任务的是灵活轻巧的Student小模型。

高级战友

Rank: 4

473

积分

0

贡献

0

奖励
发表于 昨天 00:27 来自手机 | 显示全部楼层
yz123 发表于 2025-1-30 00:11
2.1 知识蒸馏基本框架

知识蒸馏采取Teacher-Student模式:将复杂且大的模型作为Teacher,Student模型结 ...

蒸馏又不是deepseek提出来的,为啥别人没蒸馏出来一个deepseek?
另外,deepseek大概率用到蒸馏啊,因为deepseek跟chatgpt就不一样啊,chatgpt就没有本地模式必须要联网,换句话说必须要不停的给chatgpt交钱,deepseek有本地模式,而且有不同的版本啊,个人电脑就可以运行一个小的版本的本地deepseek,然后不用上网,不用把自己的数据交出去,个人电脑上这么小的版本大概率是用的更大的版本蒸馏的。

高级战友

Rank: 4

473

积分

0

贡献

0

奖励
发表于 昨天 00:35 来自手机 | 显示全部楼层
我认为deepseek非常伟大,个人电脑上就可以运行。所以未来可以走本地+云端的模式,这样未来deepseek就不需要像openai那样花那么多钱建算力中心了。我看有人在苹果笔记本和pad上也运行deepseek的本地版本。所以,我说,这一次openai 和 nvida真遇到麻烦了。deepseek显然是找到了也想清楚了,怎么破这个算力瓶颈。

高级战友

Rank: 4

571

积分

0

贡献

0

奖励
发表于 昨天 00:37 来自手机 | 显示全部楼层
本来无所谓 发表于 2025-1-30 00:27
蒸馏又不是deepseek提出来的,为啥别人没蒸馏出来一个deepseek?
另外,deepseek大概率用到蒸馏啊,因为de ...

蒸馏现在已经是大模型训练其中的一步了,并不是只依赖蒸馏,我刚才发的那一段话是17、18年蒸馏的用法,现在是2025年。可见你什么都不懂

高级战友

Rank: 4

571

积分

0

贡献

0

奖励
发表于 昨天 00:38 来自手机 | 显示全部楼层
本来无所谓 发表于 2025-1-30 00:35
我认为deepseek非常伟大,个人电脑上就可以运行。所以未来可以走本地+云端的模式,这样未来deepseek就不需 ...

个人电脑运行模型那叫推理,你的电脑显卡太差了,装不下大模型只能给你安装一个低配版的。

高级战友

Rank: 4

473

积分

0

贡献

0

奖励
发表于 昨天 00:47 来自手机 | 显示全部楼层
本帖最后由 本来无所谓 于 2025-1-30 00:50 编辑
yz123 发表于 2025-1-30 00:38
个人电脑运行模型那叫推理,你的电脑显卡太差了,装不下大模型只能给你安装一个低配版的。 ...

看你自己的需求啊,你要根据自己的需求配置一部分自己的算力,没有必要像依靠openai那样完全依靠deepseek的算力。如果你要解决的是复杂问题,你就需要自己高配算力和一个高配的deepseek版本啊。然后你在在地的算力和deepseek的远程算力配合使用。
当然我不是说deepseek现在是这样做的。我是说如果你坚持免费,坚持api低价,坚持开源,你又没有办法买算力芯片。你就得这么干。

高级战友

Rank: 4

473

积分

0

贡献

0

奖励
发表于 昨天 03:13 来自手机 | 显示全部楼层
yz123 发表于 2025-1-30 00:37
蒸馏现在已经是大模型训练其中的一步了,并不是只依赖蒸馏,我刚才发的那一段话是17、18年蒸馏的用法,现 ...

我确实没搞过大模型。但是 我毕竟做过软件开发,也搞过算法。我扫了下外网的专业品论,发现我的猜测完全正确,7 b小版本就是在大版本基础上蒸馏得到的。      至于你,我看 你就是网上搜索一个名字,或者问ai这个词是啥意思。你才是啥也不懂,还硬要装。

高级战友

Rank: 4

622

积分

0

贡献

0

奖励
发表于 昨天 09:50 来自手机 | 显示全部楼层
农夫山泉的蒸馏水技术?
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

论坛的微信公众号(二维码如下),关注获取更多科教信息

Archiver|手机版|网大论坛 ( (鄂ICP备2021013060号-2) )

GMT+8, 2025-1-31 07:11 , Processed in 0.032664 second(s), 19 queries , Gzip On.

鄂公网安备 42018502005923号

Powered by Discuz! X3.4

Copyright © 2001-2022, Tencent Cloud.