网大论坛

 找回密码
 立即注册
查看: 1103|回复: 10

deepseek可能只是一个闹剧

[复制链接]

中级站友

Rank: 3Rank: 3

280

积分

0

贡献

0

奖励
发表于 昨天 11:37 来自手机 | 显示全部楼层 |阅读模式
deepseek大概率用知识蒸馏,人家本来只是上线了一个轻量化模型deepseek r1,然后在deepseek v3的开源文档中预算了训练一个v3这些student model需要的费用。
结果海外媒体误解报道deepseek只需要500万美金就媲美openai,这是故意误传还是有意误传不得而知,但是实际上就是造成了利用这个做空了美国科技股。
而幻方量化从来没说过他们没有teacher model,也重来没说teacher model的训练费用,当然他可能也是做空美国科技股的助力。
唯一的结论,科技没有大进步,只是一场空投针对美国科技股的一次做空运动

高级战友

Rank: 4

475

积分

0

贡献

200

奖励
发表于 昨天 11:42 来自手机 | 显示全部楼层
为什么要做空呢,是不是不自信

禁止发言

1096

积分

0

贡献

0

奖励
发表于 昨天 12:32 来自手机 | 显示全部楼层
宁汉合流 发表于 2025-1-30 11:42
为什么要做空呢,是不是不自信

西大有NPU算力硬件,所以要做空他。东大没硬件,就用deepseek来玩精神制胜法,当然在这之前先把梁文峰的p2p非法集资和量化股市割韭菜给洗白了!

高级战友

Rank: 4

475

积分

0

贡献

200

奖励
发表于 昨天 12:51 来自手机 | 显示全部楼层
lgyyuuki 发表于 2025-1-30 12:32
西大有NPU算力硬件,所以要做空他。东大没硬件,就用deepseek来玩精神制胜法,当然在这之前先把梁文峰的p ...

那后续呢,后续东大怎么跟人家比拼硬实力?

未关注公众号会员1

100

积分

0

贡献

0

奖励
发表于 昨天 12:54 来自手机 | 显示全部楼层
看,你又急了

老战友

Rank: 5Rank: 5

1331

积分

0

贡献

500

奖励
发表于 昨天 14:41 | 显示全部楼层
翁翁大婶子本来是很崇拜deepseek的,
一听说创始人是浙大的,马上就换了一副嘴脸,贬的一文不名
精神分裂了


中级站友

Rank: 3Rank: 3

280

积分

0

贡献

0

奖励
 楼主| 发表于 昨天 15:27 来自手机 | 显示全部楼层
SanyouBio 发表于 2025-1-30 12:54
看,你又急了

所以你们这种真不行,纯粹讨论科技,去非要牵涉政治

未关注公众号会员1

45

积分

0

贡献

0

奖励
发表于 昨天 15:29 来自手机 | 显示全部楼层
雁塔晨钟 发表于 2025-1-30 15:27
所以你们这种真不行,纯粹讨论科技,去非要牵涉政治

浙大粉丝说了,质疑ds=不爱国=大殖子,你看着办吧

高级战友

Rank: 4

703

积分

0

贡献

500

奖励
发表于 昨天 16:49 来自手机 | 显示全部楼层
董老师 发表于 2025-1-30 14:41
翁翁大婶子本来是很崇拜deepseek的,
一听说创始人是浙大的,马上就换了一副嘴脸,贬的一文不名
精神分裂了 ...

互联网是有记忆的,董老师说的✓。

新手上路

Rank: 1

1

积分

0

贡献

0

奖励
发表于 昨天 21:37 | 显示全部楼层
仔细看过技术报告,并且是从业者,确定的说 deepseek r1-zero 是没有蒸馏的,应该是世界上第一个证明强化学习激发推理能力的工作。R1 确是有一些训练数据可能是蒸馏的,但也是常见做法(openai google 也这么干),不起本质作用。

高级战友

Rank: 4

659

积分

0

贡献

0

奖励
发表于 昨天 21:44 来自手机 | 显示全部楼层
米国股民这么好忽悠??
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

论坛的微信公众号(二维码如下),关注获取更多科教信息

Archiver|手机版|网大论坛 ( (鄂ICP备2021013060号-2) )

GMT+8, 2025-1-31 07:09 , Processed in 0.033705 second(s), 19 queries , Gzip On.

鄂公网安备 42018502005923号

Powered by Discuz! X3.4

Copyright © 2001-2022, Tencent Cloud.