揭秘DeepSeek-V3“物美价廉”的背后：蒸馏技术存在天花板，依赖合成数据训练有风险

南山不老翁 · 发表于 2025-1-6 17:26:19

术虽然可以提高模型训练效率，但借此开发的模型无法超越基础模型的能力，在多模态数据方面效果不好，而且会导致研发人员为了快速取得成果而放弃对基础模型的探索。

针对AI训练可能使用合成数据（大模型生成数据）这一话题，伦敦大学学院（UCL）名誉教授和计算机科学家彼得·本特利对《每日经济新闻》记者表达了担忧，称“如果继续在其他AI的输出上训练AI，结果可能是模型崩溃。确保高质量AI的唯一方法是，为其提供人类的高质量内容蒸馏技术并非新技术，诺奖得主辛顿2015年就已提出
根据DeepSeek-V3的技术文档，针对推理相关数据集（如数学、代码竞赛、逻辑谜题等），DeepSeek-V3利用之前训练好的 DeepSeek-R1模型生成数据后，再使用结合了监督微调（SFT）和强化学习（RL）训练的专家模型来蒸馏生成最终的数据。针对非推理数据（如创意写作、角色扮演、简单问答等），使用DeepSeek-V2.5生成回复，并由人类验证数据的准确性和正确性。这些高质量数据帮助提升了V3的训练效率，并提高了模型适应能力。

数据蒸馏是什么？每经记者查询发现，蒸馏技术并不是新出现的事物，早在2015年，诺奖得主杰弗里·辛顿（Geoffrey Hinton）就提出了蒸馏（Distillation）这一思想。伦敦大学学院（UCL）名誉教授和计算机科学家彼得·本特利在接受每经记者采访时表示：“这可能会对小机构的（研究）进展产生重大影响，这些机构不像OpenAI或谷歌那样拥有巨额预算。”

但这并不意味着，蒸馏技术就是一个十全十美的事物。王汉卿向每经记者表示，“我认识的（一线研究人员）基本没人搞（蒸馏）了。”目前优化大模型的方法是量化，比如降精度或是降缓存。DeepSeek-V3的技术报告也提到了使用FP8混合精度训练框架降低进度和通过压缩键值来降低缓存的方法。

据他解释，蒸馏技术存在一个巨大缺陷，就是被训练的模型（即“学生模型”）没法真正超越“教师模型”。有研究表明，通过蒸馏训练的模型总是受到其“教师模型”能力的限制，这会产生一种隐性天花板效应，无论蒸馏过程多么复杂，都无法真正超越原始模型的能力。当考虑到需要将能力扩展到新领域或应对以前从未见过的挑战时，这种限制就愈发成为问题。

有业内人士也向每经记者表示，你永远无法从一本书的厚度里学到10本书的厚度。

上海交通大学副教授刘鹏飞在一篇学术报告中提到：“蒸馏技术为在数学推理任务中取得显著性能提升提供了一条诱人的捷径。虽然这种方法带来了直接且可见的好处，但它掩盖了一系列深刻的挑战。”

表面上，模型可以通过相对简单的方法快速实现令人印象深刻的性能改进，但它永远无法超越原始模型的能力。更深层次看，它可能改变研究文化，导致研究者更倾向于捷径而非根本性解决方案，以及侵蚀问题解决的基本技能。最终，过度依赖蒸馏可能会扼杀AI领域中新颖的、具有变革性的创意。AI模型的真正突破不仅在于它能够解决复杂问题，而在于背后所拓展的复杂机制。

科学家：依赖合成数据训练存在风险
尽管DeepSeek-V3在基准测试中表现良好，但每经记者在使用过程中发现，DeepSeek-V3竟然声称自己是ChatGPT。一时间，“DeepSeek-V3是否在使用ChatGPT输出内容进行训练”的质疑声四起。

图片来源：每经记者试用DeepSeek-V3截图

每经记者采访到接近幻方人士，询问“DeepSeek-V3大模型是否有使用ChatGPT输出内容训练？如果不是，该模型的内容是如何进行训练的？”上述相关人士对此回复：“网上有很多写的很好的答案，去搜下就知道了。”

在每经记者的追问下，该人士指出，“不是两句话能说清楚的……你问的问题太复杂，不是业内做研究的人很难短时间理解。”

南洋理工大学研究人员王汉卿则向每经记者解释称，有三种可能性，一是数据来源里包含ChatGPT（的输出内容），二是使用了GPT模型做蒸馏，三是在强化学习流程中出现了错误。

本特利在采访中提到，“对DeepSeek-V3进行实验的研究人员认为，这种新模型可能根据OpenAI等公司的模型输出进行了训练。这可能是使用所谓的‘无版权’数据的一种简单方法，但这不是一个好主意。互联网上越来越多地充斥着‘AI垃圾’——大量AI生成的文本和图像（以及很快的视频）质量很差。研究表明，如果继续在其他AI的输出上训练AI，结果可能是模型崩溃——AI会与现实失去联系，并继续输出质量差、相似的内容。”

他对每经记者强调，“确保高质量AI的唯一方法是，为其提供人类的高质量内容，例如人类编写的真实文本、人类绘制或拍摄的真实图像、人类录制或创作的真实音频。如果想让AI理解我们的世界，数据需要来自真实的物理世界。否则，AI就会开始胡思乱想。”

kissingfire · 发表于 2025-1-6 17:52:38

要给公关费了

南山不老翁 · 发表于 2025-1-6 18:22:07

纯技术，给什么公关费，不要心虚嘛

南山不老翁 · 发表于 2025-1-6 18:24:22

还有好多，都没往上搬呢

南山不老翁 · 发表于 2025-1-6 18:36:17

kissingfire 发表于 2025-1-6 17:52
9 K9 Z9 f- u- s% E. O2 h要给公关费了

真理越辩越明，你们派个人解释下不就行了，没必要给人戴帽子

starry · 发表于 2025-1-6 18:59:32

发现创始人是浙大后，破如防了，特地发这个贴。别人说辩真理，我信。跳梁小丑说这话，止增笑耳。

congyun · 发表于 2025-1-6 20:25:50

DeepSeek 是打了所有只拼算力大公司的脸，确实是好思路，能抓耗子就是好猫

南高师 · 发表于 2025-1-6 21:08:54

求实园发表于 2025-1-6 20:038 d; Q$ q0 R+ n# N( w5 \
先是赞美高看DeepSeek, 对各大学校学子赞赏有加，唯独造谣团队与浙大无关，并开辟无关主题的话题污蔑浙大 ...

DeepSeek的发展路径可能会断了英伟达等美资企业的财路和算力泡沫。

academic818 · 发表于 2025-1-6 22:33:37

南高师发表于 2025-1-6 21:08
; T$ R& k; z0 _1 H2 @' eDeepSeek的发展路径可能会断了英伟达等美资企业的财路和算力泡沫。

大模型就是美帝的阴谋，先是把大模型宣传成ai未来，再一个劲把方向往堆算力上引，爆肥了英伟达等美企芯片企业，振兴美帝制造业。deepseek的出现，直接戳破美帝阴谋，英伟达股价暴跌，相当于拔了美帝肺管子，可不得造点舆论抹黑抨击一下

农学博士 · 发表于 2025-1-7 00:05:36

academic818 发表于 2025-1-6 22:33
5 Q/ H' o! ~7 s: ^# _( h9 q大模型就是美帝的阴谋，先是把大模型宣传成ai未来，再一个劲把方向往堆算力上引，爆肥了英伟达等美企芯片 ...

英伟达股票暴跌？

academic818 · 发表于 2025-1-7 09:19:04

农学博士发表于 2025-1-7 00:05+ h# [/ Q' a3 M8 O* ^
英伟达股票暴跌？

那几天暴跌

		自动登录	找回密码
密码			立即注册