|
发表于 2025-2-7 16:52:03
|
显示全部楼层
李飞飞团队近期宣称以不到50美元的云计算费用训练出媲美DeepSeek R1的推理模型s1,这一消息引发了广泛关注,但实际细节和效果需结合多方信息综合分析:
### 1. **“50美元”的真实性及成本构成**
- **仅覆盖微调阶段的云计算费用**:论文提到,50美元是指基于阿里云Qwen2.5-32B-Instruct模型进行监督微调(SFT)的算力成本,具体为16张英伟达H100 GPU运行26分钟的费用,甚至更低(约20美元)。
- **忽略基座模型和数据成本**:s1模型并非从零训练,而是基于阿里通义千问(Qwen)的开源模型微调,而Qwen的预训练成本高达数百万美元。此外,数据筛选、标注等前期人力成本也未计入50美元。
### 2. **模型性能的局限性**
- **仅在特定测试集上表现优异**:s1在竞赛数学题(如AIME 2024和MATH 500)上的表现超过OpenAI的o1-preview模型,但与DeepSeek R1正式版相比仍有显著差距。例如,DeepSeek R1覆盖更广泛的数学场景(如金融建模、工程计算),通用性更强。
- **依赖数据筛选和推理干预**:s1的成功主要归功于精心筛选的1000个高质量样本数据集(s1K),以及“预算强制”技术(控制模型推理时的思考长度)。实验显示,使用随机数据或未严格筛选的数据集会导致性能大幅下降。
### 3. **技术贡献与争议**
- **小样本高效微调的验证**:s1证明了通过高质量小数据集和推理优化,可在低成本下提升模型性能。其开源的s1K数据集为后续研究提供了参考。
- **标题夸大引发质疑**:部分报道将s1与DeepSeek R1直接对标,但实际对比对象是DeepSeek-R1 800K数据蒸馏出的32B模型(非670B的正式版)。此外,s1依赖外部基座模型(Qwen)和谷歌Gemini生成的数据,缺乏独立性。
### 4. **行业影响与伦理争议**
- **低成本模型的潜力与局限**:s1展示了小数据+强蒸馏技术可降低算力门槛,但需依赖成熟基座模型,且无法覆盖复杂任务。这可能推动中小团队参与AI研发,但也引发对基座模型知识产权和公平使用的讨论。
- **对传统研发模式的挑战**:若低成本微调成为主流,大公司的巨额研发投入可能受到威胁。不过,OpenAI等企业仍通过全自研技术链保持优势。
### 结论
李飞飞团队的研究确实验证了低成本微调的可能性,但**“媲美DeepSeek R1”的表述存在夸大**。s1模型的成功是高质量数据筛选、现有基座模型和推理优化的综合结果,并非完全颠覆传统训练模式。其意义在于为小样本学习和推理优化提供了新思路,而非实现通用AI的廉价化。 |
|