|

楼主 |
发表于 2025-1-22 23:48:17
|
显示全部楼层
2 l" j( v8 `1 X* T/ a
“东方神秘力量” 爆火国产AI大模型背后的年轻人
2 t7 `) E5 E0 G$ T8 P" l' U' Ohttps://tech.ifeng.com/c/8gMIT2sFcxI
2 Z8 R3 p2 {5 g/ W5 O& t% X' L4 E! d7 \ e* N9 B
2023年5月,DeepSeek-V2发布,相比于国内外主流大模型,大幅减少了计算量和推理显存,一问世就备受关注。做出这一突破性创新的,是年轻的高华佐和曾旺丁等人。
( u3 d9 i# Q( D+ t1 R
, w$ l: Z" t1 p! d$ G/ p两人都刚从学校出来没几年。高华佐来自广东,2012年在华南师范大学附属中学就读时,曾获第29届全国中学生物理竞赛一等奖,并于次年保送至北京大学物理学院学习。曾旺丁来自湖南省新化县,2017年至2023年就读于北京邮电大学人工智能学院,硕士期间主要学习人工智能方向,导师为张洪刚,2018年曾获全国大学生数学竞赛(非数学类)二等奖。
% j# @ w! q5 k" k/ q# t- F2 G
0 z, ~9 ], w g# r" E4 t; n0 \DeepSeek大模型的另一大突破,是通过一种名为GRPO的算法,创新训练方法,大大降低了成本。其中的主角,依然是这些看似缺少经验的年轻人。
& q4 k# J/ x2 N- q. m3 Q* t* }
0 h3 u* V! f5 y, z+ v3 _$ f6 j核心成员之一邵智宏此前是清华大学交互式人工智能(CoAI)课题组博士生,主要研究自然语言处理、深度学习,对构建稳健且可扩展的AI系统有着独特见解。他曾服务于微软研究院,加入DeepSeek团队之后,参与了多个重要项目的研发,包括DeepSeek-Math、DeepSeek-Prover和DeepSeek-Coder-v2等。
$ l0 b5 ~' ~. V. F; \/ m9 Z7 _! N% Y J8 K
GRPO算法创新的另一重要贡献者是朱琪豪。这位北京大学计算机学院2024届的博士毕业生,专注于深度代码学习研究。在校期间,他展现了惊人的学术能力,发表CCF(中国计算机学会)-A类论文16篇,获得了软件工程领域顶级会议(ESEC/FSE)杰出论文奖。他的博士论文《语言定义感知的深度代码学习技术及应用》入选了2024CCF软件工程专业委员会博士学位论文激励计划。他在DeepSeek团队最重要的工作,正是基于自己的博士论文,主导开发DeepSeek大模型的一个关键项目。; G' o9 k+ p# b$ a
3 L; q: ]* M6 }# d' C& u4 Y w。。。。
, R4 ^, q3 `, H8 E' Y0 Y0 N# s3 X! p4 |+ c
负责DeepSeek大模型训练及推理基础架构的,是同样刚毕业的工程师赵成钢。加入DeepSeek之前,他曾在英伟达公司实习。赵成钢在学生时代就取得过令人艳羡的成绩。在河北衡水中学就读时,他是信息学竞赛班成员,2016年获得全国青少年信息学奥林匹克竞赛银牌。在清华大学读大二时,他成为学生超算团队正式成员,三次获得世界大学生超算竞赛冠军。
0 L' v) l( W! V
. \6 N e# u* I+ M3 J" }! oDeepSeek团队规模并不大,不到140人,工程师和研发人员几乎都来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校,鲜有“海归”,而且工作时间都不长,不少还是在读博士。即便是团队的管理者,也非常年轻。
1 l9 m: P7 N" D7 i2 {& h& h |
|