|
过年在老家见面,聊了下。
这哥们也是做AI的。也分析了DS的算法
他的看法,AI的门槛不高,因此有几个很好的点子就有可能大大提高效率。而芯片制造正好相反,产业链非常长,有那么几个好idea根本没用。
DeepSeek是蒸馏了数据,不过他们采用了稀疏搜索算法,好像是SmartMoE什么的,不记得了。打个比方。数据存放就像立体图书馆,美国那边是用算力暴力遍历,而DS的搜索就像直接跳过去的。原话如此,我也不懂。
这个idea有点像无心插柳。梁文锋原来是做量化的,可能有这种需求,然后做出这样的模型。可能没想到在其他方面也表现优异。所以梁的方向把握是决定性的。转述原话。
|
|