|
yz123 发表于 2025-1-30 00:11
2.1 知识蒸馏基本框架
知识蒸馏采取Teacher-Student模式:将复杂且大的模型作为Teacher,Student模型结 ...
蒸馏又不是deepseek提出来的,为啥别人没蒸馏出来一个deepseek?
另外,deepseek大概率用到蒸馏啊,因为deepseek跟chatgpt就不一样啊,chatgpt就没有本地模式必须要联网,换句话说必须要不停的给chatgpt交钱,deepseek有本地模式,而且有不同的版本啊,个人电脑就可以运行一个小的版本的本地deepseek,然后不用上网,不用把自己的数据交出去,个人电脑上这么小的版本大概率是用的更大的版本蒸馏的。
|
|