Deepseek使用的是OpenAI语言模型和GPT-4架构

lgyyuuki · 发表于 2025-1-27 02:23:10

what model are you
I'm ChatGPT, a language model developed by OpenAI. Specifically, I'm based on the GPT-4 architecture, which is designed to understand and generate human-like text based on the input I receive. My training involves a large dataset of diverse text, allowing me to assist with a wide range of topics and tasks. How can I help you today?

lgyyuuki · 发表于 2025-1-27 02:24:30

deepseek这种moe模型当然会这样。
它简单的说就是256个小模型。
每次对话只是选择其中一个最合适的小模型来回答，
所以它训练和推理成本低速度快。

但moe不能保证每次都能选到同样的那个小模型，所以它的回答不稳定。此外本质是小模型，但却需要占据大模型的体量。1个模型回答，另外255个模型占着空间不干活。
如果显存跟内存一样不值钱，倒也无所谓，可是现在的ai算力基本都是按显存定价的。

lgyyuuki · 发表于 2025-1-27 02:36:16

本帖最后由 lgyyuuki 于 2025-1-27 02:37 编辑

lgyyuuki · 发表于 2025-1-27 02:38:13

lgyyuuki · 发表于 2025-1-27 02:39:48

让AI从显卡算力竞赛中解脱出来，更关注大模型算法，另外对中文的理解更深入。这点明显远远超过了百度、阿里、字节、腾讯等国内大厂！
创新还得是小企业！

lgyyuuki · 发表于 2025-1-27 02:42:36

有人留言说“训练数据造假了，技术文档一样造假，那个所谓只要1/10算力的训练办法，据最新在小模型上的实验结果，不能节约任何算力（反正没人会重复训练大模型，没卡/没钱/没时间/没训练数据）”，个人对这些新东西还是要观望、等待别人验证其技术优势的真实性再评价！

zzzssss · 发表于 2025-1-27 08:08:39

你在这逗他玩呢，只要你想要他能说出他是任何模型，以及任何事是他干的。

墨哲庚 · 发表于 2025-1-27 08:54:33

虽然说这不是0到1的原创，但仍是1到9的极致。
它模仿《过秦论》创作的系列文章，完全讲究文献学原则，就是模仿西汉人的文章，不能出现唐宋人才懂的字词组合，必须让西汉人也认为这是一篇华丽的文章。它的学习能力好像超越了文献学系的学生。

ccarl · 发表于 2025-1-27 10:36:18

墨哲庚发表于 2025-1-27 08:54
虽然说这不是0到1的原创，但仍是1到9的极致。
它模仿《过秦论》创作的系列文章，完全讲究文献学原则，就是 ...

虽然也注册了deepseek，但日常只会使用chatgpt，不要问为什么。

tsenway · 发表于 2025-1-27 10:48:31

路者
孤陋寡闻，
难置
只言片语

dollge2024 · 发表于 2025-1-27 23:32:21

看了一圈，技术上最吸睛的是MoE 训练和八位浮点训练
另外便宜，开源也让国外一大波人借机喷OpenAi

远征 · 发表于 2025-1-28 00:07:24

我写代码还是用o1或者claude3.5

deepseek拿来代替bing查资料

lgyyuuki · 发表于 2025-1-28 13:41:19

远征发表于 2025-1-28 00:07
我写代码还是用o1或者claude3.5

deepseek拿来代替bing查资料

开源的东西可靠性和具体落地场景上总归不是那么让人信服。
不过用来训练中文互联网知识来做知识管理库，还是比较好的。但是要注意错误的信息，信息真假的甄别是个大难题。

远征 · 发表于 2025-1-28 16:33:14

lgyyuuki 发表于 2025-1-28 13:41
开源的东西可靠性和具体落地场景上总归不是那么让人信服。
不过用来训练中文互联网知识来做知识管理库， ...

可逆操作不用管幻觉，靠反馈调整。

连砍十八人 · 发表于 2025-1-28 18:29:00

大殖子心都要碎了。

fengzz1899 · 发表于 2025-1-28 20:21:10

这几天大殖子破防了，要不要用用dp试一下怎么模仿大殖子的语气来说说

ls01 · 发表于 2025-1-28 20:30:21

fengzz1899 发表于 2025-1-28 20:21
这几天大殖子破防了，要不要用用dp试一下怎么模仿大殖子的语气来说说

刚刚试了一下，没来得及截图就没了

wangda · 发表于 2025-1-28 20:43:02

别炒作因为也是大模型但大模型已经不干净了

		自动登录	找回密码
密码			立即注册

Deepseek使用的是OpenAI语言模型和GPT-4架构

本帖子中包含更多资源

本帖子中包含更多资源