网大论坛

 找回密码
 立即注册
查看: 1391|回复: 17

Deepseek使用的是OpenAI语言模型和GPT-4架构

[复制链接]

禁止发言

1107

积分

0

贡献

0

奖励
发表于 3 天前 | 显示全部楼层 |阅读模式
what model are you
I'm ChatGPT, a language model developed by OpenAI. Specifically, I'm based on the GPT-4 architecture, which is designed to understand and generate human-like text based on the input I receive. My training involves a large dataset of diverse text, allowing me to assist with a wide range of topics and tasks. How can I help you today?



禁止发言

1107

积分

0

贡献

0

奖励
 楼主| 发表于 3 天前 | 显示全部楼层
deepseek这种moe模型当然会这样。
它简单的说就是256个小模型。
每次对话只是选择其中一个最合适的小模型来回答,
所以它训练和推理成本低速度快。
  
但moe不能保证每次都能选到同样的那个小模型,所以它的回答不稳定。此外本质是小模型,但却需要占据大模型的体量。1个模型回答,另外255个模型占着空间不干活。
如果显存跟内存一样不值钱,倒也无所谓,可是现在的ai算力基本都是按显存定价的。

禁止发言

1107

积分

0

贡献

0

奖励
 楼主| 发表于 3 天前 | 显示全部楼层
本帖最后由 lgyyuuki 于 2025-1-27 02:37 编辑

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

禁止发言

1107

积分

0

贡献

0

奖励
 楼主| 发表于 3 天前 | 显示全部楼层

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

禁止发言

1107

积分

0

贡献

0

奖励
 楼主| 发表于 3 天前 | 显示全部楼层
让AI从显卡算力竞赛中解脱出来,更关注大模型算法,另外对中文的理解更深入。这点明显远远超过了百度、阿里、字节、腾讯等国内大厂!
创新还得是小企业!

禁止发言

1107

积分

0

贡献

0

奖励
 楼主| 发表于 3 天前 | 显示全部楼层
有人留言说“训练数据造假了,技术文档一样造假,那个所谓只要1/10算力的训练办法,据最新在小模型上的实验结果,不能节约任何算力(反正没人会重复训练大模型,没卡/没钱/没时间/没训练数据)”,个人对这些新东西还是要观望、等待别人验证其技术优势的真实性再评价!

新手上路

Rank: 1

0

积分

0

贡献

0

奖励
发表于 3 天前 来自手机 | 显示全部楼层
你在这逗他玩呢,只要你想要他能说出他是任何模型,以及任何事是他干的。

禁止发言

623

积分

0

贡献

0

奖励
发表于 3 天前 | 显示全部楼层
虽然说这不是0到1的原创,但仍是1到9的极致。
它模仿《过秦论》创作的系列文章,完全讲究文献学原则,就是模仿西汉人的文章,不能出现唐宋人才懂的字词组合,必须让西汉人也认为这是一篇华丽的文章。它的学习能力好像超越了文献学系的学生。

新手上路

Rank: 1

36

积分

0

贡献

0

奖励
发表于 3 天前 | 显示全部楼层
墨哲庚 发表于 2025-1-27 08:54
虽然说这不是0到1的原创,但仍是1到9的极致。
它模仿《过秦论》创作的系列文章,完全讲究文献学原则,就是 ...

虽然也注册了deepseek,但日常只会使用chatgpt,不要问为什么。

老战友

Rank: 5Rank: 5

1825

积分

0

贡献

800

奖励
发表于 3 天前 | 显示全部楼层
路者
孤陋寡闻,
难置
只言片语

新手上路

Rank: 1

8

积分

0

贡献

0

奖励
发表于 3 天前 | 显示全部楼层
看了一圈,技术上最吸睛的是MoE 训练和八位浮点训练
另外便宜,开源也让国外一大波人借机喷OpenAi

新手上路

Rank: 1

22

积分

0

贡献

0

奖励
发表于 前天 00:07 | 显示全部楼层
我写代码还是用o1或者claude3.5

deepseek拿来代替bing查资料

禁止发言

1107

积分

0

贡献

0

奖励
 楼主| 发表于 前天 13:41 | 显示全部楼层
远征 发表于 2025-1-28 00:07
我写代码还是用o1或者claude3.5

deepseek拿来代替bing查资料

开源的东西可靠性和具体落地场景上总归不是那么让人信服。
不过用来训练中文互联网知识来做知识管理库,还是比较好的。但是要注意错误的信息,信息真假的甄别是个大难题。

新手上路

Rank: 1

22

积分

0

贡献

0

奖励
发表于 前天 16:33 | 显示全部楼层
lgyyuuki 发表于 2025-1-28 13:41
开源的东西可靠性和具体落地场景上总归不是那么让人信服。
不过用来训练中文互联网知识来做知识管理库, ...

可逆操作不用管幻觉,靠反馈调整。

中级站友

Rank: 3Rank: 3

334

积分

0

贡献

0

奖励
发表于 前天 18:29 来自手机 | 显示全部楼层
大殖子心都要碎了。

新手上路

Rank: 1

40

积分

0

贡献

0

奖励
发表于 前天 20:21 来自手机 | 显示全部楼层
这几天大殖子破防了,要不要用用dp试一下怎么模仿大殖子的语气来说说

高级战友

Rank: 4

870

积分

0

贡献

0

奖励
发表于 前天 20:30 来自手机 | 显示全部楼层
fengzz1899 发表于 2025-1-28 20:21
这几天大殖子破防了,要不要用用dp试一下怎么模仿大殖子的语气来说说

刚刚试了一下,没来得及截图就没了

初出江湖

Rank: 2

102

积分

0

贡献

0

奖励
发表于 前天 20:43 来自手机 | 显示全部楼层
别炒作 因为也是大模型  但大模型已经不干净了
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

论坛的微信公众号(二维码如下),关注获取更多科教信息

Archiver|手机版|网大论坛 ( (鄂ICP备2021013060号-2) )

GMT+8, 2025-1-30 13:55 , Processed in 0.101478 second(s), 20 queries , Gzip On.

鄂公网安备 42018502005923号

Powered by Discuz! X3.4

Copyright © 2001-2022, Tencent Cloud.