网大论坛

 找回密码
 立即注册
查看: 1346|回复: 4

DeepSeek蒸馏OpenAI的数据,到底对模型的成功起了多大效果

[复制链接]

初出江湖

Rank: 2

98

积分

0

贡献

0

奖励
发表于 2025-1-31 16:43:33 | 显示全部楼层 |阅读模式
谁能仔细说说

初出江湖

Rank: 2

77

积分

0

贡献

0

奖励
发表于 2025-1-31 17:08:09 来自手机 | 显示全部楼层
一锅头比二锅头。

新手上路

Rank: 1

38

积分

0

贡献

0

奖励
发表于 2025-2-1 12:35:38 | 显示全部楼层
DeepSeek真正牛逼的地方就是他的蒸馏技术是目前所有模型里面最强的。

蒸馏技术大家都在用,全世界都在蒸馏OpenAI的数据这也不是什么秘密。ChatGPT既然提供了问答服务,那别人用你更好的回答数据去蒸馏训练自己的模型,这个无可厚非。(但首先应该感谢OpenAi对整个行业的贡献。)
如果每一家大模型机构都要自己辛辛苦苦的去网上趴一些垃圾数据再打各种标签反复训练提纯,这不重复浪费吗。这个工作OpenAI一家做就够了。他们在东南亚印度非洲建了那么多的数据外包团队就是干这个活的。(同样的,所有的大模型团队都应该感谢OpenAI,OpenAI确实是做了整个行业大量的最脏最累最苦也是成本最高的活)。
但目前能把蒸馏技术做的这么极致的,训练成本还这么低的,deepseek是独此一家。也就是说,deepseek在低成本学生端推理模型的架构上取得突破性的进展,而学生模型是所有大模型公司面向用户端提供服务的一端,这部分成本降低了,对于大模型的大规模普及甚至是完全免费普及是有跨时代意义的。

至于其他的都是扯。

初出江湖

Rank: 2

62

积分

0

贡献

0

奖励
发表于 2025-2-2 01:50:28 来自手机 | 显示全部楼层
基本没用,因为蒸馏这个数据所有人都会干。ds的核心根本不在这里,而在网络结构和强化学习的创新上

初出江湖

Rank: 2

62

积分

0

贡献

0

奖励
发表于 2025-2-2 01:56:25 来自手机 | 显示全部楼层
我就是AI博士
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

论坛的微信公众号(二维码如下),关注获取更多科教信息

Archiver|手机版|网大论坛 ( (鄂ICP备2021013060号-2) )

GMT+8, 2025-4-19 12:44 , Processed in 0.127742 second(s), 19 queries , Gzip On.

鄂公网安备 42018502005923号

Powered by Discuz! X3.4

Copyright © 2001-2022, Tencent Cloud.