各种数据统计 发表于 2025-1-31 16:43:33

DeepSeek蒸馏OpenAI的数据,到底对模型的成功起了多大效果

谁能仔细说说

大山猫 发表于 2025-1-31 17:08:09

一锅头比二锅头。

joysina 发表于 2025-2-1 12:35:38

DeepSeek真正牛逼的地方就是他的蒸馏技术是目前所有模型里面最强的。

蒸馏技术大家都在用,全世界都在蒸馏OpenAI的数据这也不是什么秘密。ChatGPT既然提供了问答服务,那别人用你更好的回答数据去蒸馏训练自己的模型,这个无可厚非。(但首先应该感谢OpenAi对整个行业的贡献。)
如果每一家大模型机构都要自己辛辛苦苦的去网上趴一些垃圾数据再打各种标签反复训练提纯,这不重复浪费吗。这个工作OpenAI一家做就够了。他们在东南亚印度非洲建了那么多的数据外包团队就是干这个活的。(同样的,所有的大模型团队都应该感谢OpenAI,OpenAI确实是做了整个行业大量的最脏最累最苦也是成本最高的活)。
但目前能把蒸馏技术做的这么极致的,训练成本还这么低的,deepseek是独此一家。也就是说,deepseek在低成本学生端推理模型的架构上取得突破性的进展,而学生模型是所有大模型公司面向用户端提供服务的一端,这部分成本降低了,对于大模型的大规模普及甚至是完全免费普及是有跨时代意义的。

至于其他的都是扯。

yyds1 发表于 2025-2-2 01:50:28

基本没用,因为蒸馏这个数据所有人都会干。ds的核心根本不在这里,而在网络结构和强化学习的创新上

yyds1 发表于 2025-2-2 01:56:25

我就是AI博士
页: [1]
查看完整版本: DeepSeek蒸馏OpenAI的数据,到底对模型的成功起了多大效果