网大论坛

 找回密码
 立即注册
查看: 2128|回复: 13

哈威本科生潘梓正在DeepSeeK的R1模型的架构设计中发挥了重要作用。被美国称为钱学森回国。

[复制链接]

未关注公众号会员1

412

积分

0

贡献

0

奖励
发表于 2025-2-6 14:36:46 来自手机 | 显示全部楼层 |阅读模式
潘梓正是中国人工智能公司DeepSeek的多模态团队核心成员,其职业选择和技术贡献引发了全球AI行业的广泛关注。以下是关于他的关键信息:

1. **职业背景与关键选择**
- **教育经历**:潘梓正本科毕业于哈尔滨工业大学(威海)软件工程专业,硕士就读于阿德莱德大学,后于蒙纳士大学(Monash University)攻读计算机科学博士学位,专注于深度神经网络的效率优化,包括模型部署、Transformer架构加速及内存高效训练等方向。
- **实习与职业抉择**:2023年夏季,他在英伟达实习期间表现出色,获得全职工作邀请,但最终选择于2024年加入DeepSeek。这一决定被哈佛大学教授Graham Allison类比为“钱学森归国”,认为其动摇了美国在AI领域的主导地位。

2. **技术贡献与项目参与**
- **关键项目**:作为DeepSeek多模态团队的第四位工程师,他参与了多个核心项目,包括**DeepSeek-VL2**(视觉-语言模型)、**DeepSeek-V3**(开源大模型)及**DeepSeek-R1**(低成本推理模型)的开发,尤其在R1模型的架构设计中发挥了重要作用。
- 技术创新:他推动了**MoE(混合专家模型)**和**MLA(多头潜注意力)**技术的应用。MoE通过仅激活部分参数提升效率,MLA则减少80%-90%的内存占用,使DeepSeek能以更低成本实现高性能,例如6000亿参数模型中每次仅激活370亿参数。

3. **行业影响与争议**
- **挑战OpenAI地位**:DeepSeek的日活跃用户已达ChatGPT的23%,下载量近500万次/日,其技术路径(如开源策略与成本优势)对OpenAI构成直接竞争。尽管被OpenAI指控使用其数据训练,但专家普遍认为这是转移焦点的策略,DeepSeek的成功更多源于架构创新。
- 全球AI格局变化:潘梓正的回国选择被视为中美人才竞争的标志性事件。哈佛教授Graham Allison指出,此类“人才流失”导致美国相关企业市值蒸发约一万亿美元,并重塑了AI技术主导权的分布。

4. **行业评价与未来展望**
- **同行认可**:英伟达高级科学家禹之鼎称赞其选择,认为中国人才正通过本土平台展现全球竞争力,并强调地缘政治对人才流动的负面影响。
- **中国AI潜力**:潘梓正的案例凸显中国在工业能力(如电力、数据中心规模)和人才储备(STEM毕业生数量)上的优势,可能加速其在AGI竞赛中的突破。

结语
潘梓正的个人选择不仅是个体职业路径的体现,更是全球技术权力转移的缩影。其技术贡献与DeepSeek的崛起,反映了中国在AI领域从“跟随”到“并跑”甚至局部“领跑”的转变,同时也警示美国需重新审视其人才政策以维持竞争力。

未关注公众号会员1

412

积分

0

贡献

0

奖励
 楼主| 发表于 2025-2-6 14:43:45 来自手机 | 显示全部楼层
哈佛大学教授Graham Allison类比为“钱学森归国”,认为其动摇了美国在AI领域的主导地位。

未关注公众号会员1

412

积分

0

贡献

0

奖励
 楼主| 发表于 2025-2-6 14:44:46 来自手机 | 显示全部楼层
应评为院士

新手上路

Rank: 1

44

积分

0

贡献

0

奖励
发表于 2025-2-6 14:52:22 | 显示全部楼层
小梅沙 发表于 2025-2-6 14:43
哈佛大学教授Graham Allison类比为“钱学森归国”,认为其动摇了美国在AI领域的主导地位。 ...

Graham Allison不是写《Destinied for war》那个人么?

未关注公众号会员1

412

积分

0

贡献

0

奖励
 楼主| 发表于 2025-2-6 15:04:32 来自手机 | 显示全部楼层
DeepSeek之所以能够以较低的成本实现高效训练和推理,部分原因在于采用了创新的模型架构和技术,如MoE和MLA。这些技术不仅提高了计算效率,还大幅降低了内存占用,使得DeepSeek能够在保持高性能的同时降低成本。

未关注公众号会员1

412

积分

0

贡献

0

奖励
 楼主| 发表于 2025-2-6 15:06:58 来自手机 | 显示全部楼层
禹之鼎,英伟达的高级研究科学家,分享了关于潘梓正的选择及其成就的看法。2023年的夏天,当考虑是否给潘梓正提供全职工作时,他毫不犹豫地选择了加入DeepSeek。禹之鼎表示,潘梓正的决定至今让他印象深刻,并对其在DeepSeek取得的成就感到高兴。

未关注公众号会员1

412

积分

0

贡献

0

奖励
 楼主| 发表于 2025-2-6 15:30:13 来自手机 | 显示全部楼层
转译一位英伟达 Senior Research Scientist 禹之鼎回复 DeeSeek 研究员潘梓正的推文:

梓正曾在 2023 年夏天到 NVIDIA 实习。后来,当我们考虑向他发放全职录用(FT)时,他却毫不犹豫地选择了加入 DeepSeek。当时,DeepSeek 的多模态团队才只有 3 个人。

我对梓正当时的决定仍然印象深刻。他为 DeepSeek 的多个重要项目作出了关键贡献,包括 DeepSeek-VL2、DeepSeek-V3 和 DeepSeek-R1。我个人非常高兴看到他做出的选择,以及他所取得的卓越成就。

梓正的经历,是我近年来所见的一个非常典型的例子。许多顶尖人才都来自中国,而他们并不一定只能在美国公司里获得成功。事实上,我们也从这些人才身上学到了很多。类似的“Sputnik 时刻”在 2022 年的自动驾驶领域就已经上演了,并且今后在机器人和大模型领域也会不断出现。

我热爱 NVIDIA,也希望公司能继续在通往通用人工智能和通用自动化的道路上扮演重要角色。然而,如果我们继续制造地缘政治议程,对中国研究人员持有敌对或排斥态度,那只会让我们自食其果,进一步丧失竞争力。我们需要的是更高的人才密度、更强的专业能力、更多的学习与创造力,以及更加卓越的执行力,而不是政治化的叙事和像 Alexandr Wang 这样的“跳梁小丑”。

来源:x.com/ZhidingYu/status/1883958911839133894
262

初出江湖

Rank: 2

93

积分

0

贡献

0

奖励
发表于 2025-2-6 15:35:43 来自手机 | 显示全部楼层
哈威要开花结果了

中级站友

Rank: 3Rank: 3

191

积分

0

贡献

0

奖励
发表于 2025-2-6 15:37:26 来自手机 | 显示全部楼层
核心几个里面都没他,吹牛逼吹的脑子里面全是屎吧

高级战友

Rank: 4

442

积分

0

贡献

0

奖励
发表于 2025-2-6 15:38:27 | 显示全部楼层
这都哪跟哪阿,小潘2024年8月左右博士毕业才加入Deepseek.

白金长老

Rank: 10Rank: 10Rank: 10

5134

积分

0

贡献

0

奖励
发表于 2025-2-6 15:40:52 | 显示全部楼层
某中部高校又来碰瓷了吗

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

未关注公众号会员1

412

积分

0

贡献

0

奖励
 楼主| 发表于 2025-2-6 15:44:17 来自手机 | 显示全部楼层
subcom 发表于 2025-2-6 15:37
核心几个里面都没他,吹牛逼吹的脑子里面全是屎吧


上面的东西,不是我们吹的。
只是引用专业人士的话,引用DeepSeeK的描述。
  

青铜长老

Rank: 7Rank: 7Rank: 7

2010

积分

0

贡献

0

奖励
发表于 2025-2-6 15:47:20 | 显示全部楼层
哈老三校友脑子里都是水油啊,先是辱骂DS好多天,现在又碰瓷DS来造谣自吹

初出江湖

Rank: 2

93

积分

0

贡献

0

奖励
发表于 2025-2-6 16:19:23 来自手机 | 显示全部楼层
航儿跟哈三谁讨厌
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

论坛的微信公众号(二维码如下),关注获取更多科教信息

Archiver|手机版|网大论坛 ( (鄂ICP备2021013060号-2) )

GMT+8, 2025-4-11 04:49 , Processed in 0.043098 second(s), 21 queries , Gzip On.

鄂公网安备 42018502005923号

Powered by Discuz! X3.4

Copyright © 2001-2022, Tencent Cloud.