哈布斯堡 发表于 2025-1-30 13:38:01

和华为南研所负责云计算的哥们聊了DeepSeek

过年在老家见面,聊了下。

这哥们也是做AI的。也分析了DS的算法

他的看法,AI的门槛不高,因此有几个很好的点子就有可能大大提高效率。而芯片制造正好相反,产业链非常长,有那么几个好idea根本没用。

DeepSeek是蒸馏了数据,不过他们采用了稀疏搜索算法,好像是SmartMoE什么的,不记得了。打个比方。数据存放就像立体图书馆,美国那边是用算力暴力遍历,而DS的搜索就像直接跳过去的。原话如此,我也不懂。

这个idea有点像无心插柳。梁文锋原来是做量化的,可能有这种需求,然后做出这样的模型。可能没想到在其他方面也表现优异。所以梁的方向把握是决定性的。转述原话。

喀喇昆仑 发表于 2025-1-30 13:55:44

SmartMoe是清华在2023年提出来的

hss408 发表于 2025-1-30 13:56:20

有点道理!!!帅比将更重要!

各种数据统计 发表于 2025-1-30 18:24:28

hss408 发表于 2025-1-30 13:56
有点道理!!!帅比将更重要!

我早就说过这个

拼多多葛蓝军 发表于 2025-1-30 18:38:35

hss408 发表于 2025-1-30 13:56
有点道理!!!帅比将更重要!

这还用说嘛

亦可归去来 发表于 2025-1-30 18:40:00

本帖最后由 亦可归去来 于 2025-1-30 18:45 编辑

人工智能的爆发,有点像上世纪量子力学的时代,算力类似加速器等实验工具,创新的想法可能带来新兴学科的飞跃,
狄拉克,对上世纪20、30年代物理学的发展有过经典的评论,

qw741 发表于 2025-1-30 19:49:31

不是梁的思路。而是研究人员的思路,梁是投资人他几乎不懂ai算法。

这个就是小模型与大模型的结合。美国的是任何一条指令都需要从所有数据库进行检索,而ds进行了分类,对任意一个指令首先会进行分类然后在小模型里面就行检索。

如此,1、美方的准确率高,但资源耗损巨大;2、ds首先进行分类后就增加了错误检索的几率,但极大减少了耗损。

这个其实思路并不复杂, 类似决策树指令的还原。不过实现起来还是有一定难度的,这个难度被ds的研发人员攻克了。

各种数据统计 发表于 2025-1-30 19:53:17

qw741 发表于 2025-1-30 19:49
不是梁的思路。而是研究人员的思路,梁是投资人他几乎不懂ai算法。

这个就是小模型与大模型的结合。美国的 ...

梁文锋本人就写代码,2016年开始就开发AI模型了

qw741 发表于 2025-1-30 20:12:26

各种数据统计 发表于 2025-1-30 19:53
梁文锋本人就写代码,2016年开始就开发AI模型了

别搞了。AI技术,特别是新出来的chargpt一日千里,一旦离开技术研发岗位别说多年,就是半年就已经完全不懂了。

qw741 发表于 2025-1-30 20:21:20

qw741 发表于 2025-1-30 19:49
不是梁的思路。而是研究人员的思路,梁是投资人他几乎不懂ai算法。

这个就是小模型与大模型的结合。美国的 ...

而且,随着子分类模型的训练次数的增加,自主学习的准确性会越来越高。

那就意味着在资源耗损明显优势的前提下, 模型的准确率也会逐步提高直至追平。

planninghac 发表于 2025-1-31 10:20:11

量化金融本身就是ai

beta756 发表于 2025-1-31 10:26:15

qw741 发表于 2025-1-30 19:49
不是梁的思路。而是研究人员的思路,梁是投资人他几乎不懂ai算法。

这个就是小模型与大模型的结合。美国的 ...
估计西大会把东大chatgpt端口彻底关闭

喀喇昆仑 发表于 2025-1-31 10:28:51

beta756 发表于 2025-1-31 10:26
估计西大会把东大chatgpt端口彻底关闭

本来中国ip也不能用

beta756 发表于 2025-1-31 10:59:47

喀喇昆仑 发表于 2025-1-31 10:28
本来中国ip也不能用

和VPN一样,还是有其他通道,现在估计是彻底没戏了

南高师 发表于 2025-1-31 13:35:17

哈哈哈哈哈哈,真搞笑,别忘了美国费尽心机要抖音的算法!
DeepSeek这次是戳了老美的肺管子了!
老美开口闭口知识产权,openai白嫖各种中文贴吧、论坛的事情呢?美国政府不是还要充公华为的专利吗?
页: [1]
查看完整版本: 和华为南研所负责云计算的哥们聊了DeepSeek