和华为南研所负责云计算的哥们聊了DeepSeek
过年在老家见面,聊了下。这哥们也是做AI的。也分析了DS的算法
他的看法,AI的门槛不高,因此有几个很好的点子就有可能大大提高效率。而芯片制造正好相反,产业链非常长,有那么几个好idea根本没用。
DeepSeek是蒸馏了数据,不过他们采用了稀疏搜索算法,好像是SmartMoE什么的,不记得了。打个比方。数据存放就像立体图书馆,美国那边是用算力暴力遍历,而DS的搜索就像直接跳过去的。原话如此,我也不懂。
这个idea有点像无心插柳。梁文锋原来是做量化的,可能有这种需求,然后做出这样的模型。可能没想到在其他方面也表现优异。所以梁的方向把握是决定性的。转述原话。
SmartMoe是清华在2023年提出来的 有点道理!!!帅比将更重要! hss408 发表于 2025-1-30 13:56
有点道理!!!帅比将更重要!
我早就说过这个 hss408 发表于 2025-1-30 13:56
有点道理!!!帅比将更重要!
这还用说嘛 本帖最后由 亦可归去来 于 2025-1-30 18:45 编辑
人工智能的爆发,有点像上世纪量子力学的时代,算力类似加速器等实验工具,创新的想法可能带来新兴学科的飞跃,
狄拉克,对上世纪20、30年代物理学的发展有过经典的评论, 不是梁的思路。而是研究人员的思路,梁是投资人他几乎不懂ai算法。
这个就是小模型与大模型的结合。美国的是任何一条指令都需要从所有数据库进行检索,而ds进行了分类,对任意一个指令首先会进行分类然后在小模型里面就行检索。
如此,1、美方的准确率高,但资源耗损巨大;2、ds首先进行分类后就增加了错误检索的几率,但极大减少了耗损。
这个其实思路并不复杂, 类似决策树指令的还原。不过实现起来还是有一定难度的,这个难度被ds的研发人员攻克了。 qw741 发表于 2025-1-30 19:49
不是梁的思路。而是研究人员的思路,梁是投资人他几乎不懂ai算法。
这个就是小模型与大模型的结合。美国的 ...
梁文锋本人就写代码,2016年开始就开发AI模型了 各种数据统计 发表于 2025-1-30 19:53
梁文锋本人就写代码,2016年开始就开发AI模型了
别搞了。AI技术,特别是新出来的chargpt一日千里,一旦离开技术研发岗位别说多年,就是半年就已经完全不懂了。
qw741 发表于 2025-1-30 19:49
不是梁的思路。而是研究人员的思路,梁是投资人他几乎不懂ai算法。
这个就是小模型与大模型的结合。美国的 ...
而且,随着子分类模型的训练次数的增加,自主学习的准确性会越来越高。
那就意味着在资源耗损明显优势的前提下, 模型的准确率也会逐步提高直至追平。 量化金融本身就是ai qw741 发表于 2025-1-30 19:49
不是梁的思路。而是研究人员的思路,梁是投资人他几乎不懂ai算法。
这个就是小模型与大模型的结合。美国的 ...
估计西大会把东大chatgpt端口彻底关闭 beta756 发表于 2025-1-31 10:26
估计西大会把东大chatgpt端口彻底关闭
本来中国ip也不能用 喀喇昆仑 发表于 2025-1-31 10:28
本来中国ip也不能用
和VPN一样,还是有其他通道,现在估计是彻底没戏了 哈哈哈哈哈哈,真搞笑,别忘了美国费尽心机要抖音的算法!
DeepSeek这次是戳了老美的肺管子了!
老美开口闭口知识产权,openai白嫖各种中文贴吧、论坛的事情呢?美国政府不是还要充公华为的专利吗?
页:
[1]