Deepseek使用的是OpenAI语言模型和GPT-4架构
what model are youI'm ChatGPT, a language model developed by OpenAI. Specifically, I'm based on the GPT-4 architecture, which is designed to understand and generate human-like text based on the input I receive. My training involves a large dataset of diverse text, allowing me to assist with a wide range of topics and tasks. How can I help you today?
deepseek这种moe模型当然会这样。
它简单的说就是256个小模型。
每次对话只是选择其中一个最合适的小模型来回答,
所以它训练和推理成本低速度快。
但moe不能保证每次都能选到同样的那个小模型,所以它的回答不稳定。此外本质是小模型,但却需要占据大模型的体量。1个模型回答,另外255个模型占着空间不干活。
如果显存跟内存一样不值钱,倒也无所谓,可是现在的ai算力基本都是按显存定价的。 本帖最后由 lgyyuuki 于 2025-1-27 02:37 编辑
让AI从显卡算力竞赛中解脱出来,更关注大模型算法,另外对中文的理解更深入。这点明显远远超过了百度、阿里、字节、腾讯等国内大厂!
创新还得是小企业! 有人留言说“训练数据造假了,技术文档一样造假,那个所谓只要1/10算力的训练办法,据最新在小模型上的实验结果,不能节约任何算力(反正没人会重复训练大模型,没卡/没钱/没时间/没训练数据)”,个人对这些新东西还是要观望、等待别人验证其技术优势的真实性再评价! 你在这逗他玩呢,只要你想要他能说出他是任何模型,以及任何事是他干的。 虽然说这不是0到1的原创,但仍是1到9的极致。
它模仿《过秦论》创作的系列文章,完全讲究文献学原则,就是模仿西汉人的文章,不能出现唐宋人才懂的字词组合,必须让西汉人也认为这是一篇华丽的文章。它的学习能力好像超越了文献学系的学生。 墨哲庚 发表于 2025-1-27 08:54
虽然说这不是0到1的原创,但仍是1到9的极致。
它模仿《过秦论》创作的系列文章,完全讲究文献学原则,就是 ...
虽然也注册了deepseek,但日常只会使用chatgpt,不要问为什么。:) 路者
孤陋寡闻,
难置
只言片语 看了一圈,技术上最吸睛的是MoE 训练和八位浮点训练
另外便宜,开源也让国外一大波人借机喷OpenAi 我写代码还是用o1或者claude3.5
deepseek拿来代替bing查资料 远征 发表于 2025-1-28 00:07
我写代码还是用o1或者claude3.5
deepseek拿来代替bing查资料
开源的东西可靠性和具体落地场景上总归不是那么让人信服。
不过用来训练中文互联网知识来做知识管理库,还是比较好的。但是要注意错误的信息,信息真假的甄别是个大难题。 lgyyuuki 发表于 2025-1-28 13:41
开源的东西可靠性和具体落地场景上总归不是那么让人信服。
不过用来训练中文互联网知识来做知识管理库, ...
可逆操作不用管幻觉,靠反馈调整。 大殖子心都要碎了。 这几天大殖子破防了,要不要用用dp试一下怎么模仿大殖子的语气来说说 fengzz1899 发表于 2025-1-28 20:21
这几天大殖子破防了,要不要用用dp试一下怎么模仿大殖子的语气来说说
刚刚试了一下,没来得及截图就没了 别炒作 因为也是大模型但大模型已经不干净了
页:
[1]