DeepSeek创始人专访:推动中国AI迈向技术前沿的思考与行动

AI百科5个月前更新 快创云
38 0

  因为 V3 版本开源模型的发布,DeepSeek 又火了一把,而且这一次,是外网刷屏。

  训练成本估计只有 Llama 3.1 405B 模型的 1/11,后者的效果还不如它。

  在多项测评上,DeepSeek V3 达到了开源 SOTA,超越 Llama 3.1 405B,能和 GPT-4、Claude 3.5 Sonnet 等 TOP 模型正面竞争——而其价格比 Claude 3.5 Haiku 还便宜,仅为 Claude 3.5 Sonnet 的 9%。

  在 Chatbot Arena 大模型排行榜上排名第 7,前十名里面,只有它是开源模型,而且是最少限制的 MIT 许可证。

  2024 年 5 月,DeepSeek 一跃成名。起因是他们发布的一款名为 DeepSeek V2 的开源模型,提供了一种史无前例的性价比,开启了国产大模型的价格战。

  作为大厂外唯一一家储备万张 A100 芯片的公司,DeepSeek 的很多抉择都与众不同。放弃「既要又要」路线,至今专注在研究和技术,未做 toC 应用的公司,也是唯一一家未全面考虑商业化,坚定选择开源路线甚至都没融过资的公司。

  DeepSeek 是如何炼成的?36 氪旗下的「暗涌」团队分别在 2023 年 5 月、2024 年 7 月采访了甚少露面的 DeepSeek 创始人梁文锋。

  这位技术理想主义者,提供了目前中国科技界特别稀缺的一种声音:他是少有的把「是非观」置于「利害观」之前,并提醒我们看到时代惯性,把「原创式创新」提上日程的人。

  暗涌:DeepSeek V2 模型发布后,迅速引发一场血雨腥风的大模型价格战,有人说你们是行业的一条鲶鱼。

  梁文锋:我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。

  暗涌:这个结果让你们意外吗?

  梁文锋:非常意外。没想到价格让大家这么敏感。我们只是按照自己的步调来做事,然后核算成本定价。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。

  暗涌:5 天后智谱 AI 就跟进了,之后是字节、阿里、百度、腾讯等大厂。

  梁文锋:智谱 AI 降的是一个入门级产品,和我们同级别的模型仍然收费很贵。字节是真正第一个跟进的。旗舰模型降到和我们一样的价格,然后触发了其它大厂纷纷降价。因为大厂的模型成本比我们高很多,所以我们没想到会有人亏钱做这件事,最后就变成了互联网时代的烧钱补贴的逻辑。

  暗涌:外部看来,降价很像在抢用户,互联网时代的价格战通常如此。

  梁文锋:抢用户并不是我们的主要目的。我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了;另一方面也觉得无论 API 还是 AI 都应该是普惠的、人人可以用得起的东西。

  暗涌:在这之前,大部分中国公司都会直接 copy 这一代的 Llama 结构去做应用,为什么你们会从模型结构切入?

  梁文锋:如果目标是做应用,那沿用 Llama 结构,短平快上产品也是合理选择。但我们目的地是 AGI,这意味着我们需要研究新的模型结构,在有限资源下实现更强的模型能力。这是 scale up 到更大模型所需要做的基础研究之一。除了模型结构,我们还做了大量其他的研究……这些都体现在我们发布的模型里。另外,Llama 的结构在训练效率和推理成本上估计也已有两代差距。

  暗涌:这种代差主要来自哪里?

  梁文锋:首先训练效率有差距。我们估计国内最好的水平和国外最好的相比在模型结构和训练动力学上可能有一倍的差距光这一点我们要消耗两倍的算力才能达到同样效果。另外数据效率上可能也有一倍差距也就是我们要消耗两倍的训练数据和算力才能达到同样的效果合起来就要多消耗 4 倍算力我们要做的正是不停地去缩小这些差距……

  …(后续内容保持不变)

© 版权声明

相关文章