本期要点:AI时代的历史韵脚
你好,我是王煜全,这里是王煜全要闻评论。在2024年12月26日,平时并不为人所知的幻方量化公司,突然发布并开源了AI大模型DeepSeek-V3,这一举动在互联网上引起了不小的轰动。据悉,该模型包含6710亿个参数,在代码和数学领域表现卓越,并在多个基准测试中与GPT-4o和Claude-3.5-Sonnet相匹敌,被誉为当前最强的开源模型。
尤为值得一提的是,DeepSeek-V3具有极高的成本效益,其总训练成本仅为500多万美元。相比之下,如ChatGPT-4等大模型的训练费用往往高达数千万乃至上亿美元。而DeepSeek-V3的推理成本更是低至每5小时仅需1美元,相比之下,同样的金额在Claude上只能运行十分钟。这一消息迅速引发了网友们的热议,纷纷表示国产大模型的希望就在于此,甚至认为国产的“o1模型”也指日可待。DeepSeek大模型背后的母公司幻方量化也因此成为了热门话题。当然,也有人指出DeepSeek-V3仍有一定局限性,主要依赖已知技术组合优化,缺乏底层原理创新,虽然注重性价比,体现了降成本方面的巨大潜力,但探索不足,也缺乏多模态、逻辑推理等新功能。
对此,我持有不同看法。首先,DeepSeek-V3在降低成本方面的做法无疑具有重大意义。对于AI大模型来说,性能调优至关重要,将直接决定AI的应用广度和深度。自工业革命以来,所有科学技术要进入产业、变成产品和服务、进而对社会产生深刻影响,都离不开对技术所进行的性能调优、参数调整以及结构上的小改动。这不仅局限于核心技术本身,还包括与之配套的各项技术。只有当这些技术的性能足够好、成本足够低时,相关产品和服务才能得以推向市场并被用户广泛接受。例如DeepSeek-V3采用了混合专家架构(MoE),因此在推理过程中其6000多亿个参数中只有300多亿个参数会被激活。这无疑大幅提高了效率并降低了运营成本。低成本却保持了不俗的性能再加上其开源属性和极具竞争力的API定价使得开发者和研究人员无需支付高昂的费用也能参与到AI大模型的前沿创新中这不仅会极大提升DeepSeek相关产业生态的活力加快AI技术的发展和应用还将让AI飞入寻常百姓家成为人们触手可及的高科技。所以DeepSeek确实和其他中国制造有相似之处那就是它们在产业化上作出的贡献同样是技术的进步但却被低估了。
其次虽然DeepSeek-V3没有颠覆性的架构创新但只是对现有技术的优化和组合我们不妨反问一句OpenAI的o1模型在底层技术上真的有什么特别颠覆性的突破吗?O1模型依靠内部构建出的详尽“思维链”一步步拆解复杂问题再结合强化学习机制不断纠正错误直至找到最优解。这一过程不仅提升了模型的准确性更赋予了它类似人类慢思考的能力使得它在处理数学、编程乃至科学难题时展现出了超乎想象的智慧。但话说回来这一做法似乎也没什么底层原理的创新。而且为了保证o1和o3等模型的性能OpenAI还采用了更为复杂的训练算法和定制化的数据集从而大幅增加了开发成本与运行费用。因此o1模型的输入和输出费用是GPT-4o的数倍而未对公众推出的o3模型解决单个任务的费用更是可能高达数千美元。然而这并不妨碍大家普遍认为o1模型是一个很大的进步。所以在先进技术从实验室走向市场的过程中其实并没有必要过于强调底层原理的创新各种功能的组合和优化同样重要而追求性价比也是一个有利于科技产业和经济社会发展的正确选择。其实这是个普遍存在的规律就像特斯拉的贡献并不是发明了锂电池而是通过性能调优使电动车变成价格最亲民的车型之一。大模型领域也在做同样的事情。回顾过去两年我们认为AI大模型的发展确实发生了一个重大转型从底层架构转向应用性能的突破这也意味着AI技术的相关应用将随之蓬勃发展起来。对于中国的企业和创业者来说现在是一个不容错过的时间点。我们不能等到别人已经完成了技术的性能调优后再跟进而是要在基本原理得到突破后就第一时间介入发挥我们降本增效方面的特长再通过大量数据和资金的投入实现模型性能的提升助力AI技术的应用和普及。这其实是
以下是广告内容:
冬令营将在2月初开课为了保证课程和答疑质量席位有限快快报名吧!历届特训营会员以及AI小课学员还有专属优惠!点击报名↓前哨AI冬令营解锁AI未来(扫码加入)
以上就是今天的内容更多详细的产业分析和底层逻辑我会在科技特训营里分享欢迎关注全球风口微信号报名加入。王煜全要闻评论我们明天见。