8月8日立秋,北京终于暂时摆脱了持续近两个月的酷暑,迎来了宜人的气温。在海淀的塞尔大厦,身着黑色T恤的王小川姗姗来迟,出席了他们的最新大模型发布会。
自百川智能宣布创业以来,已过去近四个月。期间,Baichuan-7B、Baichuan-13B相继开源,几乎每两个月就发布一个新版本,进展神速。而他们的第三个大模型——Baichuan 53B(简称“53B”),也于今日正式加入他们的产品矩阵。
在过去的几个月里,7B、13B两个大模型不仅在性能排行榜上表现优异,还被众多公司采用。王小川透露,据百川统计,已有超过150家公司申请使用他们的开源模型,并获得了良好的反馈。
此次发布的53B大模型,集成了前两次探索的经验。一方面,高质量、多样化、有层次的预训练数据是百川大模型训练的基础;另一方面,借助搜狗的基因,百川将搜索能力与大模型能力相结合,通过搜索技术优化用户意图理解,提升大模型的性能。此外,53B还采用了对齐调整、多目标优化、多RM融合等技术,显著增强了其有用性和可靠性。
关于开源与闭源的选择,外界普遍认为是开源为闭源服务的前置手段,通过免费服务积累用户和口碑,再用闭源、更强大的模型收费盈利。而近期,曾主管搜狗运营的洪涛重返王小川团队,也引发了人们对百川未来商业化路径的猜测。
王小川表示,53B选择闭源的主要原因是模型规模庞大、部署成本高。相比7B、13B规模的模型,53B的体量更大,更适合以简单接口形式进行闭源处理,便于客户使用。至于选择此时进行闭源和商业化,王小川表示当前机遇众多,开源只是其中的一环。未来在To B服务和To C产品上,百川不会局限于单一赛道。
“我们对自己团队的能力和经验充满信心,能同时应对多场战斗。”谈到这里,王小川显得胸有成竹、意气风发。
早在4月时,王小川就透露过在今年第三季度会发布一款参数量级超过500亿的大模型产品。而8月上旬,第三季度尚未过半时百川就提前完成了这一“KPI”。这不禁让人好奇——4月提到的“今年年底对标ChatGPT 3.5的模型”能否如期发布?
战略执行有条不紊推进中同时融资也相当顺利据王小川透露百川已经完成了第二轮融资估值约为5亿美金正稳步向大模型独角兽的“小目标”迈进。
近日雷峰网(公众号:雷峰网)与王小川进行了深度对话探讨了他的创业心路历程团队组建以及对未来AGI事业的看法。该文章即将发布欢迎关注。同时欢迎读者添加微信:william_dong交流认知互通有无。