从质疑到追捧!明星AI初创公司LiveKit:要为人工智能构建神经系统

AI百科5个月前更新 快创云
40 0

  近年来,人工智能模型在文本和图像处理能力方面取得了显著进步,但其创造者正朝着更宏大的目标迈进:构建能够看、听、与人对话的“多模式”人工智能界面。然而,要实现讲笑话、唱歌等复杂任务,像OpenAI的GPT-4o这样的模型需要更快、更高效的网络基础设施。这一需求由成立仅三年的创业公司LiveKit来满足。

  LiveKit,简而言之,是美国语音应用程序构建和扩展平台提供商,专注于为开发人员提供实时视频、音频和数据解决方案。LiveKit的首席执行官兼联合创始人Russ D’Sa表示:“如果OpenAI正在构建大脑,那么LiveKit就是在构建神经系统来传递大脑的信号。”

  在2023年11月,D’Sa还在为他的初创公司筹集资金,因为投资者认为这些多模式模型至少需要五年时间才能成熟。然而,随着谷歌和OpenAI演示并发布了能够处理和生成音频和视频内容的新AI模型,投资者的看法在短短几个月内发生了转变。D’Sa透露,曾经的投资人开始主动联系他,询问融资进展。最近,LiveKit宣布完成了由Altimeter Capital领投的2270万美元A轮融资,Redpoint Ventures也参与其中。此外,还有来自人工智能行业的知名天使投资者加入,包括谷歌首席科学家Jeff Dean、技术投资者Elad Gil以及来自Perplexity、Pika和ElevenLabs等公司的创始人。据透露,LiveKit的总融资额约为3800万美元,估值达到1.1亿美元。目前,已有约2万名开发人员来自OpenAI、Character AI、Spotify和Meta等公司使用了LiveKit的工具,去年其年运营率为300万美元。

  LiveKit的愿景是让AI具备看、听和说的能力。他们在介绍页面讲述了一个故事:四十年前,史蒂夫·乔布斯推出了可以与用户对话的电脑。虽然电脑适应人类思维并不新奇,但实现这一想法的技术却是创新的。LiveKit的创办正是为了将这些技术带给全球的每一位开发者。最初,它是一个使用WebRTC构建实时语音和视频应用程序的开源项目。如今,它已经发展成为一个适用于任何实时数据形式的全球交付网络。最初只有一个媒体服务器和一些SDK,现在它已发展成为一个完整的API和实时计算工具生态系统。超过20,000名开发人员和团队(从上市公司到个人黑客)使用LiveKit作为他们应用程序的核心。他们构建了muck,让开发人员可以专注于重要的事情——他们的产品和用户。

  D’Sa认为,人们之所以对LiveKit突然感兴趣,是因为当前的互联网基础设施尚未针对在AI模型中传输多模式数据进行优化。这导致每次传输数据时都会因确认数据包的延迟而受到影响。对于视频和音频等高带宽数据来说,这种延迟尤为明显。为了解决这个问题,LiveKit采用了UDP协议,该协议允许应用程序传输音频和视频内容而无需确认每个数据包(尽管这可能会增加数据丢失的风险)。这一创新说服了Perplexity首席执行官Aravind Srinivas投资LiveKit,后者希望为其AI搜索引擎添加语音功能。Srinivas表示:“虽然你可以使用传统架构自行构建一些东西,但LiveKit真正能够实现可扩展至大量用户的功能,不仅限于语音,还可以同时处理图像和视频。”他还补充说,OpenAI的最新多模式模型GPT-4o的演示是在LiveKit网络上进行的,这给他留下了深刻印象。

  LiveKit的创始人D’Sa和David Zhao于2007年在Y Combinator相遇并合作。两人曾在不同的流媒体视频初创公司工作过,之后分别前往Twitter和摩托罗拉工作。2012年,他们再次合作并尝试了几个想法后,最终创立了一款基于机器学习的新闻推荐应用Evie Labs。2019年,他们将该应用以3000万美元的价格卖给了Medium。2021年,两人共同创立了LiveKit旨在提供工具以在Covid-19疫情期间轻松地将视频和音频功能添加到交互式应用中。除了AI模型构建者外LiveKit的开源工具还广泛应用于支持客户支持呼叫、医院患者预约、农场自动驾驶拖拉机以及四分之一的911调度呼叫等领域。LiveKit声称其工具套件对这些实时音频和视频应用程序非常有用使数据传输过程在规模上更加快速和高效。随着越来越多的公司致力于使语音和视频界面更人性化并快速传输数据的高速网络将对这些系统的功能产生重大影响并实现与人工智能更灵活的交互。“几乎每个人都专注于人工智能的计算部分但几乎没有人关注它的网络部分而它是推动未来发展的关键部分。”D’Sa总结道。

© 版权声明

相关文章