开源版GPT-4o来了,AI大神Karpathy盛赞!67页技术报告全公开

AI百科4个月前发布 快创云
41 0

  近日,备受瞩目的实时语音模型Moshi终于迎来了开源时刻,这一消息在AI界引起了广泛关注。该模型以其自然聊天、情绪丰富、支持随意打断等特点,颠覆了传统AI对话的呆板与回合制模式,甚至让大神Karpathy也赞不绝口,称其为“nice~”。

  来自法国的初创团队Kyutai在7月初推出了这款对标GPT-4o的端到端语音模型。如今,经过两个多月的努力,他们兑现了承诺,将代码、模型权重以及一份详尽的技术报告全部开源。这一举动无疑为AI领域带来了新的活力。

  目前,大家可以在Moshi的官网(moshi.chat)上免费体验这一神奇的语音模型。与传统的AI语音助手相比,Moshi的“像人一样”的聊天方式无疑是一种全新的体验。它支持全双工口语对话,能够更自然地与用户进行交互。

  Moshi模型的参数量达到了7.69B,虽然它在pytorch平台上仅提供bf16版本,对显存有一定要求,但在candle上提供了8bit版本,而在mlx上更是有4bit版本可供使用。这些不同版本的提供,无疑为更多用户提供了便利。

  Moshi由多个部分组成,其中Mimi是目前最先进的流式神经音频编解码器,能够以完全流式的方式处理24 kHz音频。而负责知识储备、理解和输出的则是Transformer部分,包括Helium Temporal Transformer和Depth Transformer。其中小型的深度Transformer负责对给定时间步长的码本间依赖性进行建模,而大型(7B参数)时间Transformer则对时间依赖性进行建模。此外,Moshi还引入了“内心独白”技术,在训练和推理过程中联合建模文本和音频,从而充分利用文本模态传递的知识并保留语音的能力。

  在技术细节方面,Moshi突破了传统AI对话模型的限制,包括延迟、文本信息瓶颈和基于回合的建模等。它使用较小的音频语言模型增强了文本LLM主干从而消除了文本的信息瓶颈。同时,Moshi还扩展了之前关于音频语言模型的工作引入了第一个多流音频语言模型将输入和输出音频流联合显式处理为两个自回归token流从而允许在任意动态(重叠和中断)的自然对话上训练模型。

  此外在文本部分Helium采用了许多先进的设计如使用RMS归一化、旋转位置嵌入、FlashAttention以及门控线性单元等。而Mimi则使用残差矢量量化将音频转换为Moshi预测的离散token并通过蒸馏将非因果的高级语义信息传输到因果模型生成的token中从而允许对语义进行流式编码和解码。

  总的来说Moshi作为一种用于音频语言建模的新架构为AI领域带来了新的可能性。它不仅提供了优于非流模型的清晰度和音频质量同时还以流方式生成音频。此外其多流处理和“内心独白”技术也进一步提升了其性能和应用潜力。

© 版权声明

相关文章