【AI领域新进展】多模态大模型:突破传统界限,迈向通用人工智能
随着人工智能技术的飞速发展,多模态大模型正逐渐成为研究的热点。这类模型能够直接从世界获取信息,突破了传统大型语言模型的局限,被认为是通往通用人工智能(AGI)的必经之路。在近期举办的ML-Summit 2024全球机器学习技术大会上,多位专家就这一领域的前沿技术与应用前景进行了深入探讨。
多模态技术的最新进展
零一万物联合创始人潘欣在演讲中深入剖析了多模态大模型的技术演进。从视觉计算(CV)和自然语言处理(NLP)的多个维度,他展示了从2015年至2024年的技术变迁。例如,在图像分类方面,模型从Alexnet进化到VGG,再到Resnet,不断提升图像处理效率;而在NLP领域,翻译任务的技术路线从Seq2Seq发展到结合Attention机制的版本,语言模型也经历了从Word2Vec到GRU/LSTM的演变。
潘欣还分享了两种关键的大模型技术:MMLM和Diffusion。他指出,相比传统大语言模型,多模态大型语言模型能处理多种模态的数据,如视觉和声音等。其中,扩散模型(Diffusion Model)基于概率统计和非均衡热力学原理,通过逐步添加高斯噪声将清晰数据转化为随机状态,再学习通过一系列去噪步骤重构数据。然而,该模型在推理过程中存在计算成本较高的问题。
视觉目标矢量化与内容生成
上海交通大学教授倪冰冰则聚焦于视觉目标的矢量化表征与内容生成技术。她表示,当前视频内容生成面临结构性和细节性问题,以及算力方面的巨大挑战。倪冰冰提出的多模态视觉内容矢量化表征生成范式,旨在通过参数空间的约束生成框架,解决视觉属性复杂的问题。
原生多模态大模型的探索
新浪微博新技术研发负责人张俊林详细介绍了原生多模态大模型的方法与问题。他提到,目前真正的原生多模态大模型仅有少数几个,如OpenAI的GPT-4V、谷歌的Gemini等。这些模型通过Visual Encoder、Adapter、LLM等组件协同工作,实现多模态数据的语义对齐和指令理解。张俊林还分析了当前原生大模型存在的问题,如视觉感知能力、识别图片物体空间关系等方面的不足。
语音处理领域的预训练方法
微软亚洲研究院首席研究员刘树杰分享了语音预训练的三类方法,包括编码器补充、基于编解码器结构的方法和对解码器预训练的方法。他以WavLM项目为例,展示了如何通过掩蔽语音预测和去噪方法提高模型的抗噪和说话人建模能力。此外,他还介绍了UniSpeech项目在Low Resource Language自动语音识别系统中的应用。
Sora开源复现与训练揭秘
潞晨科技副总裁李彤介绍了OpenAI Sora的开源复现架构与训练揭秘。他们通过Open-Sora方案将Sora模型引入社区,并采用DiT框架和PixArt-α模型进行初始化。为了降低训练和推理成本,他们提出了STDiT训练框架,并实现高达5倍的加速。此外,李彤还介绍了Colossal-AI系统层面的训练策略,目前已在GitHub开源。
多模态大模型的实践应用
中科院自动化所副研究员吴凌翔分享了紫东太初多模态大模型的创新与实践应用。紫东太初从2020年开始攻关多模态大模型,到2023年发布了具备图、文、音三模态的千亿参数大模型。吴凌翔从数据、模型到应用三大层面拆解了紫东太初的研发思路和创新方法,并介绍了其开放服务平台及智能运维大模型、医疗诊断大模型等行业应用。
智能体在下一代AI产品中的探索
Cofounder CTO姚佳晨探讨了多模态智能体在下一代AI原生2C产品中的探索和实践。他提出智能体是一个能够感知环境、基于感知做出决策以实现特定目标的系统。姚佳晨还介绍了智能体的通用框架和交互模式,并展望了智能体产品形态的巨大想象空间。
在ML-Summit 2024全球机器学习技术大会上,专家们从多维度全面分析了多模态技术在图像、语音、视频等领域的应用及背后的技术机构。会场内专家和参会者积极互动,技术讨论氛围浓厚。