自5月18日公开并开源VisualGLM-6B以来,智谱AI与清华大学KEG团队持续精进,致力于研发更为强大的多模态大型模型。基于对视觉和语言信息融合的新理解,我们创新推出了视觉语言基础模型CogVLM。该模型在不削弱任何NLP任务性能的前提下,实现了视觉语言特征的深度融合。目前,我们训练的CogVLM-17B在权威学术榜单上综合排名第一,在14个数据集上取得了state-of-the-art或第二名的优异成绩。您可以通过以下链接初步体验CogVLM的效果:
Github:https://github.com/THUDM/CogVLM
Huggingface:https://huggingface.co/THUDM/CogVLM
魔搭社区:https://www.modelscope.cn/models/ZhipuAI/CogVLM
论文链接:https://github.com/THUDM/CogVLM/blob/main/assets/cogvlm-paper.pdf
模型架构
CogVLM性能提升的核心在于“视觉优先”的理念。传统多模态模型通常将图像特征直接对齐到文本特征的输入空间,且图像特征编码器规模较小,使得图像成为文本的“附庸”,效果受限。而CogVLM在多模态模型中给予视觉理解更高的优先级,采用5B参数的视觉和6B参数的视觉专家模块,总计11B参数用于建模图像特征,甚至超过文本的7B参数量。CogVLM的结构包括四个基本组件:ViT编码器、MLP适配器、预训练大语言模型(GPT风格)和视觉专家模块。
模型效果
为严格验证CogVLM的性能和泛化能力,我们在一系列多模态基准上进行了定量评估,涵盖图像字幕、视觉问答、视觉定位等三类共14个数据集。结果显示,CogVLM-17B在10项基准中取得SOTA性能,在另外四项(包括VQAv2、OKVQA、TextVQA、COCO captioning等)取得第二名。整体性能超越或匹配谷歌的PaLI-X 55B。
此外,通过几个简单示例,我们可以对比CogVLM-17B与近期备受关注的MiniGPT-4、LLaVA-v1.5在图像理解、模型幻觉以及文本识别方面的表现。
示例分析
示例 1:GPT-4 vision中的一个著名例子。当前主流的开源模型,包括知名的MiniGPT-4和最近发布的LLAVA 1.5,均未能理解该视觉场景的有趣之处,而CogVLM精准指出VGA接口充电不合常理。
示例 2:这张图片内容复杂,是日常生活的场景。CogVLM精准说出所有菜肴和餐具的种类,并判断镜子是反射而非真实,同时注意到角落的人的腿。相比之下,MiniGPT-4和LLaVA-1.5均出现幻觉现象且不够全面。
示例 3:带文字的图片。CogVLM忠实地描述了场景和相应的文字,而其他模型没有输出文字且有大量幻觉。
研究者问答
问:CogVLM和VisualGLM之间有何关联和不同?
答:CogVLM延续了VisualGLM的研究,但进行了较大尺度的改进。首先体现在多模态融合技术上,采用了最新的图像和文本信息融合方案。其次,VisualGLM是一个依赖于具体语言模型的多模态模型,而CogVLM则是一个更广阔的系列,不仅有基于GLM的双语模型,也有基于Llama2系列的英文模型。这次开源的17B模型就是基于Vicuna-7B的英文模型。内部还训练完成了更大的英文模型和基于GLM的双语模型,后续可能会开源。
问:VisualGLM-6B模型中视觉相关参数仅为1.6B,而CogVLM-17B的视觉相关参数达到11B(甚至超过语言模型的7B参数)。为何采用更大视觉参数?
答:通过大量实验发现,更大的参数量对视觉多模态模型至关重要。之前有人认为视觉不需要大模型,因为在传统数据集上小模型足以应对。但人类世界中视觉模型需要认识的事物远超几千、几万类,小模型无法应对这种情况。此外,之前的视觉大模型多为闭源,难以真正体验模型大小带来的性能区别。因此,虽然CogVLM在性能上已超越众多大公司的闭源模型,但我们依然选择开源,以促进多模态模型的研究和工业应用发展。
问:在使用图文理解模型时,模型常给出图片中未包含的信息。如何减少这种幻觉?
答:模型幻觉的根源在于能力不足。之前的多模态模型常描述图像中不存在的物体或错误颜色。为解决这一问题,我们通过特定微调对不确定物体输出“不清楚”,从而减少幻觉现象并提高用户体验。同时,使用更大参数和更多训练量也是有效方法。经过这些改进,CogVLM的幻觉已显著降低。
问:从CogView、CogVideo到VisualGLM、RDM、CogVLM等,您为何坚持做多模态基座模型?
答:无论是现实还是虚拟界面的感知、交互都以视觉等为主要媒介。现在的大语言模型虽具智能涌现但仍被“囚禁”。一个完整的智能agent必然是多模态理解。多模态理解是智能发展和应用的必由之路。智谱AI希望在这个方向上探索出一条道路。