CogVLM：智谱AI 新一代多模态大模型

　　自5月18日公开并开源VisualGLM-6B以来，智谱AI与清华大学KEG团队持续精进，致力于研发更为强大的多模态大型模型。基于对视觉和语言信息融合的新理解，我们创新推出了视觉语言基础模型CogVLM。该模型在不削弱任何NLP任务性能的前提下，实现了视觉语言特征的深度融合。目前，我们训练的CogVLM-17B在权威学术榜单上综合排名第一，在14个数据集上取得了state-of-the-art或第二名的优异成绩。您可以通过以下链接初步体验CogVLM的效果：

　　Github：https://github.com/THUDM/CogVLM
Huggingface：https://huggingface.co/THUDM/CogVLM
魔搭社区：https://www.modelscope.cn/models/ZhipuAI/CogVLM
论文链接：https://github.com/THUDM/CogVLM/blob/main/assets/cogvlm-paper.pdf

模型架构

　　CogVLM性能提升的核心在于“视觉优先”的理念。传统多模态模型通常将图像特征直接对齐到文本特征的输入空间，且图像特征编码器规模较小，使得图像成为文本的“附庸”，效果受限。而CogVLM在多模态模型中给予视觉理解更高的优先级，采用5B参数的视觉和6B参数的视觉专家模块，总计11B参数用于建模图像特征，甚至超过文本的7B参数量。CogVLM的结构包括四个基本组件：ViT编码器、MLP适配器、预训练大语言模型（GPT风格）和视觉专家模块。

模型效果

　　为严格验证CogVLM的性能和泛化能力，我们在一系列多模态基准上进行了定量评估，涵盖图像字幕、视觉问答、视觉定位等三类共14个数据集。结果显示，CogVLM-17B在10项基准中取得SOTA性能，在另外四项（包括VQAv2、OKVQA、TextVQA、COCO captioning等）取得第二名。整体性能超越或匹配谷歌的PaLI-X 55B。

　　此外，通过几个简单示例，我们可以对比CogVLM-17B与近期备受关注的MiniGPT-4、LLaVA-v1.5在图像理解、模型幻觉以及文本识别方面的表现。

示例分析

示例 1：GPT-4 vision中的一个著名例子。当前主流的开源模型，包括知名的MiniGPT-4和最近发布的LLAVA 1.5，均未能理解该视觉场景的有趣之处，而CogVLM精准指出VGA接口充电不合常理。

示例 2：这张图片内容复杂，是日常生活的场景。CogVLM精准说出所有菜肴和餐具的种类，并判断镜子是反射而非真实，同时注意到角落的人的腿。相比之下，MiniGPT-4和LLaVA-1.5均出现幻觉现象且不够全面。

示例 3：带文字的图片。CogVLM忠实地描述了场景和相应的文字，而其他模型没有输出文字且有大量幻觉。

研究者问答

问：CogVLM和VisualGLM之间有何关联和不同？
答：CogVLM延续了VisualGLM的研究，但进行了较大尺度的改进。首先体现在多模态融合技术上，采用了最新的图像和文本信息融合方案。其次，VisualGLM是一个依赖于具体语言模型的多模态模型，而CogVLM则是一个更广阔的系列，不仅有基于GLM的双语模型，也有基于Llama2系列的英文模型。这次开源的17B模型就是基于Vicuna-7B的英文模型。内部还训练完成了更大的英文模型和基于GLM的双语模型，后续可能会开源。

问：VisualGLM-6B模型中视觉相关参数仅为1.6B，而CogVLM-17B的视觉相关参数达到11B（甚至超过语言模型的7B参数）。为何采用更大视觉参数？
答：通过大量实验发现，更大的参数量对视觉多模态模型至关重要。之前有人认为视觉不需要大模型，因为在传统数据集上小模型足以应对。但人类世界中视觉模型需要认识的事物远超几千、几万类，小模型无法应对这种情况。此外，之前的视觉大模型多为闭源，难以真正体验模型大小带来的性能区别。因此，虽然CogVLM在性能上已超越众多大公司的闭源模型，但我们依然选择开源，以促进多模态模型的研究和工业应用发展。

问：在使用图文理解模型时，模型常给出图片中未包含的信息。如何减少这种幻觉？
答：模型幻觉的根源在于能力不足。之前的多模态模型常描述图像中不存在的物体或错误颜色。为解决这一问题，我们通过特定微调对不确定物体输出“不清楚”，从而减少幻觉现象并提高用户体验。同时，使用更大参数和更多训练量也是有效方法。经过这些改进，CogVLM的幻觉已显著降低。

问：从CogView、CogVideo到VisualGLM、RDM、CogVLM等，您为何坚持做多模态基座模型？
答：无论是现实还是虚拟界面的感知、交互都以视觉等为主要媒介。现在的大语言模型虽具智能涌现但仍被“囚禁”。一个完整的智能agent必然是多模态理解。多模态理解是智能发展和应用的必由之路。智谱AI希望在这个方向上探索出一条道路。

本网站上的所有资源均来源于本网站，所有网址和文章版权均归原作者所有。如有侵权行为，请将相关证明发送至以下电子邮件地址：dxsen@qq.com

NIP小尬剧：Aki与Neny的英雄联盟之旅引发热潮

AI百科 # IP # 协作 # 微博

4周前

AI如何嵌入图片？

AI百科 # AI # AI软件 # 工具

5个月前

2,264

ai志愿助手app官方版下载

AI百科

5个月前

怎么样才算沉浸式的游戏体验？

AI百科 # AI # 英伟达 # 资源

1个月前

CogVLM：智谱AI 新一代多模态大模型

模型架构

模型效果