MiniGPT4-Video:让大模型分析视频内容,依然有难度 原创

AI百科2个月前更新 快创云
31 0

  Sora的发布,使文生视频成为了热议的焦点,而视频内容分析领域也迎来了多模态大模型应用的热潮。

  其中,MiniGPT4-Video作为新近出现的视频相关多模态大模型应用,备受瞩目。

  该应用由KAUST和哈佛大学研究团队在4月的论文中首次提出,专为视频理解而设计,构建了一个多模态大模型框架。

  在MiniGPT4-Video问世前,行业中已有多模态大模型项目如MiniGPT、Video-ChatGPT等,但它们各有不足。例如,Video-ChatGPT在视频内容转换时易导致信息丢失,且难以利用视频中的动态时间信息。而MiniGPT4-Video则通过连接每四个相邻视觉标记,减少了标记数量,同时降低了信息损失对应用的影响。

  此外,研究团队为视频每一帧添加字幕,使每一帧成为由视频编码器提取的视觉标记与LLM标记器提取的文本标记的组合,使大模型能更全面地理解视频内容,同时响应视觉和文本查询信息。

  众所周知,数据是多模态大模型成功的关键。为了训练MiniGPT4-Video,研究团队使用了三个数据集:CMD包含15938个浓缩电影视频字幕;Webvid是牛津大学发布的200万视频量的开源数据集,被裁剪至1-2分钟以与CMD数据保持一致;第三个数据集则拥有13224个视频、100000个问答对话和注解,数据质量高,提供了丰富的视频内容问题和答案。

  那么,MiniGPT4-Video究竟能带来什么?研究团队测试了三项能力:视频ChatGPT能力、开放式问题回答能力、选择题回答能力。其核心在于开放式问题的回答能力。

  至顶网选择了三个视频进行测试:Pika生成的3秒煎肉视频、42秒的机器人演示视频、50秒的《老友记》节选片段。测试结果显示,只有第二个视频给出了完整且基本准确的答案。这显示出MiniGPT4-Video对视频长度和质量有较高要求。然而,针对同一问题多次提问时,答案不一致,且存在将机器人误识为人的情况。

  综合来看,MiniGPT4-Video在实际应用中仍存在挑战,需研究团队进一步优化。

© 版权声明

相关文章