7月24日,光源伙伴「爱诗科技」震撼推出其视频生成新品PixVerse V2,并面向全球同步开放。自创立以来,「爱诗科技」始终致力于与全球顶尖企业比肩的AI视频生成大模型及应用研发。2024年,该品牌率先发布了文生视频产品PixVerse网页版,同年又在PixVerse上成功上线了Magic Brush运动笔刷功能,使用户在图生视频过程中能够精确控制视频元素的动态表现。
此次上线的PixVerse V2在原有开发架构上实现了多项技术创新,旨在为用户提供更长、更连贯、更富趣味性的视频生成体验。在提升模型能力的同时,也为AI视频生成产品带来了新的玩法:能够在保持一致性的前提下,一次性生成多个视频片段,实现单片段8秒和多片段40秒的视频生成。
核心技术
PixVerse V2采用Diffusion+Transformer(DiT)基础架构,并在多个方面进行了技术创新。该产品在时空建模上引入了自研的时空注意力机制,不仅超越了传统的时空分离和fullseq架构,还显著提升了对空间和时间的感知能力,在处理复杂场景时表现尤为出色。在文本理解方面,利用更强大的多模态模型提取prompt的表征,实现了文本信息与视频信息的精准对齐,增强了模型的理解与表达能力。此外,通过对传统flow模型的优化和加权损失的应用,促进了模型更快更优的收敛,提升了整体训练效率。
用户至上
基于大量用户反馈和社区讨论,「爱诗科技」团队深刻认识到一致性是AI视频创作的核心挑战。因此,PixVerse V2在设计和优化上进行了针对性突破:支持一键生成1-5段连续的视频内容,且片段之间会保持主体形象、画面风格和场景元素的一致性。这一创新功能让用户能够围绕特定主题进行高效便捷的视频创作。此外,PixVerse V2还支持对生成结果进行二次编辑,通过智能识别内容和自动联想功能,用户可以灵活替换调整视频主体、动作、风格和运镜,进一步丰富了创作可能性。
未来发展
「爱诗科技」希望在模型性能和美学效果之间寻求平衡,并预计在未来3个月内进行多次迭代升级,以提供更好的AI视频生成体验。该品牌致力于让更多用户感受到AI视频创作的乐趣,无论是记录日常灵感还是讲述引人入胜的故事,都能变得触手可及。
爱诗科技简介
「爱诗科技」成立于2023年4月,专注于解决AI视频大模型及应用问题。创始人王长虎博士在计算机视觉与人工智能领域拥有20年的深厚积累,团队成员来自清华、北大、中科院等顶级学府及字节、快手、腾讯、微软研究院等核心技术团队。该品牌已在全球用户中树立了良好的口碑,成为全球用户量最大的国产AI视频生成产品之一。