在3月5日,知名的开源大模型平台Stability.ai携手Tripo AI共同推出了——TripoSR,为图像转3D模型领域带来了一次革新。
用户只需0.5秒(在英伟达A100GPU环境下),即可通过TripoSR将一张图片转换为高质量的3D模型。而即便是采用低效率的推理模式,无需GPU也能完成3D模型的生成,这对于个人开发者和小型企业而言,无疑节省了大量的资源。
目前,TripoSR已经全面开源,既支持商业化应用也支持学术研究。其性能超越了如OpenLRM等开源模型,可广泛应用于游戏开发、工业设计、广告等多个领域。
【开源地址】:https://github.com/VAST-AI-Research/TripoSR
【技术报告】:https://stability.ai/s/TripoSR_report.pdf
TripoSR是一款基于Transformer架构的前馈3D重建模型,它大幅优化了模型迭代生成的流程,同时保持了精确控制输出的能力。该模型由图像编码器、图像到三平面解码器和NeRF三大核心部分构成。
图像编码器主要负责从输入图像中提取全局和局部特征,并将其转化为潜在向量序列。TripoSR采用了基于卷积的视觉变换器模型,以DINOv1作为图像编码器的初始化模块。DINOv1经过大规模图像数据集的预训练,已具备丰富的视觉特征表示能力。在TripoSR中,DINOv1将输入图像投影为一系列潜在向量,这些向量编码了图像的全局语义信息和局部细节信息,为后续3D模型重建奠定了基础。
图像到三平面解码器则接收图像编码器输出的特征向量序列,并将其解码为3D场景中的三平面NeRF表示。三平面NeRF表示采用体渲染技术,将物体表面沿坐标平面展开为三个特征平面。与传统的体素表示相比,三平面更加紧凑高效,同时具备较强的表达能力,能够精细刻画复杂物体的形状和表面细节。此外,解码器中的一系列变换器编码层会对潜在向量进行解码变换。每个编码层都包含自注意力和交叉注意力两个关键机制。自注意力机制允许解码器内部关注三平面NeRF中的不同区域,捕捉不同部分之间的相关性;而交叉注意力则让解码器关注来自图像编码器的特征向量,将图像的语义和细节信息融合到三平面NeRF表示中。
NeRF(神经辐射场)模块则负责最后的3D图像生成。它接收三平面NeRF表示和采样的3D空间坐标点作为输入,输出该坐标点的颜色值和密度值。NeRF中的多层感知机结构赋予了体渲染过程足够的建模能力,能精准地重构出3D物体全貌。随后,通过体渲染技术对空间中的3D坐标位置进行密集采样,并基于NeRF模型预测的颜色密度信息,最终合成出完整的3D渲染图像。与传统的网格渲染方法相比,体渲染技术能更精细地还原物体表面的细节和自阴影效果,从而产生更加真实的3D重建效果。
本文素材来源于TripoSR技术报告,如有侵权请联系删除。