VAST宋亚宸:3D生成迈入秒级时代今年将做到Midjourney V5V6水平

2024-05-26

  2024中国生成式AI大会于4月18-19日在北京举行,在大会第二天的主会场AIGC应用专场上,VAST创始人兼CEO宋亚宸以《大模型Tripo驱动3D生成迈入秒级时代》为主题发表演讲。

  从文字、图片到视频、3D,信息载体不断升级,宋亚宸谈道,3D的体验质量、信息密度不断提升且更具互动性。他认为目前3D生成已经达到类似Midjourney V3的效果,今年9月将达到类V4效果,年底达到类V5/V6效果,实现真正可用,甚至通过图灵测试。

  VAST是3D生成模型领域的第一梯队玩家,已打造全球最大的几个3D生成开源社区,并与Stability共同开源了全球最大、0.5秒图生3D模型TripoSR。其创始人兼CEO宋亚宸也是首位在计算机图形学顶会SIGGRAPH上发表主舞台主题演讲的中国创业者。

  据宋亚宸分享,VAST的3D大模型Tripo上线百余天内生成了超过200万个3D模型。为了应对3D生成创作成本和门槛过高的挑战,VAST将3D内容平台和大众级创作者平台结合。当前这家创企已拥有超过200家B端客户,并基于其平台开发出原生AI爆款小游戏,一周突破10万用户。

  我们是做3D大模型的公司,产品核心就是将用户输入的文字或者图片快速生成3D模型。3D模型可以在游戏、动画、影视、元宇宙、3D打印等行业中直接使用,其本身带有Mesh、贴图、材质,你可以进入传统管线二次编辑,进行驱动、渲染等。3D模型还可以拥有带骨骼、带动作等格式,出现很多种有意思的使用方式。

  文字、图片、视频、3D中,3D是非常特殊的品类,从文字、图片、视频到3D是信息载体不断升维的过程,3D也被认为是最终的信息载体,其信息密度、体验质量都在不断提升,同时拥有双向互动性。

  为什么现在做3D生成这件事情?OpenAI的GPT-3刚发布时,关注的人并不多,在其基础上做的应用、开发也相对较少,仅有如Replika等少数几个应用,大家对它的认知比较少,使其很难进行商业化。

  直到2022年11月份,ChatGPT的发布成为了一个非常大的拐点,我们称其为用户的Aha Moment(顿悟时刻)。这一产品对整个行业、逐步进行商业化、用户量提升都有很大的影响。

  Midjourney也类似,2022年7月份V3推出时,用户量并不多,也没有收费功能,知道Midjourney的人寥寥无几。直到半年以后,Midjourney于2022年11月份推出V4,我们认为这诞生了文生图的下一个拐点,在这个拐点上有了非常大的提升,其产品的用户量、收费方式、商业化等都得到了满足。

  再来看3D,我们现在看到的3D生成,类似于Midjourney V3的水平,但已经可以在一些场景使用起来了。

  预计到今年9、10月份,3D生成可以达到Midjourney V4的水平;今年年底可以达到类似于Midjourney V5的水平,通过图灵测试,并带来一次非常大的商业变革。

  从3D生成的演进过程来看,除了像我们这样的创业公司,谷歌、英伟达、OpenAI、Meta、Adobe等海外企业都已进入到3D生成这个领域。

  在学术上,我们从布局3D原生路线D优化路线、多视角生成、编辑动态场景到人物生成,在CVPR、ICLR等国际顶会上都发表了大量论文,并开源了相应技术。

  全世界最大的几个3D生成开源社区都是由我们做的,比如与Stability AI共同开源了全世界最大、效果最好的图生 3D大模型TripoSR,我们还开源了全世界最大的3D算法框架Threestudio、超火爆的单图生3D算法Wonder3D,以及TGS、CSD等开源项目。

  我们预计2024年年底会把3D生成做到Midjourney V5甚至V6的水平,达到下一个爆发时刻。

  3D的核心在于可交互、可体验,甚至带一些游戏性。所以我们会同步做3D动态的内容生成,包括骨骼的自动绑定、动作生成,这已经在我们产品里上线。

  同时,我们认为在明年或许会实现,每一个人都有能力去生成无限个属于自己的3D内容,不管是游戏、XR体验,还是任何的3D内容,这也是我们对整体3D内容生成趋势的判断。

  我们刚刚讲了很多AI 3D技术,但我更希望和大家分享我们是怎么把AI 3D玩起来的。

  我们认为AI 3D是在拓展人类能力的边界。我随便在门口拉个人进来,让他给我发一个Twitter,可能只需要5秒钟。我说你再给我发一个TikTok,他做一下剪辑,可能2分钟就能搞定。如果我让他做个游戏,他可能会说:“。


本文由:乐鱼app官方网站提供