CVPR 2024|让图像扩散模型生成高质量360度场景,只需要一个语言模型
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。
如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
蔡志鹏博士(https://zhipengcai.github.io/)是美国英特尔研究院的研究员,博士毕业于澳大利亚阿德莱德大…
360 度场景生成是
计算机视觉的重要任务,主流方法主要可分为两类,一类利用图像扩散模型分别生成 360 度场景的多个视角。由于图像扩散模型缺乏场景全局结构的
先验知识,这类方法无法有效生成多样的 360 度视角,导致场景内主要的目标被多次重复生成,如图 1 的床和雕塑。
如图 1. 缺乏场景全局结构的先验知识导致一个卧室出现多张床,一个公园出现多个雕塑。
另一类方法将 360 度场景用一张 Equirectangular Image 来表示,并用 GAN 或扩散模型直接生成。由于该表征的局限性,这类方法通常无法有效完成 360 度闭环(如图 2 每张图片的中间部分),导致 360 度的连接处出现明显的…
如图 2. 现有方法的闭环问题.
为了解决这些问题,来自美国英特尔研究院的 Zhipeng Cai 等人提出了 L-MAGIC(Language Model Assisted Generation of Images with Coherence),通过…
项目主页:https://zhipengcai.github.io/MMPano
代码:https://github.com/IntelLabs/MMPano
论文地址:https://arxiv.org/pdf/2406.01843
Youtube 视频介绍:https://youtu.be/XDMNEzH4-Ec
Intel ISC HPC 2024 live demo:https://www.intel.com/content/www/us/en/events/supercomputing.html
…
1 | Makedown格式内容 |
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
CVPR 2024|让图像扩散模型生成高质量360度场景,只需要一个语言模型