CVPR 2024|让图像扩散模型生成高质量360度场景,只需要一个语言模型

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。


如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.comzhaoyunfeng@jiqizhixin.com

蔡志鹏博士(https://zhipengcai.github.io/)是美国英特尔研究院的研究员,博士毕业于澳大利亚阿德莱德大

360 度场景生成是
计算机视觉的重要任务,主流方法主要可分为两类,一类利用图像扩散模型分别生成 360 度场景的多个视角。由于图像扩散模型缺乏场景全局结构的
先验知识,这类方法无法有效生成多样的 360 度视角,导致场景内主要的目标被多次重复生成,如图 1 的床和雕塑。

图片

如图 1. 缺乏场景全局结构的先验知识导致一个卧室出现多张床,一个公园出现多个雕塑。

另一类方法将 360 度场景用一张 Equirectangular Image 来表示,并用 GAN 或扩散模型直接生成。由于该表征的局限性,这类方法通常无法有效完成 360 度闭环(如图 2 每张图片的中间部分),导致 360 度的连接处出现明显的…

图片

如图 2. 现有方法的闭环问题.

为了解决这些问题,来自美国英特尔研究院的 Zhipeng Cai 等人提出了 L-MAGIC(Language Model Assisted Generation of Images with Coherence),通过…

图片

项目主页:https://zhipengcai.github.io/MMPano

代码:https://github.com/IntelLabs/MMPano

论文地址:https://arxiv.org/pdf/2406.01843

Youtube 视频介绍:https://youtu.be/XDMNEzH4-Ec

Intel ISC HPC 2024 live demo:https://www.intel.com/content/www/us/en/events/supercomputing.html


1
Makedown格式内容


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

CVPR 2024|让图像扩散模型生成高质量360度场景,只需要一个语言模型

https://www.gptnb.com/2024/06/13/2024-06-12-auto5-8gJhGj/

作者

ByteAILab

发布于

2024-06-13

更新于

2025-03-21

许可协议