2024-06-13发表2025-03-21更新 ByteAILab 4 分钟读完 (大约621个字)

CVPR 2024｜让图像扩散模型生成高质量360度场景，只需要一个语言模型

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。

如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

360 度场景生成是
计算机视觉的重要任务，主流方法主要可分为两类，一类利用图像扩散模型分别生成 360 度场景的多个视角。由于图像扩散模型缺乏场景全局结构的
先验知识，这类方法无法有效生成多样的 360 度视角，导致场景内主要的目标被多次重复生成，如图 1 的床和雕塑。

如图 1. 缺乏场景全局结构的先验知识导致一个卧室出现多张床，一个公园出现多个雕塑。

另一类方法将 360 度场景用一张 Equirectangular Image 来表示，并用 GAN 或扩散模型直接生成。由于该表征的局限性，这类方法通常无法有效完成 360 度闭环（如图 2 每张图片的中间部分），导致 360 度的连接处出现明显的…

如图 2. 现有方法的闭环问题.

为了解决这些问题，来自美国英特尔研究院的 Zhipeng Cai 等人提出了 L-MAGIC（Language Model Assisted Generation of Images with Coherence），通过…

…

1	Makedown格式内容

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

CVPR 2024｜让图像扩散模型生成高质量360度场景，只需要一个语言模型

ByteAILab

2024-06-13

2025-03-21