将图像自动文本化,图像描述质量更高、更准确了
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。
如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
皮仁杰:香港科技大学博士三年级学生,师从张潼教授和周晓方教授。于 2024 年获得苹果奖学金。目前主要研究方向是多模态大语言模型和数据为中心的 AI。
张鉴殊:武汉大学本科三年级学生,目前在张潼教授的指导下担任研究实习生,主要研究方向是大语言模型,多模态大语言模型以及持续学习。当下在寻找 2025 fall 博士入学机会。
在当今的多模态大模型的发展中,模型的性能和训练数据的质量关系十分紧密,可以说是 “数据赋予了模型的绝大多数能力”。
在这其中,图像 - 文本数据集发挥着至关重要的作用,在图像理解、文本生成和图像检索等多个领域发挥着关键作用。
然而,现有的图像描述数据集主要来源于网络抓取和人工标注,存在着质量参差不齐、细节缺失、描述噪音多等问题。尽管人类可以为图像提供详细的描述,但高昂的标注成本限制了其规模和可行性。因此,迫切需要一种高效、可扩展的方法来生成准确且详细的图像描述。
为了应对上述挑战,来自香港科技大学、武汉大学、浙江大学、UIUC的研究者联合提出了一种创新的自动化框架 ——Image-Textualization(IT),该框架通过整合多模态大语言模型(MLLMs)和多种视觉专家模型的协作,将图片信息进行文本化,最后利用拥有强大的推理能力的纯文本大语言模型将这些文本化的信息转化为高质量的图像描述。
论文:Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions
论文地址:https://arxiv.org/pdf/2406.07502v1
项目地址:https://github.com/sterzhang/image-textualization/
Image Textualization 方法
Image-Textualization(IT)框架包括以下三个阶段:
粗粒度的图片文本化(Holistic Textualization):首先利用多模态大语言模型对图片生成参考描述,尽管这些描述可能存在细节缺失和幻觉,但它们为图像的视觉信息和语言表达提供了基本结构。这里视觉的结构主要体现在参考描述中往往会包含一些大的,核心的物体,这个可以为后续的细节提供类似 “锚点” 的作用,能够使得最后的文本化重述(Textualized Recaptioning)更好的添加细节。另外,语言表达上的结构主要体现在…
视觉细节文本化(Visual Detail Textualization):这个阶段我们同时从图片端和文本端进行细节的提取。首先是文本端,由于在上一阶段中我们利用多模态大模型生成的参考描述可能含有幻觉,所以这里首先做的是 “幻觉检测”。我们首先利用 LLM 去抓取参考描述中含有的实体,再利用了一个开集检测器去图片里对这个实体进行匹配,如果没有被检测出来,则将这个实体判断为幻觉。这里我们把检测出来的幻觉也进行了文本化,在最后的文本化重述(Textualized Recaptioning)进行删除。在视觉端,我们利用在高分辨率图片上训练出来的各个任务上的视觉专家模型提取图像中的细节信息。想要将一个图片上的物体的细节信息利用文本表达出来仅仅用物体的 caption 是不够的,我们首先利…
文本化重述(Textualized Recaptioning):结合前两个阶段的图片信息文本化的结果,加上我们通过精心设计的改写 prompt,纯文本的大语言模型能够很好的通过纯文本还原出图片的信息,并通过强大理解和推理能力生成详细且准确的图像描述。
全面评估与实验验证
为了验证我们框架的有效性,我们构建了三个评估基准,分别是 DID-Bench(详细图像描述基准)、D2I-Bench(描述到图像基准)和 LIN-Bench(语言基准)。我们进行了广泛的实验,结果表明 IT 框架生成的图像描述在细节丰富度和准确性方面显著优于现有方法。尤其是,通过我们的 IT 框架生成的数据集训练的 MLLMs,如 LLaVA-7B,展现出了更强的图像描述能力,减少了幻觉现象。
未来展望
我们的工作不仅解决了现有图像描述数据集的局限性,也为设计更高效、可扩展的方法提供了灵感。我们期待 IT 框架在更多应用领域中展示其潜力,推动图像理解和生成技术的进一步发展。
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
将图像自动文本化,图像描述质量更高、更准确了