TPAMI 2024 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。


如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.comzhaoyunfeng@jiqizhixin.com

本篇综述工作已被《IEEE 模式分析与机器智能汇刊》(IEEE TPAMI)接收,作者来自三个团队:香港大学俞益洲教授与博士生陈超奇、周洪宇,香港中文大学(深圳)韩晓光教授与博士生吴毓双、许牧天,上海科技大学杨思蓓教授与硕士生戴启元。

近年来,由于在图表示学习(graph representation learning)和非网格数据(non-grid data)上的性能优势,基于图神经网络(Graph Neural Networks,GNN)的方法被广泛应用于不同问题并且显著推动了相关领域的进步,包括但不限于数据挖掘(例如,社交网络分析、推荐系统开发)、计算机视觉(例如,目标检测、点云处理)和自然语言处理(例如,关系提取、序列学习)。考虑到图神经网络已经取得了丰硕的成果,一篇全面且详细的综述可以帮助相关研究人员掌握近年来计算机视觉中基于图神经网络的方法的进展,以及从现有论文中总结经验和产生新的想法。可惜的是,我们发现由于图神经网络在计算机视觉中应用非常广泛,现有的综述文章往往在全面性或者时效性上存在不足,因此无法很好的帮助科研人员入门和熟悉相关领域的经典方法和最新进展。同时,如何合理地组织和呈现相关的方法和应用是一个不小的挑战。

论文标题:A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective
论文地址:
https://arxiv.org/abs/2209.13232(预印版)
https://ieeexplore.ieee.org/document/10638815(IEEE 版)

尽管基于卷积神经网络(CNN)的方法在处理图像等规则网格上定义的输入数据方面表现出色,研究人员逐渐意识到,具有不规则拓扑的视觉信息对于表示学习至关重要,但尚未得到彻底研究。与具有内在连接和节点概念的自然图数据(如社交网络)相比,从规则网格数据构建图缺乏统一的原则且严重依赖于特定的领域知识。另一方面,某些视觉数据格式(例如点云和网格)并非在笛卡尔网格上定义的,并且涉及复杂的关系信息。因此,规则和不规则的视觉数据格式都将受益于拓扑结构和关系的探索,特别是对于具有挑战性的任务,例如理解复杂场景、从有限的经验中学习以及跨领域进行知识传递。

在计算机视觉领域,目前许多与 GNN 相关的研究都有以下两个目标之一:(1) GNN 和 CNN 主干的混合,以及 (2) 用于表示学习的纯 GNN 架构。前者通常旨在提高基于 CNN 的特征的远程建模能力,并适用于以前使用纯 CNN 架构解决的视觉任务,例如图像分类和语义分割。后者用作某些视觉数据格式(例如点云)的特征提取器。尽管取得了丰…

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

TPAMI 2024 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展

https://www.gptnb.com/2024/09/10/2024-09-09-auto5_2-XWzpfn/

作者

ByteAILab

发布于

2024-09-10

更新于

2025-03-21

许可协议