2024-09-24发表2025-03-21更新 ByteAILab 9 分钟读完 (大约1387个字)

准确率87.6%，南农、国防科大、苏大等发布显微图像分类AI新方法

编辑 | 萝卜皮

在医学显微图像分类（MIC）领域，基于 CNN 和 Transformer 的模型得到了广泛的研究。然而，CNN 在建模长距离依赖关系方面存在短板，限制了其充分利用图像中语义信息的能力。

相反，Transformer 受到二次计算复杂性的制约。

为了解决这些挑战，南京农业大学、国防科技大学、湘潭大学、南京邮电大学、苏州大学组成的联合研究团队提出了一个基于 Mamba 架构的模型：Microscopic-Mamba。

具体来说，该团队设计了部分选择前馈网络（PSFFN）来取代视觉状态空间模块（VSSM）的最后一层线性层，增强了 Mamba 的局部特征提取能力。

此外，研究人员提出了调制交互特征聚合（MIFA）模块，使模型可以有效地调制和动态聚合全局和局部特征。他们还采用了并行 VSSM 机制，以改善通道间信息交互，同时减少参数数量。

该研究以「Microscopic-Mamba: Revealing the Secrets of Microscopic Images with Just 4M Parameters」为题，于 2024 年 9 月 12 日发布在 arXiv 预印平台。

显微成像技术在医学中至关重要，能够在细胞和分子水平上分析生物结构，帮助诊断疾病。然而，对显微图像的手动分类效率低下，且需要大量专业知识。虽然 CNN 能有效提取局部特征，但其捕捉长距离依赖关系的能力有限；ViT 虽能建模全局依赖关系，但计算复杂度高。

现有的解决这些限制的方法包括结合 CNN 和 Transformer 的混合方法。这些方法试图在局部和全局特征提取之间取得平衡，但通常以牺牲准确性或计算效率为代价。

因此，科学家需要设计更高效的模型，能有效地处理局部和全局信息，同时无需承担巨大的计算负担。

南京农业大学、国防科技大学、湘潭大学、南京邮电大学和苏州大学的研究团队提出了一种名为 Microscopic-Mamba 的新型架构来应对这些挑战。

图示：Microscopic-Mamba 架构。（来源：论文）

它以较低的计算复杂度缓解了现实医疗场景中的计算限制。该模型专门用于通过结合 CNN 在局部特征提取方面的优势与状态空间模型（SSM）在捕获长距离依赖关系方面的效率来改善微观图像分类。

该团队的模型集成了部分选择前馈网络（PSFFN）来取代视觉状态空间模块（VSSM）中的最终线性层，在保持紧凑高效的架构的同时，显著增强了感知局部特征的能力。通过结合全局和局部信息处理能力，Microscopic-Mamba 模型力图在医学图像分类领域树立新的标杆。

Microscopic-Mamba 背后的核心方法在于其双分支结构，由用于局部特征提取的卷积分支和用于全局特征建模的 SSM 分支组成。该模型还引入了调制交互特征聚合 (MIFA) 模块，旨在有效融合全局特征和局部特征。在此架构中，CNN 分支使用深度可分离卷积（DWConv）和逐点卷积（PWConv）进行局部特征提取。

相比之下，SSM 分支则专注于通过并行视觉状态空间模块（VSSM）进行全局特征建模。集成这两个模块使 Microscopic-Mamba 能够处理详细的局部信息和广泛的全局模式，这对于准确的医学图像分析至关重要。

VSSM 中的最后一层被 PSFFN 取代，这提高了模型捕获局部信息的能力，优化了细节和泛化之间的平衡。

图示：在五个公共数据集上与最先进方法进行性能比较。（来源：论文）

研究人员用五个公共医学图像数据集对 Microscopic-Mamba 模型进行了广泛的测试，均表现出了优异的性能。

这些数据集包括视网膜色素上皮 (RPE) 细胞数据集、用于疟疾细胞分类的 SARS 数据集、用于结直肠息肉分类的 MHIST 数据集、用于肿瘤组织分类的 MedFM…

准确率87.6%，南农、国防科大、苏大等发布显微图像分类AI新方法

相关内容：Microscopic-Mamba Released: A Groundbreaking Hybrid Model Combining Convolutional Neural Network (CNNs) and SSMs for Efficient and Accurate Medical Microscopic Image Classification

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新