264页智能体综述来了!MetaGPT等20家顶尖机构、47位学者参与

近期,大模型智能体(Agent)的相关话题爆火 —— 不论是 Anthropic 抢先 MCP 范式的快速普及,还是 OpenAI 推出的 Agents SDK 以及谷歌最新发布的 A2A 协议,都预示了 AI Agent 的巨大潜力。然而,目前的大部分 Agent 应用仍是 LLM 能力的简单 “封装” 或延伸,距离真正通用的智能实体尚有距离 —— 在面对复杂的真实世界时,Agent 往往会暴露出推理规划、长期记忆、世界模型、自主进化以及安全对齐等核心能力不足的问题。


为了系统性地应对这些挑战,以构建真正具备通用能力的未来智能体,MetaGPT & Mila 联合全球范围内 20 个顶尖研究机构的 47 位学者,共同撰写并发布了长篇综述《Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems》。

图片

目前该论文已蝉联 Hugging Face 的 Daily Paper 月榜第一名。

图片

此研究汇聚了来自 MetaGPT、Montréal & Mila 人工智能研究所、南洋理工大学、美国阿贡国家实验室、悉尼大学、宾夕法尼亚州立大学、微软亚洲研究院、伊利诺伊大学厄巴纳 - 香槟分校、香港科技大学、南加州大学、耶鲁大学、斯坦福大学、佐治亚大学、俄亥俄州立大学、阿卜杜拉国王科技大学、杜克大学、香港理工大学、谷歌 DeepMind 以及加拿大高等研究院(CIFAR)等众多研究者的集体智慧与前瞻思考。

图片

在这篇论文中,作者们首次定义并提出了基础智能体 (Foundation Agent)这一新概念框架。Foundation Agent 并非具体的智能体实例,而是一个更宏大且更根本性的技术蓝图及科学理念。它旨在通过认知科学和神经科学的洞见,构建一个由复杂认知、多层记忆、世界模型、奖励 & 价值、情绪 & 动机、多模感知、行动系统等模块化组件构成的智能系统。

图片

第一部分:智能体的核心组件 - 构建认知基石

论文首先强调,一个强大的 Foundation Agent 必然是一个复杂的系统,由多个相互协作的核心组件构成。这借鉴了认知科学和神经科学中对大脑模块化功能的理解。作者详细阐述了七个关键组件,它们共同构成了智能体的认知架构:

图片

1. 认知核心 (Cognition Core)

这是智能体的 “大脑” 或 “中央处理器”,负责最高层次的决策、推理和规划。与当前主要依赖 LLM 进行 “思考” 的智能体不同,Foundation Agent 的认知核心可能是一个更复杂的系统,集成了多种推理能力(如逻辑推理、因果推理、常识推理)和规划算法(如任务分解、层级规划、长期目标管理)。它需要能够处理不确定性,进行反思和元认知(思考自己的思考过程),并根据环境反馈和内部状态动态调整策略。这要求认知核心不仅仅是模式匹配,更要具备深刻的理解和灵活的问题解决能力。

图片

2. 记忆系统 (Memory System)

记忆是智能的基础。当前的智能体往往只有有限的短期记忆(如 Prompt 中的上下文)或简单的外部向量数据库。Foundation Agent 则需要一个更复杂、更接近生物体的多层次记忆系统。论文探讨了短期记忆、长期记忆与工作记忆等不同类型,包含情景记忆、语义记忆和程序记忆等细分领域。高效的记忆检索、存储、遗忘和泛化机制对于 Foundation Agent 至关重要。如何设计能够支持持续学习、避免灾难性遗忘,并能高效检索相关信息的记忆系统,是一个核心挑战。

图片

3. 世界模型 (World Model)

智能体需要理解其所处的环境以及自身行为可能产生的后果。世界模型正是对环境动态的内部表征。它可以帮助智能体进行预测(如果我采取行动 A,会发生什么?)、规划(为了达到目标 B,我应该采取什么行动序列?)和反事实推理(如果当初采取了不同的行动,结果会怎样?)。一个强大的世界模型需要能够处理物理规律、社会规范、其他智能体的行为等多方面信息,并且能够根据新的观测数据不断更新和完善。构建准确、高效且可泛化的世界模型是实现高级智能的关键一步。

图片

4. 奖励与价值系统 (Reward and Value System)

智能体的行为需要有目标导向。奖励系统负责评估智能体的行为表现,并提供学习信号。这不仅仅是简单的标量奖励,可能涉及到多目标优化、内在动机(如好奇心、探索欲)以及对未来价值的预估。价值系统则负责评估不同状态或行动的长期价值,指导智能体的决策。如何设计能够引导智能体学习复杂行为、符合人类价值观,并且能够适应动态环境的奖励和价值系统,是确保智能体目标一致性的核心。

图片

5. 情绪与动机建模 (Emotion and Motivation Modeling)

虽然在传统 AI 中较少提及,但论文认为,模拟类人情绪和动机对于构建更鲁棒、更具适应性的智能体可能是有益的。情绪可以作为一种快速评估环境状态和调整行为策略的启发式机制,例如,“恐惧” 可能触发规避行为,“好奇” 可能驱动探索。动机则为智能体提供持续行动的内在驱动力。当然,如何在 AI 中恰当、可控地实现这些机制,避免产生不可预测的副作用,是一个需要审慎探索的方向。

图片

6. 感知系统 (Perception System)

智能体需要通过感知系统从环境中获取信息。这不仅仅是处理文本,更包括视觉、听觉、触觉等多模态信息的输入和理解。感知系统需要能够从原始感官数据中提取有意义的特征,识别对象、理解场景,并将这些信息传递给认知核心和记忆系统。多模态融合、实时处理以及对噪声和不确定性的鲁棒性是感知系统面临的主要挑战。

图片

7. 行动系统 (Action System)

智能体最终需要通过行动系统与环境进行交互。这包括生成自然语言、执行代码、控制机器人肢体、在虚拟世界中导航等。行动系统需要将认知核心的决策转化为具体的、可在环境中执行的操作序列。行动的选择需要考虑可行性、效率和潜在风险。学习精细的操作技能、处理连续的行动空间以及确保行动的安全可控是行动系统的关键要求。

图片

第二部分:智能体的自进化 —— 迈向自主智能

拥有完善的认知架构只是第一步。Foundation Agent 的核心特征之一在于其**自进化 (Self-Evolution)**的能力,即智能体能够通过与环境的交互和自我反思,不断学习、适应和提升自身能力,而无需持续的人工干预。这部分探讨了实现自进化的关键机制:

1. 优化空间 (Optimization Space)

自进化的前提是定义清楚哪些方面可以被优化。论文指出,智能体的几乎所有组件都可以成为优化的对象:认知策略、记忆内容、世界模型的准确性、感知能力、行动技能等等。其中,提示词,工作流,智能体组件是可以被直接优化的三个层次。定义清晰的优化目标和评估指标是指导自进化过程的基础。

2. LLM 作为优化器 (LLM as Optimizer)

论文提出,强大的大型语言模型不仅可以作为智能体的认知核心的一部分,还可以扮演优化器的角色。LLM 可以通过生成代码、修改参数、提出新的策略或结构,来优化智能体自身的其他组件。例如,LLM 可以分析智能体过去的失败经验,提出改进记忆检索算法的建议;或者根据新的数据,生成更新世界模型的代码。这为智能体的自我改进提供了一种强大的、基于语言理解和生成能力的全新途径。

图片

3. 在线与离线自改进 (Online and Offline Self-Improvement)

自进化可以在不同的时间和尺度上发生:智能体既能在与环境实时交互过程中进行在线改进,通过强化学习优化行为策略或根据感知更新世界模型;也能在 “休息” 或专门训练阶段实现离线改进,利用收集的数据进行深层分析和模型更新,可能涉及调整整个认知架构、重构记忆库,或利用 LLM 作为优化器进行大规模模型迭代。

4. 自进化与科学发现 (Self-Evolution in Scientific Discovery)

论文特别提到了自进化在科学发现等复杂问题解决场景中的巨大潜力。一个具备自进化能力的 Foundation Agent 可以自主地提出假设、设计实验、分析数据、学习新知识,并不断优化其研究策略,从而加速科学探索的进程。这为 AI 在基础科学领域的应用打开了新的想象空间。

自进化是 Foundation Agent 区别于当前大多数智能体的关键特征。它强调了智能体自主学习和适应的核心能力,并提出了利用 LLM 作为优化器等创新思路。实现高效、稳定且目标可控的自进化机制,是通往真正自主智能的关键挑战。

第三部分:协作与进化型智能系统 - 构建群体智能

论文进一步将视野扩展到由多个 Foundation Agent 组成的多智能体系统 (Multi-Agent System, MAS),探讨 MAS 的基础组成、结构、协作范式和决策机制;以及在多智能体系统的自主协作 / 竞争中,群体智能形成的现象 (Collective Intelligence)。最后,论文还系统性梳理了现有的 MAS 评估方法和评估体系,为未来 MAS 的评估与应用实践提供了理论基础和方法论支撑。

1. 多智能体系统设计 (Multi-Agent System Design)

在大模型多智能体系统(LLM-MAS)中,协作目标与协作规范是塑造系统设计约束、内部智能体交互模式和整体协作机制的基础。协作目标定义了智能体追求的明确目标(个体性、集体性或竞争性),协作规范则确立了系统内智能体交互的规则、约束和惯例。基于协作目标和规范,多智能体系统可分为策略学习、建模与仿真、以及协同任务求解三类。论文通过分析和梳理三类 MAS 的典型应用,探讨了大语言模型(LLM)如何赋能、影响并改进同质和异质智能体的行为、交互及决策,并给出了 LLM-MAS 的下一代智能体协议。

2. 拓扑结构与规模化(Comunication Topology and Scalability)

从系统角度出发,拓扑结构往往决定着协作的效率与上限。论文作者将 MAS 的拓扑分为了静态和动态两大类:前者是预定义好的静态拓扑(层级化、中心化、去中心化)结构,常用于特定任务的解决实现;后者是根据环境反馈持续更新的动态拓扑结构,其可通过搜索式、生成式、参数式等新兴算法实现。而随着智能体数量的增加,科学的规模化方式也将是未来多智能体系统的重要议题。

3. 协作范式与机理 (Collaboration Paradigms)

借鉴人类社会中的多样化交互行为,如共识达成、技能学习和任务分工,论文从交互目的、形式和关系三个维度探讨多智能体协作。多智能体协作被归纳为共识导向、协作学习、迭代教学与强化,以及任务导向交互。在不同交互目标和形式下,智能体之间形成讨论、辩论、投票、协商等单向或多向交互。随着交互的持续,这些过程迭代出决策和交互网络,不同智能体在协作中增强和更新个体记忆与共享知识。

4. 群体智能与涌现 (Collective Intelligence and Emergence)

在 MAS 中,群体智能的产生是一个动态且迭代的过程。通过持续交互,智能体逐步形成共享理解和集体记忆。个体智能体的异质性、环境反馈和信息交换增强了交互的动态性,这对复杂社会网络的形成和决策策略的改进至关重要。通过多轮交互和对共享上下文的反思,智能体不断提升推理和决策能力,产生如信任、战略欺骗、自适应伪装等涌现行为。按照进化形成机制,可分为基于记忆的学习和基于参数的学习。与此同时,随着 MAS 的演化,智能体之间逐渐将形成和演进社会契约、组织层级和劳动分工,从基础的合作行为转向复杂社会结构。观测、理解和研究群体智能的涌现现象是后续 MAS 研究的重要方向。

5. 多智能体系统评估 (Evaluation of Multi-Agent Systems)

随着多智能体的优势成为共识,其评估范式亦需有根本性的变革 —— MAS 评估应聚焦于 Agent 交互的整体性,包括协同规划的效率、信息传递的质量与群体决策的性能等关键维度。由此衍生,作者总结了 MAS 常见的任务求解型 benchmark,以及最新的通用能力评估方式:前者的重点在于,衡量多智能体在各种环境中的决策协同的推理深度与正确性;后者评估智能体群在复杂、动态场景下的交互与适应能力。

图片

第四部分:构建安全和有益的 AI 智能体 —— 对齐与责任

随着 Foundation Agent 能力的增强,其潜在的风险也随之增大。论文的最后一部分聚焦于如何构建安全、可控、符合人类价值观的智能体,这也是整个 AI 领域面临的最核心的挑战之一。

1. 安全威胁与措施

高级智能体面临诸多安全威胁,包括对抗性攻击、越狱与滥用、目标漂移和意外交互等。这些威胁可能导致智能体做出错误行为、绕过安全限制执行恶意任务、在自进化过程中偏离初始目标,或在复杂 MAS 中引发系统级故障。为应对这些挑战,需要研究部署多层次安全措施,如提高抵抗攻击能力的鲁棒性训练、检测阻止有害内容的过滤与监控机制、证明行为符合安全规范的形式化验证、帮助理解决策原因的可解释性与透明度设计,以及限制权限与影响的沙箱与隔离技术。

2. 对齐问题

这是最根本的挑战:如何确保智能体(尤其是具备自进化能力的 Foundation Agent)的目标和行为始终与人类的价值观和意图保持一致?这涉及到价值学习、意图理解、伦理推理等多个难题。论文强调了对齐研究的紧迫性和重要性,需要跨学科的努力来解决这一问题。

3. 未来方向

构建安全有益的 AI 是一个持续的过程。未来的研究需要在技术、伦理、治理等多个层面共同推进。包括开发更可靠的对齐技术、建立完善的 AI 安全评估标准、制定相应的法律法规和社会规范等。

安全和对齐是 Foundation Agent 发展不可或缺的基石。如果不能有效解决这些问题,再强大的智能也可能带来巨大的风险。这部分内容敲响了警钟,强调了负责任地发展 AI 的重要性。

讨论:Foundation Agent 的意义与挑战

通读整篇论文,读者可以清晰地感受到作者构建下一代通用智能体的雄心。Foundation Agent 的概念,是对当前基于 LLM 的智能体范式的一次深刻反思和重大超越。它不再将智能体视为 LLM 的简单应用,而是将其看作一个由认知、记忆、学习、感知、行动等多个核心组件构成的复杂、有机的系统。其核心意义在于提供了系统性框架,强调了自主性,关注协作与生态,并突出了安全与对齐。然而,实现这一愿景也面临着技术复杂度高、需要庞大计算资源、评估困难、自进化可控性问题以及安全与对齐的根本性难题等巨大挑战。

这篇关于 Foundation Agent 的论文,与其说是一份详尽的技术指南,不如说是一份高瞻远瞩的**研究议程 (Research Agenda)**。它清晰地指出了当前智能体研究的局限,并为迈向更通用、更自主、更安全的 AI 指明了方向。Foundation Agent 的概念提醒我们,通往通用人工智能的道路需要在智能体的认知架构、学习机制、协作模式和安全保障上取得根本性突破,这需要跨学科领域的共同努力。虽然前路漫漫,但这篇论文为未来的 AI Agent 研究注入了新的思考和动力,描绘了一个由能够自主学习、协作进化、并与人类和谐共存的 Foundation Agent 构成的智能新纪元。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

合成数据也能通吃真实世界?首个融合重建-预测-规划的生成式世界模型AETHER开源

近日,上海人工智能实验室(上海 AI 实验室)开源了生成式世界模型 AETHER。该模型全部由合成数据训练而成,不仅在传统重建与生成任务中表现领先,更首次赋予大模型在真实世界中的 3D 空间决策与规划能力,可助力机器人完成目标导向的视觉规划、4D 动态重建、动作条件的视频预测等复杂任务。


研究团队将几何重建与生成式建模深度融合,首创「重建 — 预测 — 规划」一体化框架,通过 AETHER 使大模型能够感知周围环境,理解物体之间的位置、运动和因果关系,从而做出更智能的行动决策。

实验表明,传统世界模型通常聚焦于 RGB 图像的预测而忽略了背后隐含的几何信息,引入空间建模后,各项指标均显著提升,其中视频一致性指标提升约 4%。更重要的是,即使只使用合成数据进行训练,模型在真实环境中依然展现出强大的零样本泛化能力。

论文与模型已经同步开源。

图片

图片

三大核心技术 攻克动态环境中的智能决策困境

传统世界模型主要应用于自动驾驶与游戏开发等领域,通过其丰富的动作标签来预测接下来的视觉画面。

但由于缺乏对真实三维空间的建模能力,这容易导致模型预测结果出现不符合物理规律的现象。同时,由于依赖且缺乏真实数据,面对更复杂多变的场景时,其泛化能力也明显不足。

针对以上问题,研究团队提出了生成式世界模型 AETHER,基于三维时空建模,通过引入并构建几何空间,大幅提升了模型空间推理的准确性与一致性。

具体而言,研究团队利用海量仿真 RGBD 数据,开发了一套完整的数据清洗与动态重建流程,并标注了丰富的动作序列。同时,他们提出一种多模态数据的动态融合机制,首次将动态重建、视频预测和动作规划这三项任务融合在一个统一的框架中进行优化,从而实现了真正的一体化多任务协同,大幅提高了模型的稳定性与鲁棒性。

面对复杂多变的现实世界,如何让具身智能系统实现可靠、高效的决策是人工智能领域的一项重大挑战。研究团队在 AETHER 框架中通过三项关键技术突破,显著提升了具身系统在动态环境中的感知、建模与决策能力。

  1. 目标导向视觉规划:可根据起始与目标场景,自动生成一条实现视觉目标的合理路径,并以视频形式呈现全过程。通过联合优化重建与预测目标,AETHER 内嵌空间几何先验知识,使生成结果兼具物理合理性。这使得具身智能系统能像人类一样「看路规划」—— 通过摄像头观察环境后,自动生成既安全又符合物理规律的行动路线。

  2. 4D 动态重建:通过自动标注流水线,构建合成 4D 数据集,无需真实世界数据即可实现零样本迁移,精准捕捉并重建时空环境的动态变化。例如,输入一段街景视频,系统即可重建包含时间维度的三维场景模型,精确呈现行人行走、车辆运动等动态过程,建模精度可达毫米级。

图片

  1. 动作条件视频预测:创新性地采用相机轨迹作为全局动作表征,可直接基于初始视觉观察和潜在动作,预测未来场景的变化趋势。相当于给具身智能系统装上了预测未来的「镜头」。

可零样本泛化至真实场景

不同于传统仅预测图像变化的世界模型,AETHER 不仅能同时完成四维时空的重建与预测,还支持由动作控制驱动的场景推演与路径规划。值得强调的是,该方法完全在虚拟数据上训练,即可实现对真实世界的零样本泛化,展现出强大的跨域迁移能力。

具体流程如下图所示,图中黄色、蓝色和红色分别表示图像、动作与深度的潜在变量,灰色表示噪声项,白色框为零填充区域。模型通过组合不同的条件输入(如观察帧、目标帧和动作轨迹),结合扩散过程,实现对多种任务的统一建模与生成。

就像在拼一副完整的动态拼图,观察帧提供了「现在的样子」,目标帧给出了「未来的样子」,动作轨迹则是「怎么从这里走到那里」,而扩散过程则像是拼图的拼接逻辑,把这些零散信息有序组合起来,最终还原出一个连续、合理且可预测的时空过程。

图片

为了支持同时完成重建、预测和规划这三类不同任务,AETHER 设计了一种统一的多任务框架,首次实现在同一个系统中整合动态重建、视频预测和动作规划。

其核心在于:能够融合图像、动作、深度等多模态信息,建立一个跨模态共享的时空一致性建模空间,实现不同任务在同一认知基础上的协同优化。

实验结果

在多个实验任务中,AETHER 在动态场景重建方面已达到甚至超过现有 SOTA 水平。同时发现在多任务框架下,各个任务有很好的促进,尤其在动作跟随的准确度上面有较大的提升。

图片

该方法有望为具身智能大模型在数据增强、路径规划以及基于模型的强化学习等方向研究提供技术支撑。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

“不要问人工智能能为我们做什么,而是问它对我们有什么影响”:ChatGPT等是否危害人类智力?

想象一下你是1941年的一个孩子,在公共学校的入学考试中,只能依靠铅笔和纸。


你看到这个问题:“写一篇不超过15分钟的关于一位英国作家的文章。”如今,我们中的大多数人不需要15分钟来思考这样的问题。只需打开像Google Gemini、ChatGPT或Siri这样的人工智能工具,我们就能瞬间找到答案。将认知努力外包给人工智能已经成为我们的第二天性,但随着越来越多的证据表明人类智力正在下降,一些专家担心这种冲动正在加剧这种趋势。

当然,这并不是新技术第一次引发担忧。研究已经显示,手机使我们分心,社交媒体损害了我们脆弱的注意力,GPS使我们的导航能力变得过时。而如今,人工智能这一共同体帮助我们解脱了许多最具认知负担的任务——从处理报税到提供治疗,甚至告诉我们该如何思考。这就将我们的大脑置于何种境地呢?是在更深的事务中自由地投入,还是在我们将思考外包给无形算法时逐渐枯萎?

“在这段生成性人工智能的时代,最大的担忧不是它可能会损害人类的创造力或智力,”康奈尔大学的心理学家罗伯特·斯特恩伯格说,他因智力研究而闻名,“而是它已经在这样做。”

关于我们智力水平下降的论点是基于几项研究的。这些研究中最有说服力的是那些研究弗林效应——自1930年以来,世界各地世代间IQ普遍提高的现象,这种现象被归因于环境因素而非基因变化。但近年来,弗林效应的增长减缓甚至出现倒退。

在英国,詹姆斯·弗林亲自证明,1980年至2008年间14岁青少年的平均IQ下降了超过两分。同时,全球范围的国际学生评估项目(PISA)显示,许多地区的数学、阅读和科学得分呈前所未有的下降,年轻人的注意力也变得更差,批判性思维能力减弱。

然而,尽管这些趋势是实证和统计上都稳健的,但它们的解读却极其复杂。“每个人都想指责人工智能是坏人,但这应该避免,”芝加哥西北大学费恩伯格医学院的伊丽莎白·德沃拉克说。她最近在一项2006至2018年间对美国人口的大规模调查中发现弗林效应的逆转迹象。

智力是一个远比这复杂的议题,可能由许多变量决定——已知微量营养素如碘会影响大脑发育和智力能力,同样,产前护理的变化、教育年限、污染、疫情和技术等都影响IQ,这使得隔离单一因素的影响变得困难。“我们不是在真空中行动,不能只指出一件事情说,‘这就是了,’”德沃拉克说。

尽管如此,虽然人工智能对整体智力的影响难以量化(至少在短期内),但对认知外包可能削弱特定认知能力的担忧是合理且可测量的。研究表明,使用人工智能来处理记忆相关任务可能会导致个体自身的记忆能力下降。

在考虑人工智能对我们大脑的影响时,大多数研究专注于生成性人工智能(GenAI)——这种工具让我们可以比以往任何时候都更多地外包认知努力。任何拥有手机或计算机的人,几乎都可以瞬间获取任何答案,撰写任何文章或计算机代码,制作艺术或摄影——这一切都在瞬间完成。已经有成千上万的文章探讨GenAI通过提高收入、工作满意度和科学进步等方式改善我们生活的多种方式。2023年,高盛估计GenAI可能在10年内使全球GDP增加7%,约为7万亿美元。

然而,令人恐惧的是,自动化这些任务剥夺了我们亲自练习这些技能的机会,使支持这些技能的神经结构变得脆弱。就像忽视我们的身体锻炼会导致肌肉退化一样,将认知努力外包也会导致神经通路的萎缩。

我们面临的最重要的认知技能之一是批判性思维。为什么要考虑一下你欣赏哪位英国作者,当你可以让ChatGPT为你考虑呢?研究强调了这些担忧。瑞士科隆的SBS商学院的迈克尔·格利希测试了666名英国人,发现频繁使用人工智能与较低的批判性思维技能之间存在显著的相关性——年轻参与者更依赖人工智能工具,批判性思维得分低于年长者。

类似地,来自微软和卡内基梅隆大学的研究人员对319名每周至少使用一次GenAI的专业人士进行了调查。虽然这提高了他们的效率,但也抑制了批判性思维,导致对该技术的长期过度依赖,研究人员预测这可能会导致在没有AI支持的情况下解决问题的能力下降。“拥有这些信息触手可及是很棒的,”一位参与格利希研究的参与者表示,“但我有时担心,我并没有真正学习或记住任何东西。我如此依赖人工智能,以至于我不觉得自己知道如何在没有它的情况下解决某些问题。”

确实,其他研究表明,用于记忆相关任务的人工智能系统可能导致个体自身的记忆能力下降。批判性思维的这一侵蚀是由人工智能驱动的算法加剧的,这些算法决定了我们在社交媒体上看到的内容。“社交媒体对批判性思维的影响是巨大的,”格利希说。“为了让你的视频被看到,你必须在四秒钟内抓住某人的注意力。”结果就是,充斥着可以很容易消化但不鼓励批判性思维的简短信息。“它给你提供了你不必进一步处理的信息,”格利希说。

通过被提供的信息而非通过认知努力获取知识,我们轻易忽视了对所学内容的意义、影响、伦理和准确性进行批判分析的能力。“对人工智能持批判态度是困难的——你必须有自律。这是非常具有挑战性的,不去将你的批判性思维外包给这些机器,”格利希说。

爱丁堡大学研究智力的温迪·约翰逊在她的学生中每天都能看到这种现象。她强调,这并不是她经过实证测试得出的结论,但她认为,学生们过于愿意用互联网告诉他们该做什么和相信什么来替代独立思考。

没有批判性思维,确保我们明智地消费人工智能生成的内容就变得困难。它可能看起来可信,特别是当你对它越来越依赖时,但不要上当。一项2023年在《科学进展》上的研究显示,与人类相比,GPT-3聊天不仅产生更易理解的信息,还产生更具吸引力的虚假信息。

这有什么意义?“想象一下一个假设的亿万富翁,”格利希说。“他们创造了自己的人工智能,并利用它影响人们,因为他们可以以特定的方式训练它,以强调某些政治或某些观点。如果有信任和依赖,那么问题就来了:这在多大程度上影响了我们的思想和行为。”

人工智能对创造力的影响同样令人不安。研究表明,人工智能倾向于帮助个人产生比他们自己生成的创意更多的创意。然而,在整个人群中,人工智能构思的创意往往缺乏多样性,这最终意味着更少的“欧几里得”时刻。

斯特恩伯格在《智力杂志》上的一篇论文中捕捉了这些担忧:“生成性人工智能是复制性的。它可以重新组合和重新排序思想,但尚不清楚它是否会产生解决全球气候变化、污染、暴力、日益增长的收入差距和渐进独裁等严峻问题所需的范式突破性思想。”

为了保持你的创造性思维能力,或许可以考虑你如何与人工智能互动——是积极主动的,还是消极的。德国乌尔姆大学的马克·穆勒的研究显示,社交媒体使用与年轻人的创造力之间存在联系,而在较老的世代中则没有。在挖掘数据的过程中,他提出这可能与在社交媒体时代出生的人与后来进入社交媒体的人之间的使用方式存在差异有关。年轻人似乎从思想分享和协作中获得创造性收益,穆勒认为,这可能因为他们与在网上分享的内容更开放,而较年长的用户则倾向于更消极地消费这些内容。

在使用人工智能时,你可能还需要考虑使用后的影响。费城德雷克塞尔大学的认知神经科学家约翰·库尼奥斯解释说,就像其他任何愉悦的事物一样,我们的大脑在获得突发灵感时会感到兴奋,这种兴奋是由我们的神经奖赏系统活动引发的。这些心理奖励帮助我们记住改变世界的想法,还会改变我们的即刻行为,使我们变得不那么害怕风险——这些都是促进进一步学习、创造力和机会的关键。但从人工智能产生的洞察似乎在大脑中并没有如此强烈的效果。“奖赏系统是大脑发展的极其重要的一部分,而我们不知道使用这些技术会对长远造成什么影响,”库尼奥斯说。“尚未有人对此进行测试。”

还有其他长期的影响需要考虑。研究者最近发现,学习第二语言的确可以帮助推迟老年痴呆症的发生,约四年,但在许多国家,申请语言课程的学生减少了。放弃第二语言以求助于人工智能驱动的即时翻译应用或许就是原因,但到目前为止,没有任何这些应用能够声称有助于保护你的未来大脑健康。

正如斯特恩伯格所警告的,我们需要停止问人工智能能为我们做什么,开始问它对我们有什么影响。在我们没有确切答案之前,根据格利希的说法,“我们必须训练人类再次做‘人’——使用批判性思维、直觉——那些计算机尚无法做到的事以及我们可以真正增加的价值。”

我们无法指望大型科技公司帮助我们做到这一点,偶尔没有开发者希望听到他们的程序效果过好,使得人们容易找到答案。“这需要从学校开始,”格利希说。“人工智能将继续存在。我们必须与之互动,因此我们需要学习如何以正确的方式做到这一点。”如果我们不这样做,我们不仅可能使自己变得多余,还可能使我们的认知能力也随之退化。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

KnowBe4连续第二年被认定为海湾地区技术最佳工作场所

对于KnowBe4来说,这是连续第二年被《伟大工作场所》评选为海湾合作委员会(GCC)技术最佳工作场所。图片{ width=60% }


KnowBe4是一家全球知名的网络安全平台,全面应对人类风险管理。该公司今天宣布,连续第二年荣获2025年GCC技术最佳工作场所称号,加入全球公认雇主的行列。这项奖励表彰了KnowBe4在卓越企业文化方面的坚定承诺。

排在第14位,KnowBe4在技术最佳工作场所名单上的认可反映了其对极度透明、极端责任感和持续职业成长文化的承诺。迪拜团队在塑造GCC地区安全意识行业方面处于领先地位,结合了初创公司的灵活性和全球组织的实力。这一认可重申了KnowBe4对赋权员工的承诺,营造了一个创新、参与和成功紧密相连的工作环境。

“在KnowBe4,我们的员工是我们成功的驱动力,”KnowBe4首席人力资源官Ani Banerjee表示。“收到这一奖项是我们致力于营造一个员工感到被重视、被支持和能够成长的工作场所的证明。通过不断投资于职业发展、顶级培训项目以及学费报销和认证奖金等有影响力的福利,我们致力于为团队提供他们所需的资源,以便更好地发展。”

作为工作场所文化的权威机构,《伟大工作场所》的评估方法围绕着一个全球公认的框架,测量员工对组织内信任、自豪感和享受程度的体验。通过对GCC各国员工的调查,这一名单确定了在这一地区促进积极和包容的工作场所文化的顶尖公司。

PR Newswire PR Newswire使传播者能够识别和与关键影响者互动,撰写和传播有意义的故事,并衡量其努力的财务影响。Cision是全球领先的公关和营销传播专业人员的媒体软件和服务提供商。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

医疗人工智能公司突破障碍,自动化基因组解释

突破基因组学(Breakthrough Genomics),一家位于加州的人工智能驱动稀有疾病诊断领导者,今天宣布在基因组解释方面取得了突破性成就。图片{ width=60% }


该公司报告称,已成功分析并提取了数千万篇有关遗传疾病的科学文献中的临床见解。

尽管在理解一个人的基因代码如何影响其整体健康及发展疾病的可能性方面取得了无数进展,但稀有疾病,尤其是在儿童中的诊断,仍被视为诊断实验室面临的最大挑战之一。太多病例无法得到解决,使得患者及其家人无从得知其亲人的致残病因。

借助其自主开发的AI驱动遗传语言模型,突破基因组学现已完成全球首个完全解释的变异文献数据库,帮助解决未诊断病例,同时显著减少医学遗传学家对个体全基因组进行审查所需的时间。

在分析一个典型的稀有疾病病例时,医学遗传学家通常需要花费2到3小时浏览数十篇科学文献,以评估某个特定的基因变异是否导致了患者的病情。这一乏味的文献审查过程不仅容易导致常见的人工错误,而且还造成了效率的重大瓶颈,影响了整个行业。

通过该公司的新解读的变异文献数据库,遗传学家现在可以即时访问针对1000多万个基因变异的每篇相关论文的简明结构化摘要。每个摘要中包含的信息包括基因-疾病关联、患者-变异信息、实验和功能研究,以及基于美国医学遗传学会(ACMG)规定的变异分类所需的家族分离分析。

实现这个复杂过程的自动化一直是众多诊断公司的“圣杯”,而迄今为止在规模或所需的准确度上均未能实现。

突破基因组学的首席执行官及医学遗传学会员Dr. Laura Li(PhD, FACMGG)强调了其影响:“我们的AI和临床分子遗传学家多年来一直在努力实现这一技术壮举,我们终于达成了一个将根本改变稀有疾病诊断格局的里程碑。”

作为该公司在稀有疾病诊断能力的证明,最近由不列颠哥伦比亚儿童医院进行的一项研究发现,该公司的AI驱动虚拟遗传学家™平台能立即解决额外10%的以前未诊断的临床病例。在该研究中,临床医生在5小时内处理了800个全外显子病例,并99%的情况下正确找到了前10名中的诊断变异。该研究还表明,临床医生分析单个病例所需的时间从数小时减少到仅仅几分钟。

新发布的文献数据库可通过订阅突破基因组学的虚拟遗传学家™平台获得,或者可通过API集成访问,融入客户现有的工作流程中。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

MYndspan任命Holmusk创始人兼首席执行官Nawal Roy为战略顾问

在Crowdcube活动及EMOTIV投资的推动下,MYndspan正在加深对基于证据的大脑健康的承诺。图片{ width=60% }


MYndspan是第一家向消费者提供临床级MEG大脑扫描的公司,今天宣布任命Holmusk创始人兼首席执行官Nawal Roy为战略顾问。Roy在行为健康数据科学和现实世界证据方面的专业知识将帮助加速MYndspan的使命,使可测量的大脑健康对所有人可及。
此任命是在MYndspan的股权众筹活动于Crowdcube启动之后,以及全球神经科技领袖EMOTIV的战略投资之后,突显了MYndspan致力于建立一个面向消费者的个性化、基于证据的大脑健康生态系统。
准备好掌控您的大脑健康了吗?成为首批在MYndspan位于伦敦的旗舰大脑健康中心体验世界上最先进的大脑扫描的人之一,该中心将于今年晚些时候开业。MYndspan的基于MEG的大脑扫描已经在《卫报》、《风尚杂志》和ITV新闻中引起关注。
在Crowdcube上投资MYndspan。
赋能精准大脑健康,建立在行为数据的金标准之上
Roy是Holmusk的现实世界数据平台NeuroBlu的架构师,该平台是世界上最大的行为健康数据库,拥有来自30多个健康系统的3500多万患者的纵向数据。他的工作在将心理健康护理从主观评估转变为数据驱动的科学中发挥了重要作用。
“Nawal表示:‘MYndspan正在构建大脑健康所亟需的:一种科学支持的、用户可接触的测量和监测我们大脑功能的方式。’‘他们对MEG的使用与Holmusk的目标相一致,即运用现实世界数据和客观指标来改善心理健康结果。’”
在数据基础上构建未来的大脑健康
MYndspan利用磁脑电图(MEG),这种技术是测量大脑功能的最精确、实时、非侵入性技术,创造了新的生物标志物,如功能性大脑年龄和大脑稳定性指数。Roy的任命将支持公司在以下方面的努力:

  • 利用现实世界证据验证和扩展生物标志物模型
  • 促进预防和早期干预的纵向追踪
  • 解锁新的临床研究和数据许可机会

“我们正在聚集来自神经科学、技术和行为健康的领导者,建立一个更智能的大脑护理模型,”MYndspan的共同创始人兼首席执行官Caitlin Baltzer说。“Nawal的战略洞察将对将我们的基于证据的方法扩展到数百万人至关重要。”
在1000亿美元以上的市场机会中占据领先地位
Roy的任命正值MYndspan准备开放其旗舰伦敦大脑健康中心,并与全球领导者包括MEGIN、BIOS Health、IMEDCO和EMOTIV扩大商业合作伙伴关系之际。通过这些合作伙伴关系,MYndspan正在建立作为精准大脑健康中心的地位。
随着神经系统疾病成为全球失能的主要原因,研究显示多达45%的痴呆症病例可以通过早期检测来预防,迫切需要主动的大脑健康解决方案。
加入我们,共同构建大脑健康的数据层。在Crowdcube上投资MYndspan,塑造基于世界上最先进的大脑扫描和个性化洞察的预防大脑护理的未来。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Goodfire筹集5000万美元A轮融资以推进人工智能可解释性研究

Funding from Menlo Ventures powers Goodfire’s mission to decode the neurons of AI models, reshaping how they’re understood and designed
Today, Goodfire, the leading AI interpretability research company, announced a $50 million Series A funding round led by Menlo Ventures with participation from Lightspeed Venture Partners, Anthropic, B Capital, Work-Bench, Wing, South Park Commons, and other notable investors.图片{ width=60% }


This funding, which comes less than one year after its founding, will support the expansion of Goodfire’s research initiatives and the development of the company’s flagship interpretability platform, Ember, in partnership with customers.
“AI models are notoriously nondeterministic black boxes,” said Deedy Das, investor at Menlo Ventures. “Goodfire’s world-class team—drawn from OpenAI and Google DeepMind—is cracking open that box to help enterprises truly understand, guide, and control their AI systems.”
Despite remarkable advances in AI, even leading researchers have little idea of how neural networks truly function. This knowledge gap makes neural networks difficult to engineer, prone to unpredictable failures, and increasingly risky to deploy as these powerful systems become harder to guide and understand.
“Nobody understands the mechanisms by which AI models fail, so no one knows how to fix them,” said Eric Ho, co-founder and CEO of Goodfire. “Our vision is to build tools to make neural networks easy to understand, design, and fix from the inside out. This technology is critical for building the next frontier of safe and powerful foundation models.”
To solve this critical problem, Goodfire is investing significantly in mechanistic interpretability research – the relatively nascent science of reverse engineering neural networks and translating those insights into a universal, model-agnostic platform. Known as Ember, Goodfire’s platform decodes the neurons inside of an AI model to give direct, programmable access to its internal thoughts. By moving beyond black-box inputs and outputs, Ember unlocks entirely new ways to apply, train, and align AI models — allowing users to discover new knowledge hidden in their model, precisely shape its behaviors, and improve its performance.
“As AI capabilities advance, our ability to understand these systems must keep pace. Our investment in Goodfire reflects our belief that mechanistic interpretability is among the best bets to help us transform black-box neural networks into understandable, steerable systems—a critical foundation for the responsible development of powerful AI,” said Dario Amodei, CEO and Co-Founder of Anthropic.
Looking ahead, Goodfire is accelerating its interpretability research through targeted initiatives with frontier model developers. By closely partnering with industry innovators, Goodfire will rapidly enhance and solidify the application of interpretability research. “Partnering with Goodfire has been instrumental in unlocking deeper insights from Evo 2, our DNA foundation model,” said Patrick Hsu, co-founder of Arc Institute – one of Goodfire’s earliest collaborators. “Their interpretability tools have enabled us to extract novel biological concepts that are accelerating our scientific discovery process.”
The company also plans to release additional research previews, highlighting state-of-the-art interpretability techniques across diverse fields such as image processing, advanced reasoning language models, and scientific modeling. These efforts promise to reveal new scientific insights and fundamentally reshape our understanding of how we can interact with and leverage AI models.
The Goodfire team unites top AI interpretability researchers and experienced startup operators from organizations like OpenAI and Google DeepMind. Goodfire’s researchers helped found the field of mechanistic interpretability, authoring three of the most-cited papers and pioneering advancements like Sparse Autoencoders (SAEs) for feature discovery, auto-interpretability frameworks, and revealing the hidden knowledge in AI models.
PR NewswirePR Newswire empowers communicators to identify and engage with key influencers, craft and distribute meaningful stories, and measure the financial impact of their efforts. Cision is a leading global provider of earned media software and services to public relations and marketing communications professionals.

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Josys推出行业首个SaaS管理评分卡

增强的访问自动化增强了SaaS治理和IT效率
Josys,这个简化IT工作方式的SaaS管理平台,今天发布了一款首创的分析仪表盘,旨在揭示和解决有效SaaS管理中的安全和效率缺口。图片{ width=60% }


此外,公司推出了一系列无障碍的自动访问管理工作流程,旨在实施零信任原则。总体而言,这些进展使组织能够获得必要的见解和功能,以主动应对SaaS安全风险、减少不必要的成本,并优化运营效率。

SaaS管理评分卡为客户提供改善SaaS健康的路线图
由于SaaS在大多数组织中失控,绝大多数IT领导者缺乏评估挑战范围的系统方法。Josys设计的新SaaS管理评分卡旨在提供SaaS管理绩效的整体评估,并提供一系列个性化建议,帮助IT减少与其SaaS足迹相关的风险。
在实践中,每个Josys客户将被呈现他们自己的SaaS管理得分,这是一个范围从1到100的汇总得分,基于专有算法,评估组织在应用程序、许可证、账户和访问四个关键维度上的SaaS管理实践的有效性。评分卡揭示了改进的关键机会,并提供一键访问以纠正影响其整体得分的问题。随着时间的推移,评分卡将提供纵向跟踪,以便IT领导者能够验证他们在SaaS管理方面的投资,并向整个组织的利益相关者展示进展。
“我们听到的最大挑战是客户不知道从何入手解决SaaS蔓延的问题,”Josys首席执行官松本康兼说。“我们开发SaaS管理评分卡是为了清晰地指导IT领导者采取行动,以立即改善他们的SaaS管理姿势。除了清理操作效率,我们设想SaaS管理得分作为一个关键的指引,确保我们的客户在其SaaS生态系统持续演变时保持正确的方向。”

自动访问管理工作流程实施零信任政策
在加强SaaS治理的承诺基础上,Josys扩展了其访问管理能力,新增自动化工作流程,使IT团队能够在无人工干预的情况下实施访问政策。这些新功能有助于保护访问权限、减少影子IT,并优化许可证使用。
显著的工作流程改进包括:

  • 自动许可证审核:IT可以设置策略来标记未使用的许可证并触发自动停用,或启动访问审核调查,发送给用户以收集有关许可证是否仍然需要的反馈。
  • 安全员工离职管理:IT团队可以自动化终止员工所有应用程序访问的完全停用,降低与孤立账户相关的安全风险。
  • 简化的访问审核:IT管理员现在可以直接向应用程序所有者请求反馈,而不是尝试从所有有权限访问应用程序的用户处收集调查反馈,从而简化访问审核,同时确保适当的用户权限。

增强的用户体验与集成
Josys还对其用户界面进行了重大增强,包括重新设计的导航菜单,以提供更直观的管理体验。新的导航简化了对访问、应用程序、许可证和安全等核心功能的访问。此外,Josys继续扩大其应用程序生态系统,其目录中的直接SaaS集成数量超过350个。与Jamf的最新集成为Josys的360度资产管理能力增加了对Apple设备的更广泛覆盖。
随着这些强大的更新,Josys继续为组织提供简化SaaS运营、加强安全和优化成本所需的工具,以应对日益复杂的IT环境。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Cato Networks推出Cato CASB的生成性AI安全控制

Cato CASB增强了一个影子AI仪表板,以全面可视化GenAI应用程序,还有一个强大的政策引擎来治理GenAI使用

Cato Networks,SASE领导者,今天推出了Cato CASB(云访问安全代理)的生成性AI(GenAI)安全控制。图片{ width=60% }


Cato CASB是Cato SASE云平台中的本机功能,现在增强了针对GenAI应用程序的新能力,包括影子AI仪表板和政策引擎。通过影子AI仪表板,企业可以检测、分析并获得对GenAI使用的洞察。借助政策引擎,企业可以控制用户在GenAI应用程序中的活动。通过结合这些功能,Cato使安全和IT团队能够在创新与风险管理之间取得平衡。

GenAI迅速成为员工提升生产力和自动化任务的首选工具。然而,这一GenAI采用的激增导致了日益严重的影子AI问题,员工在没有IT监督的情况下使用GenAI应用程序。根据Gartner®的预测,“到2027年,40%以上的AI相关数据泄露将由于跨境不当使用生成性AI(GenAI)造成。”¹

影子AI的上升趋势使企业面临安全、合规和运营风险。敏感的公司数据可能在不知情的情况下与GenAI应用程序共享,可能违反监管要求,以及错误信息或偏见输出可能影响商业决策。

通过针对Cato CASB的新GenAI安全控制,安全和IT团队可以:

  • 发现影子AI:通过识别所有GenAI应用程序并对其进行分类,区分官方和非官方用途。Cato提供了950个以上的GenAI应用程序目录。
  • 控制GenAI应用程序访问:通过在细粒度级别定义和执行访问政策,确保GenAI的负责任使用。控制哪些GenAI应用程序可以访问,以及在其中可以进行哪些操作(上传、下载等)。
  • 保护敏感数据:限制或防止敏感数据被上传到大型语言模型(LLMs),实时避免数据安全和机密性违规。
  • 维护治理和合规:在符合公司政策和监管标准的情况下,全面可视化所有用户活动,以促进GenAI的使用。

“企业需要智能的方式来管理GenAI,” Cato Networks产品管理副总裁Ofir Agasi表示。“通过我们对Cato CASB的增强,我们正在利用AI于Cato SASE云平台中,发现、分类和保护GenAI应用程序的使用。我们为安全和IT团队提供工具,以负责任地管理风险并促进创新。”

“Cato Networks让我们在拥抱GenAI时,没有担心暴露敏感数据或知识产权的恐惧。” CloudFactory安全运营负责人Shayne Green表示。“借助Cato CASB的新GenAI安全控制,我们可以以风险受控的方式采用GenAI工具。”

可用性
针对Cato CASB的GenAI安全控制目前已在全球范围内对客户普遍提供。

资源

了解有关Cato CASB中新的GenAI安全控制的更多信息,请访问博客。
了解Cato对AI安全的看法和Cato的AI/ML能力。
针对Cato CASB的GenAI安全控制是Cato最新的AI创新,并在2025 SASEfy中宣布,这是Cato的全球虚拟活动。今年的活动聚焦于SASE和AI。如果您错过了2025 SASEfy,请注册以按需观看录制内容。

Gartner免责声明
¹ Gartner新闻稿,“Gartner预测到2027年,40%的AI数据泄露将源于跨境GenAI误用,”2025年2月17日。
GARTNER是Gartner, Inc.及其在美国和国际上的附属公司的注册商标和服务标记,经过许可在此使用。版权所有。
PR NewswirePR Newswire使传播者能够识别并与关键影响者接触,撰写和分发有意义的故事,并衡量其努力的财务影响。Cision是全球领先的媒体软件和服务提供商,致力于公共关系和市场传播专业人士。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Nature子刊,EPFL与上海交大用多模态Transformer精准预测全局最低吸附能,助力催化剂设计

在大规模催化剂筛选中,快速评估催化剂表面与吸附质之间的全局最低吸附能(Global Minimum Adsorption Energy, GMAE)是一项关键任务。然而,由于每种表面/吸附质组合往往对应多个吸附位点与复杂构型,传统基于密度泛函理论(DFT)的计算方法面临高昂的时间和资源成本。


为应对这一挑战,来自洛桑联邦理工学院(EPFL)的 Philippe Schwaller 教授团队与上海交通大学(SJTU)贺玉莲教授团队联合提出了一种多模态 Transformer 框架 AdsMT,该研究的共同一作陈俊武(现 EPFL 博士生)和黄旭(现 UC Berkeley 博士生)。

不依赖具体吸附位点信息的前提下,AdsMT 可高效预测 GMAE。该方法以催化剂表面的图结构和吸附质的特征向量为输入,通过引入跨模态注意力机制(cross-attention),有效捕捉吸附质与表面原子之间的复杂交互,从而避免了对所有可能吸附构型的穷举计算。

该研究以「A multi-modal transformer for predicting global minimum adsorption energy」为题,于 2025 年 4 月 4 日刊登于《Nature Communications

A screenshot of a computer AI-generated content may be incorrect.

AdsMT 模型架构

Fig. 1

AdsMT 框架由三个模块组成:用于编码催化剂表面的图编码器用于编码吸附质的向量编码器,以及用于融合表征并预测 GMAE 的跨模态编码器

其中,跨模态编码器结合了跨注意力(cross-attention)与自注意力(self-attention)两种机制,精细建模吸附质与表面原子之间的复杂交互。

在第一个跨注意力层中,吸附质向量表征与表面图结构表征拼接形成查询矩阵(Q),而原子嵌入(atomic embeddings)与原子深度嵌入(depth embeddings)则作为键(K)和值(V)矩阵输入。其中,原子深度向量用于编码原子在表面结构中的相对层级位置(如顶层或底层原子),帮助模型理解吸附位点的空间分布。

随后在自注意力层中,吸附质、表面原子及其结构信息被统一堆叠输入,进一步通过自注意力机制(Q=K=V)整合为统一的多模态表征,用于最终的吸附能预测。

GMAE 基准数据集

Fig. 3

为系统评估模型在不同场景下的泛化能力,研究团队构建了三个具有代表性的用于预测全局最低吸附能(GMAE)的基准数据集,分别为 OCD-GMAEAlloy-GMAEFG-GMAE。每个样本对应一个唯一的催化剂表面与吸附质组合,为 AdsMT 及后续研究提供了稳定、可靠的评测基础。

AdsMT 模型表现及迁移学习

Fig. 4

AdsMT 融合了定制化图编码器与迁移学习策略,展现出优异的预测性能。研究团队专门设计了一种图神经网络 Transformer 编码器——AdsGT,用于高效提取表面原子间的结构信息。为系统评估其性能,团队将 AdsGT 与现有多种主流图编码器进行了对比,并在上述三个 GMAE 基准数据集上进行了统一评测。除了采用平均绝对误差(MAE)作为基本指标,研究还引入了一个更加严格的评价标准——成功率(Success Rate, SR),即预测值与 DFT 真值误差小于 0.1 eV 的比例。

结果显示,AdsMT 结合 AdsGT编码器后的表现相较于结合其他图编码器而言更加优异,在Alloy-GMAE 数据集上,达到了 0.143 eV 的 MAE66.3% 的 SR,在 FG-GMAE 数据集中,取得的**最低 MAE 为 0.095 eV,SR 达到 71.9%**。

为进一步提升模型在数据稀缺场景下的表现(如数据点小于一千且表面成分复杂,涉及 54 种元素的 OCD-GMAE 数据集),研究团队引入了迁移学习策略,先在包含局部最低吸附能(LMAE)的大型数据集上进行预训练。

为此,研究团队从 OC20 数据集中清洗构建了一个新数据集 OC20-LMAE,涵盖 36 万余组表面/吸附质组合与其对应的 LMAE 值。在此基础上进行迁移学习后,AdsMT 在 OCD-GMAE 上取得了显著提升,**MAE 降至 0.389 eV,SR 提高至 22.0%**。

模型可解释性:最优吸附位点识别

除了预测吸附能外,识别最优吸附位点在催化剂设计与反应机理研究中同样至关重要。对此,研究团队进一步探索了跨注意力层中的注意力分数,用于估计表面上最有可能发生吸附的位置。值得一提的是,AdsMT 在训练时并未接收任何吸附位点或构型信息,但其预测结果与 DFT 基准数据具有较高一致性,展现出出色的可解释性和实际应用潜力。

不确定性量化评估

在虚拟筛选实际应用中,模型能否提供可靠的不确定性估计尤为关键,有助于科研人员判断预测可信度,从而更高效地分配实验资源。为此,研究团队训练了多个相互独立的 AdsMT 模型副本,通过预测结果的方差来估计不确定性。结果表明,AdsMT 的不确定性估计与预测 MAE 高度相关,尤其在低不确定性区间具有极高的预测准确度。

进一步分析显示,AdsMT 的不确定性估计具有良好的校准性和统计显著性,有效避免了高估或低估风险的问题,为其在实际高通量催化剂筛选中的应用打下了基础。

总结与展望

研究团队提出了一个通用的多模态 Transformer 框架 AdsMT,可在无需吸附位点信息的情况下,直接预测表面-吸附质体系的最低吸附能(GMAE)。该模型融合了催化剂表面图与吸附质特征向量两种模态,在GMAE 基准数据集上取得了优异表现,并具备良好的泛化能力。AdsMT 对原子连接关系不变的几何扰动具有鲁棒性,并在预测效率上远超现有方法——比 DFT 快近8 个数量级,比 MLIP+启发式搜索快 4 个数量级。高效率及低成本使得 AdsMT 适用于大规模催化剂的虚拟筛选

面对数据稀缺问题,研究显示迁移学习可有效提升性能。

未来可结合机器学习势函数(MLIP)获取粗略 GMAE 数据进行预训练,进一步引入主动学习策略,以扩展数据覆盖范围并增强模型可靠性。此外,AdsMT 的跨注意力得分具备识别吸附位点的潜力

另外,可尝试将吸附构型等领域知识融入训练过程,或将原子重要性作为预测目标纳入损失函数,以增强模型的结构感知能力。

进一步地,AdsMT 可与 MLIP 和 DFT 联合应用于特定反应的催化剂筛选任务:先通过 AdsMT 快速锁定 GMAE 低且不确定性小的候选表面,随后使用 DFT 精细验证,从而在大幅降低计算成本的同时实现可靠的虚拟筛选流程

论文链接:https://www.nature.com/articles/s41467-025-58499-7



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB