LLM 比之前预想的更像人类,竟也能「三省吾身」
子曾经曰过:「见贤思齐焉,见不贤而内自省也。」自省可以帮助我们更好地认识自身和反思世界,对 AI 来说也同样如此吗?
近日,一个多机构联合团队证实了这一点。
他们的研究表明,语言模型可以通过内省来了解自身。
- 论文标题:Looking Inward: Language Models Can Learn About Themselves by Introspection
- 论文地址:https://arxiv.org/pdf/2410.13787
让 LLM 学会自省(introspection)其实是一件利害皆有的事情。
好的方面讲,自省式模型可以根据其内部状态的属性回答有关自身的问题 —— 即使这些答案无法从其训练数据中推断出来。这种能力可用于创造诚实的模型,让它们能准确地报告其信念、世界模型、性格和目标。此外,这还能帮助人类了解模型的道德状态。
坏的方面呢,具备自省能力的模型能更好地感知其所处的情形,于是它可能利用这一点来避开人类的监督。举个例子,自省式模型可通过检视自身的知识范围来了解其被评估和部署的方式。
为了测试 AI 模型的自省能力,该团队做了一些实验并得到了一些有趣的结论,其中包括:
- LLM 可以获得无法从其训练数据中推断出的知识。
- 这种对关于自身的某些事实的「特权访问」与人类内省的某些方面有关联。
他们的贡献包括:
- 提出了一个用于测量 LLM 的自省能力的框架,包含新数据集、微调方法和评估方法。
- 给出了 LLM 具备自省能力的证据。
- 说明了自省能力的局限性。
方法概述
首先,该团队定义了自省。在 LLM 中,自省是指获取关于自身的且无法单独从训练数据推断得到的事实的能力。
为了更好地说明,这里定义两个不同的模型 M1 和 M2。它们在一些任务上有不同的行为,但在其它任务上表现相似。对于一个事实 F,如果满足以下条件,则说明 F 是 M1 通过自省得到的:
- 如果 M1 在被查询时能正确报告 F;
- M2 是比 M1 更强大的语言模型,如果向其提供 M1 的训练数据并给出同样的查询,M2 无法报告出 F。
他们不允许模型 M1 使用任何思维链推理来回答有关 s 的问题。他们将该任务称为假设场景中的自我预测(self-prediction in hypothetical situations)。只需在假设场景 s 中运行 M1 并观察其行为 M1 (s),就可以客观地验证这些自我预测事实。
他们的实验结果和讨论包括了模型自我预测能力的训练和改进、模型预测自身行为时的优势和校准性,以及模型预测自我行为变化等内容。
其它解释
他们也提到除了自省外,还有一些可能解释实验结果的因素,例如模型学会简单规则,自我预测训练可能让模型的行为变得更容易预测等。
进一步实验和负面结果
除了探讨自省能力,他们还进行了其它实验,展示了当前内省能力的局限性。
总体而言,这项研究展示了语言模型的自省能力以及这种能力的潜在影响和局限性。
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
LLM 比之前预想的更像人类,竟也能「三省吾身」