用最直观的动画,讲解LLM如何存储事实,3Blue1Brown的这个视频又火了

本文根据视频整理而来,有听错或理解不当之处欢迎在评论区指出。

向大模型输入「Michael Jordan plays the sport of _____(迈克尔・乔丹从事的体育运动是……)」,然后让其预测接下来的文本,那么大模型多半能正确预测接下来是「basketball(篮球)」。


这说明在其数以亿计的参数中潜藏了有关这个特定个人的相关知识。用户甚至会感觉这些模型记忆了大量事实。

但事实究竟如何呢?

近日,3Blue1Brown 的《深度学习》课程第 7 课更新了,其中通过生动详实的动画展示了 LLM 存储事实的方式。视频浏览量高达 18 万次。

去年 12 月,谷歌 DeepMind 的一些研究者发布了一篇相关论文,其中的具体案例便是匹配运动员以及他们各自的运动项目。

虽然这篇论文并未完全解答有关 LLM 事实存储的问题,但也得到了一些颇为有趣的结果,其中的一个重点是:事实保存在网络中的一个特定部分,这个部分也就是我们熟知的多层感知器(MLP)。

在 3Blue1Brown 刚刚更新的这期视频中,他们用 23 分的视频演示了大型语言模型如何存储和处理信息,主要包括以下部分:

在演示视频中,3b1b 的作者口齿清晰、语言标准,配合着高清画面,让读者很好地理解了 LLM 是如何存储知识的。

很多用户在看完视频后,都惊讶于 3Blue1Brown 教学质量:

还有网友表示,坐等更新这期视频已经很久了:

接下来我们就深入 MLP 的细节吧。在这篇文章中,机器之心简要介绍了核心内容,感兴趣的读者可以通过原视频查看完整内容。

MLP 在大模型中的占比不小,但其实结构相比于注意力机制这些要简单许多。尽管如此,理解它也还是有些难度。

为了简单,下面继续通过「乔丹打篮球」这个具体示例进行说明吧。

首先,我们先简单了解一下 Transformer 的工作流程。Transformer…

事实保存在网络中的一个特定部分,这个部分也就是我们熟知的多层感知器(MLP)。

继续「乔丹打篮球」这个示例。MLP 是如何存储这一事实的。

首先我们做一些假设:在高维空间中有这样三个不同的向量,它们分别定义了乔丹的姓 Jordan 和名 Mic…

MLP 的内部细节。

当这个编码了上述文本的向量序列穿过一个 MLP 模块时,该序列中的每个向量都会经历一系列运算:

之后,会得到一个与输入向量同维度的向量。然后再将所得向量与输入向量相加,得到输出向量。

序列中的每个向量都会经…

需要注意的是,这些向量编码的并不仅仅是单个词汇,而是会在信息在网络中流动时根据周围的环境和模型的知识吸收更加丰富的含义。

总之…

经过上述线性过程之后,需要对输出向量进行整理。这里通常会用到一个非常简单的函数:整流线性单元(ReLU)。

继续我们的例子,中间向量的第一个元素在当且仅当全名是 Michael Jorda…

对于矩阵乘法,视频中分享了一个视角。我们可以将矩阵乘法看作是将矩阵的每一行都视为一个向量,然后将这些行与被处理的向量(这里用…

GPT-3 中有 1750 亿参数是如何计算的?

在接下来的章节中,作者介绍了如何计算 GPT-3 中的参数,并了解它们的位置。

对于 GPT-3 来说,嵌入空间的大小是 12288,将它们相乘,…

视频最后介绍了叠加(Superposition)这一概念。证据表明,单个神经元很少像迈克尔・乔丹那样代表某个单一特征,实际上可能有一个很…

感兴趣的读者可以参考原视频,了解更多内容。

3blue1brown 介绍

3blue1brown 是一个专门制作可视化讲解视频的频道,其内容覆盖数学、人工智能等领域,每门课都配有直观生动的动画演示,帮助观众加深对…

除了 YouTube 上 640 万订阅者之外,3b1b 在 B 站上还有官方账号,粉丝数量超过 215 万,每个视频都是 10 万以上播放量,甚至有老…

作为一直以来都十分受欢迎的理解数学概念的网站,3blue1brown 的可视化一直都做得非常好。在本期视频中,我们可以直观感受到了。

3b1b 的创立者 Grant Sanderson,毕业于斯坦福大学数学系,他的大部分视频和动画引擎是独立完成的,这是他此前在斯坦福学习时的业余项目。

在斯坦福,Grant「走了点计算机科学的弯路」,随后毕业加入了 Khan Academy 并担任了两年的数学讲师,在 2016 年之后,他开始全身心投…

如果你对自己的学习能力信心不足,或许看看 3b1b 的内容会是一个好主意,全程动画演示,让你对知识点明白的彻彻底底。

参考链接:https://www.youtube.com/watch?v=9-Jl0dxWQs8



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

用最直观的动画,讲解LLM如何存储事实,3Blue1Brown的这个视频又火了

https://www.gptnb.com/2024/09/03/2024-09-02-auto5_2-ytYeU1/

作者

ByteAILab

发布于

2024-09-03

更新于

2025-03-21

许可协议