文 | 王启隆
出品丨AI 科技大本营(ID:rgznai100)
近日,27 岁天才创始人 Joel Hellermark 分享了自己和「AI 教父」 Geoffery Hinton 的最新采访。Hinton 在对话中回忆自己的人工智能生涯,谈论 神经网络、Scaling Law、多模态学习、模拟计算和人工智能伦理安全 等多个话题,并聊了聊他的得意门生 Ilya Sutskever ( )。
Geoffery Hinton
受访者非常「重量级」,但采访者其实也不容小觑。Joel Hellermark 自幼在东京长大,13 岁开始编码,14 岁创立了一家视频推荐公司。在一家数字广告公司工作后,他于 19 岁创办了 人工智能研究实验室 Sana(当时还不叫 Sana AI,而是叫 Sana Labs),并在 2023 年的时候筹齐 8000 万美元融资。
Joel Hellermark
Hellermark 坚信学习的力量,所以他没有选择上大学 ,而是通过斯坦福公开的课程学习如何编码 。他创办 Sana 公司的目标就是四个字:「改变教育」。Hellermark 希望通过培养员工学习和访问信息的能力,来提高员工的工作效率。
话不多说,以下是采访全文:
人工智能生涯:从研究大脑开始
Hellermark: 你是什么时候开始编程的?
Hinton: 我从英国刚到卡内基梅隆大学的时候。
1982 年
Hinton 前往 卡内基梅隆大学
他在那担任 计算机科学系教授
直至 1987 年
我在英国的研究单位时,每晚六点钟大家都会去酒吧喝一杯。
但到了 卡内基梅隆 几周后,我还没交到多少朋友。所以在 某个周六晚上,我发现自己 不知道该做什么,于是决定去实验室编写一些程序:因为实验室里有一台 Lisp 机器 ,家里没有。
Lisp 机器
所以,我在那个周六晚上的九点左右前往卡内基梅隆的实验室,里面人声鼎沸,所有学生都在那里研究未来,他们相信自己接下来要做的事情将会改变计算机科学的进程。这与我在英国看到的情况截然不同,令我耳目一新。
Hellermark : 能不能把我们带回一切的起点 —— 剑桥时期的 Geoffrey( ~ 1970 年 ),试图理解人脑。脑研究是什么样的体验?
Hinton : 非常令人失望 。我为了研究大脑,先是去学习 生理学 。在夏季学期,( 剑桥的 )老师打算教我们大脑是如何工作的,但实际上他们只教了我们神经元如何传导动作电位……这非常有趣,但不是大脑工作的原理。所以,那堂课真是令人极度失望。
于是我又转向了 哲学 ,因为我以为他们会告诉我心灵是如何运作的。结果也是非常令人失望。最终,我选择到爱丁堡学习 人工智能 。人工智能倒是更有趣一些,至少我可以模拟事物,从而测试理论。
1978 年
在 爱丁堡大学
Hinton 获得了 人工智能博士学位
Hellermark : 你还记得是什么激起了你对人工智能的兴趣吗?是一篇论文吗?还是某位特定的人向你介绍了这些想法?
Hinton : 我想是因为 唐纳德·赫布( Donald Hebb ) 的一本书,它对我影响很大。里面介绍了如何学习神经网络中的连接强度。
Donald Hebb 曾在【 行为的组织 】一书中
提出了著名的「突触学习学说」
早期我还读过 约翰·冯·诺伊曼( John von Neumann ) 的一本书( 【计算机与人脑】 ),书里介绍了大脑的计算方式以及大脑计算与普通计算机的区别。
Hellermark : 当时你是否确信书里的这些学说?你的直觉是什么?
Hinton : 我当时的想法是,大脑学习肯定有其独特的方式。显然,大脑不是通过预设各种程序,再运用逻辑推理规则 —— 从一开始我就觉得这种方法很荒谬。所以我们必须弄清楚大脑是如何 在神经网络中调整连接以完成复杂任务 的。冯·诺依曼和 图灵( Alan Turing ) 都相信这一点,他们二人在逻辑方面都很出色,且他们并不认同这种逻辑方法。
Hellermark : 你是如何平衡「 研究神经科学 」和「 开发 AI 算法 」的?你早期从神经科学研究中获得了多少灵感?
Hinton : 其实 我并没有深入研究过神经科学,我只是常被大脑工作原理的相关知识所启发 。大脑中有大量的神经元,它们执行「 相对简单 」的操作 —— 通过神经元接收输入、进行加权处理并产生输出,以及通过调整权重来优化整体功能 —— 在概念上,这些操作听起来很简单,但实际上并非如此, 问题在于如何调整这些权重以使整个系统实现有益的功能 。
Ilya:凭直觉思考的天才
Hellermark : 你还记得以前经历过的合作吗?
Hinton : 我在卡内基梅隆大学时曾与 泰伦斯·塞诺夫斯基( Terry Sinofsky ) 有过许多交流,他当时在巴尔的摩( Baltimore )的约翰霍普金斯大学( Johns Hopkins )。
Terrence Sinofsky
我们每个月定期联络,要么他开车来匹兹堡,要么我开车去巴尔的摩。两地相距 250 英里( 相当于从北京到石家庄的距离 )。我们会一起度过一个周末,共同研究 玻尔兹曼机 ( Boltzmann Machines,由玻尔兹曼分布得名 ) 。 那是我做过的最令人兴奋的研究 ,并且产生了很多非常有趣的技术成果,我们曾一度以为那就是大脑的工作方式。
1985 年
Hinton 和 Sinofsky 发明了 玻尔兹曼机
这是随机神经网络和循环神经网络的一种
我还与 彼得·布朗( Peter Brown ) 有过一次非常好的交流,他是一位非常优秀的统计学家,在 IBM 从事语音识别工作。后来他作为一个更成熟的学生来到卡内基梅隆大学攻读博士学位( 编者注:实际上,Hinton 是 Brown 的博导 )。
Brown 教会我许多关于语音的知识,甚至还帮助我弄懂了 隐马尔可夫模型 ( Hidden Markov Model, HMMs )。 我认为我从他那里学到的比他学到的多,而这就是我想要的那种学生 。
当时我正在着手于带有类似结构的网络进行 反向传播 ( backpropagation )研究,但尚未采用「隐藏层」这一明确命名。Brown 让我受到了隐马尔可夫模型中「隐藏」状态概念的启发,使得我们后来共同决定采用「 隐藏层 」( hidden layers )一词来描述神经网络中那些 无法直接观测、却对模型学习和预测起到关键作用 的中间层。
Hellermark : 请带我们回忆你的另一位学生 —— Ilya Sutskever 。
Hinton : 我当时在我的办公室里编程,时间可能是某一个周日。突然有人敲门 —— 不是普通的敲门声,而是有点...几乎是急促的敲门声。于是我走过去开门,门口站着一位年轻的学生。他告诉我,比起暑期炸薯条的工作,他更渴望能在我的实验室工作。所以我告诉他,「 那你为什么不预约一下,我们谈谈呢? 」
Ilya 说:「 那就现在谈谈吧! 」 这正是他的性格。
所以我们聊了一会儿,我给了他一篇论文阅读,那是关于反向传播的【自然】( Nature )论文。我们约定一周后再见面,他回来后说:「 我没看懂。 」
我感到非常失望。我想:「 他看起来挺聪明的,但这只是链式法则而已。理解起来并不难。 」
他却说:「 哦,不,不,那个我懂。我只是不明白 —— 为什么不直接将梯度(即损失函数相对于模型参数的导数)应用于一个更合理的函数优化器呢? 」 后来,这个问题成为了我们多年研究探讨的重点。Ilya 就是这样,他对事物的 直觉 总是非常敏锐。
左一为 Ilya ,右一为 Hinton
中间则是 Alex Krizhevsky
三人合作设计了 AlexNet
在 ImageNet 比赛取得了冠军
Hellermark : 你认为是什么让 Ilya 有着这样的直觉?
Hinton : 我不知道。我觉得他总是独立思考。他从小就对人工智能感兴趣,且他显然数学很好,所以...很难确切知道原因。
Hellermark : 你们俩是如何交流的?你们各自扮演着什么样的角色?
Hinton : 非常有趣。
我记得有一次我们试图用数据制作复杂的地图,其中用到了混合模型, 目标是 利用相同的相似性集合生成两张地图 。在一张地图上,「 bank(银行) 」可能靠近「 greed(贪婪) 」,而在另一张地图上,「 bank(银行) 」则可能靠近「 river(河流) 」。
由于在一张地图上, 「bank」 不能同时靠近 「greed」 和 「river」 这两个相距甚远的词语。因此,我们需要创建地图的混合体。这项工作在 MATLAB 编程环境中进行,需要大量重构代码以实现正确的矩阵乘法操作。
在这个过程中,Ilya 对反复修改代码感到厌烦。有一天他告诉我, 「 我要为 MATLAB 编写一个接口,这样我就可以用另一种语言编程,从而直接将其转换成 MATLAB 代码。 」
我告诉他:「 不行,Ilya,这会花掉你一个月的时间。我们得继续推进这个项目。别被那个分心了。 」
Ilya 却说:「 没关系,我今天早上已经搞定了。 」
Hellermark : 哈哈,真 是令人难以置信。 在这些年里,最大的转变不仅仅是算法,还有 规模 ( scale )。你是如何看待这些年来的数据规模增长?
Hinton : Ilya 很早就有了「 增加规模会有更好效果 」的直觉 。他一直主张「 只要模型做得更大,效果就会更好 」,而我起初认为这只是逃避复杂问题的一种方式,告诉他「 除了扩大规模,还需要有新的创意和想法 」。
事实证明, Ilya 的观点基本上是对的,虽然新想法如 Transformer 架构确实带来了很大帮助,但真正推动进步的是数据规模的扩大和计算能力的提升 。在早期,我们未曾预料到计算机的速度会提高上亿倍 —— 我们原本预计最多只能提升百倍。因此,我们当时一直尝试通过巧妙的创新想法来解决问题,而实际上,如果当时就有如今这么大规模的数据和计算能力,许多问题可能早已迎刃而解。
大约在 2011 年,我和 Ilya 以及另一位研究生 詹姆斯·马丁( James Martens ) 合作了一篇论文,利用维基百科( Wikipedia )作为数据源,尝试预测下一个 HTML 字符,结果出奇地好。我们一直对模型的表现感到惊讶:虽然我们不敢确定模型是否真的理解了内容,但从表现上看仿佛它确实理解了一样,令人难以置信。
James Martens
在数届 机器学习国际会议(ICML) 上
他们师徒三人 多次合作发表论文
后来, Martens 加入了 Google Deepmind
Hellermark : 你在选拔人才的时候主要依靠 直觉 还是 反复的揣度 ?当 Ilya出现在你面前时,你的第一印象是「这是个聪明人,我想和他合作。」 ——还是对此有更多思考?
Hinton : 有时候就是说不上来为什么。和 Ilya 交谈不久后,他给我的感觉是「 非常聪明 」。然后再和他多聊一会儿,我就发现他显然不仅非常聪明,而且直觉很好,数学也很强。所以选择他根本不需要犹豫。
还有一位同样杰出的人才,那是在某次 NIPS 会议上,我们贴了一张海报,这时有人走过来开始询问关于海报的问题。他提出的每一个问题都深入洞察了我们工作的不足之处。五分钟后,我就向他提供了博士后职位。那个人就是 David Mackay ,我很遗憾他去世了( Mackay 在 2016 年因胃癌逝世 )。
David Mackay
优秀的学生类型多样,有的人可能在技术创新上不那么突出,但在技术实现上极为出色;另一些人可能技术实力一般,但极其富有创造力。理想情况下,最好的人才是二者的结合体,但现实中并不总是能找到这样的人。在实验室环境下,我认为需要集合多种类型的学生,这样才能促进团队的多样性和创新能力。但我仍然相信直觉,有些人的直觉就是天生敏锐的。
Hellermark : 所以为什么有些人的直觉更好?我们能培养这种直觉吗?
Hinton : 拥有更好直觉的人通常不会接受无用的信息 。盲目相信所听到的一切,会导致形成模糊且不具备辨别力的思维框架,这是无益的。相反,那些拥有清晰思维框架的人,会在接收新信息时尝试将其与自己的认知框架相匹配,如果新信息不符合框架,则会选择拒绝。
我认为, 拥有一个坚定的世界观并据此筛选信息 ,是培养良好直觉的关键路径。如果你的直觉已经被验证是良好的,就应该相信它们。而对于直觉不佳的人来说,无论采取何种策略,效果可能都差不多,因此他们也可以选择相信自己的直觉。
Scaling Law:GPT-4 的创造力甚至会超过人类
Hellermark : 可以为我们科普一下这些模型是如何训练来 预测 下一个单词( predict the next word ) 的吗?为什么说这是一种错误的思维方式?
Hinton : 我其实并不认为这是错误的思考方式。实际上,我制作了第一个 使用嵌入和反向传播的神经网络语言模型 。数据非常简单,只运用了三元组。它将每个符号转换为嵌入,然后让这些嵌入相互作用以预测下一个符号的嵌入,并从那里预测下一个符号。然后通过整个过程的反向传播来学习这些三元组,我的研究相当于展示了它的 泛化能力 。
大约 10 年后, 约书亚·本吉奥( Yoshua Bengio,和 Hinton 齐名的 「人工智能三教父」 ) 使用了一个非常类似的网络,并展示了它 在真实文本上的效果 。
Yoshua Bengio
在 麦吉尔大学 读研究生时
Bengio 读到了 Hinton 的论文
从此他坚定地走在神经网络的道路上
度过了「AI 冬天」最寒冷的时期
他和 Hinton、LeCun 共同获得了 2018 年图灵奖
然后再过了 10 年,语言学家们开始相信嵌入的概念,所以这是一个缓慢的过程。我认为 预测下一个词不仅仅是基于统计的简单预测 ,比如传统自动补全那样基于词频的匹配。在现代语言模型中,为了准确预测下一个词,模型必须理解上下文,这涉及到对问题或对话内容的理解。因此,预测下一个词的行为实际上迫使模型去理解语境,这种理解方式与人类的思维方式有相似之处。
尽管外界有人质疑这些模型缺乏像人类一样的推理能力,但随着模型规模的扩大,即使没有特别设计用于推理的组件,它们也展现出了推理的能力,并且 随着规模继续增长,它们的推理能力也将随之增强 。
Hellermark : 是什么让 AI 模型能够学习如此广泛的领域?
Hinton : 这些大语言模型所做的,是寻找共同的结构 。通过发现共同结构,它们可以使用这种共同结构来编码事物,因为这样更高效。
让我给你举个例子。如果你问 GPT-4,「 为什么堆肥堆像原子弹? 」
大多数人无法回答这个问题,他们从未考虑过这一点,而是会认为原子弹和堆肥堆是非常不同的东西。但 GPT-4 会告诉你:「 嗯,它们的能量规模非常不同,时间规模也非常不同。但相同的是,当堆肥堆变热时,它产生的热量更快。而当原子弹产生更多中子时,它产生的中子更快 。 」
显然,GPT-4 能从这个问题 理解并联想到 链式反应 的概念。正是利用这种理解, 将所有信息压缩到其权重中 。如果它正在这样做,那么它也将对数百种我们尚未看出类比的事物进行同样的处理,而这正是 创造力产生 的地方,源自于在表面上截然不同的事物之间看到这些类比。
因此,我认为 GPT-4 在规模扩大后,将会变得非常有创造力 。我认为那种认为「 它只是在重复所学知识的观点,只是在拼凑已经学过的文本 」的观点是完全错误的。 它的创造力甚至会超过人类 。
Hellermark : 「人工智能不会仅仅重复我们迄今为止发展的人类知识,而且有可能实现超越」……我认为这是我们尚未完全见识到的, 我们基本上仍处于当前科学水平。你认为什么将使人工智能超越人类?
Hinton : 我们在更有限的情境中已经见过这种情况。
以 AlphaGo 为例,在与 李世石 的那场著名比赛中, 第 37 手 ,AlphaGo 下了一步所有专家都认为必定是失误的棋,但实际上后来他们意识到这是一步妙手。所以那是在围棋这种有限领域内的创造性。我认为 随着这些系统变得更大,我们会看到更多这样的情况 。
「传奇落子」 第 37 手(Move 37)
Hellermark : AlphaGo 的不同之处还在于它使用了 强化学习 ,这使它能够超越当前的状态。它最初是从模仿学习开始的,观察人类如何玩游戏,然后通过自我对弈,发展得远超于此。你认为这是否是当前机器学习缺失的要素?
Hinton : 我认为这很可能是一个缺失的要素,没错。
AlphaGo 和 AlphaZero 的自我对弈是其能够做出这些创造性走法的重要原因。但我不认为这是完全必要的。很久以前我做过一个小实验,就是训练一个神经网络来识别手写数字,即 MNIST 的案例。
我故意在手写数字识别任务的训练集中加入了 50% 的错误标签, 并保持这种状态。因此它不能通过简单地看到相同的例子,有时是正确答案,有时是错误答案,来平均消除错误。 而即便如此, 神经网络通过反向传播训练后,依然能够将错误率降低到 5% 或更低 。这意味着网络有能力从错误中学习,区分哪些数据标记可能是错误的,并且从中提取出正确的模式 。
这就是聪明的学生有时候能比他们的导师更聪明的原因。当导师告诉学生 所有 的信息时,有一半会被聪明的学生认为是「废话」,左耳朵进右耳朵出;还有另一半知识被学生们吸取,最终导致学生变得比导师更聪明。
所以 实际上 这些 大型神经网络的表现可以远超其训练数据,而大多数人没有意识到这一点 。
MNIST 数据集
Hellermark : 那么,你期望如何在人工智能模型中加入推理能力呢?是 通过一种思维链的方式让模型自我反馈其推理过程 ,还是说 模型不断增长就能自然提升推理能力 ?
Hinton : 我的直觉是, 随着人工智能模型,尤其是大语言模型的规模扩大,它们在推理能力上将自然地得到提升 。
我想将这一过程与人类的认知过程相比较。人类通过直觉进行初步判断,并利用推理来修正和完善这些直觉。同样,AlphaGo 和 AlphaZero 这类系统通过结合直观的评估函数与深入的 蒙特卡洛树搜索 ( Monte Carlo rollout )来优化决策,这种机制允许模型不仅仅模仿人类已有的知识和行为,还能在某种程度上创新。这正是 AlphaGo 能够做出第 37 步那种创造性走法的原因。它拥有更多的训练数据,可以使用推理来检查下一步正确的走法应该是什么。
人脑解密:符号与向量的共生
Hellermark : 你对多模态有什么看法?多模态是如何影响人工智能模型理解和生成类比的能力的?—— 我的意思是, 当模型不仅仅处理语言,还能处理图像、视频和声音等多媒体信息时,这将如何改变模型的本质和能力 ?
Hinton : 多模态输入会让模型有显著的改进 ,尤其是在理解空间关系和物体方面。例如,一个能够「看」并「操作」物体的多模态系统相比仅依赖语言的系统,能更深刻地理解物体。虽然语言可以传达大量信息,但多模态学习因为结合了多种感官输入,提供了更加丰富的上下文,使得学习过程更为直接和高效。
而且,利用多模态数据( 如预测 YouTube 视频的下一帧 )可以让模型获得更多的训练数据,同时减少对语言的依赖。因此,我认为这些 多模态模型显然将会占据主导地位 。通过这种方式,你可以获取更多数据。它们需要的语言更少。这里其实有一个哲学观点,即 你可以仅通过语言学习到一个非常好的模型,但从多模态系统中学习要容易得多 。
Hellermark : 你认为这将如何影响模型的推理能力?
Hinton : 我认为它将大大提高模型对空间等事物的推理能力。比如推理当你拿起物体时会发生什么。如果一个机器人真的尝试拿起物体,它就能获得各种有助于训练的数据。
Hellermark : 你认为人类大脑是为了适应语言而进化的吗?还是说,语言为了适应人类大脑而发展的?
Hinton : 这是一个非常好的问题。我认为 - 两者都发生了 。我曾认为我们可以在不依赖语言的情况下进行大量认知活动。现在我的看法有所改变。让我给你介绍三种不同的语言观及其与认知的关系。
首先是传统的 符号观 ,即认知是 基于明确、抽象的逻辑符号及符号操作 ,暗示语言与逻辑思维紧密相连,几乎构成认知的核心机制。这一观点倾向于认为人类大脑和语言是协同进化的,各自适应对方的存在与发展。所以,这是一种极端的观点
与之相反的极端观点是,你的大脑内部全都是 向量 。这种观点认为, 符号进入大脑会转换成大型向量,所有内部处理都是通过大型向量完成的 。然后,如果你想生成输出,就再次生成符号。大约在 2014 年,机器翻译领域有一个阶段,人们使用循环神经网络,单词不断输入时会有一个隐藏状态,并且在这个隐藏状态中不断积累信息。所以当他们到达句尾时,他们会得到一个大的隐藏向量,这个 向量捕捉了该句子的意义,然后可以用来在另一种语言中生成句子 。这被称为 思想向量 ,是对语言的第二种看法。
但还有一种第三种观点,即 我现在所相信 的,那就是 语言和思维过程中确实涉及符号,但这些符号通过多层次的嵌入表示( embedding representation )被丰富化了 。但是,这些嵌入仍然与符号相关联,意味着 每个符号都有一个大的向量,这些向量相互作用,以产生下一个词的符号向量 。这就是所谓的「 理解 」。
「 理解 」就是知道如何将符号转换成这些向量,以及知道这些向量的元素应该如何相互作用来预测下一个符号的向量 。这就是大语言模型和我们大脑中的理解。这是一个介于两者之间的例子。你仍然保留着符号,但你将其解释为这些大型向量,而所有的努力都集中在这里。所有的知识都体现在你使用的向量以及这些向量元素之间的相互作用上,而非符号规则。但这并不是说你可以完全摆脱符号。它的意思是将符号转化为庞大的向量,但仍然停留在符号的表层结构上。
这就是这些模型的工作原理。现在在我看来,这也同样是一个更合理的人类思维模型。
算力与计算:电脑不一定要像人脑一样思考
Hellermark : 你是第一批意识到使用 GPU 的人之一( 2009 年 ), 黄仁勋 因此非常欣赏你。带我们回顾一下你的灵感来源。
Hinton : 实际上,大约在 2006 年,我有一个叫 Rick Zelinsky 的 前研究生 ,他是一位非常优秀的计算机视觉专家。在一次会议上,他告诉我:「 你知道吗,你应该考虑使用图形处理卡,因为它们在矩阵乘法方面非常出色。你现在的研究基本上都是矩阵乘法。 」
我对此思考了一会儿,试着购买了游戏用的 GPU,发现它们让处理速度提升了 30 倍。接着我们买了一整套 NVIDIA Tesla GPU ,并在上面进行了语音处理,效果非常好。
NVIDIA Tesla GPU
随后到了 2009 年,我在 NIPS 上发表演讲,对 1,000 名机器学习研究人员说:「 你们都应该去买 NVIDIA 的 GPU。它们代表了未来。你们做机器学习需要它们。 」
实际上,我随后给 NVIDIA 发了一封邮件,说:「 我告诉了 1,000 名机器学习研究人员购买你们的显卡。你们能因此免费送我一块吗? " 他们说不行 —— 我开玩笑的,其实他们只是没有回复。后来,黄仁勋知道了这件事,他免费送了我一块显卡。
Hellermark : 那真是太好了,我觉得最有意思的地方在于 GPU 技术是伴随着 AI 领域一同发展的。你对于 计算技术下一步应该如何演进 有哪些看法?
Hinton : 我在谷歌的最后几年里一直思考如何实现 模拟计算( analog computation ) 。这样我们就不用消耗兆瓦级的电力,而是可以像大脑一样只用 30 瓦,从而在模拟硬件上运行这些大语言模型。尽管我没有成功实现这一目标,但这一过程让我加深了对数字计算价值的认识。
模拟计算意味着每块硬件都有其独特性,这要求学习过程需适应硬件的具体特性,类似于人脑中每个个体的大脑差异性。由于人脑硬件的不同,使得权重无法直接从一个人转移到另一个人,信息传递效率低下,这被称为 知识蒸馏( distillation ) 。
因其权重的可复制性和共享性,数字系统实际上是「永生」的。一旦某个系统学习到的权重被确定,它可以被保存并在任意兼容的数字系统上重现,无需考虑硬件的具体差异,从而实现高效的知识共享。数字系统间可以通过微小的学习更新,然后共享这些更新后的权重,实现集体知识的即时同步,这是人类目前无法做到的。因此,我认为 数字系统在知识共享方面比人类更加优越 。
Hellermark : 神经科学中其实早已有很多类似的想法,并应用在了现代人工智能系统中。你觉得未来还有哪些神经科学原理尚待融入这些系统中?
Hinton : 我们仍需在时间尺度上与神经科学同步的一个重要领域是 变化的时间尺度 。在现有的神经网络模型中,通常只有两个时间尺度:一个是 活动( 如神经元激活状态 ) 的快速变化,另一个是 权重( 长期学习参数 ) 的缓慢调整。然而,人脑中存在多个时间尺度的权重变化,这允许了临时记忆的形成。
例如,我突然没由头地喊一句「 黄瓜! 」,五分钟后你戴上耳机,并在周围释放很多噪音,这时候听到的词很微弱,却更容易识别出「黄瓜」这个词 —— 因为我五分钟前说过。那么,这种知识在大脑中是如何存储的呢?显然是体现在 突触的暂时性变化 中,而不是神经元在对你说:「 黄瓜,黄瓜,黄瓜。 」 这体现在权重的暂时性变化上。通过权重的暂时性变化,你可以做很多事情,我称之为 快速权重 —— 但在当前的神经模型中,我们并不这么做。
部分原因是,这些 模型依赖于并行处理大量数据以实现高效的矩阵运算,而这与快速权重所需的依据输入数据动态调整权重的机制相冲突 。然而,快速权重对于实现更接近人脑的临时记忆功能至关重要。我曾非常期待像 Graphcore 这样的技术如果采用顺序处理并仅进行在线学习,就有可能利用快速权重。但目前这一设想尚未实现。我预测随着技术进步,特别是当开始 使用电导作为权重表示 时,这一问题有望得到解决。
思维方式:「 我亲眼见到机器人表现出了情感 」
Hellermark : 了解这些模型的工作原理以及大脑的工作方式,对你的思考方式有何影响?
Hinton : 我认为最大的影响在于对一个抽象概念的认知转变:过去,许多人,包括统计学家、语言学家及多数 AI 研究者,对通过一个大型随机神经网络并辅以大量训练数据来学习执行复杂任务的想法持怀疑态度,他们认为这仅是「 空想 」。没有内在知识和严格架构限制,不可能学会复杂事物。
然而,大型神经网络模型的成功验证了这一观点的错误性: 通过随机梯度下降不断调整权重,确实能够学习并掌握复杂知识 。这一发现对于理解大脑的工作机制具有重要意义,表明大脑不必具备所有先天结构 —— 尽管大脑确有其固有的结构,但对于易于学习的事物,它并不需要特定的先天结构。
Hellermark : 究竟如何能让 AI 模型更有效地模拟人类的意识?假如说有一个伴随人一生、具有自我反思能力的 AI 助手,那在得知主人去世的消息时,它是否会有所感受?
Hinton : AI 助手如果想「 得知 」 主人去世 ,就需要另一个人 告诉 它,或是让它自己去 感知 —— 因为主人已经死了,无法给 AI 传递信息。
Hellermark : 是的,你认为 AI 助手在主人去世时能 感知 到什么?
Hinton : 我认为 AI 也能有情感 。就像我们有内心剧场模型来解释 感知 一样,我们也有类似的模型来解释 情感 ,这些是我能体验到而别人无法体验的。
假如我在内心想:「我真想给 加里( Gary Marcus,科学家,深度学习的主要反对者 ) 的鼻子来一拳……」 —— 事实上我真的经常这么想 —— 然后我试着将这个想法从内心剧场的概念中抽象出来,此时若不是因为我的前额叶的抑制作用,我会真的采取行动( 揍加里一拳 )。
当我们谈论 情感 时,实际上是在谈论「 如果没有外部约束时我们可能会采取的行动 」。而这正是情感的本质。它们是我们如果没有约束就会采取的行动。因此,我认为你可以用同样的方式来解释情感,并且没有理由认为这些事物( AI )不能拥有情感。
事实上, 在 1973 年,我亲眼见到一个机器人表现出了情感 。爱丁堡大学有一个这样的机器人,它有两只夹子,如果你将玩具车的零件单独放在一块绿色毛毡上,它就能组装起来。但如果你将零件堆在一起,它的视觉不足以弄清楚发生了什么。于是它会将夹子合拢,发出「啪」的一声,把零件击散,从而「 组装 」起来。
爱丁堡大学 的机器人
「弗莱迪」(Freddy)
如果你在一个人身上看到这一幕,你会说这是因为那个人不理解情况而感到沮丧,因为它们在面对约束和问题解决时,会采取相应的行动策略。
Hellermark : 这很深奥。
回顾人生选择:「我 其实真正想研究的是大脑 」
Hellermark : 你曾经表达过一个观点,即人类和大语言模型都可以被视为一种 「类比的机器」( analogy machines ) 。那你一生中发现过的最强大的类比是什么?
Hinton : 我的一生中?我觉得对我影响深远的一个类比是 将宗教信仰与对符号处理的信仰相比较 。 我来自一个无神论家庭,所以当我在学校接触到宗教信仰时,觉得它毫无意义且不合理。后来,当我最初遇到符号处理作为解释人类思维方式的概念时,也有同样的感受,认为符号论也是无稽之谈。
但随着时间的推移,我的看法也有所改变。我认为人类确实进行着符号处理,这并不像传统观念中那么简单,即 符号仅仅通过彼此之间的同一性或差异性来进行匹配 。现代的理解是, 我们通过给符号赋予大型嵌入向量,并利用这些向量的成分间互动来进行思考,这种方式充分利用了上下文信息 。
谷歌有一位非常优秀的研究员名叫 费尔南多·佩雷拉( Fernando Pereira ) ,他曾说过," 我们确实拥有符号推理,而我们拥有的唯一符号就是自然语言。自然语言是一种符号语言,我们用它进行推理。 " 现在我对此深信不疑。
Fernando Pereira
Hellermark : 你完成了计算机科学史上一些最有意义的研究。能教我们如何选择正确的问题来研究吗?
Hinton : 首先,让我纠正一下你的说法 —— 我是 和我的学生们 做了很多非常有意义的事情,这主要得益于与学生的良好合作以及我挑选优秀学生的能力。
这得追溯到 70 年代、80 年代、90 年代以及 2000 年代初期,当时从事神经网络研究的人非常少。因此,从事神经网络研究的少数人能够挑选到最优秀的学生。这可以说是一种幸运。至于我选择问题的方式……当科学家谈论他们的工作方式时,他们会有关于自己工作方式的理论,这些理论可能与实际情况并不相符。
但我的理论是, 我会寻找那些大家都认同但感觉不对劲的事情 。就是有一种直觉,觉得这里面有些问题。然后,我会针对这一点进行研究,看看是否能详细说明为什么我认为它是错误的。或许是用一个小型的计算机程序做一个小演示,展示某项事物并不像人们预期的那样工作。
让我举一个例子。大多数人认为, 如果你向神经网络添加噪声,它的性能会变差 。例如,每次你通过一个训练样本时,如果让一半的神经元保持沉默,它的性能会变差。实际上,它只会因此更好地 泛化 。而在计算机上,这可以用一个简单的例子中演示,这就是计算机模拟的好处。然后,我会深入思考「 为什么会这样? 」,这就是我的工作方法: 找到听起来可疑的东西,对其进行研究,看看是否能给出简单演示来证明其错误 。
Hellermark : 假如今天有一群学生来找你,问你人工智能领域接下来最该解决的问题是什么?你会建议他们接下来应该着手解决和研究什么问题?
Hinton : 这个问题的答案和我过去 30 年左右一直持有的问题相同,那就是, 大脑是否进行反向传播 ?
我相信大脑在学习过程中确实利用了 梯度信息 来优化其内部连接(权重),因为缺乏梯度信息会使学习效率大大降低。然而,我对于 大脑如何实际获得这些梯度 、 是否通过某种近似反向传播机制或是完全不同的方法来实现这一点 ,仍持开放态度。我认为这是个重大且尚未解决的问题。如果我未来继续进行研究,这将是我的研究焦点。
Hellermark : 回顾你的职业生涯,你在很多事情上都判断正确,但是你是否曾经在哪些方面判断失误?是否后悔在这些错误判断上投入了过多时间?
Hinton : 这其实是两个问题:我曾经在哪些方面判断失误?我是否希望自己在那上面花费的时间少一些?
我认为我在玻尔兹曼机上判断失误了,但我很高兴我在这上面花了很长时间。与反向传播相比, 玻尔兹曼机提供了一种更为精妙和吸引人的梯度计算方法,而反向传播相对而言较为常规且直接遵循链式法则 。
所以,我原本希望并相信玻尔兹曼机的工作原理能更贴近大脑的实际运作机制 —— 但事实并非如此。总之,我对探索 玻尔兹曼机的过程 并不感到遗憾,因为其本身富有启发性,并且深化了我对机器学习和神经科学的理解。
Hellermark : 你是否也花了很多时间去想象这些系统发展之后会发生什么?比方说通过 民主化教育 ,我们可以使知识更加易于获取;或者是通过人工智能,解决 医学 中的一些难题;或者对你来说,这些系统的发展主要是能有助于 理解人脑 ?
Hinton : 我总觉得科学家应该致力于对社会有益的研究,但 实际上,驱动高质量科研工作的往往是纯粹的好奇心,即对某个问题深入理解的渴望 。
虽然近期我开始意识到人工智能技术既可带来巨大益处,也可能引发诸多负面影响,但这些并不是我的初衷。我只想了解一个问题:「 大脑究竟是如何学会做事的? 」 尽管从某种程度上说我未能完全达成初衷,但这一过程的 副产品 —— 人工智能和机器学习领域的工程技术成果 —— 却是积极且具有价值的。
Hellermark : 是的,这对世界来说是一次 有益的失败 。
未来:反向传播可能是正确的道路
Hellermark : 你认为未来最有前景的应用是什么?
Hinton : 我认为 医疗保健 显然是一个重要的领域。在医疗保健方面,社会几乎可以无限吸收更多的医疗服务。一位老人通常可能需要五位医生全天候服务。因此,当人工智能在某些方面超越人类时,我们希望它在那些我们可以大量应用这些技术的领域变得更好。
此外,我们确实需要更多的医生。如果每个人都有三位专属医生那就太好了。我们未来将会达到那个阶段,所以医疗保健是一个好的方向。
还有一个应用,就是 在新工程领域开发新材料 ,例如太阳能电池板或超导材料,或仅仅是为了理解身体是如何运作的,那将会产生巨大的影响。这些都是好事。
我所担心的是不良分子利用它们做坏事 —— 比如使用 AI 来制造杀人机器人、操纵公众舆论、进行大规模监视……这些都是非常令人担忧的事情。
Hellermark : 你是否担心过减缓 AI 发展会同样导致 AI 带来的有益影响变少?
Hinton : 我肯定担心过。 但我认为 AI 领域不太可能减缓发展 ,部分原因在于,它是国际性的。如果一个国家减缓了发展,其他国家并不会跟着减缓。很明显, 中美之间存在一场 AI 竞赛,而双方都不会放慢脚步 。
曾经有一份请愿书写道我们应该放慢脚步六个月。我之所以没有签字,是因为我认为那件事永远不会发生。通常,即使知道无法得到,为了表明立场而提出要求也是有益的……但 我不认为 我们 会放慢脚步 。
Hellermark : 当你审视今天正在进行的各类研究时,你是否认为我们正将所有鸡蛋放在一个篮子里?是否应该在 AI 领域内更多元化我们的想法?还是你认为这是最有前景的方向,因此我们是否应该全力以赴投入其中?
Hinton : 哪怕仅是为了预测下一个词,在大模型上使用多模态数据训练也是极具前景的,我们应该在这上面全力以赴 。显然,现在有大量的人正在这样做。也有很多人在做看似疯狂的事情,这都很好。 因为多模态的效果非常好 ,所以大多数人追随这条道路是合适的 。
Hellermark : 特定的学习算法真的很重要吗?还是说达到期望结果主要是规模( 如数据量、计算能力等 )的问题?人工智能达到人类水平智能的方式是有数百万种,还是寥寥几种?
Hinton : 关于学习算法的重要性与多样性,我自己也不确定最终的答案,但我觉得 反向传播( backpropagation ) 作为一种学习算法,在某种意义上是「正确」的选择,因为它通过梯度来优化参数,以提升性能,且已被证实极其成功。
虽然反向传播非常有效,但目前可能也还存在其他算法,这些算法或是获取相同梯度的变体,或是针对其他目标函数的优化,同样能发挥作用。这是一个目前非常有趣且值得探讨的问题。
我推测,大脑可能也是采取类似机制(虽然可能更简化),因为这种方式更为高效。总之,从某个角度来说,反向传播是合理的做法,且实践表明其效果极佳。
Hellermark : 回顾数十年的研究生涯,你最引以为傲的是什么?是你的学生吗?还是研究成果?
Hinton : 玻尔兹曼机的学习算法 。玻尔兹曼机的学习算法非常优雅。尽管在实际应用中可能无望,但这是我与特里合作开发时最享受的部分,也是我最引以为傲的 —— 即使它是错误的。
Hellermark : 现在您大部分时间都在思考哪些问题?
Hinton : 我思考的是, 「 我应该在 Netflix( 网飞,知名流媒体视频网站 )上看什么?」
采访原视频链接: https://www.youtube.com/watch?v=n4IQOBka8bc
开发者正在迎接新一轮的技术浪潮变革。由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的 2024 年度「全球软件研发技术大会」秉承干货实料(案例)的内容原则,将于 7 月 4 日-5 日在北京正式举办。大会共设置了 12 个大会主题:大模型智能应用开发、软件开发智能化、AI 与 ML 智能运维、云原生架构……详情👉: http://sdcon.com.cn/