本文作者:访客

2024图灵奖出炉,ChatGPT、DeepSeek背后功臣戴上迟来的冠冕

访客 2025-03-06 15:24:39 74929
2024图灵奖出炉,ChatGPT、DeepSeek背后功臣戴上迟来的冠冕摘要: 2024图灵奖出炉,ChatGPT、DeepSeek背后功臣戴上迟来的冠冕!2024年图灵奖授予了强化学习领域的两位先驱——Andrew G. Barto和Richard S. S...

2024图灵奖出炉,ChatGPT、DeepSeek背后功臣戴上迟来的冠冕!2024年图灵奖授予了强化学习领域的两位先驱——Andrew G. Barto和Richard S. Sutton,以表彰他们在这一领域奠定的概念和算法基础。他们的贡献为创建智能系统提供了重要方法。

2024图灵奖出炉,ChatGPT、DeepSeek背后功臣戴上迟来的冠冕

Barto和Sutton从1980年代开始的一系列论文中引入了强化学习的核心理念,构建了数学基础,并开发了关键算法。1998年,他们合著的《强化学习导论》至今仍被视为该领域的奠基之作,被引用超过75,000次。

2024图灵奖出炉,ChatGPT、DeepSeek背后功臣戴上迟来的冠冕

目前,Barto是马萨诸塞大学阿姆赫斯特分校信息与计算机科学系的名誉教授,而Sutton则是阿尔伯塔大学计算机科学教授、Keen Technologies的首席研究员以及阿尔伯塔机器智能研究所的特聘研究员。得知获奖消息时,Sutton感到非常震惊。

2024图灵奖出炉,ChatGPT、DeepSeek背后功臣戴上迟来的冠冕

Sutton长期思考如何让机器学习的问题,他认为研究必须从小处着手,基础研究不会立即带来明显的技术改进。早在1978年,Sutton在攻读博士学位期间就开始与导师Barto合作。他们编写了一些最早的强化学习算法,使机器通过反复试错获取知识。

2024图灵奖出炉,ChatGPT、DeepSeek背后功臣戴上迟来的冠冕

尽管Sutton对大语言模型(LLM)持批评态度,认为它们只是模仿人类行为而不真正理解自己的行动,但他依然坚守基础研究。在他看来,真正的智能系统应该能够从经验中学习并调整行为。Sutton的前同事Michael Bowling评价他是一位坚持基础研究的人。

2024图灵奖出炉,ChatGPT、DeepSeek背后功臣戴上迟来的冠冕

近年来,强化学习越来越受到重视。例如,DeepSeek就利用正反馈循环来训练AI。Sutton谦逊且不事张扬,他将自己视为一个强化学习智能体,通过经验不断学习。

2024图灵奖出炉,ChatGPT、DeepSeek背后功臣戴上迟来的冠冕

强化学习是指在奖励信号引导下找到更好行动方案的过程。这一理念借鉴了心理学和神经科学中的奖励机制。Barto和Sutton借鉴了马尔可夫决策过程(MDP)的数学基础,提出了时间差分学习等基本算法。这些算法结合深度学习技术,在过去十五年中取得了重大突破,如AlphaGo战胜围棋高手和ChatGPT的出现。

2024图灵奖出炉,ChatGPT、DeepSeek背后功臣戴上迟来的冠冕

Barto是IEEE和AAAS的Fellow,曾获得多项奖项。Sutton也是多个学术组织的Fellow,曾在DeepMind担任杰出研究科学家,并获得了多个荣誉。

2024图灵奖出炉,ChatGPT、DeepSeek背后功臣戴上迟来的冠冕

2024图灵奖出炉,ChatGPT、DeepSeek背后功臣戴上迟来的冠冕

阅读
分享