2024图灵奖出炉，ChatGPT、DeepSeek背后功臣戴上迟来的冠冕

访客 2025-03-06 15:24:39 74929

默认

摘要： 2024图灵奖出炉，ChatGPT、DeepSeek背后功臣戴上迟来的冠冕！2024年图灵奖授予了强化学习领域的两位先驱——Andrew G. Barto和Richard S. S...

2024图灵奖出炉，ChatGPT、DeepSeek背后功臣戴上迟来的冠冕！2024年图灵奖授予了强化学习领域的两位先驱——Andrew G. Barto和Richard S. Sutton，以表彰他们在这一领域奠定的概念和算法基础。他们的贡献为创建智能系统提供了重要方法。

Barto和Sutton从1980年代开始的一系列论文中引入了强化学习的核心理念，构建了数学基础，并开发了关键算法。1998年，他们合著的《强化学习导论》至今仍被视为该领域的奠基之作，被引用超过75,000次。

目前，Barto是马萨诸塞大学阿姆赫斯特分校信息与计算机科学系的名誉教授，而Sutton则是阿尔伯塔大学计算机科学教授、Keen Technologies的首席研究员以及阿尔伯塔机器智能研究所的特聘研究员。得知获奖消息时，Sutton感到非常震惊。

Sutton长期思考如何让机器学习的问题，他认为研究必须从小处着手，基础研究不会立即带来明显的技术改进。早在1978年，Sutton在攻读博士学位期间就开始与导师Barto合作。他们编写了一些最早的强化学习算法，使机器通过反复试错获取知识。

尽管Sutton对大语言模型（LLM）持批评态度，认为它们只是模仿人类行为而不真正理解自己的行动，但他依然坚守基础研究。在他看来，真正的智能系统应该能够从经验中学习并调整行为。Sutton的前同事Michael Bowling评价他是一位坚持基础研究的人。

近年来，强化学习越来越受到重视。例如，DeepSeek就利用正反馈循环来训练AI。Sutton谦逊且不事张扬，他将自己视为一个强化学习智能体，通过经验不断学习。

强化学习是指在奖励信号引导下找到更好行动方案的过程。这一理念借鉴了心理学和神经科学中的奖励机制。Barto和Sutton借鉴了马尔可夫决策过程（MDP）的数学基础，提出了时间差分学习等基本算法。这些算法结合深度学习技术，在过去十五年中取得了重大突破，如AlphaGo战胜围棋高手和ChatGPT的出现。