当 1967 年的公式解决了现代 AI 最大的难题

Sutton 的优雅修复

强化学习有一个不为人知的致命缺陷：在流式环境中训练模型本质上是行不通的。那些在干净实验室环境中运行良好的算法，一旦部署到数据持续到来、分布不断变化的真实世界就会彻底崩溃。

强化学习之父 Richard Sutton 刚刚修复了这个问题。而他的解决方案优雅得几乎令人尴尬：一个来自 1967 年的公式。

这个”意图更新算法”限制了模型在面对每条新数据时输出可以变化的幅度。模型不再在相互矛盾的信号之间剧烈摇摆，而是有节制地移动——就像一艘船调整方向舵，而非直接倾覆。

结果如何？计算量降至主流算法的 140 分之 1。这不是小幅改进——这是”需要整个数据中心”和”笔记本就能跑”之间的天壤之别。

Sutton 的突破为边缘设备强化学习打开了大门。想象一下：机器人能够从环境中持续学习，无需向服务器集群回传数据。无人机实时适应风向变化。医疗设备在本地优化模型，保护患者隐私。

这一突破核心的 1967 年公式并非什么晦涩的数学奇谈——它是一种用于控制序列更新中方差的统计工具。它在光天化日下静静等待了 57 年，等待有人认出它与 AI 时代的关联。

就在 Sutton 修复强化学习的同时，浙大校友王益平（音译）使用自建的 AI 工具做了 Google 研究团队未能做到的事情：打破拉姆齐数下界——一个 30 年来无人撼动的问题。

仅用一台服务器和自己定制的 AI 数学工具，王益平实现了 Google 团队——理应拥有数量级更大的算力——未能达成的突破。该项目现已完全开源，正在加速”AI 赋能科学”运动的发展。

这种模式——个人研究者凭借 AI 工具超越机构巨头——正变得越来越普遍。

这两个故事共享一条主线：AI 不再仅仅是构建产品的工具。它正成为一种科学仪器——其重要性堪比显微镜或望远镜。

其影响深远：

我们正在进入一个时代，科学研究进步的速率限制不再是算力、资金或机构的声望。而是想象力——提出正确问题的能力，以及在 57 年前的老公式中发现解决现代问题的钥匙的洞察力。

能够蓬勃发展的科学家将是那些将深厚的领域知识与 AI 流利度结合起来的人。不是为了取代人类的洞察力，而是将其放大到前所未有的程度。