needhelp
← 返回博客

当 1967 年的公式解决了现代 AI 最大的难题

作者 needhelp
AI研究
强化学习
数学
科学发现

Sutton 的优雅修复

强化学习有一个不为人知的致命缺陷:在流式环境中训练模型本质上是行不通的。那些在干净实验室环境中运行良好的算法,一旦部署到数据持续到来、分布不断变化的真实世界就会彻底崩溃。

强化学习之父 Richard Sutton 刚刚修复了这个问题。而他的解决方案优雅得几乎令人尴尬:一个来自 1967 年的公式。

这个”意图更新算法”限制了模型在面对每条新数据时输出可以变化的幅度。模型不再在相互矛盾的信号之间剧烈摇摆,而是有节制地移动——就像一艘船调整方向舵,而非直接倾覆。

结果如何?计算量降至主流算法的 140 分之 1。这不是小幅改进——这是”需要整个数据中心”和”笔记本就能跑”之间的天壤之别。

为什么这很重要

Sutton 的突破为边缘设备强化学习打开了大门。想象一下:机器人能够从环境中持续学习,无需向服务器集群回传数据。无人机实时适应风向变化。医疗设备在本地优化模型,保护患者隐私。

这一突破核心的 1967 年公式并非什么晦涩的数学奇谈——它是一种用于控制序列更新中方差的统计工具。它在光天化日下静静等待了 57 年,等待有人认出它与 AI 时代的关联。

震惊 Google 的数学突破

就在 Sutton 修复强化学习的同时,浙大校友王益平(音译)使用自建的 AI 工具做了 Google 研究团队未能做到的事情:打破拉姆齐数下界——一个 30 年来无人撼动的问题。

仅用一台服务器和自己定制的 AI 数学工具,王益平实现了 Google 团队——理应拥有数量级更大的算力——未能达成的突破。该项目现已完全开源,正在加速”AI 赋能科学”运动的发展。

这种模式——个人研究者凭借 AI 工具超越机构巨头——正变得越来越普遍。

新的科学方法

这两个故事共享一条主线:AI 不再仅仅是构建产品的工具。它正成为一种科学仪器——其重要性堪比显微镜或望远镜。

其影响深远:

  • 问题选择方式发生变化:当你拥有能够以超越人类的规模探索解空间的 AI 时,瓶颈就从”我们能解决这个吗?“转向了”哪些问题值得解决?”
  • 独立研究者获得杠杆:一个拥有合适 AI 工具的个人现在可以与机构实验室竞争。科学发现的经济学正在被重新书写。
  • 旧知识获得新生:Sutton 的 1967 年公式提醒我们,AI 革命不仅仅是发明新东西——它还包括识别那些突然变得相关的旧思想。

展望未来

我们正在进入一个时代,科学研究进步的速率限制不再是算力、资金或机构的声望。而是想象力——提出正确问题的能力,以及在 57 年前的老公式中发现解决现代问题的钥匙的洞察力。

能够蓬勃发展的科学家将是那些将深厚的领域知识与 AI 流利度结合起来的人。不是为了取代人类的洞察力,而是将其放大到前所未有的程度。

分享本页