Richard Sutton – Father of RL thinks LLMs are a dead end

- 🤖 AI的不同视角

- 强化学习（RL）与大语言模型（LLM）不同，RL侧重理解世界，而LLM注重模仿人类行为。

- RL的目标是通过经验学习，而LLM是通过模仿和训练数据学习。

- 🧠 世界模型的争议

- 许多人认为LLM有“世界模型”，但Sutton认为它们只是模仿人的模型，并不真正预测世界的变化。

- RL通过奖励机制帮助系统学习“正确”的行为，LLM没有反馈来判断“正确”与否。

- 🎯 目标与智能

- Sutton认为智能的本质是设定目标并通过行动实现目标，而LLM的“目标”只是预测下一个词，不具备对世界的影响力。

- 强化学习中，通过反馈不断调整目标并获得奖励，这是智能的基础。

- ⚙️ 经验学习 vs. 模仿学习

- RL侧重于从经验中学习，不断调整行为以获得奖励，而LLM则依赖模仿学习，没有这种反馈机制。

- 虽然人类初期也通过模仿学习，但成长过程中通过经验和试错逐渐学会适应世界。

- 🧳 长远目标与奖励

- 在RL中，长远目标（如下棋或创业成功）通过短期奖励（如吃掉棋子或每一个商业进步）来维持。

- 人类通过长期目标与短期奖励相结合，在生活中积累经验，而这正是AI需要实现的能力。

- 🌍 大世界假设

- Sutton强调，世界过于复杂，无法在一开始就通过训练数据完全教会AI所有的知识。AI必须在“实践中”不断学习和适应。

- RL的学习来自世界的互动，而LLM则被限制于预定的训练数据和上下文，缺乏持续的在线学习能力。

- 🔄 学习的本质

- Sutton认为，学习不是单纯的“训练”，而是一个持续的过程，强调从实际体验中积累知识。

- 🧠 学习过程和模型

- 强调 学习策略 (policy)、**价值函数** (value function) 和 世界转变模型 (transition model)

- 世界模型：学到你行为的后果 🌍

- 感知组件：感知当前状态 🧭

- 奖励的作用：奖励是学习的一部分，但不是唯一的驱动力 🎯

- 🎮 MuZero 和 AGI

- MuZero 为专用游戏设计框架，需要专门训练，不具备跨任务通用性 🕹️

- AGI 的发展面临 信息约束 和 迁移学习 的挑战 🔄

- 💡 强化学习的迁移和泛化

- 强化学习中迁移和泛化仍然是 未解决的难题 🧩

- 人类干预 在深度学习模型中起到关键作用 🔧

- 需要 更好的算法 以确保 迁移学习 正常工作 🚀

- 🤖 大规模语言模型 (LLM)

- LLM 的 泛化能力 仍然有限，不完全属于泛化的范畴 🤔

- 编码代理 变得越来越擅长多种任务，但还不完全具备超强泛化能力 🌐

- 🌍 未来的AI研究方向

- AGI 的继承问题：AGI 的发展必然带来对人类角色的转变 ⚡

- 人类的未来可能被 智能化设计 所主导，而不是复制 🛠️

- 🌱 人类与AI的关系

- 人类的责任：理解AI发展的多种可能性，既包括正面也包括潜在的负面影响 💡

- 视角转变：**设计智能** 代表人类走向更高的文明阶段 🌌

- AI继承：AI的进化可能导致 人类未来的变革 🌍

- 🔮 未来的挑战

- 科技进步的速度可能导致人类 失去控制，需谨慎对待未来的变革 ⚠️

- 强调对 全球未来 的辩论和多样性看法，要避免 单一控制 🗣️

- 🤖 AI & Values: 提议AI应具备高诚信和道德价值观，即使不完全一致，也能像教育孩子一样，教导AI不从事有害行为，保持诚实与拒绝恶意行为。

- 🧑‍👧 教育与价值观: 虽然我们无法完全达成普遍的价值观共识，但可以教导孩子高尚品质，AI也可通过类似的方式培养。

- 🌍 社会设计与变革: 强调社会变革应是自愿的，而不是强制的，这是人类社会设计的核心任务之一。

- ⏳ 社会与AI的演变: 人类社会的价值观不断演变，AI也应考虑未来的演变方式，保持一定的灵活性和适应性。

- 🧠 AI的技术基础: 讨论AI发展的技术从早期便已存在，并在深度学习中得到应用，展现出技术与社会的深层联系。

- 🤝 总结: 整个讨论聚焦于AI、价值观及其在未来社会中的应用，强调人类与AI共生发展的重要性。