来源:Forecasting Research 发布的 LEAP(Longitudinal Expert AI Panel)第 8 波调查报告。调查时间跨度 2026 年 4 月 20 日至 5 月 11 日。原文发布于 2026-06-02。
每隔一段时间,AI 行业就需要一个「温度计」来感知自己身处什么阶段。各家公司的 PR 稿充满乐观,媒体把每轮融资都包装成里程碑,但真正可信的标尺——AI 专家和超级预测者的集体判断——比任何单一声明都更有参考价值。
LEAP(纵向专家 AI 面板)正好提供了这把标尺。它每月追踪顶尖 AI 科学家、行业领袖、政策研究者、经济学家和高水平预测者对 AI 发展轨迹的看法。刚发布的第 8 波(Wave 8)调查涵盖了 AGI 时间线、短期能力基准、社会影响等多个维度,其中几个关键数字值得每个关注 AI 的人仔细看。
核心发现速览
| 问题 | 专家预测(中位) | 超级预测者(中位) | 公众 |
|---|---|---|---|
| AGI 共识达成年份 | 2050(25% 概率 <2039) | 2047 | 更晚 |
| 21 世纪内达成 AGI 的概率 | 80% | 80% | — |
| AI 社会影响级别(TRS 8-9,2040 年) | 35% L8 / 24% L9 / 11% L10 | 34% L8 / 23% L9 / 8.5% L10 | 更保守 |
| METR 8 小时任务(2026 年底) | 3.4 小时 | 3.5 小时 | 3 小时 |
| METR 8 小时任务(重大突破年份) | 2030(50% 概率) | 2028 | 2037 |
AGI 时间线:中位 2050 年,但不确定性极大
LEAP 对 AGI 的定义相当严格:
一个商用可用的 AI 系统,在每一项非体力职业中,能在至少 90% 的经济上有用的非体力任务上,超越第 90 百分位的人类专业人士(基于 2025 年的表现),且推理成本不超过等效人类劳动力成本的 5 倍。
在这个标准下:
- 专家中位预测:2050 年,25% 概率在 2039 年前,75% 概率在 2065 年前
- 超级预测者:更激进,中位 2047 年
- 两者都认为 21 世纪内达成 AGI 的概率为 80%
如果只看中位数,2050 听起来很远,但 25% 概率在 2039 年前这个数字更值得注意——这意味着超过三分之一的专家认为,AGI 可能在 13 年内达成。考虑到调查对象中包括了行业中最了解 AI 进展的人,这个概率不可忽视。
短期基准:预测已被验证
LEAP 这次采用了一个很有意思的短期指标:METR 任务完成时间基准。简单说,就是测量 AI 模型能成功完成需要人类专家多久才能完成的软件任务。
调查时的基线是 1.5 小时(2026 年 4 月)。专家和超级预测者预测到 2026 年底,这个数字会达到 3-4 小时。
关键转折:在调查期间(5 月 8 日),METR 更新了基准,加入了 Anthropic 的 Mythos 模型预览——Mythos 在 80% 的成功率下达到了 3 小时 6 分钟,已经进入了专家预测的年底范围,而当时距离年底还有 7 个多月。
对于更长的时间跨度,专家预测 2030 年有 50% 的概率出现能完成 8 小时人类任务的 AI 模型,超级预测者则激进到 2028 年。
社会影响:专家乐观,公众悲观,关系成最大共识
| 能力维度 | 专家(说变好) | 超级预测者(说变好) | 公众(说变好) |
|---|---|---|---|
| 问题解决 | 72.7% | 69.8% | 48.6% |
| 做出艰难决策 | 58.3% | 54.7% | 36.9% |
| 创造性思考 | 54.3% | 56.6% | 40.1% |
| 建立有意义的人际关系 | 15.8%(68.4% 说变差) | 30.2% | 13.6%(66.7% 说变差) |
| 整体影响(积极) | 57.5% | 69.8% | 42.0% |
几个值得深挖的趋势:
专家 vs 公众的认知裂谷:在整体影响上,专家(57.5%)和超级预测者(69.8%)对 AI 持积极态度的比例明显高于公众(42.0%)。在解决问题和艰难决策上,专家和公众的差距更大。这种认知落差本身就值得担忧——如果了解最多的人和最受影响的人不是同一个认知水平,政策制定就会面临严重的沟通障碍。
人际关系:唯一一个专家和公众高度一致的方向。68.4% 的专家和 66.7% 的公众预期 AI 会让人们更不擅长建立有意义的关系。这是专家和公众意见几乎完全对齐的领域——也是所有维度中悲观程度最高的。
技术影响级别:向”世纪级技术”靠拢
LEAP 使用 Nate Silver 提出的技术里氏震级(Technological Richter Scale, TRS)来衡量 AI 的社会影响级别:
| TRS 级别 | 描述 | 示例 | 2040 年概率(专家) |
|---|---|---|---|
| L7 | 十年的技术 | 信用卡 | — |
| L8 | 世纪的技术 | 电力 | 35% |
| L9 | 千年的技术 | 农业 | 24% |
| L10 | 时代的技术 | 人类的崛起 | 11% |
对比第 1 波调查(2025 年夏季),专家和超级预测者都上调了他们对 AI 影响级别的预期:
- 专家:平均 TRS 从 7.86 → 8.06(+0.20)
- 超级预测者:从 7.50 → 7.89(+0.39,变动更大)
- 公众:从 7.18 → 7.25(+0.07,几乎不变)
74% 的参与者在两波之间变动在 ±1 个级别内,但专家的模态预测(概率最高的级别)从 L7 转向了 L8——选择”世纪的技术”的专家比例从 38% 增长到 53%。
我的解读
1. 超级预测者比 AI 专家更激进
这不是第一次了。在多个时间线相关问题上,超级预测者的中位预测始终比专家前沿科学家更早。原因可能在于:专家更了解当前的工程瓶颈——数据耗尽、推理成本、可靠性问题——而超级预测者更多基于指数级增长的抽象趋势做推断。两者中谁更准,目前还没有定论,但差异本身值得关注。
2. 2026-2027 年可能是 AGI 竞赛的关键窗口
Mythos 模型已经在 5 月达到了专家预测的 2026 年底水平。如果这一趋势持续(每半年能力翻倍或更快),2027 年可能出现完成 24 小时人类任务的模型。2027-2028 年也是超级预测者预测的 8 小时任务突破时间窗。这意味着未来 12-18 个月,AGI 的讨论将从「是否」转向「何时」。
3. 人际关系的隐忧值得及早关注
68% 的专家认为 AI 会让人们更不擅长建立有意义的关系,这是所有维度中共识最强、最一致的预测。如果这个预测成真,其社会涟漪可能远超 AI 的经济影响——年轻人社交减少、孤独流行病加剧、社会资本下降。然而,这个方向在当前的政策讨论中几乎完全缺席。企业忙着研发 AGI,政府忙着监管安全,但谁在关注 AI 对人与人之间最基本连接的影响?
参考资料
- LEAP Wave 8 完整报告:Forecasting Research 发布。→ https://leap.forecastingresearch.org/reports/wave8
- LEAP 总览页面:所有波次数据和问题列表。→ https://leap.forecastingresearch.org/
- 原文 Substack 文章:Experts and Superforecasters Update Their AI Timelines。→ https://forecastingresearch.substack.com/p/leap-wave-8-ai-timelines
- METR 任务时间基准:AI 模型任务完成能力衡量标准。→ https://metr.org/time-horizons/
- 技术里氏震级(TRS)介绍:Nate Silver 提出的技术影响分级框架。→ https://thezvi.substack.com/p/ai-and-the-technological-richter
文档信息
- 本文作者:zhupite
- 本文链接:https://zhupite.com/ai/leap-wave8-ai-timelines-expert-forecast.html
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)