LEAP 第 8 波:专家将 AGI 中位预测年份推至 2050,超级预测者更激进至 2047

2026/06/07 ai 2870 字 · 约 9 分钟 阅读
纵向专家 AI 面板(LEAP)第 8 波调查发布:专家中位预测 AGI 共识在 2050 年到来(25% 概率 2039 年前),超级预测者更激进至 2047。Anthropic Mythos 模型已提前达到专家预测的 2026 年末 METR 基准水平。AI 对人际关系的影响上,68% 的专家和公众预期会变差。

来源:Forecasting Research 发布的 LEAP(Longitudinal Expert AI Panel)第 8 波调查报告。调查时间跨度 2026 年 4 月 20 日至 5 月 11 日。原文发布于 2026-06-02。

每隔一段时间,AI 行业就需要一个「温度计」来感知自己身处什么阶段。各家公司的 PR 稿充满乐观,媒体把每轮融资都包装成里程碑,但真正可信的标尺——AI 专家和超级预测者的集体判断——比任何单一声明都更有参考价值。

LEAP(纵向专家 AI 面板)正好提供了这把标尺。它每月追踪顶尖 AI 科学家、行业领袖、政策研究者、经济学家和高水平预测者对 AI 发展轨迹的看法。刚发布的第 8 波(Wave 8)调查涵盖了 AGI 时间线、短期能力基准、社会影响等多个维度,其中几个关键数字值得每个关注 AI 的人仔细看。

核心发现速览

问题专家预测(中位)超级预测者(中位)公众
AGI 共识达成年份2050(25% 概率 <2039)2047更晚
21 世纪内达成 AGI 的概率80%80%
AI 社会影响级别(TRS 8-9,2040 年)35% L8 / 24% L9 / 11% L1034% L8 / 23% L9 / 8.5% L10更保守
METR 8 小时任务(2026 年底)3.4 小时3.5 小时3 小时
METR 8 小时任务(重大突破年份)2030(50% 概率)20282037

AGI 时间线:中位 2050 年,但不确定性极大

LEAP 对 AGI 的定义相当严格:

一个商用可用的 AI 系统,在每一项非体力职业中,能在至少 90% 的经济上有用的非体力任务上,超越第 90 百分位的人类专业人士(基于 2025 年的表现),且推理成本不超过等效人类劳动力成本的 5 倍

在这个标准下:

  • 专家中位预测:2050 年,25% 概率在 2039 年前,75% 概率在 2065 年前
  • 超级预测者:更激进,中位 2047 年
  • 两者都认为 21 世纪内达成 AGI 的概率为 80%

如果只看中位数,2050 听起来很远,但 25% 概率在 2039 年前这个数字更值得注意——这意味着超过三分之一的专家认为,AGI 可能在 13 年内达成。考虑到调查对象中包括了行业中最了解 AI 进展的人,这个概率不可忽视。

短期基准:预测已被验证

LEAP 这次采用了一个很有意思的短期指标:METR 任务完成时间基准。简单说,就是测量 AI 模型能成功完成需要人类专家多久才能完成的软件任务。

调查时的基线是 1.5 小时(2026 年 4 月)。专家和超级预测者预测到 2026 年底,这个数字会达到 3-4 小时。

关键转折:在调查期间(5 月 8 日),METR 更新了基准,加入了 Anthropic 的 Mythos 模型预览——Mythos 在 80% 的成功率下达到了 3 小时 6 分钟,已经进入了专家预测的年底范围,而当时距离年底还有 7 个多月。

对于更长的时间跨度,专家预测 2030 年有 50% 的概率出现能完成 8 小时人类任务的 AI 模型,超级预测者则激进到 2028 年

社会影响:专家乐观,公众悲观,关系成最大共识

能力维度专家(说变好)超级预测者(说变好)公众(说变好)
问题解决72.7%69.8%48.6%
做出艰难决策58.3%54.7%36.9%
创造性思考54.3%56.6%40.1%
建立有意义的人际关系15.8%(68.4% 说变差)30.2%13.6%(66.7% 说变差)
整体影响(积极)57.5%69.8%42.0%

几个值得深挖的趋势:

专家 vs 公众的认知裂谷:在整体影响上,专家(57.5%)和超级预测者(69.8%)对 AI 持积极态度的比例明显高于公众(42.0%)。在解决问题和艰难决策上,专家和公众的差距更大。这种认知落差本身就值得担忧——如果了解最多的人和最受影响的人不是同一个认知水平,政策制定就会面临严重的沟通障碍。

人际关系:唯一一个专家和公众高度一致的方向。68.4% 的专家和 66.7% 的公众预期 AI 会让人们更不擅长建立有意义的关系。这是专家和公众意见几乎完全对齐的领域——也是所有维度中悲观程度最高的。

技术影响级别:向”世纪级技术”靠拢

LEAP 使用 Nate Silver 提出的技术里氏震级(Technological Richter Scale, TRS)来衡量 AI 的社会影响级别:

TRS 级别描述示例2040 年概率(专家)
L7十年的技术信用卡
L8世纪的技术电力35%
L9千年的技术农业24%
L10时代的技术人类的崛起11%

对比第 1 波调查(2025 年夏季),专家和超级预测者都上调了他们对 AI 影响级别的预期:

  • 专家:平均 TRS 从 7.86 → 8.06(+0.20)
  • 超级预测者:从 7.50 → 7.89(+0.39,变动更大)
  • 公众:从 7.18 → 7.25(+0.07,几乎不变)

74% 的参与者在两波之间变动在 ±1 个级别内,但专家的模态预测(概率最高的级别)从 L7 转向了 L8——选择”世纪的技术”的专家比例从 38% 增长到 53%。

我的解读

1. 超级预测者比 AI 专家更激进

这不是第一次了。在多个时间线相关问题上,超级预测者的中位预测始终比专家前沿科学家更早。原因可能在于:专家更了解当前的工程瓶颈——数据耗尽、推理成本、可靠性问题——而超级预测者更多基于指数级增长的抽象趋势做推断。两者中谁更准,目前还没有定论,但差异本身值得关注。

2. 2026-2027 年可能是 AGI 竞赛的关键窗口

Mythos 模型已经在 5 月达到了专家预测的 2026 年底水平。如果这一趋势持续(每半年能力翻倍或更快),2027 年可能出现完成 24 小时人类任务的模型。2027-2028 年也是超级预测者预测的 8 小时任务突破时间窗。这意味着未来 12-18 个月,AGI 的讨论将从「是否」转向「何时」

3. 人际关系的隐忧值得及早关注

68% 的专家认为 AI 会让人们更不擅长建立有意义的关系,这是所有维度中共识最强、最一致的预测。如果这个预测成真,其社会涟漪可能远超 AI 的经济影响——年轻人社交减少、孤独流行病加剧、社会资本下降。然而,这个方向在当前的政策讨论中几乎完全缺席。企业忙着研发 AGI,政府忙着监管安全,但谁在关注 AI 对人与人之间最基本连接的影响?


参考资料

  • LEAP Wave 8 完整报告:Forecasting Research 发布。→ https://leap.forecastingresearch.org/reports/wave8
  • LEAP 总览页面:所有波次数据和问题列表。→ https://leap.forecastingresearch.org/
  • 原文 Substack 文章:Experts and Superforecasters Update Their AI Timelines。→ https://forecastingresearch.substack.com/p/leap-wave-8-ai-timelines
  • METR 任务时间基准:AI 模型任务完成能力衡量标准。→ https://metr.org/time-horizons/
  • 技术里氏震级(TRS)介绍:Nate Silver 提出的技术影响分级框架。→ https://thezvi.substack.com/p/ai-and-the-technological-richter

文档信息

加载评论…