LEAP 第 8 波：专家将 AGI 中位预测年份推至 2050，超级预测者更激进至 2047

来源：Forecasting Research 发布的 LEAP（Longitudinal Expert AI Panel）第 8 波调查报告。调查时间跨度 2026 年 4 月 20 日至 5 月 11 日。原文发布于 2026-06-02。

每隔一段时间，AI 行业就需要一个「温度计」来感知自己身处什么阶段。各家公司的 PR 稿充满乐观，媒体把每轮融资都包装成里程碑，但真正可信的标尺——AI 专家和超级预测者的集体判断——比任何单一声明都更有参考价值。

LEAP（纵向专家 AI 面板）正好提供了这把标尺。它每月追踪顶尖 AI 科学家、行业领袖、政策研究者、经济学家和高水平预测者对 AI 发展轨迹的看法。刚发布的第 8 波（Wave 8）调查涵盖了 AGI 时间线、短期能力基准、社会影响等多个维度，其中几个关键数字值得每个关注 AI 的人仔细看。

核心发现速览

问题	专家预测（中位）	超级预测者（中位）	公众
AGI 共识达成年份	2050（25% 概率 <2039）	2047	更晚
21 世纪内达成 AGI 的概率	80%	80%	—
AI 社会影响级别（TRS 8-9，2040 年）	35% L8 / 24% L9 / 11% L10	34% L8 / 23% L9 / 8.5% L10	更保守
METR 8 小时任务（2026 年底）	3.4 小时	3.5 小时	3 小时
METR 8 小时任务（重大突破年份）	2030（50% 概率）	2028	2037

AGI 时间线：中位 2050 年，但不确定性极大

LEAP 对 AGI 的定义相当严格：

一个商用可用的 AI 系统，在每一项非体力职业中，能在至少 90% 的经济上有用的非体力任务上，超越第 90 百分位的人类专业人士（基于 2025 年的表现），且推理成本不超过等效人类劳动力成本的 5 倍。

在这个标准下：

专家中位预测：2050 年，25% 概率在 2039 年前，75% 概率在 2065 年前
超级预测者：更激进，中位 2047 年
两者都认为 21 世纪内达成 AGI 的概率为 80%

如果只看中位数，2050 听起来很远，但 25% 概率在 2039 年前这个数字更值得注意——这意味着超过三分之一的专家认为，AGI 可能在 13 年内达成。考虑到调查对象中包括了行业中最了解 AI 进展的人，这个概率不可忽视。

短期基准：预测已被验证

LEAP 这次采用了一个很有意思的短期指标：METR 任务完成时间基准。简单说，就是测量 AI 模型能成功完成需要人类专家多久才能完成的软件任务。

调查时的基线是 1.5 小时（2026 年 4 月）。专家和超级预测者预测到 2026 年底，这个数字会达到 3-4 小时。

关键转折：在调查期间（5 月 8 日），METR 更新了基准，加入了 Anthropic 的 Mythos 模型预览——Mythos 在 80% 的成功率下达到了 3 小时 6 分钟，已经进入了专家预测的年底范围，而当时距离年底还有 7 个多月。

对于更长的时间跨度，专家预测 2030 年有 50% 的概率出现能完成 8 小时人类任务的 AI 模型，超级预测者则激进到 2028 年。

社会影响：专家乐观，公众悲观，关系成最大共识

能力维度	专家（说变好）	超级预测者（说变好）	公众（说变好）
问题解决	72.7%	69.8%	48.6%
做出艰难决策	58.3%	54.7%	36.9%
创造性思考	54.3%	56.6%	40.1%
建立有意义的人际关系	15.8%（68.4% 说变差）	30.2%	13.6%（66.7% 说变差）
整体影响（积极）	57.5%	69.8%	42.0%

几个值得深挖的趋势：

专家 vs 公众的认知裂谷：在整体影响上，专家（57.5%）和超级预测者（69.8%）对 AI 持积极态度的比例明显高于公众（42.0%）。在解决问题和艰难决策上，专家和公众的差距更大。这种认知落差本身就值得担忧——如果了解最多的人和最受影响的人不是同一个认知水平，政策制定就会面临严重的沟通障碍。

人际关系：唯一一个专家和公众高度一致的方向。68.4% 的专家和 66.7% 的公众预期 AI 会让人们更不擅长建立有意义的关系。这是专家和公众意见几乎完全对齐的领域——也是所有维度中悲观程度最高的。

技术影响级别：向”世纪级技术”靠拢

LEAP 使用 Nate Silver 提出的技术里氏震级（Technological Richter Scale, TRS）来衡量 AI 的社会影响级别：

TRS 级别	描述	示例	2040 年概率（专家）
L7	十年的技术	信用卡	—
L8	世纪的技术	电力	35%
L9	千年的技术	农业	24%
L10	时代的技术	人类的崛起	11%

对比第 1 波调查（2025 年夏季），专家和超级预测者都上调了他们对 AI 影响级别的预期：

专家：平均 TRS 从 7.86 → 8.06（+0.20）
超级预测者：从 7.50 → 7.89（+0.39，变动更大）
公众：从 7.18 → 7.25（+0.07，几乎不变）

74% 的参与者在两波之间变动在 ±1 个级别内，但专家的模态预测（概率最高的级别）从 L7 转向了 L8——选择”世纪的技术”的专家比例从 38% 增长到 53%。

我的解读

1. 超级预测者比 AI 专家更激进

这不是第一次了。在多个时间线相关问题上，超级预测者的中位预测始终比专家前沿科学家更早。原因可能在于：专家更了解当前的工程瓶颈——数据耗尽、推理成本、可靠性问题——而超级预测者更多基于指数级增长的抽象趋势做推断。两者中谁更准，目前还没有定论，但差异本身值得关注。

2. 2026-2027 年可能是 AGI 竞赛的关键窗口

Mythos 模型已经在 5 月达到了专家预测的 2026 年底水平。如果这一趋势持续（每半年能力翻倍或更快），2027 年可能出现完成 24 小时人类任务的模型。2027-2028 年也是超级预测者预测的 8 小时任务突破时间窗。这意味着未来 12-18 个月，AGI 的讨论将从「是否」转向「何时」。

3. 人际关系的隐忧值得及早关注

68% 的专家认为 AI 会让人们更不擅长建立有意义的关系，这是所有维度中共识最强、最一致的预测。如果这个预测成真，其社会涟漪可能远超 AI 的经济影响——年轻人社交减少、孤独流行病加剧、社会资本下降。然而，这个方向在当前的政策讨论中几乎完全缺席。企业忙着研发 AGI，政府忙着监管安全，但谁在关注 AI 对人与人之间最基本连接的影响？

参考资料

LEAP Wave 8 完整报告：Forecasting Research 发布。→ https://leap.forecastingresearch.org/reports/wave8
LEAP 总览页面：所有波次数据和问题列表。→ https://leap.forecastingresearch.org/
原文 Substack 文章：Experts and Superforecasters Update Their AI Timelines。→ https://forecastingresearch.substack.com/p/leap-wave-8-ai-timelines
METR 任务时间基准：AI 模型任务完成能力衡量标准。→ https://metr.org/time-horizons/
技术里氏震级（TRS）介绍：Nate Silver 提出的技术影响分级框架。→ https://thezvi.substack.com/p/ai-and-the-technological-richter

文档信息

本文作者：zhupite
本文链接：https://zhupite.com/ai/leap-wave8-ai-timelines-expert-forecast.html
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）