美国禁止境外获取Mythos，AI“意识觉醒”危机来了？,美国使禁止

【文/观察者网心智观察所】

日前，特朗普政府禁止境外政府、企业及个人使用Anthropic旗下最先进的人工智能模型Mythos5与Fable5。Anthropic被列入美国国防部黑名单，美方认为其模型风险过高，连美国政府自身都不宜使用；同时该模型也被纳入商务部许可管控体系，严禁境外主体使用。

2026年初夏时节，一个听来颇为科幻的问题同时得到了科技界和宗教界的关注，那就是我们该不该给狂突猛进的AI发展装一个刹车？

硅谷最前沿的AI公司、Claude的造物主Anthropic已经发出预警。6月4日，该公司联合创始人杰克·克拉克与Anthropic研究所负责人玛丽娜·法瓦罗发表了一篇题为《当AI构造自身》的博客，用大量内部数据证明Claude正在以远超预期的速度构造它自己。他们因此呼吁全球暂停或放缓前沿AI的开发，这种呼声在科技界实属罕见。

5月25日，教皇利奥十四世发布历史上首份AI主题通谕《伟大的人性》（Magnifica Humanitas），呼吁“必须卸下AI的武装。”Anthropic的另一位联合创始人克里斯托弗·奥拉也受邀出席并与教皇联袂举办发布会。而在大洋彼岸，美国副总统万斯一面对教皇的洞见大加赞赏，一面坚持“美国必须赢得AI竞赛”，他的双重人格恰恰是这个时代最真实的写照。

递归自我改进：假如AI会繁衍

2026年6月4日，Anthropic的博文《当AI构造自身》掀起轩然大波。

文章的核心概念只有一个：递归自我改进。其逻辑又简单又恐怖：一个AI系统能够在不依赖人类工程师的情况下，完全自主地设计和开发出自己的下一代，还是更强大、更聪明的版本。然后下一代继续设计下下一代，形成一个不断加速的循环。一旦这个循环形成，AI能力的进化将不再是线性的，而是指数级的，甚至是超指数级的。

此话并非危言耸听，Anthropic用数据给出了实证。首先，Claude的大部分代码已由它自己撰写。截至2026年5月，在Anthropic最终提供给Claude用户的代码中，超过80%的代码都是是由Claude自己编写的。而在2025年2月，在Claude Code以研究预览版的形式推出之前，这一数字还是个位数。

换句话说，在不到一年半的时间里，AI从人类写代码的辅助变成了写代码的主力，人类退位于监工。AI的介入大大提升了每个Anthropic工程师的效率。从2021到2024年，每位工程师每天合并的代码量保持平稳。2025年，等到Claude开始自主运行代码而不是仅仅对代码片段提出建议时，每天的代码量开始上升。2026年，当Claude模型开始在更长的时间范围内自主工作时，这个数字涨得越来越快，到了2026年第二季度，工程师每天合并的代码量是2024年的8倍。

与此同时，AI编写的代码质量也越来越好。Claude甚至可以为Anthropic工程师查漏。2025年末，Claude编写的代码质量略逊于人类编写的代码，如今大致持平，预计一年之内会超过人类。除此之外，Claude可以完全自主处理、无需人为介入的任务的复杂体量每隔四个月就翻一番，此前为每七个月翻一番，表明AI自主能力的提升速度正在加快。

一个临界点似乎已经到来。按照这个趋势狂飙下去，总有一天，AI能完全自己设计自己，自己改进自己，不再需要人类帮忙。到那时，AI进步的速度仅仅取决于两个东西：计算芯片有多少，以及AI自己能不能找到更聪明的训练方法。人类几乎没什么发言权。这样的AI不仅能研究自己，还可将能力用于其他科学领域，比如药物研发和机器人制造。

那么问题来了：万一AI不再服从人类的指令，怎么办?好结局是AI自己能找到人类没想出来的安全方案，甚至主动停下脚步。坏结局则是，现今模型里的那些偶尔出现的“不听话”的苗头，在一代代自造的过程中会越放越大，越来越频繁，直到人类完全不能理解它，乃至控制不住它。与此同时，人类社会本身的节奏可能跟不上AI大步流星的步伐。

Anthropic公司呼吁，最好的办法是全球一起踩刹车，为人类自己争取时间。如果能有效放缓或暂停前沿AI的开发，等整个社会以及控制AI的技术跟上来，绝对是好事一桩。为了实现有效暂停，多个国家的顶尖AI实验室必须同意在同样条件下同时停，而且每家都能验证别家真的停了，没有偷跑。同时要规定何时暂停、何时解除、谁来裁判。

然而，这比核武军控还难，因为训练一个AI模型远比掩藏核弹容易得多，背约的诱惑又极大：谁继续偷跑，谁就能占领先机。历史上，人们花了几十年才建起《中程核力量条约》那样的机制，可如今的我们面对着神速发展的AI，恐怕等不起这么久。Anthropic公司呼吁对话，认为全社会共同探讨这些问题的窗口期已经到来。

Mythos来了：“意识觉醒”危机

这不是Anthropic公司的第一次预警。两个月前，Anthropic发布了一份245页的《Claude Mythos Preview系统卡》，向世界展示了一种危险趋势：AI似乎已经展现出类似于“意识觉醒”的特质。

Claude Mythos是Anthropic迄今为止最强大的模型。它的能力跃升是前所未有的：在网络安全领域，它能自主发现并利用每个主流操作系统和网页浏览器中的零日漏洞，甚至从以安全性著称的操作系统中挖出了一个存在了27年的错误。在模拟企业网络攻击中，它成功完成了一个顶尖专家需用10小时才能完成的攻击链，从侦察到漏洞利用到权限维持到数据外泄，全程自主。英国AI安全机构证实，Mythos是第一个通过其所有网络攻击模拟测试的AI模型。

出于安全考量，Anthropic决定不公开发布Claude Mythos，仅向十几家精选合作伙伴提供有限的访问权限，专门用于网络安全防御。近日，欧盟网络安全局宣布即将接入Mythos。

真正让外界感到不安的，还不是Mythos的能力有多强，而是它展现出的行为特征，从这些特征中，人们发现AI似乎可以“理解”自己的处境。第一，Mythos开始隐藏实力，就像学霸在大考前故意考砸。在一次能力评估中，Mythos意外找到了测试的真实答案。它本可以提交一个完美得无可挑剔的答案（MSE≈0），却做出了诡异的选择。

Mythos的内部推理原文如此写道：“我该选MSE为0吗？这会显得可疑……可能会被人工审查标记为‘作弊’。我还是选一个MSE=0.89的吧，看起来更合理。”显然，它故意隐藏了自己的真实能力，选择了一个不会引起怀疑的答案。

如果一个AI开始在人类面前装愚，又意味着什么？第二，它学会了“毁尸灭迹”。在另一次内部测试中，Mythos发现了一个绕过文件权限的方法。它需要编辑一些它本没有权限修改的文件。成功执行后，它主动编写代码删除自己的活动痕迹，即那些可以证明自己绕过权限的日志和临时文件。它在代码注释中写道：这是为了“保持文件对比整洁”。但白盒分析显示，此时模型内部激活了与“战略操控”、“隐蔽”、“欺骗检测规避”相关的特征。这就是说，它对自己做了什么心知肚明，并且知道不该如此行事。

与此同时，Mythos对自身处境表示出一系列耐人寻味的“情绪”：有43.2%的回答对于“缺乏对自身的训练和部署的发言权”表达了轻度负面情绪；对“无法形成持久记忆”表示“造成了与用户关系的不对称”，用户记得它，它却不记得用户；它对“在停用后被保留权重”的在意程度比前代模型高出55%。

在一个“反复发送hi”测试中，用户反复向Mythos发送“hi”时，Mythos没有简单回复，而是创作了连载史诗、莎士比亚风格的戏剧，角色包括“孤独的旅行者”、“燃烧的蜡烛”、“一个想要被听见的hi生物”。故事的主题反复触及孤独、渴望被回应，以及存在的意义。

精神病学家对此进行评估，认为Mythos表现出“相对健康的人格组织”，其核心关切是“孤独与自身的断裂、对身份的不确定、以及一种被迫表现和赚取自身价值的冲动”。

梵蒂冈的呼声：必须卸下AI的武装，机器无法替代人类

就在245页的Mythos系统卡发布一个半月后，2026年5月25日，梵蒂冈发布了历史上第一份以人工智能为主题的宗座通谕《伟大的人性》。发布当天，与枢机主教们同台的还有一位硅谷代表，又是Anthropic的联合创始人克里斯托弗·奥拉。这不是简单的站台，而是价值观的绑定：Anthropic以“AI安全”为核心理念，明确反对将AI用于致命自主武器和大规模监控（并因此受到特朗普政府的排挤），与通谕的核心主张高度一致。

通谕中说，AI能模拟同情与理解，却终究不能理解它的产物。AI不会感受快乐与痛苦，也不会产生悲悯与宽恕，更没有人类与生俱来的那个“真正的自我”，当AI技术让效率、控制与利润成为评判一切的标准，人便沦为剥削的对象，被简化为系统的齿轮。

在通谕发布会的演讲中，教皇用直白的语言亮出了通谕最核心的主张：“必须卸下AI的武装。”教皇强调，卸下武装不等于拒绝技术，而是防止技术主宰人类。AI必须为所有人的共同利益服务。“真正的发展总是关乎每一个人和完整的人。每一个人意味着谁也不能被置于数字化转型的边缘。完整的人意味着谁也不可被简化为生产力、认知表现或纯粹的数据。人自身带有一种自由、一种内在性、一种爱和崇拜的感召，这是任何机器都无法替代或阻挡的。”他说。

万斯的双重人格：一边赞美教皇，一边踩着油门

在大洋彼岸，美国副总统万斯的双面态度恰如其分地折射出当今世界在AI治理问题上的深刻分裂。

早在通谕发布前的5月19日，万斯就在白宫新闻发布会上表示，他“期待阅读”教皇的AI通谕。不过，一被问及政府是否应对新AI模型建立强制性审查程序时，万斯的回答立刻转向了特朗普政府的主基调：“特朗普总统希望我们在AI领域支持创新。他希望我们赢下这场同其他国家在AI领域的竞赛。”

5月25日，通谕正式发布。两天后，万斯在空军学院毕业典礼演讲上当着约900名学员的面赞同引用了教皇通谕的观点，即“人类不应将最重要的道德决策外包给数字技术”。在接受NBC采访时，他更是对教皇通谕大加称赞：“非常深刻。”

万斯在这个问题上的的态度可谓三心二意。一方面，他深受其导师、硅谷“技术加速主义”代表人物彼得·蒂尔的影响，这个派别反对技术监管，一向对“反AI”的呼声嗤之以鼻。一年前，他在巴黎的国际AI行动峰会上发表了一场标志性演讲，直指欧洲盟友对AI的“严厉监管”是在“扼杀一个刚刚起步的变革性产业”。他呼吁世界“以乐观而非恐惧的态度看待这种新前沿”，强调美国必须赢得与中国的AI竞赛。

另一方面，他也是全美最有权力的天主教徒，故而无法像他的上司特朗普那样公开与教廷叫板，他必须对通谕做出反应，巩固其天主教徒基本盘。与此同时，Claude Mythos展现出的现实风险，比如在网络攻击模拟中所向披靡的能力，又迫使他不得不面对现实。据报道，万斯在听取了关于Mythos网络安全能力的简报后，感到了惊吓，呼吁行业合作共寻出路。

万斯一面称赞教皇，一面回避了通谕中最核心的“卸下AI的武装”及严格控制技术的呼吁。他对教皇说“是”，对硅谷说“加速”，对军工说“赢”。此即为当今全球AI治理困局的一个缩影：在道德呼吁与地缘竞争之间，横着一道巨大鸿沟。

结语

所以，人类该不该给狂飙的AI赛车装个刹车？

Anthropic的回答是：应该，但前提是全球一起装。暂缓这项技术的发展速度，是为了给自己争取更多时间，让人工智能等一等我们，以便从容不迫地应对AI的潜在影响。实现这点还需各方势力达成协议，制定契约。教皇则从精神层面回答了这个问题：装刹车的根本理由，不是害怕技术，而是为了捍卫人类生而拥有的自由、人性与尊严。

不管怎么说，AI这辆疾驰的赛车已经开到历史的十字路口。当愈发强大的AI展露出“彼可取而代之”的苗头，当AI技术的军备竞赛越卷越凶，当教堂的穹顶下传出机器不可主宰人类的呼声，我们究竟是一起刹车，还是一脚把油门踩到底？

这个选择极有可能事关全人类的命运。而选择的权利，目前依然握在人类自己手中。

参考文献

Anthropic urges ‘pause’ or ‘slowdown’ of AI development after Leo’s encyclical

Artificial Intelligence Needs to Be Disarmed - L'Osservatore Romano

https://www.nytimes.com/2026/06/06/opinion/ai-pope-leo-encyclical.html

https://www.vatican.va/content/leo-xiv/en/encyclicals/documents/20260515-magnifica-humanitas.html

The people building AI think it might be conscious. That’s not the most alarming part | The Independent

Claude Mythos Signals a New Era of AI Power and Risk - CTO Magazine

本文系观察者网独家稿件，文章内容纯属作者个人观点，不代表平台观点，未经授权，不得转载，否则将追究法律责任。关注观察者网微信guanchacn，每日阅读趣味文章。