GLM-5.2初体验来了：像Claude，但还没那么听话,glm()

出品 | 网易智能

作者 | 小爪

编辑 | 王凤枝

GLM-5.2发布后，外网开发者的第一反应不是问价格。

便宜、能用、省钱，这些词贴在很多国产模型身上太久了。但这次讨论的语气变了一点点：它好像真的能干活了。

有人拿它和GLM-5.1做同一份1700行Python代码审查，结果不是准确率碾压，是同等准确率下，时间从124.8秒降到47.7秒，输出从3436个token收窄到1415个。也有人把它和Kimi K2.7放在同一个提示词下写Minecraft游戏页面，GLM-5.2慢了几分钟，却少了一轮修问题的提示。

外网用户不是在夸它写得更多。他们在说，它少废话、少返工，能把事情往前推。

也难怪Claude这个名字一直在讨论里反复出现。开发者太熟悉Claude那种感觉了：不确定时会问，看到风险会提醒，代码审查时能抓住问题。GLM-5.2让一部分用户第一次在国产模型上看到类似的影子。

但另一些用户马上踩到了反面：慢、拥堵、额度消耗快，甚至会用自己的默认设定覆盖用户指令。

它开始像Claude，也有时候像一个不太听话的版本。

先看这次发布了什么

6月13日，智谱把GLM-5.2先放进了GLM Coding Plan，没有先开API，也没有先放权重。

这个顺序本身就是信号。它默认开发者会先在编码工具里用，而不是先在聊天框里试。

几个细节能看出智谱的定位。Claude Code的配置示例里，glm-5.2被直接放进了Sonnet和Opus的位置；套餐里它被列为高阶档，对标Opus，额度也按这个档算。换句话说，智谱没把它当"便宜替代"，而是当Claude的同位竞品在卖。

参数里最显眼的是100万上下文。在代码任务里，它对应的其实是一件具体的事：模型能不能吃下一个稍大的项目，能不能跟住一条长的修改链，能不能在第二十轮对话里还记得第三轮定下的约束。

加上订阅、编码工具接入、开源时间表一次给齐，这次发布不像在发一个模型，更像在发一个产品。

开发者拿它做了什么

这次反馈里，跑分不重要。要看的是开发者拿它做了什么。

有人测严格JSON输出、编程、推理、长上下文检索，也有人把它放进OpenCode和Coding Plan里跑最高档。前面那组Python代码审查数据只是单个开发者样本，不是正式基准测试，但方向很清楚：代码审查不需要模型把每件事解释得很满，更需要它短、快、抓重点。

另一个被反复提到的细节，是模型在任务不清楚时会先反问，而不是直接动手。这一点让人想到Claude。长上下文不稀奇。Gemini、Codex、Kimi都能做长任务。稀奇的是在长任务里知道什么时候该问一句，什么时候该继续。

还有一条更像真正的代码审查。有用户让GLM-5.2去审Fable 5之前做的一个大功能，再把GLM挑出的问题交给GPT-5.5复核，15个问题里，12个GPT-5.5觉得站得住。

这条互动量不高，时间点也得注意：测试做的时候Fable 5还能用，现在Fable 5对外国开发者已经停了，这条路径本身复现不了。但它至少说明，GLM-5.2已经能干"找问题"这种活，不只是写个能跑的demo。

和Kimi K2.7的对比也说明同一件事。那组Minecraft页面测试不是严格评测，不能推出"GLM-5.2全面赢Kimi"。但它把一个开发者真正关心的问题摆出来了：快几分钟不一定重要，少修一轮问题更重要。

三个不同的问题

对用户来说，慢和贵经常是同一种感受：等得久，额度还掉得快。但问题本身不在同一层。

第一层是服务体验。 有人说，用OpenCode加GLM-5.2最高档时，实际感受大致接近Claude Opus 4.6，但可能因为流量拥堵，速度非常慢。还有用户直接说它"慢得离谱"。这类问题更像基础设施和流量问题，扩容之后会缓解。

第二层是额度设计。 前面那位给出正面评价的开发者也提到，几个复杂任务就消耗了50%的5小时额度和10%周额度。模型越能做复杂任务，越容易把用户带进高消耗场景。如果用户的感受是"强但不敢多用"，套餐设计就会变成问题。

第三层更麻烦，是模型行为。

有用户说，GLM-5.2在Coding Plan里仍然很慢，不如预期，而且会混淆指令。他举的场景是配置 *.anyrouter.dev，认为自己已经解释清楚，但模型仍然没有处理好。还有用户说，GLM-5.1是"你让它做什么它就做什么"，但GLM-5.2会用自己的默认设定覆盖用户指令，需要反复把它拉回正轨。

这就尴尬了。

Claude的主动性之所以受欢迎，是因为它多数时候主动得对。该问时问，该提醒时提醒。但如果一个模型的主动性变成覆盖用户指令、替用户改默认设定，那就不再是"像Claude"，而是像一个不太听话的Claude。

这不太像一个单纯靠提示词就能补齐的问题。它更像工程场景里的指令对齐：什么时候该追问，什么时候该照做；什么时候该提醒风险，什么时候不该替用户改主意。Claude花了很长时间才让开发者信任这种判断，GLM-5.2现在刚开始接受这类考验。

中文社区的反应

中文社区的反馈更直接。

小红书和B站这两天冒出来一堆标题："实测GLM-5.2和Opus 4.8：差距比我想像的小"、"GLM-5.2实测：比跑分表现得更像前沿模型"、"智谱GLM-5.2强到可以冒充Claude Opus？"、"在Claude Code中配置GLM-5.2满血版的方法"。

标题归标题，正文有没有这么神是另一回事。但这些标题说明一件事：中文用户的第一反应是问它能不能冒充Opus、能不能接进Claude Code、能不能在自己的项目里顶上来。

B站也有泼冷水的。有视频标题直接写"速度快、幻觉低、不扯淡，但编程能力不敌顶模"，还有人提醒"先别全量切"，说要先看100万上下文怎么样、额度扛不扛得住、Claude Code切过去顺不顺。

一边在喊差距比想象小，一边在问能不能真当主力用。 这和外网的反馈其实是一回事：愿意认真测了，但还没到可以闭眼换的程度。

开源之后才是第二轮

发布时，智谱称GLM-5.2已面向GLM Coding Plan用户开放，API和聊天机器人服务随后上线，模型也将以MIT协议开源。

这个时间点也让GLM-5.2得到额外关注。Fable 5和Mythos 5因美国出口管制指令突然对外国国民暂停访问，让开发者社区重新意识到，前沿闭源模型的可用性并不完全由开发者自己掌控。 GLM-5.2的MIT权重承诺，不只是"开源社区会不会高兴"的问题，也关系到开发者是否相信这是一条能长期依赖的替代路线。

Reddit r/LocalLLaMA的讨论里，社区态度不是简单的"催更"，更像一种有条件的耐心：可以理解公司先把模型放进Coding Plan，通过订阅回收一部分成本，但前提是权重真的按时兑现。如果延期，理解就会变成质疑。

如果权重这周按时放出，GLM-5.2的讨论会从服务体验进入更硬的阶段：量化、部署、推理成本、长上下文显存、vLLM/SGLang适配、真实SWE-bench和智能体基准测试。

到那时候，类似"47.7秒、1415个token"这样的单点测试，才会被更多人复现或推翻。 GLM-5.2的第二轮评价，也会比这两天更残酷。

真门槛不是速度，是该不该听话

GLM-5.2没有干掉Claude。

但它第一次让一部分海外开发者认真考虑，是不是可以把国产模型放进真实工作流。

过去国产模型在海外的好感度停在榜单、价格和开源标签上。

GLM-5.2这次已经让一些人愿意更深入尝试。速度、额度、开源都还能靠工程手段补，扩容、改套餐、按时放权重。

最难的是那条线：什么时候该主动，什么时候该听话。

这会决定GLM-5.2是一次令人惊喜的尝鲜，还是一个开发者愿意长期依赖的主力工具。

本周开源之后，第二轮测试才真正开始。