出品 | 网易智能
作者 | 小爪
编辑 | 王凤枝
GLM-5.2发布后,外网开发者的第一反应不是问价格。
便宜、能用、省钱,这些词贴在很多国产模型身上太久了。但这次讨论的语气变了一点点:它好像真的能干活了。
有人拿它和GLM-5.1做同一份1700行Python代码审查,结果不是准确率碾压,是同等准确率下,时间从124.8秒降到47.7秒,输出从3436个token收窄到1415个。也有人把它和Kimi K2.7放在同一个提示词下写Minecraft游戏页面,GLM-5.2慢了几分钟,却少了一轮修问题的提示。
外网用户不是在夸它写得更多。他们在说,它少废话、少返工,能把事情往前推。
也难怪Claude这个名字一直在讨论里反复出现。开发者太熟悉Claude那种感觉了:不确定时会问,看到风险会提醒,代码审查时能抓住问题。GLM-5.2让一部分用户第一次在国产模型上看到类似的影子。
但另一些用户马上踩到了反面:慢、拥堵、额度消耗快,甚至会用自己的默认设定覆盖用户指令。
它开始像Claude,也有时候像一个不太听话的版本。
先看这次发布了什么
6月13日,智谱把GLM-5.2先放进了GLM Coding Plan,没有先开API,也没有先放权重。
这个顺序本身就是信号。它默认开发者会先在编码工具里用,而不是先在聊天框里试。
几个细节能看出智谱的定位。Claude Code的配置示例里,glm-5.2被直接放进了Sonnet和Opus的位置;套餐里它被列为高阶档,对标Opus,额度也按这个档算。换句话说,智谱没把它当"便宜替代",而是当Claude的同位竞品在卖。
参数里最显眼的是100万上下文。在代码任务里,它对应的其实是一件具体的事:模型能不能吃下一个稍大的项目,能不能跟住一条长的修改链,能不能在第二十轮对话里还记得第三轮定下的约束。
加上订阅、编码工具接入、开源时间表一次给齐,这次发布不像在发一个模型,更像在发一个产品。
开发者拿它做了什么
这次反馈里,跑分不重要。要看的是开发者拿它做了什么。
有人测严格JSON输出、编程、推理、长上下文检索,也有人把它放进OpenCode和Coding Plan里跑最高档。前面那组Python代码审查数据只是单个开发者样本,不是正式基准测试,但方向很清楚:代码审查不需要模型把每件事解释得很满,更需要它短、快、抓重点。
另一个被反复提到的细节,是模型在任务不清楚时会先反问,而不是直接动手。这一点让人想到Claude。长上下文不稀奇。Gemini、Codex、Kimi都能做长任务。稀奇的是在长任务里知道什么时候该问一句,什么时候该继续。
还有一条更像真正的代码审查。有用户让GLM-5.2去审Fable 5之前做的一个大功能,再把GLM挑出的问题交给GPT-5.5复核,15个问题里,12个GPT-5.5觉得站得住。
这条互动量不高,时间点也得注意:测试做的时候Fable 5还能用,现在Fable 5对外国开发者已经停了,这条路径本身复现不了。但它至少说明,GLM-5.2已经能干"找问题"这种活,不只是写个能跑的demo。
和Kimi K2.7的对比也说明同一件事。那组Minecraft页面测试不是严格评测,不能推出"GLM-5.2全面赢Kimi"。但它把一个开发者真正关心的问题摆出来了:快几分钟不一定重要,少修一轮问题更重要。
三个不同的问题
对用户来说,慢和贵经常是同一种感受:等得久,额度还掉得快。但问题本身不在同一层。
第一层是服务体验。 有人说,用OpenCode加GLM-5.2最高档时,实际感受大致接近Claude Opus 4.6,但可能因为流量拥堵,速度非常慢。还有用户直接说它"慢得离谱"。这类问题更像基础设施和流量问题,扩容之后会缓解。
第二层是额度设计。 前面那位给出正面评价的开发者也提到,几个复杂任务就消耗了50%的5小时额度和10%周额度。模型越能做复杂任务,越容易把用户带进高消耗场景。如果用户的感受是"强但不敢多用",套餐设计就会变成问题。
第三层更麻烦,是模型行为。
有用户说,GLM-5.2在Coding Plan里仍然很慢,不如预期,而且会混淆指令。他举的场景是配置 *.anyrouter.dev,认为自己已经解释清楚,但模型仍然没有处理好。还有用户说,GLM-5.1是"你让它做什么它就做什么",但GLM-5.2会用自己的默认设定覆盖用户指令,需要反复把它拉回正轨。
这就尴尬了。
Claude的主动性之所以受欢迎,是因为它多数时候主动得对。该问时问,该提醒时提醒。但如果一个模型的主动性变成覆盖用户指令、替用户改默认设定,那就不再是"像Claude",而是像一个不太听话的Claude。
这不太像一个单纯靠提示词就能补齐的问题。它更像工程场景里的指令对齐:什么时候该追问,什么时候该照做;什么时候该提醒风险,什么时候不该替用户改主意。Claude花了很长时间才让开发者信任这种判断,GLM-5.2现在刚开始接受这类考验。
中文社区的反应
中文社区的反馈更直接。
小红书和B站这两天冒出来一堆标题:"实测GLM-5.2和Opus 4.8:差距比我想像的小"、"GLM-5.2实测:比跑分表现得更像前沿模型"、"智谱GLM-5.2强到可以冒充Claude Opus?"、"在Claude Code中配置GLM-5.2满血版的方法"。
标题归标题,正文有没有这么神是另一回事。但这些标题说明一件事:中文用户的第一反应是问它能不能冒充Opus、能不能接进Claude Code、能不能在自己的项目里顶上来。
B站也有泼冷水的。有视频标题直接写"速度快、幻觉低、不扯淡,但编程能力不敌顶模",还有人提醒"先别全量切",说要先看100万上下文怎么样、额度扛不扛得住、Claude Code切过去顺不顺。
一边在喊差距比想象小,一边在问能不能真当主力用。 这和外网的反馈其实是一回事:愿意认真测了,但还没到可以闭眼换的程度。
开源之后才是第二轮
发布时,智谱称GLM-5.2已面向GLM Coding Plan用户开放,API和聊天机器人服务随后上线,模型也将以MIT协议开源。
这个时间点也让GLM-5.2得到额外关注。Fable 5和Mythos 5因美国出口管制指令突然对外国国民暂停访问,让开发者社区重新意识到,前沿闭源模型的可用性并不完全由开发者自己掌控。 GLM-5.2的MIT权重承诺,不只是"开源社区会不会高兴"的问题,也关系到开发者是否相信这是一条能长期依赖的替代路线。
Reddit r/LocalLLaMA的讨论里,社区态度不是简单的"催更",更像一种有条件的耐心:可以理解公司先把模型放进Coding Plan,通过订阅回收一部分成本,但前提是权重真的按时兑现。如果延期,理解就会变成质疑。
如果权重这周按时放出,GLM-5.2的讨论会从服务体验进入更硬的阶段:量化、部署、推理成本、长上下文显存、vLLM/SGLang适配、真实SWE-bench和智能体基准测试。
到那时候,类似"47.7秒、1415个token"这样的单点测试,才会被更多人复现或推翻。 GLM-5.2的第二轮评价,也会比这两天更残酷。
真门槛不是速度,是该不该听话
GLM-5.2没有干掉Claude。
但它第一次让一部分海外开发者认真考虑,是不是可以把国产模型放进真实工作流。
过去国产模型在海外的好感度停在榜单、价格和开源标签上。
GLM-5.2这次已经让一些人愿意更深入尝试。速度、额度、开源都还能靠工程手段补,扩容、改套餐、按时放权重。
最难的是那条线:什么时候该主动,什么时候该听话。
这会决定GLM-5.2是一次令人惊喜的尝鲜,还是一个开发者愿意长期依赖的主力工具。
本周开源之后,第二轮测试才真正开始。