新智元报道
编辑:元宇
【新智元导读】别人还在卷单点能力,Agnes已经把文本Agent、图像、视频和办公自动化打包进开发者工具箱:1美元「养龙虾」,外加图像、视频、PPT一条龙,给出的不是零散的能力点,而是一整套AI生产力。
近日,Agnes旗下核心模型矩阵正式上线Zenmux平台(https://zenmux.ai/models?sort=newest),一口气开放四款主力模型调用,覆盖文本Agent与多模态生成两大核心方向。
其中包括Claw系列的Agnes-1.5-Lite与Agnes-1.5-Pro,以及多模态方向的Agnes-Image-1.2与Agnes-Video-V1.2,直接把「文本+图像+视频」的整套能力打包上线。
更值得关注的是,上线首周模型调用量即快速攀升,已超过多家头部模型公司同类产品表现,显示出强劲的市场接受度与开发者活跃度,成为近期开发者侧增长最为迅猛的一组模型组合之一。
Agnes模型矩阵在Zenmux正式上线
在行业普遍进入「性能+成本」双重竞争阶段的背景下,Agnes通过高性价比模型与完整工具链的组合,正在迅速打开开发者生态入口。
AgnesClaw
低至1美元的「养虾」入门神器
在OpenClaw热度持续攀升之际,Agnes将「Claw」接入自家App,AgnesClaw一键部署。
用户通过订阅会员(部分地区Starter新用户最低可低至1美元/月)即可免费部署并使用AgnesClaw,同时解锁平台全部高级功能,性价比极高。
AgnesClaw的入口前置到首页,用户一键部署完成后,在对话框中切换至AgnesClaw模式,即可体验「养龙虾」,整体学习体验成本极低。
AgnesClaw目前支持与Telegram绑定,后续接入更多平台,提供定时任务、长期记忆和skills库,包括Agnes预置常用skills(如PPT生成、表格处理、图像/视频生成、AI搜索、深度研究等)和开源skills。
部分AI应用由于底层模型能力的限制,可能存在无法安装或流畅运行特定skill组件的问题。
而Agnes官方表示,AgnesClaw凭借自研的「龙虾」基座模型与强大的工具调用适配能力,几乎可以无缝安装并使用绝大多数热门skills。
用户可以利用它创建定时任务、处理文件并整理为结构化文档、实现办公自动化等。
同时,AgnesClaw具备自我进化能力,通过上下文理解和记忆能力,在使用过程中能更好地理解用户习惯,从而更有效地协助完成任务。
一键部署AgnesClaw
AgnesClaw的最大亮点在于自研的「龙虾」基座模型,这是赋予Agnes版本「龙虾」具备更强的理解力和skill适配能力的核心。
Agnes为用户高性价比「养龙虾」,专门推出了两款不同参数规模基于LLM优化的Agent模型,分别是120B的Agnes-1.5-Pro模型和35B的Agnes-1.5-Lite模型。
PinchBench榜单中Agnes-1.5 系列模型在准确性维度表现突出
AgnesClaw定位「下一代极速多模态混合专家模型」,架构上融合了隐式MoE(Latent MoE)、Mamba-2状态空间模型与原生多模态早融合技术,旨在同时解决超长上下文、高频工具调用、复杂Multi-Agent协作三大痛点,打破传统「规模-延迟-记忆」三元悖论。
根据全球权威「养虾」AI评测榜单PinchBench,Agnes-1.5-Pro模型在准确性维度表现突出,已跻身榜单前列,成为开发者「最佳养虾模型」选择之一。
PinchBench榜单
Agnes-Image-1.2
开源第一,闭源第二
本次发布中,Agnes 20B全新图像编辑模型Agnes-Image-1.2的表现超出预期。
根据官方公布的测试数据,该模型综合评分达到4.25分(满分5分),在闭源模型中仅次于NanoBananaPro的4.48分,超越了Seedream4.0和Seedream4.5,在开源模型中排名第一。
全新图像模型综合评分达到4.25分(满分5分)
在单项指标上,Agnes-Image-1.2模型在人像维度提升尤为显著,针对人像场景的定向微调有效增强了面部细节保真、局部编辑可控性以及与背景的自然融合能力,Portrait从3.98提升至4.30(+0.32)。
同时,Extract(2.47→3.05,+0.58)与Viewpoint(2.82→3.17,+0.35)也有进一步提升,表明模型在目标区域分离与结构/几何稳定性方面更可靠,有助于复杂编辑任务的一致性表现。
完整模型家族
覆盖多模态全链路
除了Agnes-1.5-Pro与Agnes-1.5-Lite两款模型和Agnes-Image-1.2图像编辑模型,Agnes这次还亮出了更加完整的模型矩阵,包括搜索与研究模型、AI Slides模型、图片与视频生成模型。
在图片和视频生成领域,Agnes构建了完整模型体系,包括图像和视频模型。除了之前介绍的Agnes-Image-1.2(20B)模型,Agnes另外还有一款19B的Agnes-Video-V1.2视频生成模型。
据了解,Agnes-Video-V1.2可实现原生音画同步生成,支持图生视频和特定风格/角色的生成,可适配多种业务场景。
该模型采用双流音视频Transformer架构,能在同一模型中同时生成音频与视频,从而实现人物口型、动作与声音天然同步。模型经测试可在有限显存环境下运行,方便企业级规模化部署和个人开发者的本地实验。
在语言模型方面,Agnes针对自己的主推市场东南亚地区,推出了8B参数的东南亚小语种模型Agnes-SeaLLM,目前已成为该地区小语种理解与生成任务SOTA模型。
东南亚小语种模型Agnes-SeaLLM
在信息处理和研究能力方面,Agnes发布了Agnes-Search(30B)模型和面向复杂研究任务的Agnes-DeepResearch(30B)模型。
前者在内部测试中实现78.6%的推理成本下降,生成速度提升18.6%;后者测试引用准确率为100%,基准测试准确率平均提升14.3%。
在办公自动化场景中,Agnes-Slides(30B)模型可以将网页或文档内容自动生成为PPT,通常1分钟即可生成15—20页演示文稿,平均生成成本低至约每页几美分。
模型后训练为主
RLAF框架减少人工依赖
在底层训练范式上,Agnes采用的是一整套连续演进的技术路径:从CPT(continuous pre-training,持续预训练)到PT(post-training,后训练),再到以自建RL(reinforcement learning)为核心的强化阶段,使模型能力可以持续迭代,而非一次性收敛。
更关键的是,他们把「进化」这件事,从模型层扩展到了Agent层。
在AgnesClaw体系中,Agent不仅调用skills,还可以在任务执行过程中通过反馈不断优化自身策略,实现智能体与skills的协同自进化。
这意味着,系统能力不再完全依赖预训练,而是在真实使用中持续变强。
支撑这套体系的,是一支高度国际化的研究团队——成员来自斯坦福、伯克利、MIT、NUS、NTU,以及清华、浙大、南大、东大等顶尖高校,核心科研带头人包括来自微软亚研院、英特尔研究院的首席科学家,以及高校教授与图灵奖得主门下研究者。
他们提出了一套名为RLAF(Reinforcement Learning with Agentic Feedback)的带智能反馈的新的强化学习框架,以减少对人工标注的依赖。该框架包含两个自研核心组件:
DSPO(Dynamic-filter Sequence-level Policy Optimization):动态过滤序列级策略优化算法。
官方数据显示,在同规模模型对比中,相比DeepSeek Search-R1 (GRPO,7B)实现34.1%的性能提升。
UV(Universal Verifier):通用验证器,用智能评估器替换人工标注数据和人工定义的奖励机制。
在RLAF框架中,多个AI Agent会对模型输出进行自动评估,从逻辑一致性、事实准确性和任务完成度等多个维度生成反馈信号。
这种「AI训练AI」的方式,可以减少大量人工标注,从而降低训练成本并提升效率。
随着AI行业进入新一轮竞争阶段,成本效率正逐渐成为商业化成败的关键因素。而此次登陆Zenmux(https://zenmux.ai/models?sort=newest),某种程度上也是Agnes一个关键分水岭——
模型不再只是「榜单表现」,而是直接进入开发者真实调用与对比的第一线。
从上线一周的调用表现来看,这套Claw+多模态组合已经开始改写一部分开发者的选择。
当越来越多模型走向平台化分发,真正能留下来的,或许不只是更强的参数规模,而是谁更便宜、谁更好用、谁更能被快速接入真实世界。
Agnes,显然正在把答案往这个方向推。