斯坦福MIT天团出手！1美元养龙虾，图文视频全包，打工人神外挂,花650万美元上斯坦福大学

新智元报道

编辑：元宇

【新智元导读】别人还在卷单点能力，Agnes已经把文本Agent、图像、视频和办公自动化打包进开发者工具箱：1美元「养龙虾」，外加图像、视频、PPT一条龙，给出的不是零散的能力点，而是一整套AI生产力。

近日，Agnes旗下核心模型矩阵正式上线Zenmux平台（https://zenmux.ai/models?sort=newest），一口气开放四款主力模型调用，覆盖文本Agent与多模态生成两大核心方向。

其中包括Claw系列的Agnes-1.5-Lite与Agnes-1.5-Pro，以及多模态方向的Agnes-Image-1.2与Agnes-Video-V1.2，直接把「文本+图像+视频」的整套能力打包上线。

更值得关注的是，上线首周模型调用量即快速攀升，已超过多家头部模型公司同类产品表现，显示出强劲的市场接受度与开发者活跃度，成为近期开发者侧增长最为迅猛的一组模型组合之一。

Agnes模型矩阵在Zenmux正式上线

在行业普遍进入「性能+成本」双重竞争阶段的背景下，Agnes通过高性价比模型与完整工具链的组合，正在迅速打开开发者生态入口。

AgnesClaw

低至1美元的「养虾」入门神器

在OpenClaw热度持续攀升之际，Agnes将「Claw」接入自家App，AgnesClaw一键部署。

用户通过订阅会员（部分地区Starter新用户最低可低至1美元/月）即可免费部署并使用AgnesClaw，同时解锁平台全部高级功能，性价比极高。

AgnesClaw的入口前置到首页，用户一键部署完成后，在对话框中切换至AgnesClaw模式，即可体验「养龙虾」，整体学习体验成本极低。

AgnesClaw目前支持与Telegram绑定，后续接入更多平台，提供定时任务、长期记忆和skills库，包括Agnes预置常用skills（如PPT生成、表格处理、图像/视频生成、AI搜索、深度研究等）和开源skills。

部分AI应用由于底层模型能力的限制，可能存在无法安装或流畅运行特定skill组件的问题。

而Agnes官方表示，AgnesClaw凭借自研的「龙虾」基座模型与强大的工具调用适配能力，几乎可以无缝安装并使用绝大多数热门skills。

用户可以利用它创建定时任务、处理文件并整理为结构化文档、实现办公自动化等。

同时，AgnesClaw具备自我进化能力，通过上下文理解和记忆能力，在使用过程中能更好地理解用户习惯，从而更有效地协助完成任务。

一键部署AgnesClaw

AgnesClaw的最大亮点在于自研的「龙虾」基座模型，这是赋予Agnes版本「龙虾」具备更强的理解力和skill适配能力的核心。

Agnes为用户高性价比「养龙虾」，专门推出了两款不同参数规模基于LLM优化的Agent模型，分别是120B的Agnes-1.5-Pro模型和35B的Agnes-1.5-Lite模型。

PinchBench榜单中Agnes-1.5 系列模型在准确性维度表现突出

AgnesClaw定位「下一代极速多模态混合专家模型」，架构上融合了隐式MoE（Latent MoE）、Mamba-2状态空间模型与原生多模态早融合技术，旨在同时解决超长上下文、高频工具调用、复杂Multi-Agent协作三大痛点，打破传统「规模-延迟-记忆」三元悖论。

根据全球权威「养虾」AI评测榜单PinchBench，Agnes-1.5-Pro模型在准确性维度表现突出，已跻身榜单前列，成为开发者「最佳养虾模型」选择之一。

PinchBench榜单

Agnes-Image-1.2

开源第一，闭源第二

本次发布中，Agnes 20B全新图像编辑模型Agnes-Image-1.2的表现超出预期。

根据官方公布的测试数据，该模型综合评分达到4.25分（满分5分），在闭源模型中仅次于NanoBananaPro的4.48分，超越了Seedream4.0和Seedream4.5，在开源模型中排名第一。

全新图像模型综合评分达到4.25分（满分5分）

在单项指标上，Agnes-Image-1.2模型在人像维度提升尤为显著，针对人像场景的定向微调有效增强了面部细节保真、局部编辑可控性以及与背景的自然融合能力，Portrait从3.98提升至4.30(+0.32)。

同时，Extract(2.47→3.05,+0.58)与Viewpoint(2.82→3.17,+0.35)也有进一步提升，表明模型在目标区域分离与结构/几何稳定性方面更可靠，有助于复杂编辑任务的一致性表现。

完整模型家族

覆盖多模态全链路

除了Agnes-1.5-Pro与Agnes-1.5-Lite两款模型和Agnes-Image-1.2图像编辑模型，Agnes这次还亮出了更加完整的模型矩阵，包括搜索与研究模型、AI Slides模型、图片与视频生成模型。

在图片和视频生成领域，Agnes构建了完整模型体系，包括图像和视频模型。除了之前介绍的Agnes-Image-1.2（20B）模型，Agnes另外还有一款19B的Agnes-Video-V1.2视频生成模型。

据了解，Agnes-Video-V1.2可实现原生音画同步生成，支持图生视频和特定风格/角色的生成，可适配多种业务场景。

该模型采用双流音视频Transformer架构，能在同一模型中同时生成音频与视频，从而实现人物口型、动作与声音天然同步。模型经测试可在有限显存环境下运行，方便企业级规模化部署和个人开发者的本地实验。

在语言模型方面，Agnes针对自己的主推市场东南亚地区，推出了8B参数的东南亚小语种模型Agnes-SeaLLM，目前已成为该地区小语种理解与生成任务SOTA模型。

东南亚小语种模型Agnes-SeaLLM

在信息处理和研究能力方面，Agnes发布了Agnes-Search（30B）模型和面向复杂研究任务的Agnes-DeepResearch（30B）模型。

前者在内部测试中实现78.6%的推理成本下降，生成速度提升18.6%；后者测试引用准确率为100%，基准测试准确率平均提升14.3%。

在办公自动化场景中，Agnes-Slides（30B）模型可以将网页或文档内容自动生成为PPT，通常1分钟即可生成15—20页演示文稿，平均生成成本低至约每页几美分。

模型后训练为主

RLAF框架减少人工依赖

在底层训练范式上，Agnes采用的是一整套连续演进的技术路径：从CPT（continuous pre-training，持续预训练）到PT（post-training，后训练），再到以自建RL（reinforcement learning）为核心的强化阶段，使模型能力可以持续迭代，而非一次性收敛。

更关键的是，他们把「进化」这件事，从模型层扩展到了Agent层。

在AgnesClaw体系中，Agent不仅调用skills，还可以在任务执行过程中通过反馈不断优化自身策略，实现智能体与skills的协同自进化。

这意味着，系统能力不再完全依赖预训练，而是在真实使用中持续变强。

支撑这套体系的，是一支高度国际化的研究团队——成员来自斯坦福、伯克利、MIT、NUS、NTU，以及清华、浙大、南大、东大等顶尖高校，核心科研带头人包括来自微软亚研院、英特尔研究院的首席科学家，以及高校教授与图灵奖得主门下研究者。

他们提出了一套名为RLAF（Reinforcement Learning with Agentic Feedback）的带智能反馈的新的强化学习框架，以减少对人工标注的依赖。该框架包含两个自研核心组件：

DSPO（Dynamic-filter Sequence-level Policy Optimization）：动态过滤序列级策略优化算法。

官方数据显示，在同规模模型对比中，相比DeepSeek Search-R1 (GRPO,7B)实现34.1%的性能提升。

UV（Universal Verifier）：通用验证器，用智能评估器替换人工标注数据和人工定义的奖励机制。

在RLAF框架中，多个AI Agent会对模型输出进行自动评估，从逻辑一致性、事实准确性和任务完成度等多个维度生成反馈信号。

这种「AI训练AI」的方式，可以减少大量人工标注，从而降低训练成本并提升效率。

随着AI行业进入新一轮竞争阶段，成本效率正逐渐成为商业化成败的关键因素。而此次登陆Zenmux（https://zenmux.ai/models?sort=newest），某种程度上也是Agnes一个关键分水岭——

模型不再只是「榜单表现」，而是直接进入开发者真实调用与对比的第一线。

从上线一周的调用表现来看，这套Claw+多模态组合已经开始改写一部分开发者的选择。

当越来越多模型走向平台化分发，真正能留下来的，或许不只是更强的参数规模，而是谁更便宜、谁更好用、谁更能被快速接入真实世界。

Agnes，显然正在把答案往这个方向推。