当对话型 AI 服务于数十亿用户时,我们能否看见用户没说出口的那一层?JHU、MIT 和 Google Research 给出了新的解法。
对话型 AI 系统的部署规模已达到前所未有的量级,每天处理数十亿次用户交互。然而,绝大多数现有研究都聚焦于用户「说了什么」,对于用户在对话中「想了什么」这一更深层的维度,仍是一片几乎未被探索的空白。
无论是 WildChat、LMSYS-Chat-1M 这类对话数据集,还是相关的方法和测试基准,它们都将对话文本视为唯一可观测单元 —— 用户未说出口的动机、限制、风格期望以及对回复的真实评价,则被默认丢弃。事实上,由于「最少努力原则」(principle of least effort) 与语用层面的压力,用户写下的提示与他们脑中的真实意图之间存在天然的信息损失:口头表达高效、社交得体、目的导向,却并非内部心理状态的完整呈现。
目前主流的对齐方法大多依赖偏好评分、点赞点踩或基于消息文本的反馈,这些信号难以分辨「哪一部分回答让用户不满意」「为什么不满意」,也无法揭示用户在多轮交互中如何在内心演进自己的目标。因此,一个关键问题浮出水面:
如何在真实的人机对话中,系统性地捕捉用户那些「未言明的思考」,并将其作为新的数据模态用于训练和评估 AI 助手?
近日,一篇来自JHU、MIT 与 Google Research的研究,为这一问题提供了一种解法。
他们提出了ThoughtTrace—— 首个将真实多轮人机对话与用户「自我报告的思考」配对的大规模数据集。这里所说的思考分为两类:用户发送提示前的 reasons(动机、目标、上下文、内容与风格期望等),以及用户读到 AI 回复后的 reactions(满意、对内容、风格或范围的具体不满等)。这些第一人称认知痕迹捕捉了每一次对话背后的隐藏认知层,将「可观测的语句」与「真实的用户意图」之间的鸿沟系统性地填补起来。
在这一框架下,研究人员构建了一个具有以下规模的语料库:
基于这一数据,作者证明:思考能够将下一条用户消息预测的语义相似度从 21.6 提升至 30.6(相对提升 41.7%),并将基于 Arena-Hard 的对齐胜率提升 25.6%。这为后续 RL、DPO 等训练范式提供了一种全新的、ground-truth 级别的监督信号。
方法概览
为了让用户在自然对话中诚实地外化自己的思考,作者通过 Prolific 招募参与者,并设计了一套四步的采集流程:
每条 ThoughtTrace 记录对应一段完整的对话,按时间戳保存所有用户消息、AI 回复以及附着其上的思考。其中 reason 来自 7 种类型之一,reaction 来自 5 种类型之一,每条思考都带有自己的时间戳与文本内容。
视频链接:https://mp.weixin.qq.com/s/fxYJRiIsVNbVHO3HMZ9TEQ?click_id=18
数据特性
作者从两个维度刻画 ThoughtTrace:对话层面和思考层面。
对话层面有三大特性:
思考层面则呈现四个关键性质:
实验结果
为了验证这些「内心思考」是否真能用于下游建模,作者设计了两组关键实验,分别考察 thoughts 在推理时和训练时的价值。
实验一:Thoughts Predict User Behavior
让 LLM 预测用户的下一条消息 —— 分别在「仅有对话历史」与「历史 + 用户思考标注」两种条件下,评估三个前沿模型,并使用随机抽取的另一个模型作为 LLM judge 评判 0–100 分的语义相似度。
仅仅向模型提供用户的内心思考,平均预测分数从 21.6 跃升到 30.6,相对提升 41.7%。Opus 4.6 的提升尤为显著,单独提升 14.2 个点。这说明 ThoughtTrace 中的 reason 与 reaction 提供了对话历史所不具备的、能够预示用户未来行为的可执行信号 —— 这一发现对构建高保真用户模拟器、面向用户主动协助的智能体均有直接价值。
实验二:Thoughts Improve Model Alignment
作者直接利用 ThoughtTrace 的 reaction 标签定位「用户实际不满意的回复」,再用对应的思考内容指引模型重写,形成 thought-guided rewrites;将其与原始消息配对,在 Qwen3.5-4B 上进行 DPO 训练,于 Arena-Hard 上评估。
更值得关注的是,思考能从同一批对话中识别出 1,000 条不满意实例,而仅依赖消息只能挖出 450 条,前者是后者的 2.2 倍,证明了思考天然提供了更密集的监督。这意味着 thoughts 不仅告诉我们「哪一条回答用户不满意」,还直接说明「应当如何修正」,把响应识别和响应修正两件事统一进了同一条监督信号。
结语
作者将 thoughts 定位为人机交互研究的一种新数据模态:它捕捉用户的潜在认知,难以从语句中复原,跨越多种内容形态,并随对话阶段动态变化。无论是用户行为预测、模型对齐,还是未来的奖励建模、On-Policy Distillation 等在线学习范式,思考都提供了消息文本所无法替代的细粒度信号。
ThoughtTrace 由此打开了三条新的研究方向:(1)用户建模 —— 系统研究人机交互中的动态心理过程;(2)模型训练 —— 把思考作为新的监督信号,用于训练真正理解用户潜在目标与偏好的助手;(3)评估 —— 构建以思考为中心的基准,把评估从表面语句推进到潜在意图与主观体验。
正如论文所言,ThoughtTrace 将用户思考确立为研究人机交互背后认知动力学的一种基础信号,也为构建真正理解用户「潜在目标、偏好与需求」的下一代 AI 助手,铺设了一条新的研究路径。
更多内容请参阅论文原文与项目主页。