教AI学会澄清：让语言模型识别假设与歧义

引言

大型语言模型（LLM）在回答问题和执行指令方面表现出色，但它们常常不检查隐含假设，也不主动消除歧义。比如，当你问“有什么好的意大利面食谱？”时，普通模型可能直接给出一个食谱——即使你没有说明喜欢哪些食材或有无饮食禁忌。而一个具备批判性思维的AI会意识到你的请求信息不全，并反问：“你有任何饮食偏好吗？或者想用哪些食材？”只有在获得进一步信息后，它才会给出个性化的食谱。这种行为——识别隐含假设、提出澄清性问题、并推理歧义——对于真正有用、符合人类需求的AI助手至关重要。

本文将带你了解最前沿的研究，探讨如何训练和微调LLM，使其在自然语言交互中处理隐含假设和含糊请求。我们先简要介绍澄清性问题为何重要，然后深入讲解研究者如何让模型检测歧义并主动寻求澄清。每个部分先为普通读者提供高层次解释，随后补充更深入的技术细节（并引用关键论文），涵盖训练方法、数据集和促进澄清行为的模型技术。最后，我们将讨论挑战与未来方向，展望具备更强批判性思维和假设处理能力的语言模型。

为什么澄清性问题很重要（对人类和AI都如此）

大多数人在遇到不明确的信息时会自然而然地追问——这是人类对话的基本组成部分。如果有人说“我需要银行账户方面的帮助”，你很可能会反问“是哪个银行？需要哪方面的帮助？”而不是盲目猜测。但当前的AI模型往往跳过这一步。它们倾向于假设某种解释并直接回答，这可能导致答非所问或错误的回复，让用户感到沮丧。这是因为用户在提问时常常（无意中）遗漏细节或带有假设，而AI尚未养成像人类那样反复确认用户真实意图的常识习惯。

为什么现有强大的LLM不会自动提出澄清问题？研究发现有几个原因：

训练偏差：像GPT-4这样的模型采用了（如基于人类反馈的强化学习RLHF）等技术，奖励那些“看起来完整”的回答。在偏好比较中，一个“看似完整”的答案往往胜过提出澄清问题的回复。换句话说，人类标注者更喜欢自信的答案而不是不完整的回复，因此模型学会了即使面对含糊问题也要猜测并给出答案。这导致模型不愿承认不确定性或请求更多细节。
缺乏示例：训练数据中几乎没有助手说“我不确定你的意思，可以澄清一下吗？”的对话。正如一项研究所说，“在主流模型的预训练或微调数据集中，包含澄清性问题的对话极少”。模型也许知道问题存在歧义（内部往往能检测到不确定性），但由于没有被教导澄清才是正确行为，所以不会表现出来。
过度自信与用户体验顾虑：许多助手有意避免频繁提问，担心会惹恼用户或让AI看起来不够智能。不幸的是，这导致对信息不全的问题给出过于自信的答案。研究显示，即使加入链式思考（chain-of-thought）推理或少量示例提示，对现成模型的歧义处理能力提升也有限——模型内部可能推理更长，但最终还是选择某种解释而不是向用户提问。

结果就是，当前LLM面对含糊或带有假设的问题时，往往只给出一种解释，而这种解释可能是错误的。这降低了模型的可靠性，也会损害用户信任。尤其在高风险领域（法律、医疗等），未能澄清关键信息可能导致严重后果。很明显，下一代有用的AI助手应当能够识别自己缺少关键信息，并礼貌地请求澄清，而不是贸然作答。

快速示例

再以意大利面食谱为例。用户问：“有什么好的意大利面食谱？”

典型LLM可能假设是通用场景，直接给出标准食谱（比如意大利蒜香橄榄油面）。如果用户是素食者或无麸质饮食，这个答案就不合适——模型无意中做出了错误假设。
一个擅长澄清的LLM会这样回复：“好的！我可以帮你。请问你有任何饮食偏好或想用的食材吗？”如果用户补充说自己是素食主义者且喜欢辣味，助手就能给出更合适的答案（比如辣味蔬菜阿拉比亚塔）。虽然多了一轮对话，但结果更有用。

研究者称这种识别信息不全请求并通过交互解决的能力为**“对话中的澄清”**，它是让AI系统更符合用户需求的关键。

接下来我们将看到，近期研究如何从多个角度解决这个问题：检测歧义和假设、训练模型提出优质问题，以及用各种技术赋予模型更强的批判性思维，让它们不再对问题照单全收。

检测隐含假设与歧义

AI要想澄清，首先得意识到有需要澄清的地方。这意味着要能检测出用户输入中的歧义或可疑假设。歧义有多种表现：缺失上下文（如“他什么时候获奖？”但“他”指谁不明）、请求模糊（“我需要一个银行账户”——哪个银行？哪种账户？）、或本身就有多种答案的问题（“谁是最快的跑步者？”——哪个类别、哪个时期？）。有时用户的问题还包含错误的前提——比如“2021年冬奥会在哪里举办？”假设2021年有冬奥会，实际上2018年后直接到2022年。

对于非专业人士来说，很容易想“AI为什么不能注意到这些问题？”实际上，先进模型确实有一定能力检测歧义；只是没有被明确训练去采取行动。研究表明，如果你问现代LLM某个问题是否有歧义，它常常能以是/否形式识别出来。但在普通对话中，同一个模型仍然可能直接回答含糊问题。显然，检测只是第一步，还远远不够。

在研究领域，有多项工作专注于系统性地识别查询何时存在歧义或无效假设：

歧义类型分类：2024年发布的基准数据集CLAMBER定义了不同歧义类型的分类法，并评估了多种LLM的表现。例如，它区分了词汇歧义（一个词有多重含义）、语义不充分（如缺少“何时/何地”等上下文）、甚至认知不确定性（模型知识不足）。他们的发现令人警醒：现成模型在各类歧义检测上普遍表现不佳，即使用链式思考等提示技巧，也常常只是让模型更自信但准确率并未提升。CLAMBER研究强调，当前模型常常不知道自己不知道，凸显了专门训练处理歧义的必要性。
将歧义检测作为独立任务：其他研究将歧义检测作为有监督任务。例如，CAMBIGNQ数据集（EMNLP 2023）包含了专门识别问题是否歧义的子任务。CAMBIGNQ收集了5653条真实Google用户问题，标注为歧义（有多种可能解释）并附有相关证据。模型可以在此类数据上训练，输出二元判断：是否歧义。在CAMBIGNQ基准上，即使最好的模型歧义检测F1也只有约61%，还有很大提升空间。
可疑假设检测：针对查询中的错误或可疑假设，研究者也设计了专门的检测任务。一篇名为**(QA)^2: 带有可疑假设的问题回答**（ACL 2023）的论文提出了二分类挑战：给定一个问题，判断是否包含错误/无法验证的假设。例如，“问题‘2021年冬奥会在哪里举办’是否有无效假设？”——答案应为是。模型可以微调后用是/否回答。值得一提的是，(QA)^2还设置了端到端任务，要求模型以令人满意的方式回答原问题，这可能涉及纠正假设。评估时由人工判断模型答案是否可接受。对模型来说，这很有挑战性：直接用强大的GPT-3零样本推理，只有约66%的答案被认为可接受。但用逐步提示（即先让模型推理假设，再作答）能提升约20个百分点。这表明，提示或训练模型显式检查假设（如“让我们想想：这个问题有错误前提吗？”）能显著改善表现。

从以上可以看出一个规律：如果我们通过提示或微调让模型检测歧义/假设，它们是有一定能力的。下一步就是让模型将检测转化为行动——即主动请求澄清或以其他方式消除歧义。

在继续之前，值得一提的是2024年末提出的一个巧妙概念：“感知歧义”。在题为Aligning Language Models to Explicitly Handle Ambiguity的论文中，Kim等人指出，查询是否歧义取决于模型自身的知识。例如，“UGA上一次获得全国冠军是什么时候？”对普通人来说可能不歧义（他们可能默认指橄榄球），但知识丰富的模型知道UGA（乔治亚大学）在多项运动（橄榄球、棒球等）都拿过冠军。对模型来说，这个问题就有歧义——可能指任何运动。研究者提出了**APA（Alignment with Perceived Ambiguity）**方法，让模型先自查自身的不确定度。实际操作中，他们引导模型自行消歧（如内部考虑不同解释或补全细节），并测量这种消歧带来的“信息增益”。如果模型在内部澄清时增加了大量信息，就说明原问题有歧义。然后用这些案例训练模型在必要时向用户明确提出澄清问题。有趣的是，这种利用模型自身困惑感的方法，在处理训练分布外的查询时，效果优于用人工标注歧义问题训练。简而言之，APA让模型在需要时说“你能澄清一下你的问题吗？”，而在问题明确时不会影响其直接作答能力。

本节小结：检测歧义和假设是活跃的研究领域。我们有了新的数据集和基准来衡量，也有从简单分类到复杂自我分析的各种技术。但检测只是战斗的一半——真正的突破在于教会模型识别歧义后如何行动。这正是澄清行为的核心，下一节将详细介绍。

训练模型提出澄清性问题

识别出含糊或信息不全的问题很重要，但一个有用的AI还应当主动消除歧义。最直接的方法就是向用户提出澄清性问题。听起来简单：直接问就行！但对语言模型来说，提出一个好的澄清性问题并不容易。问题需要相关、简明，并且真正有助于消除用户意图的歧义，同时不能让用户反感。

这正是当前研究的热点。总体来看，研究者主要探索三种方法赋予LLM澄清能力：在澄清对话上有监督微调、创新奖励机制（常用RL或自博弈）鼓励提问，以及架构或提示策略引导模型在需要时插入问题。

在澄清数据上有监督微调

一个直接的思路是：给模型提供优质澄清行为的示例，并微调其模仿这些行为。挑战在于，这类示例在传统数据集中很少，因此研究团队开始自建数据集：

ClarifyingQA（剑桥，2022）：剑桥大学团队专门为多轮问答澄清构建了ClarifyingQA小型数据集。他们从AmbigQA数据集（为每个问题提供多种解释和答案）中挑选含糊问题，让人工编写对话：（用户的含糊问题→助手提出澄清问题→用户澄清→助手回答澄清后的问题）。同时也包含无需澄清的直接问答对。用这些数据微调GPT-3后，模型学会了这样一种策略：“如果问题明确就直接答；如果模糊就提出合适澄清；澄清后再答。”令人印象深刻的是，这个*“助手模型”在含糊问题上的准确率优于从不澄清的基线模型**。本质上，这证明大模型可以*学会何时提问，且这样做能带来更好结果。值得注意的是，他们只用了几千条对话，采用行为克隆（有监督学习）而非复杂的强化学习。这与AI安全领域的“助手博弈”理念一致，即AI应与人类协作达成目标，必要时主动提问。虽然数据集较小，但证明了一条可行路径：通过模仿澄清问答对，训练一个既能提问又能回答的单一模型。
CAMBIGNQ与Clarify-first流程（首尔，2023）：前文提到CAMBIGNQ用于歧义检测，但它的核心其实是澄清环节。Lee等人（EMNLP 2023）通过收集数千条含糊问题，并为每条提供唯一理想的澄清问题（先用InstructGPT机器生成，再人工编辑，质量很高）。例如，“谁在哈利波特中饰演‘少年汤姆·里德尔’？”的澄清问题可能是：“‘少年汤姆·里德尔’指的是《密室》中的少年版，还是《混血王子》中的青年版？”（并明确列出选项）。论文定义了三步流程：（1）歧义检测，（2）澄清问题生成，（3）基于用户澄清作答。他们报告的基线结果不高，说明任务难度大。该工作为研究者提供了宝贵的数据和度量方法——比如强调仅列出所有可能答案（不提问用户）在语音助手或小屏幕上体验很差，最好只问一个有针对性的问题来缩小范围。CAMBIGNQ为这种策略提供了测试平台。用该数据集的问答对微调模型，可以教会模型如何提出列举主要解释选项的澄清问题。这是一种有监督方法；虽然不能保证模型何时提问，但结合歧义检测（任务1），可以只对被标记为歧义的问题触发问题生成模型。
学习搜索澄清数据集：信息检索和对话式搜索领域（如Qulac、ClariQ数据集）也有大量为模糊查询生成澄清问题的工作。这些通常涉及场景特定的澄清，如“你指的是X还是Y？”等。虽然不直接针对LLM，但这些数据集和方法（多为2019–2021年）为LLM研究打下了基础。不同之处在于，今天的LLM方法尝试将整个行为整合到一个模型中，而不是分开分类器和模板化问题生成器。例如，早期系统可能是：用分类器检测歧义→从固定列表或检索中选澄清问题。而现在有了强大的生成式模型，我们可以让模型同时识别并自由生成问题。

结论是，有监督微调能让LLM养成提出澄清问题的习惯，前提是有合适的训练对话。缺点是大规模获取这类对话成本高。有些工作通过让大模型自我对话模拟澄清（如CAMBIGNQ用InstructGPT，或其他自我聊天模拟）来绕过人工编写。但纯有监督方法仍受限于数据的多样性，泛化能力有限。

通过自博弈与强化学习奖励澄清行为

另一个前沿方向是用**强化学习（RL）**或其他自博弈技术，主动鼓励澄清行为。不是单纯模仿人类，而是设定目标（如成功解决用户请求），让模型自己发现提问是达成目标的关键。

一个典型例子是STaR-GATE（Andukuri等，2024）。名字融合了GATE（主动提问方法）和STaR（自学推理者，模型通过自我解答提升能力）。STaR-GATE聚焦于偏好获取场景：用户有隐藏偏好（如食谱例子中的饮食禁忌），模型要提问以发现这些偏好，然后给出个性化答案。

怎么训练？研究者用巧妙的自博弈循环，设定三个角色：提问者（主模型）、角色扮演者（模拟用户，带有随机“人设”描述偏好）、和裁判（知道用户人设，可以给出理想答案）。训练时，提问者和角色扮演者对话：提问者连问几个问题以了解偏好，最后给出答案。裁判拥有真实人设，生成金标准答案。关键在于：为提问者的问题定义奖励信号，看这些问题是否有助于生成裁判的答案。直观地说，提问者问对了问题，就能给出与裁判高度一致的答案；问错了，答案就偏离理想。他们优化提问者，使其最大化裁判答案的概率（离线进行，通过生成大量合成对话并在高似然对话上微调）。还加入了正则化，防止模型问太多无关问题——鼓励只问必要问题，然后停止。

结果：经过几轮自博弈训练，微调后的模型提问策略大幅提升。评估中，STaR-GATE模型的答案在*72%*的有隐藏偏好场景下优于原始模型。也就是说，通过学会提出合适澄清问题，模型在满足用户需求方面取得了更高成功率。这是一个重要突破——教会模型提问能显著提升最终答案质量（以人类偏好或金标准为度量）。

STaR-GATE属于离线强化学习或迭代自训练。不需要人工标注对话优劣，而是用大模型（如GPT-4）做裁判生成参考答案。局限是实验在受控场景（用户偏好预定义，如口味等）下进行，但方法有望推广到更一般的歧义场景。

另一个相关思路来自前述Zhang等（2024）的用未来对话训练澄清问题。他们不是完全自博弈，而是巧妙引入人工：让标注者模拟下一轮。训练时，标注者看到含糊问题和AI的不同回复——有的提出澄清，有的直接作答。标注者随后扮演用户，对澄清问题作答，再看AI的最终回答。只有在看到结果后，标注者才决定哪种初始回复更好。这样，能导致正确答案的澄清问题会被优先打分。他们称之为双轮偏好标注。用这种增强偏好训练RLHF模型，AI学会了更倾向于能带来成功两轮交互的回复。论文报告，在含糊问题上的最终答案准确率（F1）提升约5%。这很有意义，说明即使奖励模型只做小幅调整——跨两轮评估结果——也能让模型更频繁（且更有效）地提出澄清问题。

此外还有其他创新方法。Handa等（2024）尝试用最优实验设计方法挑选澄清问题，把它当作科学实验：哪个问题能最大化关于用户意图的信息增益。他们将此与语言模型结合，虽目前只做了有限的成对比较。还有研究探索离线策略训练，用专家模型（如GPT-4）生成大量用户-助手对话（部分含澄清），再训练小模型模仿。总体而言，RL和自博弈方向很有前景，因为它直接优化结果（澄清是否带来更好答案），而不是单纯模仿剧本。

但RL方法必须谨慎——奖励定义不当可能让模型频繁提出烦人的无关问题。必须平衡何时提问与何时自信作答。理想情况下，模型应只在确有必要时才提问。有研究专门探讨这种“选择性澄清”决策。例如，**CLAM框架（Kuhn等，2022）**明确分两步：先判断问题是否歧义，只有检测为歧义时才提澄清问题。他们展示了用少量示例提示LLM做分类，效果不错。巧妙之处在于不微调模型，而是用提示流程包裹：如有歧义→提澄清→获答复→返回答案。这更像系统工程而非训练技术，但证明了即使现有模型，加一点元认知和一轮问答也能表现更好。实验表明，加入澄清步骤后，含糊问题的答案准确率大幅提升，对话长度仅略有增加。还揭示了一个有趣现象：模型几乎不会被自己的澄清问题搞糊涂——它能很好地利用用户的答复作答，而不会被多轮对话扰乱。这也回应了部分人的担忧：“模型没训练多轮对话，能否正确处理自己提出的问题的答复？”他们的结果令人放心。

鼓励批判性推理与自我澄清

除了训练数据和奖励，还有一种更“内在”的方法：让模型具备更强的推理能力，知道何时信息不足。这通常属于*“链式思考”或“自我反思”*研究范畴，虽不专门针对澄清问题，但高度相关。

一种思路是让模型在不确定时生成内部链式思考，甚至链式提问。例如，Self-Ask（Press等，2022）提示策略让模型先自问子问题并回答，再给出最终答案。在歧义场景下，模型可能会自问“用户意图是哪种解释？”如果无法确定，就应向用户提问。有些实验比较了Self-Ask与直接提示歧义检测。Kim等（APA论文）报告，朴素的Self-Ask方法（模型先作答再评估是否歧义）效果不佳。模型事后猜答案时未必意识到本应澄清。更结构化的推理，如显式枚举可能答案或用采样检测不确定性，效果更好。例如，**Cole等（2023）*发现，如果对同一问题多次采样模型答案且结果不同，说明问题有歧义——他们称之为“样本重复”*不确定性度量。这种信号可触发澄清行为。

另一种复杂方法是澄清树（Tree-of-Clarifications, ToC）（Gangwoo Kim等，2023）。ToC不与用户交互，而是自主消歧。它将含糊问题分解为所有合理解释（借助知识检索），然后分别作答，最后输出涵盖所有解释的长答案。例如，用户问“哪个国家获得奥运奖牌最多？”，ToC会拆解：是夏季还是冬季奥运？金牌还是总奖牌？然后为每种组合查找答案，写出涵盖所有解释的总结。这类似批判性思维，因为模型不照单全收问题，而是主动考虑多种可能。ToC在ASQA（含糊问题长答案QA）基准上优于以往方法。但也有人认为，这更像在无法向用户提问时的备选方案——它“零次打扰用户”，而是全覆盖作答。在实际助手中，可能需要结合策略：能问用户就问，不能问（如用户离线或系统需自主作答）就多解释。

最后，局限与挑战：澄清问题远未解决。模型若训练不当，可能问太多或无关问题。需要在**澄清不足（导致错误答案）与澄清过度（让用户厌烦）**之间平衡。人工数据能帮助模型学会只问关键不确定点。另一个挑战是评估：如何衡量澄清问题的质量？不仅要语义正确，更要对用户有用。有些工作引入了度量或人工偏好测试，成功标准是用户在交互后问题被解决。这通常需要全对话上下文，自动化难度大。作为替代，AmbigQA或ASQA等任务衡量最终答案是否覆盖所有可能解释，或是否匹配用户实际意图（如数据中有标注）。这些都是复杂但重要的评估问题，确保我们真正提升了模型的澄清能力，而不是仅仅让它表现不同。

迈向人类对齐的批判性思考者

我们回顾的这些研究，代表了让AI更贴近人类的重要进展——模型不再只是机械复述信息，而是通过对话理解人类真正需求。通过识别假设、提出澄清问题，甚至进行自我推理，AI助手变得更可靠、更有帮助。

总结关键观点与进展：

识别隐含假设：现代LLM可以被训练检测查询中的歧义和可疑假设。新数据集（如AmbigQA、CAMBIGNQ、(QA)^2）和分类法（CLAMBER）为此提供了基准。有了合适的提示或微调，模型开始能识别信息不全或带有假设的问题，而不是盲目作答。但检测准确率仍不完美，常需精心设计提示或微调。
提出澄清性问题：对齐模型不应猜测，而应向用户询问缺失信息。在澄清对话上有监督微调（即使数据集很小）已明显提升答案质量。更先进的方法用RL和自博弈（如STaR-GATE、Zhang等的双轮RLHF）实际奖励模型在合适时澄清，显著提升用户满意度和任务成功率。模型学会了有节制地澄清：需要时提问，不需要时直接答。
批判性思维与迭代优化：链式思考提示、自我提问、或探索多解释树等技术，都有助于模型批判性思考。它们鼓励模型深入分析查询（类似人类专家会思考“用户可能指什么？我有足够信息作答吗？”）。这种内部过程要么促使模型向用户提问，要么至少给出更全面答案。“内部推理”与“交互推理”的界限正在模糊——有些对齐方案甚至让模型与模拟用户或自我对话，测试答案后再定稿。例如，让模型批判自我草稿再修订，已被证明能减少幻觉和识别错误假设。可以想象，将其与用户交互结合：模型起草答案，发现有假设后，不给出有缺陷的答案，而是转向用户提出澄清问题。

还需指出局限性和前沿未解问题：

何时停止澄清：模型不应把每个小不确定都变成问题。人类有判断力，知道哪些值得问。例如，用户问“说说Python”，可能有歧义（是编程语言还是蛇？），但聪明助手可能先尝试从上下文推断，或给出混合答案（“Python既是编程语言也是蛇，我都简单介绍一下……”）。只有当区分很重要时才问：“你指的是Python编程语言还是动物？”训练模型具备这种判断力——即歧义重要性阈值——很难。当前研究多将歧义视为二元（有或无），但现实中是连续光谱。
澄清问题的质量：不是随便问什么都行，必须真正消除歧义。选错澄清问题反而让用户更困惑。例如，问一个太宽泛的问题（“你指什么？”）没帮助；问具体、有针对性的问题更好。有研究发现，语言模型在被要求澄清时，有时会生成无关或过于泛泛的问题。确保问题直击关键不确定点，正是像CAMBIGNQ这类数据集通过提供理想澄清作为训练信号所强调的。
用户体验：用户是否愿意回答澄清问题？有些人会不耐烦（“直接回答我的问题！”）。因此，理想情况下AI还应解释为什么要问。例如，“为确保更好地帮助您，能否澄清X？”在问问题时维护用户信任，是人机交互研究的重点，但在模型训练论文中关注较少。实际部署时，可能需要调整澄清的方式和时机。
通用性：目前大多数研究集中在问答任务。但假设处理在许多场景都需要：任务执行（机器人可能需要澄清指令）、对话系统等。RLHF微调或合成自博弈等方案，可能需要针对这些场景调整。尚不清楚这些方法能否从QA类歧义泛化到更复杂、多歧义或连续决策的对话中。

总之，真正有用且可靠的AI助手的未来，很大程度上取决于这些能力。我们不希望AI像神谕一样胡乱猜测你的意图，而是希望它像合作者一样，通过简短的互动充分理解你，然后用其丰富知识助你一臂之力。本文回顾的研究正引领我们朝这个方向迈进。我们正在教语言模型更像优秀的人类沟通者：遇到疑问时，主动提问——而且问得聪明。通过结合先进训练技术、新颖数据集和人类沟通洞察，我们正逐步塑造出不仅会回答问题，更会理解问题的AI。

参考文献

CLAMBER (2024): “Clarifying Ambiguities Benchmark for Language Model Evaluation”
CAMBIGNQ (Lee et al., EMNLP 2023): “CAMBIGNQ: Clarifying Ambiguous Questions for Next-Generation QA”
(QA)² (ACL 2023): “Question Answering with Questionable Assumptions”
APA (Kim et al., 2024): “Aligning Language Models to Explicitly Handle Ambiguity”
ClarifyingQA (Krasheninnikov et al., 2022): “Clarifying Ambiguous Questions for QA Systems”
STaR-GATE (Andukuri et al., 2024): “Self-Taught Reasoner with Goal-Aligned Training and Evaluation”
Double-Turn Preference (Zhang et al., 2024): “Improving Multi-Turn Dialogue Through Reinforcement Learning from Human Feedback”
Self-Ask (Press et al., 2022): “Measuring and Improving Model Reasoning with Self-Ask”
Tree-of-Clarifications (Kim et al., 2023): “Structured Clarification Generation in Ambiguous Question Answering”