Featured image of post 教AI学会澄清:让语言模型识别假设与歧义

教AI学会澄清:让语言模型识别假设与歧义

深入探讨近期关于教大型语言模型识别隐含假设、提出澄清问题、提升批判性思维的前沿研究。

引言

大型语言模型(LLM)在回答问题和执行指令方面表现出色,但它们常常不检查隐含假设,也不主动消除歧义。比如,当你问“有什么好的意大利面食谱?”时,普通模型可能直接给出一个食谱——即使你没有说明喜欢哪些食材或有无饮食禁忌。而一个具备批判性思维的AI会意识到你的请求信息不全,并反问:“你有任何饮食偏好吗?或者想用哪些食材?”只有在获得进一步信息后,它才会给出个性化的食谱。这种行为——识别隐含假设、提出澄清性问题、并推理歧义——对于真正有用、符合人类需求的AI助手至关重要。

本文将带你了解最前沿的研究,探讨如何训练和微调LLM,使其在自然语言交互中处理隐含假设和含糊请求。我们先简要介绍澄清性问题为何重要,然后深入讲解研究者如何让模型检测歧义并主动寻求澄清。每个部分先为普通读者提供高层次解释,随后补充更深入的技术细节(并引用关键论文),涵盖训练方法、数据集和促进澄清行为的模型技术。最后,我们将讨论挑战与未来方向,展望具备更强批判性思维和假设处理能力的语言模型。

为什么澄清性问题很重要(对人类和AI都如此)

大多数人在遇到不明确的信息时会自然而然地追问——这是人类对话的基本组成部分。如果有人说“我需要银行账户方面的帮助”,你很可能会反问“是哪个银行?需要哪方面的帮助?”而不是盲目猜测。但当前的AI模型往往跳过这一步。它们倾向于假设某种解释并直接回答,这可能导致答非所问或错误的回复,让用户感到沮丧。这是因为用户在提问时常常(无意中)遗漏细节或带有假设,而AI尚未养成像人类那样反复确认用户真实意图的常识习惯。

为什么现有强大的LLM不会自动提出澄清问题?研究发现有几个原因:

  • 训练偏差:像GPT-4这样的模型采用了(如基于人类反馈的强化学习RLHF)等技术,奖励那些“看起来完整”的回答。在偏好比较中,一个“看似完整”的答案往往胜过提出澄清问题的回复。换句话说,人类标注者更喜欢自信的答案而不是不完整的回复,因此模型学会了即使面对含糊问题也要猜测并给出答案。这导致模型不愿承认不确定性或请求更多细节。
  • 缺乏示例:训练数据中几乎没有助手说“我不确定你的意思,可以澄清一下吗?”的对话。正如一项研究所说,“在主流模型的预训练或微调数据集中,包含澄清性问题的对话极少”。模型也许知道问题存在歧义(内部往往能检测到不确定性),但由于没有被教导澄清才是正确行为,所以不会表现出来。
  • 过度自信与用户体验顾虑:许多助手有意避免频繁提问,担心会惹恼用户或让AI看起来不够智能。不幸的是,这导致对信息不全的问题给出过于自信的答案。研究显示,即使加入链式思考(chain-of-thought)推理或少量示例提示,对现成模型的歧义处理能力提升也有限——模型内部可能推理更长,但最终还是选择某种解释而不是向用户提问。

结果就是,当前LLM面对含糊或带有假设的问题时,往往只给出一种解释,而这种解释可能是错误的。这降低了模型的可靠性,也会损害用户信任。尤其在高风险领域(法律、医疗等),未能澄清关键信息可能导致严重后果。很明显,下一代有用的AI助手应当能够识别自己缺少关键信息,并礼貌地请求澄清,而不是贸然作答。

快速示例

再以意大利面食谱为例。用户问:“有什么好的意大利面食谱?”

  • 典型LLM可能假设是通用场景,直接给出标准食谱(比如意大利蒜香橄榄油面)。如果用户是素食者或无麸质饮食,这个答案就不合适——模型无意中做出了错误假设
  • 一个擅长澄清的LLM会这样回复:“好的!我可以帮你。请问你有任何饮食偏好或想用的食材吗?”如果用户补充说自己是素食主义者且喜欢辣味,助手就能给出更合适的答案(比如辣味蔬菜阿拉比亚塔)。虽然多了一轮对话,但结果更有用。

研究者称这种识别信息不全请求并通过交互解决的能力为**“对话中的澄清”**,它是让AI系统更符合用户需求的关键。

接下来我们将看到,近期研究如何从多个角度解决这个问题:检测歧义和假设、训练模型提出优质问题,以及用各种技术赋予模型更强的批判性思维,让它们不再对问题照单全收。

检测隐含假设与歧义

AI要想澄清,首先得意识到有需要澄清的地方。这意味着要能检测出用户输入中的歧义或可疑假设。歧义有多种表现:缺失上下文(如“他什么时候获奖?”但“他”指谁不明)、请求模糊(“我需要一个银行账户”——哪个银行?哪种账户?)、或本身就有多种答案的问题(“谁是最快的跑步者?”——哪个类别、哪个时期?)。有时用户的问题还包含错误的前提——比如“2021年冬奥会在哪里举办?”假设2021年有冬奥会,实际上2018年后直接到2022年。

对于非专业人士来说,很容易想“AI为什么不能注意到这些问题?”实际上,先进模型确实有一定能力检测歧义;只是没有被明确训练去采取行动。研究表明,如果你问现代LLM某个问题是否有歧义,它常常能以是/否形式识别出来。但在普通对话中,同一个模型仍然可能直接回答含糊问题。显然,检测只是第一步,还远远不够。

在研究领域,有多项工作专注于系统性地识别查询何时存在歧义或无效假设:

  • 歧义类型分类:2024年发布的基准数据集CLAMBER定义了不同歧义类型的分类法,并评估了多种LLM的表现。例如,它区分了词汇歧义(一个词有多重含义)、语义不充分(如缺少“何时/何地”等上下文)、甚至认知不确定性(模型知识不足)。他们的发现令人警醒:现成模型在各类歧义检测上普遍表现不佳,即使用链式思考等提示技巧,也常常只是让模型更自信但准确率并未提升。CLAMBER研究强调,当前模型常常不知道自己不知道,凸显了专门训练处理歧义的必要性。
  • 将歧义检测作为独立任务:其他研究将歧义检测作为有监督任务。例如,CAMBIGNQ数据集(EMNLP 2023)包含了专门识别问题是否歧义的子任务。CAMBIGNQ收集了5653条真实Google用户问题,标注为歧义(有多种可能解释)并附有相关证据。模型可以在此类数据上训练,输出二元判断:是否歧义。在CAMBIGNQ基准上,即使最好的模型歧义检测F1也只有约61%,还有很大提升空间。
  • 可疑假设检测:针对查询中的错误或可疑假设,研究者也设计了专门的检测任务。一篇名为**(QA)^2: 带有可疑假设的问题回答**(ACL 2023)的论文提出了二分类挑战:给定一个问题,判断是否包含错误/无法验证的假设。例如,“问题‘2021年冬奥会在哪里举办’是否有无效假设?”——答案应为。模型可以微调后用是/否回答。值得一提的是,(QA)^2还设置了端到端任务,要求模型以令人满意的方式回答原问题,这可能涉及纠正假设。评估时由人工判断模型答案是否可接受。对模型来说,这很有挑战性:直接用强大的GPT-3零样本推理,只有约66%的答案被认为可接受。但用逐步提示(即先让模型推理假设,再作答)能提升约20个百分点。这表明,提示或训练模型显式检查假设(如“让我们想想:这个问题有错误前提吗?”)能显著改善表现。

从以上可以看出一个规律:如果我们通过提示或微调让模型检测歧义/假设,它们是有一定能力的。下一步就是让模型将检测转化为行动——即主动请求澄清或以其他方式消除歧义。

在继续之前,值得一提的是2024年末提出的一个巧妙概念:“感知歧义”。在题为Aligning Language Models to Explicitly Handle Ambiguity的论文中,Kim等人指出,查询是否歧义取决于模型自身的知识。例如,“UGA上一次获得全国冠军是什么时候?”对普通人来说可能不歧义(他们可能默认指橄榄球),但知识丰富的模型知道UGA(乔治亚大学)在多项运动(橄榄球、棒球等)都拿过冠军。对模型来说,这个问题就有歧义——可能指任何运动。研究者提出了**APA(Alignment with Perceived Ambiguity)**方法,让模型先自查自身的不确定度。实际操作中,他们引导模型自行消歧(如内部考虑不同解释或补全细节),并测量这种消歧带来的“信息增益”。如果模型在内部澄清时增加了大量信息,就说明原问题有歧义。然后用这些案例训练模型在必要时向用户明确提出澄清问题。有趣的是,这种利用模型自身困惑感的方法,在处理训练分布外的查询时,效果优于用人工标注歧义问题训练。简而言之,APA让模型在需要时说“你能澄清一下你的问题吗?”,而在问题明确时不会影响其直接作答能力。

本节小结:检测歧义和假设是活跃的研究领域。我们有了新的数据集和基准来衡量,也有从简单分类到复杂自我分析的各种技术。但检测只是战斗的一半——真正的突破在于教会模型识别歧义后如何行动。这正是澄清行为的核心,下一节将详细介绍。

训练模型提出澄清性问题

识别出含糊或信息不全的问题很重要,但一个有用的AI还应当主动消除歧义。最直接的方法就是向用户提出澄清性问题。听起来简单:直接问就行!但对语言模型来说,提出一个好的澄清性问题并不容易。问题需要相关、简明,并且真正有助于消除用户意图的歧义,同时不能让用户反感。

这正是当前研究的热点。总体来看,研究者主要探索三种方法赋予LLM澄清能力:在澄清对话上有监督微调、创新奖励机制(常用RL或自博弈)鼓励提问,以及架构或提示策略引导模型在需要时插入问题。

在澄清数据上有监督微调

一个直接的思路是:给模型提供优质澄清行为的示例,并微调其模仿这些行为。挑战在于,这类示例在传统数据集中很少,因此研究团队开始自建数据集:

  • ClarifyingQA(剑桥,2022):剑桥大学团队专门为多轮问答澄清构建了ClarifyingQA小型数据集。他们从AmbigQA数据集(为每个问题提供多种解释和答案)中挑选含糊问题,让人工编写对话:(用户的含糊问题→助手提出澄清问题→用户澄清→助手回答澄清后的问题)。同时也包含无需澄清的直接问答对。用这些数据微调GPT-3后,模型学会了这样一种策略:“如果问题明确就直接答;如果模糊就提出合适澄清;澄清后再答。”令人印象深刻的是,这个*“助手模型”在含糊问题上的准确率优于从不澄清的基线模型**。本质上,这证明大模型可以*学会何时提问,且这样做能带来更好结果。值得注意的是,他们只用了几千条对话,采用行为克隆(有监督学习)而非复杂的强化学习。这与AI安全领域的“助手博弈”理念一致,即AI应与人类协作达成目标,必要时主动提问。虽然数据集较小,但证明了一条可行路径:通过模仿澄清问答对,训练一个既能提问又能回答的单一模型
  • CAMBIGNQ与Clarify-first流程(首尔,2023):前文提到CAMBIGNQ用于歧义检测,但它的核心其实是澄清环节。Lee等人(EMNLP 2023)通过收集数千条含糊问题,并为每条提供唯一理想的澄清问题(先用InstructGPT机器生成,再人工编辑,质量很高)。例如,“谁在哈利波特中饰演‘少年汤姆·里德尔’?”的澄清问题可能是:“‘少年汤姆·里德尔’指的是《密室》中的少年版,还是《混血王子》中的青年版?”(并明确列出选项)。论文定义了三步流程:(1)歧义检测,(2)澄清问题生成,(3)基于用户澄清作答。他们报告的基线结果不高,说明任务难度大。该工作为研究者提供了宝贵的数据和度量方法——比如强调仅列出所有可能答案(不提问用户)在语音助手或小屏幕上体验很差,最好只问一个有针对性的问题来缩小范围。CAMBIGNQ为这种策略提供了测试平台。用该数据集的问答对微调模型,可以教会模型如何提出列举主要解释选项的澄清问题。这是一种有监督方法;虽然不能保证模型何时提问,但结合歧义检测(任务1),可以只对被标记为歧义的问题触发问题生成模型。
  • 学习搜索澄清数据集:信息检索和对话式搜索领域(如Qulac、ClariQ数据集)也有大量为模糊查询生成澄清问题的工作。这些通常涉及场景特定的澄清,如“你指的是X还是Y?”等。虽然不直接针对LLM,但这些数据集和方法(多为2019–2021年)为LLM研究打下了基础。不同之处在于,今天的LLM方法尝试将整个行为整合到一个模型中,而不是分开分类器和模板化问题生成器。例如,早期系统可能是:用分类器检测歧义→从固定列表或检索中选澄清问题。而现在有了强大的生成式模型,我们可以让模型同时识别并自由生成问题。

结论是,有监督微调能让LLM养成提出澄清问题的习惯,前提是有合适的训练对话。缺点是大规模获取这类对话成本高。有些工作通过让大模型自我对话模拟澄清(如CAMBIGNQ用InstructGPT,或其他自我聊天模拟)来绕过人工编写。但纯有监督方法仍受限于数据的多样性,泛化能力有限。

通过自博弈与强化学习奖励澄清行为

另一个前沿方向是用**强化学习(RL)**或其他自博弈技术,主动鼓励澄清行为。不是单纯模仿人类,而是设定目标(如成功解决用户请求),让模型自己发现提问是达成目标的关键。

一个典型例子是STaR-GATE(Andukuri等,2024)。名字融合了GATE(主动提问方法)和STaR(自学推理者,模型通过自我解答提升能力)。STaR-GATE聚焦于偏好获取场景:用户有隐藏偏好(如食谱例子中的饮食禁忌),模型要提问以发现这些偏好,然后给出个性化答案。

怎么训练?研究者用巧妙的自博弈循环,设定三个角色:提问者(主模型)、角色扮演者(模拟用户,带有随机“人设”描述偏好)、和裁判(知道用户人设,可以给出理想答案)。训练时,提问者和角色扮演者对话:提问者连问几个问题以了解偏好,最后给出答案。裁判拥有真实人设,生成金标准答案。关键在于:为提问者的问题定义奖励信号,看这些问题是否有助于生成裁判的答案。直观地说,提问者问对了问题,就能给出与裁判高度一致的答案;问错了,答案就偏离理想。他们优化提问者,使其最大化裁判答案的概率(离线进行,通过生成大量合成对话并在高似然对话上微调)。还加入了正则化,防止模型问太多无关问题——鼓励只问必要问题,然后停止。

结果:经过几轮自博弈训练,微调后的模型提问策略大幅提升。评估中,STaR-GATE模型的答案在*72%*的有隐藏偏好场景下优于原始模型。也就是说,通过学会提出合适澄清问题,模型在满足用户需求方面取得了更高成功率。这是一个重要突破——教会模型提问能显著提升最终答案质量(以人类偏好或金标准为度量)。

STaR-GATE属于离线强化学习迭代自训练。不需要人工标注对话优劣,而是用大模型(如GPT-4)做裁判生成参考答案。局限是实验在受控场景(用户偏好预定义,如口味等)下进行,但方法有望推广到更一般的歧义场景。

另一个相关思路来自前述Zhang等(2024)用未来对话训练澄清问题。他们不是完全自博弈,而是巧妙引入人工:让标注者模拟下一轮。训练时,标注者看到含糊问题和AI的不同回复——有的提出澄清,有的直接作答。标注者随后扮演用户,对澄清问题作答,再看AI的最终回答。只有在看到结果后,标注者才决定哪种初始回复更好。这样,能导致正确答案的澄清问题会被优先打分。他们称之为双轮偏好标注。用这种增强偏好训练RLHF模型,AI学会了更倾向于能带来成功两轮交互的回复。论文报告,在含糊问题上的最终答案准确率(F1)提升约5%。这很有意义,说明即使奖励模型只做小幅调整——跨两轮评估结果——也能让模型更频繁(且更有效)地提出澄清问题。

此外还有其他创新方法。Handa等(2024)尝试用最优实验设计方法挑选澄清问题,把它当作科学实验:哪个问题能最大化关于用户意图的信息增益。他们将此与语言模型结合,虽目前只做了有限的成对比较。还有研究探索离线策略训练,用专家模型(如GPT-4)生成大量用户-助手对话(部分含澄清),再训练小模型模仿。总体而言,RL和自博弈方向很有前景,因为它直接优化结果(澄清是否带来更好答案),而不是单纯模仿剧本。

但RL方法必须谨慎——奖励定义不当可能让模型频繁提出烦人的无关问题。必须平衡何时提问何时自信作答。理想情况下,模型应只在确有必要时才提问。有研究专门探讨这种“选择性澄清”决策。例如,**CLAM框架(Kuhn等,2022)**明确分两步:先判断问题是否歧义,只有检测为歧义时才提澄清问题。他们展示了用少量示例提示LLM做分类,效果不错。巧妙之处在于不微调模型,而是用提示流程包裹:如有歧义→提澄清→获答复→返回答案。这更像系统工程而非训练技术,但证明了即使现有模型,加一点元认知和一轮问答也能表现更好。实验表明,加入澄清步骤后,含糊问题的答案准确率大幅提升,对话长度仅略有增加。还揭示了一个有趣现象:模型几乎不会被自己的澄清问题搞糊涂——它能很好地利用用户的答复作答,而不会被多轮对话扰乱。这也回应了部分人的担忧:“模型没训练多轮对话,能否正确处理自己提出的问题的答复?”他们的结果令人放心。

鼓励批判性推理与自我澄清

除了训练数据和奖励,还有一种更“内在”的方法:让模型具备更强的推理能力,知道何时信息不足。这通常属于*“链式思考”“自我反思”*研究范畴,虽不专门针对澄清问题,但高度相关。

一种思路是让模型在不确定时生成内部链式思考,甚至链式提问。例如,Self-Ask(Press等,2022)提示策略让模型先自问子问题并回答,再给出最终答案。在歧义场景下,模型可能会自问“用户意图是哪种解释?”如果无法确定,就应向用户提问。有些实验比较了Self-Ask与直接提示歧义检测。Kim等(APA论文)报告,朴素的Self-Ask方法(模型先作答再评估是否歧义)效果不佳。模型事后猜答案时未必意识到本应澄清。更结构化的推理,如显式枚举可能答案或用采样检测不确定性,效果更好。例如,**Cole等(2023)*发现,如果对同一问题多次采样模型答案且结果不同,说明问题有歧义——他们称之为“样本重复”*不确定性度量。这种信号可触发澄清行为。

另一种复杂方法是澄清树(Tree-of-Clarifications, ToC)(Gangwoo Kim等,2023)。ToC不与用户交互,而是自主消歧。它将含糊问题分解为所有合理解释(借助知识检索),然后分别作答,最后输出涵盖所有解释的长答案。例如,用户问“哪个国家获得奥运奖牌最多?”,ToC会拆解:是夏季还是冬季奥运?金牌还是总奖牌?然后为每种组合查找答案,写出涵盖所有解释的总结。这类似批判性思维,因为模型不照单全收问题,而是主动考虑多种可能。ToC在ASQA(含糊问题长答案QA)基准上优于以往方法。但也有人认为,这更像在无法向用户提问时的备选方案——它“零次打扰用户”,而是全覆盖作答。在实际助手中,可能需要结合策略:能问用户就问,不能问(如用户离线或系统需自主作答)就多解释。

最后,局限与挑战:澄清问题远未解决。模型若训练不当,可能问太多或无关问题。需要在**澄清不足(导致错误答案)澄清过度(让用户厌烦)**之间平衡。人工数据能帮助模型学会只问关键不确定点。另一个挑战是评估:如何衡量澄清问题的质量?不仅要语义正确,更要对用户有用。有些工作引入了度量或人工偏好测试,成功标准是用户在交互后问题被解决。这通常需要全对话上下文,自动化难度大。作为替代,AmbigQA或ASQA等任务衡量最终答案是否覆盖所有可能解释,或是否匹配用户实际意图(如数据中有标注)。这些都是复杂但重要的评估问题,确保我们真正提升了模型的澄清能力,而不是仅仅让它表现不同。

迈向人类对齐的批判性思考者

我们回顾的这些研究,代表了让AI更贴近人类的重要进展——模型不再只是机械复述信息,而是通过对话理解人类真正需求。通过识别假设、提出澄清问题,甚至进行自我推理,AI助手变得更可靠、更有帮助。

总结关键观点与进展:

  • 识别隐含假设:现代LLM可以被训练检测查询中的歧义和可疑假设。新数据集(如AmbigQA、CAMBIGNQ、(QA)^2)和分类法(CLAMBER)为此提供了基准。有了合适的提示或微调,模型开始能识别信息不全或带有假设的问题,而不是盲目作答。但检测准确率仍不完美,常需精心设计提示或微调。
  • 提出澄清性问题:对齐模型不应猜测,而应向用户询问缺失信息。在澄清对话上有监督微调(即使数据集很小)已明显提升答案质量。更先进的方法用RL和自博弈(如STaR-GATE、Zhang等的双轮RLHF)实际奖励模型在合适时澄清,显著提升用户满意度和任务成功率。模型学会了有节制地澄清:需要时提问,不需要时直接答。
  • 批判性思维与迭代优化:链式思考提示、自我提问、或探索多解释树等技术,都有助于模型批判性思考。它们鼓励模型深入分析查询(类似人类专家会思考“用户可能指什么?我有足够信息作答吗?”)。这种内部过程要么促使模型向用户提问,要么至少给出更全面答案。“内部推理”与“交互推理”的界限正在模糊——有些对齐方案甚至让模型与模拟用户或自我对话,测试答案后再定稿。例如,让模型批判自我草稿再修订,已被证明能减少幻觉和识别错误假设。可以想象,将其与用户交互结合:模型起草答案,发现有假设后,不给出有缺陷的答案,而是转向用户提出澄清问题。

还需指出局限性和前沿未解问题:

  • 何时停止澄清:模型不应把每个小不确定都变成问题。人类有判断力,知道哪些值得问。例如,用户问“说说Python”,可能有歧义(是编程语言还是蛇?),但聪明助手可能先尝试从上下文推断,或给出混合答案(“Python既是编程语言也是蛇,我都简单介绍一下……”)。只有当区分很重要时才问:“你指的是Python编程语言还是动物?”训练模型具备这种判断力——即歧义重要性阈值——很难。当前研究多将歧义视为二元(有或无),但现实中是连续光谱。
  • 澄清问题的质量:不是随便问什么都行,必须真正消除歧义。选错澄清问题反而让用户更困惑。例如,问一个太宽泛的问题(“你指什么?”)没帮助;问具体、有针对性的问题更好。有研究发现,语言模型在被要求澄清时,有时会生成无关或过于泛泛的问题。确保问题直击关键不确定点,正是像CAMBIGNQ这类数据集通过提供理想澄清作为训练信号所强调的。
  • 用户体验:用户是否愿意回答澄清问题?有些人会不耐烦(“直接回答我的问题!”)。因此,理想情况下AI还应解释为什么要问。例如,“为确保更好地帮助您,能否澄清X?”在问问题时维护用户信任,是人机交互研究的重点,但在模型训练论文中关注较少。实际部署时,可能需要调整澄清的方式和时机。
  • 通用性:目前大多数研究集中在问答任务。但假设处理在许多场景都需要:任务执行(机器人可能需要澄清指令)、对话系统等。RLHF微调或合成自博弈等方案,可能需要针对这些场景调整。尚不清楚这些方法能否从QA类歧义泛化到更复杂、多歧义或连续决策的对话中。

总之,真正有用且可靠的AI助手的未来,很大程度上取决于这些能力。我们不希望AI像神谕一样胡乱猜测你的意图,而是希望它像合作者一样,通过简短的互动充分理解你,然后用其丰富知识助你一臂之力。本文回顾的研究正引领我们朝这个方向迈进。我们正在教语言模型更像优秀的人类沟通者:遇到疑问时,主动提问——而且问得聪明。通过结合先进训练技术、新颖数据集和人类沟通洞察,我们正逐步塑造出不仅会回答问题,更会理解问题的AI。

参考文献