论文:Self-Consistency Improves Chain of Thought Reasoning in Language Models
⭐⭐⭐⭐⭐
ICLR 2023, Google Research

文章目录

论文速读

本工作提出了一种解码策略:self-consistency,并可以用于 CoT prompting 中。

该策略提出的直观感觉是:人类在解决复杂问题时,往往会慎重考虑,并可能会尝试使用多种推理路径来解决从而保证得到的答案的正确性。self-consistency 就是基于这种思想,让 LLM 在解决复杂推理问题时,让他尝试多个推理路径,每个推理路径就是一次 CoT 的解决过程,每个可以得到一个答案,最终的答案就是其中出现次数最多的答案

self-consistency 用李宏毅老师的 PPT 来解释的话,也就是如下的方式:

self-consistency

普通的 CoT 与使用了 self-consistency 解码策略的对比如下:

CoT对比self-consistency

self-consistency 的解码过程主要就是“sample-and-marginalize”:

  1. 让 LLM 的 decoder 去产生多个推理路径,每个推理路径会导致一个 final answer(区别于普通 CoT 的 greedy decode)
  2. marginalize out 这些推理路径,在 final answer set 中找出 the most consistent answer

同时论文指出,有时候 CoT 的使用让 LLM 的表现可能还不如标准的 prompt,这时候引入 Self-consistency 可以提升 CoT 的表现。如下是实验证明:

在这里插入图片描述
self-consistency 可以与目前的采样算法兼容,比如 temperature sampling、top-k sampling、nucleus sampling

有些工作是额外训练一个 verifier 来验证答案的正确性,self-consistency 的优点在于:

  • 更加简单,self-consistency 是完全无监督的
  • 只使用了一个 language model,而其他方法会集成多个 model

并且最终的表现比 sample-and-rank、beam search、ensemble-based 等方法要表现更好。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐