【LLM 论文】Self-Consistency — 一种在 LLM 中提升 CoT 表现的解码策略

Self-Consistency：一种在 LLM 中提升 CoT 表现的解码策略

yubinCloud

5765人浏览 · 2024-04-20 20:34:47

yubinCloud · 2024-04-20 20:34:47 发布

论文：Self-Consistency Improves Chain of Thought Reasoning in Language Models
⭐⭐⭐⭐⭐
ICLR 2023, Google Research

文章目录

- 论文速读

论文速读

本工作提出了一种解码策略：self-consistency，并可以用于 CoT prompting 中。

该策略提出的直观感觉是：人类在解决复杂问题时，往往会慎重考虑，并可能会尝试使用多种推理路径来解决从而保证得到的答案的正确性。self-consistency 就是基于这种思想，让 LLM 在解决复杂推理问题时，让他尝试多个推理路径，每个推理路径就是一次 CoT 的解决过程，每个可以得到一个答案，最终的答案就是其中出现次数最多的答案。

self-consistency 用李宏毅老师的 PPT 来解释的话，也就是如下的方式：

self-consistency

普通的 CoT 与使用了 self-consistency 解码策略的对比如下：

CoT对比self-consistency

self-consistency 的解码过程主要就是“sample-and-marginalize”：

让 LLM 的 decoder 去产生多个推理路径，每个推理路径会导致一个 final answer（区别于普通 CoT 的 greedy decode）
marginalize out 这些推理路径，在 final answer set 中找出 the most consistent answer

同时论文指出，有时候 CoT 的使用让 LLM 的表现可能还不如标准的 prompt，这时候引入 Self-consistency 可以提升 CoT 的表现。如下是实验证明：

在这里插入图片描述
self-consistency 可以与目前的采样算法兼容，比如 temperature sampling、top-k sampling、nucleus sampling

有些工作是额外训练一个 verifier 来验证答案的正确性，self-consistency 的优点在于：

更加简单，self-consistency 是完全无监督的
只使用了一个 language model，而其他方法会集成多个 model

并且最终的表现比 sample-and-rank、beam search、ensemble-based 等方法要表现更好。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

UFW防火墙安全指南

UFW（Uncomplicated Firewall）是Ubuntu/Debian系统中简化防火墙管理的工具，通过直观命令帮助用户有效控制网络流量，提升系统安全性。文章详细介绍了UFW的基本命令，包括启停防火墙、添加规则、限制连接速率和日志配置等操作，并提供了安全最佳实践，如默认拒绝策略、IP地址限制和服务级规则管理。同时，还涵盖高级配置技巧，例如多网络接口设置、规则优先级调整、IPv6支持及与f