一项关于使用大型语言模型进行Text2SQL任务的调查

大型语言模型（LLMs）已成为自然语言处理和机器学习的里程碑。LLMs的概念源于不断扩展预训练语言模型（PLMs）的参数规模和训练数据量[120]，这导致了令人惊讶的能力，称为涌现能力[100]，这是较小的PLMs所不具备的。一个涌现能力的例子是少量示例学习[7]，这意味着LLMs可以在提示中仅通过几个适当的任务示例完成下游任务，而无需进一步训练。另一个例子是指令跟随能力[99]，LLMs已被证明

Paper易论

1313人浏览 · 2025-02-24 20:25:16

Paper易论 · 2025-02-24 20:25:16 发布

梁石∗ 和唐正举∗，北京大学计算机学院，中国
张楠，SINGDATA CLOUD PTE. LTD, 美国
张晓彤，SINGDATA CLOUD PTE. LTD, 中国
杨智，北京大学，中国

随着关系数据库中数据量的增加以及编写SQL查询所需的专业知识，用户在访问和分析数据时面临挑战。文本到SQL（Text2SQL）通过利用自然语言处理（NLP）技术将自然语言转换为SQL查询来解决这些问题。随着大型语言模型（LLMs）的发展，一系列基于LLM的Text2SQL方法应运而生。本文对LLMs在Text2SQL任务中的应用进行了全面综述。我们回顾了基准数据集、提示工程方法、微调方法和基础模型。我们在每个部分提供了见解，并讨论了该领域的未来方向。

CCS概念：• 计算方法 → 自然语言处理；机器翻译；知识表示与推理；信息抽取。

附加关键词和短语：大型语言模型，文本到SQL，提示工程，微调

ACM参考格式：

梁石，唐正举，张楠，张晓彤，杨智. 2018. 一项关于使用大型语言模型进行文本到SQL任务的调查. 在XX会议论文集中（请从您的权利确认邮件中输入正确的会议标题）。ACM, 纽约, 美国, 32页. https://doi.org/XXXXXXX.XXXXXXX

1 引言

在大数据时代，大量数据存储在关系数据库中，这些数据库是各种组织数据管理系统的基础。随着数据量的不断增加，高效查询和利用这些数据的能力已成为提高各行业竞争力的关键因素。关系数据库需要使用SQL进行查询。然而，编写SQL需要专业知识，这为非专业用户查询和访问数据库设置了障碍。

文本到SQL解析是自然语言处理（NLP）领域的一个成熟任务。其目的是将自然语言查询转换为SQL查询，从而弥合非专家用户与数据库访问之间的差距。例如，假设有一个名为cities的表，包含三列：city_name（类型：字符串）、population（类型：整数）和country（类型：字符串）。如果我们给出自然语言查询“在美国人口超过100万的所有城市”，文本到SQL解析技术应该自动生成正确的SQL查询：“SELECT city_name FROM cities WHERE population > 1000000 AND country = ‘United States’。”研究人员在这方面取得了显著进展。最初，采用了基于模板和基于规则的方法[51, 113]。这些

∗两位作者对本研究贡献相同。

提交给ACM的手稿

允许出于个人或课堂使用目的免费制作本文全部或部分内容的数字或硬拷贝，前提是不得为了盈利或商业利益复制或分发副本，并且副本必须附有此通知和第一页的完整引用。属于他人的本文组成部分的版权必须得到尊重。允许注明出处的摘要。以其他方式复制或重新发布，或在服务器上发布或重新分发到列表，需要事先获得特定许可并可能需要支付费用。请向permissions@acm.org请求许可。

方法涉及为各种场景创建SQL模板。虽然基于模板的方法显示出了潜力，但它们需要大量的手动工作。随着深度学习的迅速发展，Seq2Seq[87] 方法成为主流方法。Seq2Seq[87] 模型提供了一种端到端的解决方案，直接将自然语言输入映射到SQL输出，消除了中间步骤如语义解析或基于规则的系统的需求。在Seq2Seq[87] 方法中，预训练语言模型（PLMs），作为大型语言模型（LLMs）的前身，在文本到SQL任务中显示出潜力。受益于大规模语料库中的丰富语言知识，PLMs 成为当时的最先进（SOTA）解决方案[75]。

随着模型规模和训练数据的不断增长，预训练语言模型（PLMs）自然演变为大型语言模型（LLMs），展现出更大的能力。由于缩放定律[45] 和其涌现能力[100]，LLMs 在多个领域做出了重大贡献，包括聊天机器人[17]、软件工程[39] 和代理[95] 等。LLMs 的卓越能力促使研究人员将其应用于文本到SQL任务。当前关于基于LLM的文本到SQL的文献主要集中在两种主要方法：提示工程和微调。提示工程方法利用LLMs的指令跟随能力实现精心设计的工作流程。此外，提示工程方法经常利用检索增强生成（RAG）和少量示例学习来获取有用的知识和示例，并采用诸如Chain-of-Thought (CoT)[101] 等推理技术进一步提升性能。微调方法遵循PLMs的“预训练和微调”学习范式[120]，涉及在文本到SQL数据集上训练预训练的LLM。提示工程方法和微调方法之间存在权衡。通常，提示工程需要较少的数据，但可能导致次优结果，而微调可以提升性能，但需要更大的训练数据集。

本文旨在全面综述LLMs在文本到SQL任务中的应用，并将在以下方面介绍基于LLM的文本到SQL：

概述：我们简要介绍了LLMs和基于LLM的文本到SQL方法。我们还总结了传统和基于LLM的文本到SQL方法之间的差异以及基于LLM的文本到SQL的优势。
基准和评估指标：对于基准，我们将它们分为两类：LLM兴起之前的基准和LLM时代的基准。我们总结了每个基准的统计数据和特征。此外，我们详细介绍了四个著名的基准数据集，即SCIENCEBENCHMARK[119]、BIRD[54]、Dr.Spider[10] 和Spider 2.0[48]。这些数据集是在LLM广泛使用后创建的，提出了新的挑战，如领域知识、大规模表模式、多样化的扰动和实际企业级场景。对于评估指标，我们介绍了文本到SQL任务中常用的指标。
提示工程：我们将文本到SQL的提示工程方法分为三个阶段，即预处理、推理和后处理。预处理将处理问题和表模式的格式和布局。我们还重点介绍了预处理阶段的模式链接技术。在推理阶段，我们解释了当提供用户的问题和相应的数据库模式时，基于LLM的文本到SQL方法如何生成相应的SQL查询。在最后的后处理阶段，我们介绍了如何在生成SQL查询后增强基于LLM的文本到SQL方法的性能和稳定性。

一项关于使用大型语言模型进行文本到SQL任务的调查会议缩写 'XX, 2018年6月03-05日, Woodstock, NY

在这里插入图片描述

图1. 使用LLMs进行文本到SQL的框架

微调：我们将这一部分组织成三个主要组件，即微调目标、训练方法、训练数据和模型评估。首先，我们将总结最近基于LLM的文本到SQL论文中的微调目标，其中包括SQL生成目标和其他旨在提升不同步骤性能的目标。然后将介绍常用的训练方法。接下来，将介绍如何获取微调数据。最后，将讨论模型评估方法。
模型：我们根据是否开源对LLMs进行分类，并展示这些模型在文本到SQL领域的应用。此外，我们分析了这些LLMs的发展趋势，揭示了随时间推移在基于LLM的文本到SQL方法中基础模型的使用频率。
未来方向：我们对研究方法的错误分析进行了回顾。随后，我们介绍了现有解决方案在实际设置中面临的挑战，并提供了一些基于LLM的文本到SQL任务的有前景的未来发展方向。

我们希望这项调查能成为该领域新手的宝贵资源，并为研究人员提供有价值的见解。

2 概述

2.1 LLMs和基于LLM的文本到SQL

由于LLMs的涌现能力[100] 和LLMs的基本操作原理，即逐步生成具有最高概率的下一个词基于输入提示[120]，提示工程成为将LLMs应用于下游任务的两个主要流派之一。提示工程的代表性方法包括检索增强生成（RAG）[32]、少量示例学习[7] 和推理[101, 108, 125]。LLMs应用于下游任务的另一个流派是微调，它遵循PLMs的“预训练和微调”学习范式[120]，旨在提升特定领域的性能并解决隐私问题。一般的微调过程主要包括数据准备、预训练模型选择、模型微调和模型评估。

文本到SQL是一个在自然语言处理（NLP）和数据库社区中都具有挑战性的任务，涉及将给定关系数据库上的自然语言问题映射到SQL查询，也因LLMs的出现而发生了革命性变化。我们在图1 中总结了基于LLM的文本到SQL系统的通用框架。基于LLM应用的两个主要流派，我们将基于LLM的文本到SQL方法分为两类：提示工程和微调。对于提示工程方法，我们通常设计一个结构良好的提示，涵盖各种组件，如任务描述、表模式、问题和额外知识，并同时利用上下文学习和推理方法。对于微调方法，我们通常生成或收集文本到SQL数据集，选择适当的预训练LLM和微调方法，如LORA[41]，并在测试前后比较结果以了解模型性能的变化。

2.2 传统和基于LLM的文本到SQL方法的区别

在LLMs广泛应用之前，文本到SQL方法有两个主要流派。一个流派是利用序列到序列（Seq2Seq）模型[87]，其中编码器被设计用于捕获自然语言（NL）问题和相应表模式的语义，解码器则逐个标记地生成SQL查询。这种方法的一些著名方法包括IRNet[43]、SQLNet[106]、Seq2SQL[123]、HydraNet[64]、Ryansql[16]、Resdsql[52] 和ISESL-SQL[57]。另一个流派是微调PLMs，如BERT[20]，这些模型利用大规模文本集合中的广泛知识，并已被证明在提升下游文本到SQL解析任务的性能方面有效。

我们认为，传统文本到SQL方法与基于LLM的方法有两个明显的区别：

新颖范式：传统文本到SQL方法需要训练，而LLMs通常可以绕过这一要求。利用LLMs的指令跟随能力[99]，LLMs可以通过适当的指令和信息完成文本到SQL任务。
统一架构：根据先前的一项调查[75]，传统方法中的编码器和解码器可以使用多种架构设计，如LSTM[37]、Transformer[93] 甚至GNNs[6]。相比之下，LLMs遵循统一的基于Transformer的架构，这不仅使扩展更容易，而且简化了实现。

2.3 为什么使用基于LLM的文本到SQL

近年来，越来越多的LLMs被用于文本到SQL任务。通过对近期论文的全面调查，我们确定了这一趋势的几个关键原因，总结如下：

性能提升：图2 展示了SPIDER测试数据集[111] 中主流方法的演变情况，用执行准确率表示。如图所示，基于LLM的方法显著提升了SOTA性能，展示了基于LLM方法的卓越能力。列出的参考文献[21, 30, 31, 52, 56, 65, 72, 74, 79, 80] 支持这一观察结果。
泛化能力和适应性：如前所述，LLMs引入了一种新范式，即提示工程，得益于其指令跟随能力[99]，使得LLMs可以轻松转移到不同的设置中而无需额外训练。此外，LLMs的上下文学习能力[120] 进一步增强了其泛化和适应能力，因为它们可以从提供的示例中学习，无缝适应各种设置。
未来改进：基于LLM的方法在未来有巨大的发展潜力。由于全球社区优先考虑提升LLMs，资源和努力都集中在支持LLM的研究上。这包括扩大LLMs的规模、创建新的提示方法、生成高质量和广泛的数据集，以及在各种任务上微调LLMs。LLM社区取得的进展无疑将持续推动基于LLM的文本到SQL方法达到新的SOTA。

3 基准和评估指标

高质量的数据集在文本到SQL任务的训练和测试中至关重要。在本节中，我们总结了基于LLM的文本到SQL研究论文中使用的主流基准数据集和评估指标。

3.1 基准

通过对基于LLM的文本到SQL论文的综合审查，我们将文本到SQL数据集分为两类：LLM兴起之前的基准和LLM时代的基准。我们在表1 中展示了每个数据集的详细信息。

LLM兴起之前的基准。这类经典基准，如WikiSQL[124]、Spider 1.0[111] 和KaggleDBQA[49]，在LLM出现前后都被广泛使用。它们对文本到SQL领域的研究进展做出了重要贡献。截至撰写本文时，Spider 1.0[111] 仍然是评估文本到SQL方法性能的首选。基于这些经典基准，已经提出了一系列增强基准。例如，Spider-Realistic[18] 创建了消除问题中显式数据库模式出现的情景。

会议缩写 'XX, 2018年6月03-05日, Woodstock, NY 梁石和唐正举等

在这里插入图片描述

图2. 文本到SQL方法随时间的演变

Spider-SYN[28] 将问题中的模式相关词汇替换为人工选择的同义词，反映现实世界的问题改写。SPIDER-CG[27] 将Spider中的句子拆分成子句，标注每个子句对应的SQL子句，然后以不同的组合方式组合这些子句，以测试模型的组合泛化能力。CSpider[66] 将Spider翻译成中文，以测试中文文本到SQL的性能。ADVETA[71] 添加对抗性表扰动以欺骗文本到SQL解析器。还有一些其他数据集出现在LLM兴起之前，如Fiben[81] 和DuSQL[96]，您可以在表1 中找到简要介绍。

LLM时代的基准主要指在LLM兴起后出现的基准。由于LLM的巨大能力推动了这一领域进入新阶段，这些基准开始关注实际文本到SQL任务中更具挑战性的方面，包括领域特定知识、多样化扰动、大规模和嘈杂的数据库以及SQL效率。在这里，我们总结了四个在LLM广泛使用后出现的值得注意的基准数据集。

SCIENCEBENCHMARK[119]。正如[119] 所指出的，以前的数据集如Spider并不能代表在为真实世界数据库创建自然语言接口时遇到的困难。将这些数据集上训练的系统应用于天体物理学或癌症研究等新领域会得到较差的结果，使得这些系统在实际应用中的采用极为不切实际。因此，提出了SCIENCEBENCHMARK[119]。这是第一个与SQL专家和研究政策制定、天体物理学及癌症研究领域的研究人员合作开发的文本到SQL数据集。
BIRD[54]。大多数数据集[18, 27 –29, 66, 71, 96, 110 –112, 124] 主要关注数据库模式，只有少数行的数据库值，留下了学术研究与实际应用之间的差距。为了解决这一差距，[54] 引入了BIRD数据集。BIRD数据集包括12,751个文本到SQL对和95个数据库，总大小为33.4 GB，涵盖了37个专业领域。它还强调了新的挑战，包括脏乱和嘈杂的数据库值、自然语言（NL）问题和数据库值之间的外部知识接地以及SQL效率，特别是在大规模数据库的背景下。实验结果表明，即使是最有效的文本到SQL模型，即GPT-4[1]，也只能达到54.89%的执行准确率，仍然远远低于人类的92.96%，证明挑战依然存在。
Dr.Spider[10]。[10] 的工作指出，文本到SQL模型容易受到特定任务扰动的影响，但以前策划的鲁棒性测试集通常只关注个别现象。为了填补这一空白，[10] 引入了Dr.Spider数据集。基于Spider数据集[111]，Dr.Spider设计了17种针对数据库、自然语言问题和SQL查询的扰动，以从多个角度测量鲁棒性。为了收集更多多样化的自然问题扰动，[10] 利用大型预训练语言模型（PLMs）以少量示例的方式模拟人类行为来创建自然问题。实验结果表明，即使是最鲁棒的模型也会遇到14.0%的整体性能下降和在最具挑战性的扰动下50.7%的性能下降。
Spider 2.0[48]。正如[48] 所指出的，实际企业级文本到SQL工作流通常涉及跨多种数据库系统的复杂云或本地数据、多种方言的SQL查询以及从数据转换到分析的各种操作。然而，以前的数据集缺乏在这方面的评估。因此，提出了Spider 2.0[48]。它包含600个实际文本到SQL工作流问题，来源于BigQuery、Snowflake或PostgreSQL等真实数据应用。

3.2 评估指标

我们总结了以下五个指标：

精确集合匹配准确率（EM）通过比较生成的SQL和真实SQL的字面内容来确定。具体来说，EM比较生成的SQL和真实SQL的SQL子句是否一致。然而，同一个SQL问题有多种表达方式，因此EM指标常常低估了模型的预测准确率。

执行准确率（EX）通过比较生成的SQL和真实SQL的执行结果来得出。然而，逻辑不同的SQL在执行时可能会产生相同的结果，因此EX也可能高估了模型的预测准确率。

测试套件准确率（TS）[122] 从大量随机生成的数据库中创建一个小而集中的数据库测试套件。这些数据库具有高代码覆盖率，适用于准确查询。在评估过程中，它测量预测查询在这个测试套件中的注释准确率，有效地计算出语义准确率的严格上限。

有效效率得分（VES）[54] 将SQL执行效率纳入评估范围。计算公式如方程1 所示，其中帽子符号表示预测结果，1是指示函数，仅在预测的SQL等同于正确SQL时为1，R是比率的平方根。直观地说，生成的SQL的正确率越高，生成的SQL的执行效率越高，VES值越高。

$\frac{\sum_{n=1}^{N} \mathbf{1}(V_n, \hat{V}_n) \cdot \mathbf{R}(Y_n, \hat{Y}_n)}{N}, \mathbf{R}(Y_n, \hat{Y}_n) = \sqrt{\frac{E(Y_n)}{E(\hat{Y}_n)}}\tag{1}$

ESM+[5] 是基于精确集合匹配准确率（EM）提出的，并在LEFT JOIN、RIGHT JOIN、OUTER JOIN、INNER JOIN、JOIN、DISTINCT、LIMIT、IN、外键、模式检查和别名检查等方面应用了新规则。[5] 使用TS、EM和ESM+比较了9个基于LLM的模型的性能，结果表明ESM+通过减少早期指标（EM和TS）中常见的假阳性和假阴性情况，提供了实质性的改进。

在这里插入图片描述

图3. 提示工程的分类

4 提示工程

提示工程，有时也称为上下文学习，是指构建LLM能够理解的指令。从开发者的角度来看，这意味着通过设计提示词来定制LLM在某些任务上的输出。

由于自回归解码属性[26]，大多数LLM基于所有当前可见的前文（也称为上下文）预测后续文本。我们将自回归解码描述为方程2，其中表示LLM将输出的下一个标记，表示用户提供的提示标记。提示词的设计会影响所有后续标记的概率分布，从而影响最终生成的结果。

$y_t = \arg\max P(y_t | y_{1:t-1}, \mathbf{x}) \tag{2}$

经过对相关论文的全面调查，我们将文本到SQL的提示工程方法分为以下三个阶段：

预处理。在实际场景中，从事文本到SQL的专家经常因问题描述不清和数据库模式模糊而感到困惑。这种情况同样适用于LLM，并促使对文本到SQL问题进行预处理。我们的提示工程方法的预处理部分将包括三个部分：首先是问题描述的抽象表示；其次是数据库模式的选择性链接；最后是引入额外的SQL知识或外部知识。
推理。所谓的推理是指在用户提供问题和相应的数据库模式时生成相应的SQL查询。这个阶段可以逻辑上分为两部分：工作流设计和示例使用。从预处理到SQL生成，大多数工作将以自定义方式或基于推理模式设计其推理工作流，并决定是否使用示例。我们将从文本到SQL的工作流设计开始介绍，包括众所周知的推理模式，如思维链（Chain-of-Thought）[101]、最少到最多（Least-to-Most）[125] 和分解（Decomposition）。之后，我们将介绍示例方法，包括零样本方法和少样本方法。在少样本部分，我们将强调示例风格和选择的重要性。
后处理。为了增强基于LLM的文本到SQL方法的性能和稳定性，在推理后进一步优化生成结果是可选的。我们称这些操作为后处理。文本到SQL中常见的后处理方法包括自我纠正[70] 和一致性方法（也称为自我一致性[98] 和交叉一致性[55, 103]）。

图3 显示了根据上述三个部分分类的相关工作，基于LLM的文本到SQL提示工程方法的管道可以表示为方程3。详细的阶段和见解如下。

$_pred_SQL = Post_process ( LLM ( QuestionRepresentation , Demonstration , Reasoning ) ) (3) \text{\_pred\_SQL} = \text{Post\_process}(\text{LLM}(\text{Question} \text{Representation}, \text{Demonstration}, \text{Reasoning})) \tag{3}$

4.1 预处理

在文本到SQL任务的开始阶段，有必要在提示词中清晰而全面地描述解决问题所需的所有信息。这些信息主要包含问题的表示格式、数据库模式和一些任务相关的知识。在预处理部分，我们将对上述每部分信息进行介绍。

4.1.1 问题表示。文本到SQL任务中的“问题”包括两部分：自然语言问题陈述和相关数据库的必要信息。最近的工作[3, 76] 探索了常用的问题和数据库表示方法。我们总结了这些表示的一些典型特征，并在下面进行描述。

一项关于使用大型语言模型进行文本到SQL任务的调查会议缩写 'XX, 2018年6月03-05日, Woodstock, NY

	1 ### SQLite SQL 表及其属性
2 #			2 CREATE TABLE schools (
	3 # schools ( SchID , city )	3	SchID int primay key ,
	4 # teachers ( TechID , SchID )	4	city text
	5 # students ( StuID , SchID , TechID )		5 ) ;
	6 # course ( CourseID , SchID )		6 CREATE TABLE teachers (
	7 # grade ( StuID , CourseID , score )	7	TechID int primay key ,
8 #		8	SchID int references schools ( TechID )
9 #			9 ) ;
	10 ### { 问题 }		10 ### { 问题 }
	11 SELECT		11 SELECT

(a) Openai 模板

(b) 创建表

布局一个特征是问题本身和数据库结构的写作风格，我们称之为问题的“布局”。两个著名的布局是Openai模板布局和“创建表”布局，图4 对它们进行了概述。

Openai模板布局一些工作[3, 21, 34, 55, 58, 62, 76, 88, 97] 使用了Codex官方API文档中提供的文本到SQL任务的Openai提示模板，每行以SQLite的注释符号开头，后跟表的形式（列1，列2，…）。在完成表描述后，最后一行提供SELECT关键字。示例格式如图[4]左侧所示。- "创建表"布局一些工作[13, 14, 31, 54, 67, 76] 将数据库组织的提示词表示为CREATE TABLE创建语句，如图[4]右侧所示。

这种布局的特点是使用标准的SQL语句来定义数据库表结构。每张表通过CREATE TABLE语句来创建，并详细列出每个字段及其属性。例如：

CREATE TABLE schools (
    SchID int PRIMARY KEY,
    city text
);

CREATE TABLE teachers (
    TechID int PRIMARY KEY,
    SchID int REFERENCES schools (SchID)
);

这种布局的优点在于它直接使用了SQL的标准语法，使得数据库结构更加清晰和规范。同时，这种方式也更容易被熟悉SQL的人理解和使用。- 明确包含每个列的数据类型以及可能的主键和外键关系，可以使LLM在生成SQL时对齐数据格式并执行多表连接。其他工作 [15, 88, 104] 使用了 CREATE TABLE 语句和部分数据来构建提示词，这更符合数据工程师编写SQL的实际情况。

示例数据除了布局之外，来自实际数据库内容的示例数据也有助于问题表示。[76] 中的工作将提示表示为 “SELECT * From Table LIMIT X” 语句及其执行结果，其中 X 是一个整数，通常根据经验取 3。一些工作 [3, 13, 14, 85, 104, 115] 甚至直接将示例数据放入提示词中。目的是使LLM能够理解数据库中的示例数据，并在生成SQL时符合数据本身的格式。[9] 修改了示例数据的形式，以列式列出数据，明确枚举分类值。

混合一些工作将布局设计和示例数据结合到提示中，以获得两者的优点。通用提示 [3] 将Openai模板和示例数据的提示词串联起来。LTMP-DA-GP[4] 在 CREATE TABLE 语句后添加了分类列的随机采样和数值列的范围信息。此外，[118] 在提示中添加了一对多关系（一张表中的单条记录与另一张表中的多条记录相关联）和枚举值；[35, 47, 72, 86, 94] 使用表.列的形式列出数据库模式；一些工作 [13, 21, 31, 55, 67, 86, 104, 104, 115] 也强调主键或外键描述，试图增加LLM对表之间关系的关注。

根据 [3, 21, 31, 76, 88, 115, 118] 的实验，我们将讨论不同问题表示下的性能观察，并分享一些见解。

布局从布局的角度来看，[21] 表明，当布局从清晰且结构化的模式变为非结构化模式时，性能显著下降。在比较Openai模板和“创建表”模板时，[31] 认为前者略优于后者，而 [ 则认为两者相当。
示例数据 [3, 76] 提供了每种布局的性能统计数据，表明示例数据是可插拔的，并且对其他布局有益。此外，[115] 指出更多的样本并不总是更好。
主键和外键许多工作显示了主键和外键在问题表示中的重要性。[55, 104, 115] 中的消融研究表明，移除外键会显著降低性能。SQLfuse[118] 也将主键作为准确性提升的第二大贡献者。在DAIL-SQL[31] 中，一些LLM在添加外键后表现出提升，而另一些则出现下降。

基于上述讨论，我们准备给出一些关于问题表示方法选择的见解。

关键要点

结构化布局（如Openai模板和“创建表”模板）优于非结构化布局，而不同的结构化布局则是相当的。
示例数据是有效的、可插拔的，在上下文长度足够的情况下值得考虑。
主键和外键具有显著影响，在复杂场景中至关重要且适用。

4.1.2 模式链接。

通常情况下，一个问题涉及多个表中的多个列，但每个表只使用特定的列。然而，冗余和不相关的模式项可能会分散LLM识别正确项的注意力，因此需要模式链接。模式链接是文本到SQL过程中的子任务，用于指定数据库中与给定查询中的短语相对应的表和列。此步骤在基于LLM的文本到SQL管道中有两个重要原因。首先，它带来了更短的标记长度。一方面，对于大型数据库，将所有表描述提示到LLM中是不切实际的。另一方面，通过减少表模式的长度，我们可以潜在地增强LLM的注意力和有效性。其次，研究表明，基于LLM的文本到SQL中的许多失败源于无法正确识别列名、表名或问题中提到的实体。通过利用模式链接技术，我们可以提高性能，甚至促进跨域泛化和复杂查询的合成。

在对最近基于LLM的文本到SQL论文中使用的模式链接技术进行了全面调查后，我们将它们分为两大类：基于LLM的模式链接方法和传统的模式链接方法。图5展示了我们调查的模式链接方法概述。

基于LLM的模式链接方法是指利用LLM执行模式链接任务的方法。主要有三种方法：

在为模式链接设计的具体步骤中提示LLM。最简单的方法是直接提示LLM进行模式链接，如Divide-and-Prompt[62] 和 Open-SQL[14] 所做的那样。为了进一步提高这种方法的性能，一些研究[21, 55, 85, 89, 104] 设计了更复杂的路径，在具体步骤中提示LLM。C3[21] 将模式链接分解为两个步骤，首先是指示ChatGPT回忆表，然后检索候选表中的列。Reboost[85] 采用了与C3[21] 相同的方法，但通过包括查询描述和列解释来丰富表和列的选择。DEA-SQL[104] 探索了首先
《基于大语言模型的文本到SQL任务综述》会议缩写 'XX, 2018年6月03-05日, Woodstock, NY

在这里插入图片描述

图5. 基于LLM的文本到SQL论文中使用的模式链接方法概述。(a), (b) 和 © 是基于LLM的模式链接方法，而 (d) 和 (e) 是传统的模式链接方法。(a) 对应于在为模式链接设计的具体步骤中提示LLM。(b) 对应于通过利用一般的LLM技术来增强基于LLM的模式链接性能。© 对应于将LLM集成到传统的模式链接方法中。(d) 和 (e) 分别是相似性方法和连通性方法。

识别查询中的元素，然后利用这些元素过滤模式。CHESS[89] 则遵循“列过滤、表选择和最终列过滤”的三步范式。PET-SQL[55] 强调LLM在编写SQL方面比模式链接子任务更为擅长，提出了先组成相应的SQL查询，然后从中提取表和列的初始步骤。

通过利用一般的LLM技术来增强基于LLM的模式链接性能。由于基于LLM的模式链接方法是由LLM驱动的，几项研究[21, 72, 88, 115, 118] 探索了通过利用一般的LLM技术（如少量学习[7]，思维链推理[101]，自一致性投票[98] 和微调）来增强模式链接性能。DIN-SQL[72] 随机选择一些示例来指导模式链接，并利用“让我们一步一步思考”来进一步提高性能。C3[21] 采用自一致性[98] 来增强性能稳定性。QDecomp[88] 和 ACT-SQL[115] 也使用少量学习来指导模式链接，但更注重示例构建。具体来说，给定一个子问题及其对应的SQL，它们将SQL中提到的所有表-列对标注为真实值。此外，ACT-SQL[115] 还使用嵌入模型来识别短语和模式之间的关系，然后用这些关系以思维链风格构建示例。除了上述提示方法外，SQLfuse[118] 采用微调来增强LLM的模式链接性能。
将LLM集成到传统的模式链接方法中。除了上述方法外，还有另一种选择，即将LLM与传统的模式链接方法相结合。其中一个例子是

CRUSH4SQL[47]，它利用了LLM的幻觉能力。它首先通过幻觉根据给定的查询生成DB模式，然后使用生成的模式作为参考，通过基于相似性的检索来选择相关的模式。

传统模式链接方法指的是不依赖LLM的模式链接技术。我们的深入分析揭示了基于LLM的文本到SQL研究论文主要利用了这两种传统的模式链接方法：

相似性方法。为了检索相关的模式，基本思想是确定查询和模式信息之间的相似性，并检索最相似的模式。例如，De-semanticization[35] 通过识别问题中的每个令牌与模式中的每个项目之间的直接匹配，以及识别问题词与特定数据库值之间的对应关系来计算相似性。
连通性方法。除了相似性之外，连通性也是另一个重要的考虑因素，因为使用的表和列之间应该表现出某种关系或连接。一些近期的研究，如 DBCopilot[97]，PURPLE[77] 和 SGU-SQL[117]，已经通过利用基于图的方法探索了这一概念。DBCopilot[97] 首先构建一个图来表示所有数据库及其表的基础模式结构，然后训练一个Seq2Seq模型作为路由器，遍历大量数据库以获取一组模式。PURPLE[77] 通过基于外键-主键连接创建图来增强检索的相关模式的互连性。SGU-SQL[117] 通过结合查询结构和数据库结构，基于查询中的主题概念、预定义的关系、数据库模式以及模式中的表/列名称来构建查询-模式图。然后训练一个模型将查询节点与相应的模式节点绑定。

关键要点

大多数工作倾向于使用思维链或分解推理作为基础工作流程。
主流的基于LLM的模式链接方法包括在具体步骤中提示LLM，并通过利用一般的LLM技术（如少量学习、思维链推理、自一致性投票和微调）来增强性能。
相似性和连通性都是值得考虑的因素。

4.1.3 知识。除了问题表示和模式链接方法外，提供与LLM相关的知识也是非常有益的。添加到提示中的知识可以视为当前任务描述的校准，为后续的SQL生成铺平道路。我们将知识分为两类，一类与SQL相关，另一类与问题本身和数据相关。

SQL知识 SQL相关知识主要包括SQL关键字、SQL语法和常见的SQL编写习惯。为通用LLM添加SQL相关知识就像为初级DBA提供经验手册，避免语义错误。C3[21] 特别校准了模型在SQL风格上的偏差，并在提示中添加了以下指令：仅在特定情况下使用COUNT(*)，避免使用LEFT JOIN、IN和OR，而是使用JOIN和INTERSECT，并推荐使用DISTINCT和LIMIT关键字。DIN-SQL[72] 和 DEA-SQL[104] 注意到像JOIN、INTERSECT和IN这样的关键字表明了SQL查询的难度，因此他们根据判断设计了关于当前问题难度级别的不同规范和提示。类似地，Meta-SQL[23] 设计了三种类型的查询元数据，以充分表达查询的高层

语义。元数据的类型包括操作符标签、难度值和正确性指标。为了进一步完善批评模型的决策能力，SQLfuse[118] 补充了列举常见错误的校准提示。这些提示旨在预先解决潜在的错误，增强模型生成优质SQL查询的能力。

外部知识除了SQL相关知识外，还有一些来自外部环境的杂项知识可能对文本到SQL任务有所帮助，因为某些术语或领域特定词汇在没有解释的情况下很难理解。Open-SQL[14] 利用了BIRD数据集[54]提供的每个查询附带的额外描述信息，作为人类理解和数据库结构之间的桥梁。CHESS[89] 使用上下文检索方法提取数据库目录、表和列的描述和缩写，以提高性能。SQLfuse[118] 特别设计了一个“SQL Critic”模块来确定最佳候选SQL查询。该模块从GitHub中的复杂SQL语句和模式构建了一个外部SQL知识库，以便更好地提取外部环境中的知识。

4.2 推理

给定某种形式的问题和模式，下一步是生成问题的潜在答案。考虑到文本到SQL任务的复杂性和对准确性的高要求，直接让LLM生成SQL响应很难得到满意的结果。我们全面调查了相关工作，发现有两种技术可以帮助生成正确且高质量的SQL：工作流程和示例。

4.2.1 工作流程。最简单的工作流程是从构造的问题和模式直接生成SQL，这在某种程度上高估了通用LLM在专业领域的处理能力。就像人们倾向于将复杂任务分解为几个简单的子任务或步骤一样，基于提示工程的方法通常为使用LLM生成查询响应设计特定的推理工作流程。文本到SQL任务中的工作流程可以根据不同的推理模式进行分类。

思维链（CoT）最著名的推理风格是思维链（CoT）[101]，它涉及一系列中间推理步骤，通常以“让我们一步一步思考”开始，以引发链式思维。这种方法特别适合复杂的逻辑任务，如文本到SQL。DIN-SQL[72] 在其复杂类问题中采用了人工设计的CoT步骤。对于非嵌套的复杂问题，CoT步骤包括模式链接和单一中间表示。相反，对于嵌套的复杂问题，CoT步骤包括原始问题的几个子问题及其相应的子查询。Divide-and-Prompt[62] 以逐条款的方式生成SQL，这是CoT模式的一种变体。CoE-SQL[116] 也提出了一种CoT的变体，即编辑链，描述了14条SQL语句的编辑规则：编辑“select”项、编辑“where”逻辑运算符等。此外，ACT-SQL[115] 提出了Auto-CoT，自动生成CoT示例，解决了手动标注CoT提示的高成本问题。Open-SQL[14] 设计了CoT模板，采用基于骨架的查询框架作为中间表示。SQLfuse[118] 以CoT模式组织其SQL生成提示，以结合先前的模式信息，并在一个提示中迭代执行SQL检查和错误修正。

最少到最多最少到最多（Least-to-Most）[125] 推理风格是文本到SQL工作流程设计中广泛使用的方法之一，它将复杂问题分解为一系列较简单的子问题，在一次与LLM的交互中完成。LTMP-DA-GP[4] 是这一类别的一个例子。该论文采用最少到最多的方法来分解自然语言查询，将NatSQL[30] 映射到分解后的部分，并从NatSQL生成SQL。

分解除了上述推理方法外，还存在一种简单而有效的工作流程，主要是将生成任务分解为与LLM的定制交互，并采用各种技术来解决每个阶段的挑战[46]。QDecomp[88] 首次提出了这种类别，提出了分解提示方法。QDecomp 不使用 CoT 或 Least-to-Most，而是指示 LLM 以递归和迭代的方式分解原始复杂问题。SQL 生成任务的分解可以是并行的或顺序的。从 SQL 语句的错误分析开始，DIN-SQL [72] 将 SQL 分为三个复杂度级别：简单、嵌套复杂和非嵌套复杂。这是并行分解。MAC-SQL[94] 引入了一个多代理框架，包括选择器、分解器和细化器。分解器代理在预测最终 SQL 之前生成一系列中间步骤（即子问题和 SQL）。这是顺序分解。DEA-SQL[104] 遵循全局分解步骤：信息确定、分类与提示、SQL 生成、自我修正和主动学习。

其他还有一些专门设计的工作流程。BINDER[15] 首先利用 LLM 生成其领域特定语言 BINDER-SQL，该语言与 SQL 语言一致，但某些列名和值被替换为 API 表达式，对应于子问题和原始表中的一些信息。然后 BINDER 再次使用 LLM 根据 API 调用解决的子问题将 BINDER-SQL 转换为 SQL。R3[103] 提出了一个基于共识的多代理系统，用于文本到 SQL 任务。该系统由一个 SQL 编写代理和几个不同角色的审查代理组成。经过几次 SQL 编写者和审查者之间的“协商”后，将会达成共识，并决定最终答案。

关键要点

大多数工作倾向于使用思维链或分解推理作为基础工作流程。
建议设计 CoT 的定制变体，而不是原始 CoT。
分解可以在顺序或并行方式下受益于 SQL 生成。
其他模式有待探索。

4.2.2 示例

在基于 LLM 的文本到 SQL 方法的工作流程中，经常使用示例来通过结合多个示例来增强 SQL 生成的性能。根据是否附加示例，这些方法可以分为两类：零样本方法和少数样本方法。零样本 LLM 基于文本到 SQL 方法的例子包括 C3[21]，ReBoost[85]，DBCopilot[97]，Generic[3]，SGU-SQL[117] 和 SQLfuse[118]。尽管零样本方法具有节省 LLM 令牌的优势，但文本到 SQL 是一项复杂的任务，从模型的角度来看可能相对较不熟悉。仅仅修改指令不能有效地解决这个复杂任务。相比之下，少数样本方法可以从示例中学习任务模式，而不完全依赖模型的预训练知识。这一特性增强了 LLM 的性能和适应性。在对最近基于 LLM 的文本到 SQL 论文中使用的示例进行全面调查后，我们将示例的功能分为两个不同的类别，包括：

替代任务描述。如前所述，为了处理复杂的文本到 SQL 任务，研究探索了包含特定步骤或涉及以前不存在的新定义子任务的各种工作流程。例如，在生成非嵌套复杂问题的 SQL 时[72]，DIN-SQL[72] 遵循思维链风格的工作流程，精心设计了步骤。它规定首先生成与问题对应的 NatSQL[30] 作为中间表示。随后，基于此 NatSQL[30] 生成最终结果。另一个例子是 BINDER[15]，它通过语言模型 API 调用函数扩展编程语言（如 SQL），并使用大型语言模型将自然语言查询翻译成扩展的 SQL 语言。然而，DIN-SQL[72] 的精心设计步骤和 BINDER[15] 的翻译从模型的角度来看都是不熟悉的，不容易通过人类语言提示来描述。在这种情况下，它们都利用了 LLM 的上下文学习能力，并提供了几个示例。这显著简化了提示中的指令设计。Divide-and-Prompt[62]，QDecomp[88] 和 COE-SQL[116] 也采用了这种方法。
增强 LLM 的 SQL 编码能力。适当的示例可以大大增强 LLM 的性能[7]，实验发现 LLM 对样本选择非常敏感，选择不适当的样本甚至可能产生负面影响。为了最大化性能，研究[14, 31, 33, 35, 77, 104, 115] 探索如何选择适当的示例。最简单的方法是检索问题具有相似语义含义的示例。然而，即使底层意图相似且相应的 SQL 查询也相似，不同数据库模式的问题也可能有很大差异[35]。为了弥合这一差距，诸如 De-semanticization[35]，检索与修订[33]，DAIL-SQL[31]，DEA-SQL[104] 和 PURPLE[77] 等研究首先屏蔽原始问题中的领域特定词汇，以获得查询的骨架。然后，它们检索问题骨架具有相似语义含义的示例。其中，PURPLE[77] 进一步设计了四个级别的 SQL 骨架抽象，并专注于更粗粒度的检索。一些研究[14, 31, 33] 尝试使用更多信息来检索示例。检索与修订[33] 通过提示 LLM 并利用原始问题和简化问题来简化自然语言问题，从而避免了不寻常提问风格带来的挫败感，并增强了存储库中的语法和措辞多样性。DAIL-SQL[31] 利用自然语言问题和相应的 SQL 查询来检索示例，而 Open-SQL[14] 则利用自然语言问题、数据库模式和相应的 SQL 查询来检索示例。除了检索相似示例外，多样化的示例也可能有帮助。例如，ACT-SQL[115] 利用随机选择的示例以及与当前问题相似的示例。除了示例选择外，令牌成本也是一个考虑因素。DAIL-SQL[31] 考虑了准确性和令牌成本之间的权衡，并提供了三种示例样式，即查询、模式和相应 SQL 的组合，查询和相应 SQL 的组合，以及只有 SQL。DAIL-SQL[31] 选择了查询和相应 SQL 的组合，以减少示例的令牌长度。

关键要点

在提示中利用示例是一种直接的任务描述方法。工作流程越复杂，这种方法的优势越大。
问题骨架比原始问题更能有效地捕捉问题意图。
需要考虑准确性和令牌成本之间的权衡。

4.3 后处理

为了进一步提高基于 LLM 的文本到 SQL 方法的性能和稳定性，研究应用后处理方法来处理生成的 SQL。经过全面调查，我们将这些方法总结为两类：自我修正和一致性。

4.3.1 自我修正。

在 LLM 生成答案后，自我修正方法使用特定问题和任务的规则让 LLM 检查答案的正确性；在文本到 SQL 场景中，自我修正方法可以使用 SQL 相关规则进行检查，也可以提供运行 SQL 语句生成的结果或错误日志供检查。[3] 注意到了表值中额外空格的细微差别，并让 LLM 重新检查。[33–35] 的方法是在原始提示词中将少量模式改为完整模式，如果 LLM 生成的 SQL 无法运行，则再次生成 SQL。在 [ 72, 85, 89, 94] 中，不正确的 SQL 和指示执行错误的信息将被用作 LLM 重新生成 SQL 的提示。[104] 分析了字段匹配和 SQL 语法的几个重要错误点，然后设计了特定的提示来纠正它们。[13] 设计了单元测试、代码解释和执行结果，以供模型改进其响应。[118] 提出了 SQL Critic 模块，并采用了一种少量示例的上下文学习策略，利用外部 SQL 知识库中的示例，并丰富了事后反馈。

关键要点

在文本到 SQL 任务中，大多数配备自我修正功能的工作集中在一些手工模式修改规则和执行日志等“精炼”部分，而在代码解释和答案判断等“批评”部分有更多的探索空间。

4.3.2 一致性方法。

自我一致性方法 [98] 主要采用多数投票策略，通过设置一定的温度让同一个 LLM 生成同一问题的多个答案。然后 LLM 选择出现频率最高的答案作为最终答案。在 [ 15, 21, 31, 86, 89] 中，自我一致性方法直接对其 LLM 生成的 SQL 进行多数投票，取得了良好的性能提升。[68] 提出对多个答案进行重新排序，并训练一个验证器来检查生成的代码。PURPLE[77] 利用生成的 SQL 的执行结果进行多数投票。

与自我一致性不同，交叉一致性方法使用几个不同的 LLM 或代理分别生成答案或检查 SQL 的有效性。PET-SQL [55] 提出了这种方法，指示几个 LLM 在较低温度下生成 SQL，然后对 SQL 的执行结果进行投票。为了利用各自的优势，[89] 在其后处理阶段依次使用自我修正和自我一致性。R3 [103] 采用多代理框架，以循环方式提供来自具有不同专业知识的代理的 SQL 建议，类似于交叉一致性和自我修正的结合。

关键要点

自我一致性具有适应性强、方便且性能好的优点。但是，它需要与 LLM 进行更多交互，并且成本更高。
交叉一致性让多个 LLM 参与，减少了单个 LLM 的偏见缺点。
在后处理阶段同时使用自我修正和一致性方法是有前景的。

4.3.3 其他。

DEA-SQL[104] 发现模型在某些问题类型（例如极值问题）上更容易出错，然后利用主动学习[83] 来表示三种固定的错误情况，并确定生成的 SQL 是否需要修改，这更好地满足了需求。

5 微调

通过检索增强生成（RAG）、上下文学习（ICL）和思维链（CoT）[101] 等提示方法，LLM 在文本到 SQL 任务中表现出了卓越的性能。然而，这些方法严重依赖于强大的闭源 LLM，如 GPT-4[1]，这可能会引起隐私问题[53, 107]，因为在生产环境中需要将数据传输给闭源模型提供商，如 OpenAI。因此，我们也应该关注开源 LLM 在文本到 SQL 任务中的应用。与 GPT-4[1] 等大型闭源 LLM 相比，开源 LLM 在推理能力和指令跟随能力方面存在局限性。这是由于多种因素造成的，包括较小的模型规模、数量较少且质量较低的预训练语料库，以及较少的预训练努力。此外，SQL 相关内容通常只占整个预训练语料库的一小部分[53]，这可能导致在文本到 SQL 任务中的性能较差。因此，开源 LLM 在文本到 SQL 任务中的主流应用是微调。

在基于 LLM 的文本到 SQL 上下文中，微调涉及以某个基础 LLM 为例，例如 code-llama[78]，并通过利用特定场景中的文本到 SQL 数据集进行进一步训练，通常是 SQL 生成任务。基于 LLM 的文本到 SQL 的微调可以表示为方程 4. 给定一个基础模型和一个微调数据集 = {( , , )}，其中表示用户查询，是相应的数据库信息，是真实的 SQL 查询。目标是最小化预测的 SQL 查询 ( , ) 与真实 SQL 查询之间的差异，该差异由损失函数测量。

$\min_{M} = \sum_{i=0}^{|\tau|} Loss(M(q_i, d_i), gt_i) \tag{4}$

我们将本节分为四个部分，分别是微调目标、训练方法和训练数据。图 6 展示了根据上述四个部分分类的相关工作。

5.1 微调目标

通常，基于 LLM 的文本到 SQL 的微调目标是 SQL 生成。也就是说，给定特定设计风格的问题表示和数据库信息，模型尝试推断出正确的 SQL 查询。这类方法的例子包括 Open-SQL[14]，CodeS[53]，DAIL-SQL[31]，SQL-Palm[86]，Dubo-SQL[91]，FinSQL[114] 和 DataGpt-SQL-7B[102]。

除了上述 SQL 生成目标外，一些研究[38, 73, 94, 118] 利用微调来增强基于 LLM 的文本到 SQL 工作流程中不同步骤的性能。MAC-SQL[94] 设计了一个由三个代理组成的架构，包括处理模式链接的选择器、负责问题### 大规模数据库支持的文本到 SQL 的大型基准

[55] 李志帅, 王翔, 赵晶晶, 杨孙, 杜国清, 胡小若, 张斌, 叶宇潇, 李子悦, 赵瑞等. 2024. PET-SQL: 基于提示增强的两阶段文本到 SQL 框架与交叉一致性. arXiv 预印本 arXiv:2403.09732 (2024).
[56] Xi Victoria Lin, Richard Socher, 和 Caiming Xiong. 2020. 桥接文本和表格数据以实现跨域文本到 SQL 语义解析. 在《计算语言学协会发现：EMNLP 2020》中, Trevor Cohn, Yulan He, 和 Yang Liu (编辑). 计算语言学协会, 在线, 4870–4888. https://doi.org/10.18653/v1/2020.findings-emnlp.438

会议缩写 'XX, 2018年6月3-5日, Woodstock, NY Shi 和 Tang 等.

[57] 刘艾伟, 胡旭明, 林丽, 和文立杰. 2022. 通过迭代学习模式链接图进行语义增强的文本到 SQL 解析. 在第28届 ACM SIGKDD 知识发现和数据挖掘会议论文集 (美国华盛顿特区) (KDD '22). 计算机协会, 美国纽约, 1021–1030. https://doi.org/10.1145/3534678.3539294
[58] 刘艾伟, 胡旭明, 文立杰, 和 Philip S Yu. 2023. ChatGPT 零样本文本到 SQL 能力的全面评估. arXiv 预印本 arXiv:2303.13547 (2023).
[59] 刘浩坤, Tam Derek, Mohammed Muqeeth, Jay Mohta, 黄腾豪, Mohit Bansal, 和 Colin A Raffel. 2022. 少样本参数高效微调比上下文学习更好且更便宜. 神经信息处理系统进展 35 (2022), 1950–1965.
[60] 刘晓, 纪凯轩, 付一成, Tam Weng Lam, 杜正啸, 杨智麟, 和唐杰. 2021. P-tuning v2: 提示微调在不同规模和任务上可以与全量微调相媲美. arXiv 预印本 arXiv:2110.07602 (2021).
[61] 刘新宇, 沈书瑜, 李博言, 马佩贤, 姜润之, 罗雨雨, 张宇欣, 范炬, 李国良, 和唐楠. 2024. 大型语言模型在 NL2SQL 中的应用综述: 我们在哪里, 我们将去向何方?### 大规模数据库支持的文本到 SQL 的大型基准
[55] 李志帅, 王翔, 赵晶晶, 杨孙, 杜国清, 胡小若, 张斌, 叶宇潇, 李子悦, 赵瑞等. 2024. PET-SQL: 基于提示增强的两阶段文本到 SQL 框架与交叉一致性. arXiv 预印本 arXiv:2403.09732 (2024).
[56] Xi Victoria Lin, Richard Socher, 和 Caiming Xiong. 2020. 桥接文本和表格数据以实现跨域文本到 SQL 语义解析. 在《计算语言学协会发现：EMNLP 2020》中, Trevor Cohn, Yulan He, 和 Yang Liu (编辑). 计算语言学协会, 在线, 4870–4888. https://doi.org/10.18653/v1/2020.findings-emnlp.438

会议缩写 'XX, 2018年6月3-5日, Woodstock, NY Shi 和 Tang 等.

[57] 刘艾伟, 胡旭明, 林丽, 和文立杰. 2022. 通过迭代学习模式链接图进行语义增强的文本到 SQL 解析. 在第28届 ACM SIGKDD 知识发现和数据挖掘会议论文集 (美国华盛顿特区) (KDD '22). 计算机协会, 美国纽约, 1021–1030. https://doi.org/10.1145/3534678.3539294
[58] 刘艾伟, 胡旭明, 文立杰, 和 Philip S Yu. 2023. ChatGPT 零样本文本到 SQL 能力的全面评估. arXiv 预印本 arXiv:2303.13547 (2023).
[59] 刘浩坤, Tam Derek, Mohammed Muqeeth, Jay Mohta, 黄腾豪, Mohit Bansal, 和 Colin A Raffel. 2022. 少样本参数高效微调比上下文学习更好且更便宜. 神经信息处理系统进展 35 (2022), 1950–1965.
[60] 刘晓, 纪凯轩, 付一成, Tam Weng Lam, 杜正啸, 杨智麟, 和唐杰. 2021. P-tuning v2: 提示微调在不同规模和任务上可以与全量微调相媲美. arXiv 预印本 arXiv:2110.07602 (2021).
[61] 刘新宇, 沈书瑜, 李博言, 马佩贤, 姜润之, 罗雨雨, 张宇欣, 范炬, 李国良, 和唐楠. 2024. 大型语言模型在 NL2SQL 中的应用综述: 我们在哪里, 我们将去向何方? arXiv:2408.05109 [cs.DB] https://arxiv.org/abs/2408.05109
[62] Xiping Liu 和 Zhao Tan. 2023. 分而提示：用于文本到 SQL 的链式思维提示. arXiv 预印本 arXiv:2304.11556 (2023).
[63] Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang, 和 Jie Tang. 2023. GPT 也理解. AI Open (2023).
[64] Qin Lyu, Kaushik Chakrabarti, Shobhit Hathi, Souvik Kundu, Jianwen Zhang, 和 Zheng Chen. 2020. 混合排名网络用于文本到 SQL. arXiv 预印本 arXiv:2008.04759 (2020).
[65] Youssef Mellah, Abdelkader Rhouati, El Hassane Ettifouri, Toumi Bouchentouf, 和 Mohammed Ghaouth Belkasmi. 2021. COMBINE: 从自然语言生成 SQL 的管道. 在《计算与数据科学进展：第五届国际会议，ICACDS 2021，印度纳希克，2021年4月23-24日，修订版论文集，第二部分》. Springer, 97–106.
[66] Qingkai Min, Yuefeng Shi, 和 Yue Zhang. 2019. 中文 SQL 语义解析的初步研究. arXiv 预印本 arXiv:1909.13293 (2019).
[67] Linyong Nan, Yilun Zhao, Weijin Zou, Narutatsu Ri, Jaesung Tae, Ellen Zhang, Arman Cohan, 和 Dragomir Radev. 2023. 增强大型语言模型的文本到 SQL 能力：关于提示设计策略的研究. 在《计算语言学协会发现：EMNLP 2023》. 14935–14956.
[68] Ansong Ni, Srini Iyer, Dragomir Radev, Ves Stoyanov, Wen tau Yih, Sida I. Wang, 和 Xi Victoria Lin. 2023. LEVER: 学习通过执行验证语言到代码生成. arXiv:2302.08468 [cs.LG] https://arxiv.org/abs/2302.08468
[69] Erik Nijkamp, Bo Pang, Hiroaki Hayashi, Lifu Tu, Huan Wang, Yingbo Zhou, Silvio Savarese, 和 Caiming Xiong. 2022. Codegen: 用于代码的开放式大型语言模型，具有多轮程序合成. arXiv 预印本 arXiv:2203.13474 (2022).
[70] Liangming Pan, Michael Saxon, Wenda Xu, Deepak Nathani, Xinyi Wang, 和 William Yang Wang. 2023. 自动纠正大型语言模型：调查多样化的自我纠正策略. arXiv:2308.03188 [cs.CL] https://arxiv.org/abs/2308.03188
[71] Xinyu Pi, Bing Wang, Yan Gao, Jiaqi Guo, Zhoujun Li, 和 Jian-Guang Lou. 2022. 针对自然和现实对抗性表格扰动的文本到 SQL 模型的鲁棒性. arXiv 预印本 arXiv:2212.09994 (2022).
[72] Mohammadreza Pourreza 和 Davood Rafiei. 2024. Din-sql: 带有自我纠正的分解上下文学习文本到 SQL. 神经信息处理系统进展 36 (2024).
[73] Mohammadreza Pourreza 和 Davood Rafiei. 2024. DTS-SQL: 使用小型大型语言模型的分解文本到 SQL. arXiv:2402.01117 [cs.CL] https://arxiv.org/abs/2402.01117
[74] Jiexing Qi, Jingyao Tang, Ziwei He, Xiangpeng Wan, Yu Cheng, Chenghu Zhou, Xinbing Wang, Quanshi Zhang, 和 Zhouhan Lin. 2022. RASAT: 将关系结构集成到预训练的 Seq2Seq 模型中用于文本到 SQL. 在《2022 年自然语言处理经验方法会议论文集》, Yoav Goldberg, Zornitsa Kozareva, 和 Yue Zhang (编辑). 计算语言学协会, 阿联酋阿布扎比, 3215–3229. https://doi.org/10.18653/v1/2022.emnlp-main.211
[75] Bowen Qin, Binyuan Hui, Lihan Wang, Min Yang, Jinyang Li, Binhua Li, Ruiying Geng, Rongyu Cao, Jian Sun, Luo Si, 等. 2022. 文本到 SQL 解析的综述：概念、方法和未来方向. arXiv 预印本 arXiv:2208.13629 (2022).
[76] Nitarshan Rajkumar, Raymond Li, 和 Dzmitry Bahdanau. 2022. 评估大型语言模型的文本到 SQL 能力. arXiv 预印本 arXiv:2204.00498 (2022).
[77] Tonghui Ren, Yuankai Fan, Zhenying He, Ren Huang, Jiaqi Dai, Can Huang, Yinan Jing, Kai Zhang, Yifan Yang, 和 X. Sean Wang. 2024. PURPLE: 使大型语言模型成为更好的 SQL 编写者. arXiv:2403.20014 [cs.DB] https://arxiv.org/abs/2403.20014
[78] Baptiste Roziere, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat, Xiaoqing Ellen Tan, Yossi Adi, Jingyu Liu, Tal Remez, Jérémy Rapin, 等. 2023. Code llama: 开放的基础代码模型. arXiv 预印本 arXiv:2308.12950 (2023).
[79] Ohad Rubin 和 Jonathan Berant. 2020. SmBoP: 半自回归的自底向上语义解析. CoRR abs/2010.12412 (2020). arXiv:2010.12412 https://arxiv.org/abs/2010.12412
[80] Torsten Scholak, Nathan Schucher, 和 Dzmitry Bahdanau. 2021. PICARD: 逐步约束自回归解码的语言模型. arXiv 预印本 arXiv:2109.05093 (2021).
[81] Jaydeep Sen, Chuan Lei, Abdul Quamar, Fatma Ozcan, Vasilis Efthymiou, Ayushi Dalmia, Greg Stager, Ashish Mittal, Diptikalyan Saha, 和 Karthik Sankaranarayanan. 2020. ATHENA++: 用于复杂嵌套 SQL 查询的自然语言查询. Proc. VLDB Endow. 13, 11 (2020), 2747–2759.
[82] SenseTime. 2024. SenseChat. [https://platform.sensenova.cn/#/doc?以下是翻译后的中文文本：
[72] Mohammadreza Pourreza 和 Davood Rafiei. 2024. Din-sql: 带有自我纠正的分解上下文学习文本到 SQL. 神经信息处理系统进展 36 (2024).
[73] Mohammadreza Pourreza 和 Davood Rafiei. 2024. DTS-SQL: 使用小型大型语言模型的分解文本到 SQL. arXiv:2402.01117 [cs.CL] https://arxiv.org/abs/2402.01117
[74] Jiexing Qi, Jingyao Tang, Ziwei He, Xiangpeng Wan, Yu Cheng, Chenghu Zhou, Xinbing Wang, Quanshi Zhang, 和 Zhouhan Lin. 2022. RASAT: 将关系结构集成到预训练的 Seq2Seq 模型中用于文本到 SQL. 在《2022 年自然语言处理经验方法会议论文集》, Yoav Goldberg, Zornitsa Kozareva, 和 Yue Zhang (编辑). 计算语言学协会, 阿联酋阿布扎比, 3215–3229. https://doi.org/10.18653/v1/2022.emnlp-main.211
[75] Bowen Qin, Binyuan Hui, Lihan Wang, Min Yang, Jinyang Li, Binhua Li, Ruiying Geng, Rongyu Cao, Jian Sun, Luo Si, 等. 2022. 文本到 SQL 解析的综述：概念、方法和未来方向. arXiv 预印本 arXiv:2208.13629 (2022).
[76] Nitarshan Rajkumar, Raymond Li, 和 Dzmitry Bahdanau. 2022. 评估大型语言模型的文本到 SQL 能力. arXiv 预印本 arXiv:2204.00498 (2022).
[77] Tonghui Ren, Yuankai Fan, Zhenying He, Ren Huang, Jiaqi Dai, Can Huang, Yinan Jing, Kai Zhang, Yifan Yang, 和 X. Sean Wang. 2024. PURPLE: 使大型语言模型成为更好的 SQL 编写者. arXiv:2403.20014 [cs.DB] https://arxiv.org/abs/2403.20014
[78] Baptiste Roziere, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat, Xiaoqing Ellen Tan, Yossi Adi, Jingyu Liu, Tal Remez, Jérémy Rapin, 等. 2023. Code llama: 开放的基础代码模型. arXiv 预印本 arXiv:2308.12950 (2023).
[79] Ohad Rubin 和 Jonathan Berant. 2020. SmBoP: 半自回归的自底向上语义解析. CoRR abs/2010.12412 (2020). arXiv:2010.12412 https://arxiv.org/abs/2010.12412
[80] Torsten Scholak, Nathan Schucher, 和 Dzmitry Bahdanau. 2021. PICARD: 逐步约束自回归解码的语言模型. arXiv 预印本 arXiv:2109.05093 (2021).
[81] Jaydeep Sen, Chuan Lei, Abdul Quamar, Fatma Ozcan, Vasilis Efthymiou, Ayushi Dalmia, Greg Stager, Ashish Mittal, Diptikalyan Saha, 和 Karthik Sankaranarayanan. 2020. ATHENA++: 用于复杂嵌套 SQL 查询的自然语言查询. Proc. VLDB Endow. 13, 11 (2020), 2747–2759.
[82] SenseTime. 2024. SenseChat. https://platform.sensenova.cn/#/doc?path=/chat/ChatCompletions/ChatCompletions.md

请确认是否需要进一步调整或修改。- [83] Burr Settles. 2009. 主动学习文献综述。 (2009)。

[84] Rishabh Srivastava 和 Wendy Aw. 2023. Defog SQLCoder. https://github.com/defog-ai/sqlcoder

关于使用大型语言模型进行文本到 SQL 任务的综述
会议缩写 'XX, 2018 年 6 月 03–05 日, 美国伍德斯托克

[85] Guanghu Sui, Zhishuai Li, Ziyue Li, Sun Yang, Jingqing Ruan, Hangyu Mao, 和 Rui Zhao. 2023. Reboost 基于大型语言模型的文本到 SQL、文本到 Python 和文本到函数——在交通领域的实际应用。 arXiv 预印本 arXiv:2310.18752 (2023)。
[86] Ruoxi Sun, Sercan O Arik, Hootan Nakhost, Hanjun Dai, Rajarishi Sinha, Pengcheng Yin, 和 Tomas Pfister. 2023. Sql-palm: 改进的大型语言模型适应文本到 SQL。 arXiv 预印本 arXiv:2306.00739 (2023)。
[87] Ilya Sutskever, Oriol Vinyals, 和 Quoc V Le. 2014. 使用神经网络的序列到序列学习。神经信息处理系统进展 27 (2014)。
[88] Chang-Yu Tai, Ziru Chen, Tianshu Zhang, Xiang Deng, 和 Huan Sun. 2023. 探索思维链风格提示用于文本到 SQL。在 2023 年自然语言处理经验方法会议论文集。 5376–5393。
[89] Shayan Talaei, Mohammadreza Pourreza, Yu-Chen Chang, Azalia Mirhoseini, 和 Amin Saberi. 2024. CHESS: 上下文利用以实现高效的 SQL 合成。 arXiv:2405.16755 [cs.LG] https://arxiv.org/abs/2405.16755
[90] Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang, 和 Tatsunori B. Hashimoto. 2023. Stanford Alpaca: 一个指令跟随的 LLaMA 模型。 https://github.com/tatsu-lab/stanford_alpaca.
[91] Dayton G. Thorpe, Andrew J. Duberstein, 和 Ian A. Kinsey. 2024. Dubo-SQL: 多样化的检索增强生成和微调用于文本到 SQL。 arXiv:2404.12560 [cs.CL] https://arxiv.org/abs/2404.12560
[92] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, 等。 2023. Llama 2: 开源基础和微调聊天模型。 arXiv 预印本 arXiv:2307.09288 (2023)。
[93] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, 和 Illia Polosukhin. 2017. 注意力机制就是你所需要的。神经信息处理系统进展 30 (2017)。
[94] Bing Wang, Changyu Ren, Jian Yang, Xinnian Liang, Jiaqi Bai, Qian-Wen Zhang, Zhao Yan, 和 Zhoujun Li. 2023. Mac-sql: 多智能体协作用于文本到 SQL。 arXiv 预印本 arXiv:2312.11242 (2023)。
[95] Lei Wang, Chen Ma, Xueyang Feng, Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhiyuan Chen, Jiakai Tang, Xu Chen, Yankai Lin, 等。 2024. 基于大型语言模型的自主代理综述。计算机科学前沿 18, 6 (2024), 186345。
[96] Lijie Wang, Ao Zhang, Kun Wu, Ke Sun, Zhenghua Li, Hua Wu, Min Zhang, 和 Haifeng Wang. 2020. DuSQL: 一个大规模且实用的中文文本到 SQL 数据集。在 2020 年自然语言处理经验方法会议论文集 (EMNLP)。 6923–6935。
[97] Tianshu Wang, Hongyu Lin, Xianpei Han, Le Sun, Xiaoyang Chen, Hao Wang, 和 Zhenyu Zeng. 2023. DBCopilot: 将自然语言查询扩展到大规模数据库。 arXiv 预印本 arXiv:2312.03463 (2023)。
[98] Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, 和 Denny Zhou. 2022. 自一致性改进语言模型中的思维链推理。 arXiv 预印本 arXiv:2203.11171 (2022)。
[99] Jason Wei, Maarten Bosma, Vincent Y Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M Dai, 和 Quoc V Le. 2021. 微调的语言模型是零样本学习者。 arXiv 预印本 arXiv:2109.01652 (2021)。
[100] Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, 等。 2022. 大型语言模型的新兴能力。 arXiv 预印本 arXiv:2206.07682 (2022)。
[101] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou, 等。 2022. 思维链提示引发大型语言模型中的推理。神经信息处理系统进展 35 (2022), 24824–24837。
[102] Lixia Wu, Peng Li, Junhong Lou, 和 Lei Fu. 2024. DataGpt-SQL-7B: 一个开源的文本到 SQL 语言模型。 arXiv:2409.15985 [cs.AI] https://arxiv.org/abs/2409.15985
[103] Hanchen Xia, Feng Jiang, Naihao Deng, Cunxiang Wang, Guojiang Zhao, Rada Mihalcea, 和 Yue Zhang. 2024. 3 : “这是我的 SQL，你跟我一起吗？”

请确认是否需要进一步调整或修改。- [102] 基于共识的多智能体系统用于文本到 SQL 任务。 arXiv:2402.14851 [cs.CL] https://arxiv.org/abs/2402.14851

[103] 薛元真, 金新洲, 谢涛, 林明雄, 陈亮, 余晨云, 程磊, Zhuo ChengXiang, 胡波, 和李藏。 2024. 通过工作流范式分解以增强注意力：改进基于大语言模型的文本到 SQL。 arXiv:2402.10671 [cs.CL] https://arxiv.org/abs/2402.10671
[104] 徐灿, 孙庆峰, 郑凯, 耿秀波, 赵普, 冯家展, 陶崇洋, 和蒋达信。 2023. WizardLM：使大型语言模型能够遵循复杂指令。 arXiv 预印本 arXiv:2304.12244 (2023)。
[105] 徐小军, 刘畅, 和 Dawn Song。 2017. SQLNet：无需强化学习从自然语言生成结构化查询。 arXiv 预印本 arXiv:1711.04436 (2017)。
[106] 薛思乔, 江才高, 施文辉, 程方银, 陈克庭, 杨宏军, 张志平, 何建山, 张洪阳, 魏刚林, 等。 2023. DB-GPT：使用私有大型语言模型赋能数据库交互。 arXiv 预印本 arXiv:2312.17449 (2023)。
[107] 姚顺宇, 俞迪, Jeffrey Zhao, Izhak Shafran, Tom Griffiths, Cao Yuan, 和 Karthik Narasimhan。 2024. 思维树：大型语言模型中的深思熟虑问题解决。神经信息处理系统进展 36 (2024)。
[108] 姚顺宇, Jeffrey Zhao, 俞迪, 杜楠, Izhak Shafran, Karthik Narasimhan, 和 Cao Yuan。 2022. REACT：在语言模型中协同推理和行动。 arXiv 预印本 arXiv:2210.03629 (2022)。
[109] 俞涛, 张睿, Er He Yang, 李素仪, Eric Xue, 庞博, Lin Xi Victoria, Tan Yi Chern, Shi Tianze, Li Zihan, 等。 2019. CoSQL：面向跨领域自然语言接口的对话文本到 SQL 挑战。 arXiv 预印本 arXiv:1909.05378 (2019)。
[110] 俞涛, 张睿, 杨凯, Yasunaga Michihiro, Wang Dongxu, Li Zifan, Ma James, Li Irene, Yao Qingning, Roman Shanelle, 等。 2018. Spider：大规模人工标注的数据集，用于复杂的跨领域语义解析和文本到 SQL 任务。 arXiv 预印本 arXiv:1809.08887 (2018)。

会议缩写 'XX, 2018 年 6 月 3 日至 5 日, Woodstock, NY Shi 和 Tang, 等。

[111] 俞涛, 张睿, Yasunaga Michihiro, Tan Yi Chern, Lin Xi Victoria, Li Suyi, Er Heyang, Li Irene, Pang Bo, Chen Tao, 等。 2019. SPARC：上下文中的跨领域语义解析。 arXiv 预印本 arXiv:1906.02285 (2019)。
[112] John M Zelle 和 Raymond J Mooney。 1996. 使用归纳逻辑编程学习解析数据库查询。在全国人工智能会议论文集。 1050–1055。
[113] 张超, 毛跃然, 范一江, 米宇, 高云俊, 陈路, 楼东芳, 和林晋书。 2024. FinSQL：基于模型无关的大语言模型的金融分析文本到 SQL 框架。 arXiv:2401.10506 [cs.CL] https://arxiv.org/abs/2401.10506
[114] 张航冲, 曹瑞生, 陈路, 徐宏申, 和于凯。 2023. ACT-SQL：自动生成思维链的文本到 SQL 的上下文学习。 arXiv 预印本 arXiv:2310.17342 (2023)。
[115] 张航冲, 曹瑞生, 徐宏申, 陈路, 和于凯。 2024. CoE-SQL：基于编辑链的多轮文本到 SQL 的上下文学习。 arXiv:2405.02712 [cs.CL] https://arxiv.org/abs/2405.02712
[116] 张庆刚, 董俊南, 陈浩, 李文涛, 黄飞然, 和黄晓。 2024. 结构引导的大语言模型用于 SQL 生成。 arXiv:2402.13284 [cs.DB] https://arxiv.org/abs/2402.13284
[117] 张廷凯, 陈朝宇, 廖聪, 王君, 赵旭东, 于航, 王建超, 李建国, 和施文辉。 2024. SQLfuse：通过全面的 LLM 协同提升文本到 SQL 性能。 arXiv:2407.14568 [cs.CL] https://arxiv.org/abs/2407.14568
[118] 张毅, Jan Deriu, George Katsogiannis-Meimarakis, Catherine Kosten, Georgia Koutrika, 和 Kurt Stockinger。 2023. ScienceBenchmark：评估自然语言到 SQL 系统的复杂现实世界基准。 arXiv:2306.04743 [cs.DB] https://arxiv.org/abs/2306.04743
[119] 赵欣, 周坤, 李俊毅, 唐天一, 王晓乐, 侯玉鹏, 闵英倩, 张贝辰, 张俊杰, 董子灿, 等。 2023. 大型语言模型综述。 arXiv 预印本 arXiv:2303.18223 (2023)。
[120] 郑连敏, Chiang Wei-Lin, 盛颖, 庄思远, 吴张豪, 庄永豪, 林子, 李卓翰, 李大成, Eric. P Xing, 张浩, Joseph E. Gonzalez, 和 Ion Stoica。 2023. 使用 MT-Bench 和 Chatbot Arena 评估作为法官的 LLM。 arXiv:2306.05685 [cs.CL]
[121] 钟瑞琪, 俞涛, 和 Dan Klein。 2020. 使用蒸馏测试套件进行文本到 SQL 的语义评估。 arXiv 预印本 arXiv:2010.02840 (2020)。
[122] Victor Zhong, Caiming Xiong, 和 Richard Socher。 2017. Seq2SQL：使用强化学习从自然语言生成结构化查询。 arXiv 预印本 arXiv:1709.00103 (2017)。
[123] Victor Zhong, Caiming Xiong, 和 Richard Socher。 2017. Seq2SQL：使用强化学习从自然语言生成结构化查询。 arXiv 预印本 arXiv:1709.00103 (2017)。
[124] Denny Zhou, Nathanael Schärli, 侯乐, Jason Wei, Nathan Scales, Wang Xuezhi, Dale Schuurmans, Claire Cui, Olivier Bousquet, Quoc Le, 等。 2022. 最少到最多提示使大型语言模型能够进行复杂推理。 arXiv 预印本 arXiv:2205.10625 (2022)。

请确认是否需要进一步调整或修改。

参考 Paper:https://arxiv.org/pdf/2407.15186

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

UFW防火墙安全指南

UFW（Uncomplicated Firewall）是Ubuntu/Debian系统中简化防火墙管理的工具，通过直观命令帮助用户有效控制网络流量，提升系统安全性。文章详细介绍了UFW的基本命令，包括启停防火墙、添加规则、限制连接速率和日志配置等操作，并提供了安全最佳实践，如默认拒绝策略、IP地址限制和服务级规则管理。同时，还涵盖高级配置技巧，例如多网络接口设置、规则优先级调整、IPv6支持及与f