一文彻底搞懂大模型实战 - 文本到SQL（Text2SQL）

Text2SQL技术，即将自然语言查询转换为结构化查询语言（SQL）的技术，正在迅速成为数据库查询的一个关键工具。它使得非技术用户能够通过自然语言与数据库进行交互，极大地提高了数据库操作的便捷性和效率。接下来分两部分：主流数据集、主流实战方法（SQLCoder+DB-GPT-Hub），一起来深入了解大模型实战：Text2SQL。什么是Text2SQL数据集？Text2SQL数据集是指一类专门用于训

大模型玩家

6064人浏览 · 2025-01-22 07:30:00

大模型玩家 · 2025-01-22 07:30:00 发布

Text2SQL技术 ，即将自然语言查询转换为结构化查询语言（SQL）的技术，正在迅速成为数据库查询的一个关键工具。它使得非技术用户能够通过自然语言与数据库进行交互，极大地提高了数据库操作的便捷性和效率。

接下来分两部分：主流数据集、主流实战方法（SQLCoder + DB-GPT-Hub），一起来深入了解大模型实战：Text2SQL。

一、主流数据集

什么是Text2SQL数据集？ Text2SQL数据集是指一类 专门用于训练Text2SQL （文本到SQL）模型的数据集合。

Text2SQL数据集通常包含大量的自然语言查询（如问题或指令）和对应的SQL查询语句。这些对构成了模型学习的基础，使模型能够学会将自然语言查询转换为SQL查询。

Text2SQL数据集有哪些？ Spider、WikiSQL和CHASE等主流Text2SQL数据集提供自然语言查询与SQL查询对应数据 ，训练和评估模型将自然语言转换为SQL查询的能力。

Spider：这是一个跨域的复杂Text2SQL数据集，包含了大量的自然语言问句和对应的SQL查询语句。它旨在测试模型在复杂的、未见过的SQL查询上的性能以及其在新领域的泛化能力。
WikiSQL：这是一个大型的语义解析数据集，由大量的自然语句表述和对应的SQL标注构成。它主要用于训练模型学习如何将简单的自然语言查询转换为SQL查询。
CHASE：一个跨领域多轮交互Text2SQL中文数据集，包含多个多轮问题组成的列表，以及大量的**<query, SQL>二元组**，涉及不同领域的数据库。

二、主流实战方法

基于大语言模型的Text2SQL主流实战方法是什么？主要包括两种：（1）基于Text2SQL模型结合业务进行微调；（2）基于开箱即用的Text2SQL Agent结合业务整合到应用。

一、基于SQLCoder模型，结合业务进行微调

第一步：微调前准备（下载模型和数据集）

下载模型：llama3-sqlcoder-8b 是一种适用于 PostgreSQL、 Snowflake （基于云的数据仓库平台）的文本到 SQL 生成的强大的语言模型，可与最强大的通用前沿模型相媲美。

下载数据集： WikiSQL 是一个基于维基百科的语义解析数据集，主要用于自然语言查询到SQL查询的转换任务。它包含了超过 8万个（问题，SQL）对 ，即80,645条自然语言问句及相应的SQL语句，以及 24,241张表 。

第二步：模型微调（收集业务数据、选择微调策略、训练模型、评估模型）

微调数据集： 根据业务需求和数据库架构，收集相关的自然语言查询和对应的SQL语句作为训练数据。
选择微调策略： 根据业务需求和数据集的特点，选择合适的微调策略，如基于特定数据库模式的微调、针对复杂查询的微调等。
训练模型： 使用微调数据集对SQLCoder模型进行训练，调整模型的参数以优化其在特定业务场景下的性能。
评估模型： 在训练过程中，定期评估模型的性能，如准确率、召回率等，以确保微调的有效性。

第三步：模型部署与推理

Enter special instructions（输入特殊说明）： 明确特殊说明的内容，这可能涉及对某项任务的具体要求、注意事项、优先级调整或其他任何有助于任务执行或结果理解的额外信息。 例如：异常处理
Enter the database schema（输入数据库模式）： 数据库模式（也称为数据库结构或数据库架构）定义了 数据库中表、列、关系和其他数据库对象的组织方式 。

二、基于开箱即用的DB-GPT-Hub，结合业务整合到应用

DB-GPT是一个开源的AI原生数据应用开发框架(AI Native Data App Development framework with AWEL(Agentic Workflow Expression Language) and Agents)。

目的是构建大模型领域的基础设施，通过开发多模型管理(SMMF)、 Text2SQL 效果优化、 RAG框架 以及优化、 Multi-Agents框架协作 、 AWEL(智能体工作流编排) 等多种技术能力，让围绕数据库构建大模型应用更简单，更方便。

**
**

DB-GPT-Hub是一个利用LLMs实现Text-to-SQL解析的实验项目**，主要包含数据集收集、数据预处理、模型选择与构建和微调权重等步骤，通过这一系列的处理可以在提高Text-to-SQL能力的同时降低模型训练成本，让更多的开发者参与到Text-to-SQL的准确度提升工作当中，最终实现基于数据库的自动问答能力，让用户可以通过自然语言描述完成复杂数据库的查询操作等工作。**

目前DB-GPT-Hub已经基于多个大模型打通从数据处理、模型SFT训练、预测输出和评估的整个流程， 代码在项目中均 可以直接复用 。 – 开箱即用，架构师带你玩转AI

零基础如何学习AI大模型

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
④AI+制造：智能制造和自动化工厂提高了生产效率和质量。通过AI技术，工厂可以实现设备预测性维护，减少停机时间。
…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。

学习资料领取

如果你对大模型感兴趣，可以看看我整合并且整理成了一份AI大模型资料包，需要的小伙伴文末免费领取哦，无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

部分资料展示

一、 AI大模型学习路线图

整个学习分为7个阶段
在这里插入图片描述
请添加图片描述

二、AI大模型实战案例

涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，皆可用。
在这里插入图片描述

在这里插入图片描述

三、视频和书籍PDF合集

从入门到进阶这里都有，跟着老师学习事半功倍。
在这里插入图片描述

在这里插入图片描述

四、LLM面试题

在这里插入图片描述

五、AI产品经理面试题

在这里插入图片描述

😝朋友们如果有需要的话，可以V扫描下方二维码联系领取~
在这里插入图片描述

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]👈

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【信创-k8s】海光/兆芯+银河麒麟V10离线部署k8s1.31.8+kubesphere4.1.3

介于V4优秀的LuBan架构，核心组件非常少，资源占用也显著降低，同时带来众多功能和便利性。：使用海光3350/兆芯开先KX-5000芯片，麒麟V10 SP3操作系统，以及Containerd 1.7.13、Kubernetes v1.31.8、KubeSphere v4.1.3等软件版本。原创编写，详细记录了从环境准备到平台验证的完整流程，为信创环境下的Kubernetes与KubeSphere

2048 AI社区

从狂热到深耕：一个AI从业者的智能体创业心路历程

2048 AI社区

UFW防火墙安全指南

UFW（Uncomplicated Firewall）是Ubuntu/Debian系统中简化防火墙管理的工具，通过直观命令帮助用户有效控制网络流量，提升系统安全性。文章详细介绍了UFW的基本命令，包括启停防火墙、添加规则、限制连接速率和日志配置等操作，并提供了安全最佳实践，如默认拒绝策略、IP地址限制和服务级规则管理。同时，还涵盖高级配置技巧，例如多网络接口设置、规则优先级调整、IPv6支持及与f