今天要跟大家聊的内容是什么呢?是昨天就已经说过的:提示词工程在RAG技术中的应用,以及怎么用RAG发挥出LLM(语义大模型)!

RAG基础概念篇

什么是RAG?

概念:RAG是检索增强生成(Retrieval Augmented Generation)的简称,是当前最火热的企业级LLM应用方案。

RAG的优势都有哪些?

AI大语言模型技术的本质,导致了大模型输出结果具有不可预测性。此外,静态的训练数据,导致了部分大模型掌握的知识是有截止日期的,无法实时掌握最新的信息。因此,当我们把AI大模型用到实际的应用场景里面时就会发现,通用的AI基础大模型根本无法满足我们的需求,主要有以下几点原因。

知识局限性:大模型本身的知识完全源于它的训练数据,而现有的主流大模型,如:ChatGPT、文小言、通义千问、Kimi的训练数据基本都是抓取互联网上公开的数据,而对于一些非公开、离线的数据是无法获取。

幻觉问题:AI大模型的底层原理是基于数学概率的文字预测,即文字接龙。因此AI大模型基本都存在着幻觉问题,会在自己不知道答案的情况下提供虚假信息或过时的信息。

数据安全性:对于企业来说,数据安全至关重要,没有企业愿意承担数据泄露的风险,将自身的业务数据上传至第三方平台进行训练。因此AI大模型如何在企业内部落地,又能保障企业内部数据安全是一个重要问题。

而RAG,则是解决上述问题的一套有效方案,它可以让AI大模型从权威的、预先确定的知识来源中检索和组织相关信息,能更好地控制AI大模型输出的内容,并且用户也可以深入了解LLM如何生成最终的结果。

并且,RAG解决方案可以与微调结合使用,两者之间并不存在冲突关系。

RAG类似于为AI大模型提供了一本教科书,允许它基于特定查询检索信息,这个方法适用于模型需要回答特定的询问或特定的检索任务;但RAG并不适合用来教模型来理解广泛的领域或学习新的语言、格式或样式。

微调,类似于让学生通过广泛的学习内化知识,这种方法在大模型遇到输出有特定的结构、样式或格式时的内容非常有用。

微调可以提高非微调模型的性能,特别适合强调模型中现有知识、修改或自定义模型的输出,并能够理解复杂的指令,输出符合你要求的内容。然而,微调并不适合合并模型中的新知识,或对新用例的快速迭代,以下为两者的比较图。

RAG主要组成是什么?

RAG概括起来,就是知识检索+内容生成。不好理解的话,可以将它的工作原理比喻成开卷考试。那既然是开卷考试,那么谁带的书和资料更全,谁的翻书速度更快更准,那谁的开卷考试结果就更好。

接下来看看RAG的主要组成,依次是:数据提取—>向量化(embedding)—>创建索引—>检索—>自动排序(Rerank)—>LLM归纳生成,这里少了使用环节,可以暂时先忽略。

在开卷考试的时候,大家的参考资料都差不多,如何在有限的考试时间里面,又快又准地在书上锁定相关的内容更为重要。RAG做的好不好也是这样,核心就是看能不能将聂荣检索得又快又准,如果抄错了书上(知识库)里面的内容,那AI给出的答案也将南辕北辙。

提示词工程在RAG中的作用

我们从下面SCRIV.AI提出的ChatBot解决方案作为示例,先介绍RAG架构的工作步骤,然后说明提示词工程在RAG中的作用。

知识库嵌入阶段

为知识库创建索引:从知识库中加载内容,并将知识库分割成适合嵌入搜索的片段。这个步骤包括了将知识库的内容转换为一个个文档,并进一步划分为更小的信息块。

使用嵌入来转换知识片段:分割后的知识片段通过嵌入机(embeddingmachine)转换成数字向量,这些嵌入向量代表了文本的语义内容。

储存嵌入向量到向量数据库:将这些嵌入向量与其对应的文本片段一起保存在一个专用的向量数据库中,为之后的检索步骤做准备。

检索&生成内容阶段

根据用户问题获取相关信息:在用户提出问题时,将这个问题也转换成嵌入向量,并在向量数据库中查找最接近的、与问题最相关的知识片段。

整合检系到的信息:将检索到的相关知识片段整合在一起,准备用于下一步的生成过程。

为LLM提供特定的知识来源:以特定的格式向大型语言模型(LLM)提供这些整合后的知识片段,作为生成回答的基础。

使用system prompt为LLM提供自定义指令:通过system prompt向LLM提供指令,指导其如何利用提供的知识片段来生成回答。

LLM生成回答并输出答案:LLM利用提供的知识片段和指令生成针对用户问题的回答。最后,系统输出LLM生成的、基于检索增强的答案。

在这个工作流程中可以看到,作为到模型推理的前一阶段,提示词工程肩负了整合搜索到的知识片段、驱动模型与用户交互、封装业务逻辑等既面向业务又面向技术的中间件功能。

提示词工程帮助RAG架构解决什么问题?

在RAG的具体应用中,它面临着下图中的12个痛点,提示词工程除了能够解决图中标红的四个痛点:缺失内容、格式错误、缺乏细节、回答不够全面之外。

我还发现了可以使用提示词工程解决更多如:回复控制、细节补充、指代消解等系列问题,通过提示词工程帮助RAG解决以下这些问题,我们可以更好地通过指令驱动模型输出内容,在最后两天的内容中,我会介绍如何解决部分痛点。

如何系统的去学习大模型LLM ?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

事实上,抢你饭碗的不是AI,而是会利用AI的人。

科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?

与其焦虑……

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。

基于此,我用做产品的心态来打磨这份大模型教程,深挖痛点并持续修改了近70次后,终于把整个AI大模型的学习门槛,降到了最低!

在这个版本当中:

第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言

您只需要听我讲,跟着我做即可,为了让学习的道路变得更简单,这份大模型教程已经给大家整理并打包,现在将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)

在这里插入图片描述

五、AI产品经理大模型教程

在这里插入图片描述

LLM大模型学习路线

阶段1:AI大模型时代的基础理解

  • 目标:了解AI大模型的基本概念、发展历程和核心原理。

  • 内容

    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
    • L1.4.1 知识大模型
    • L1.4.2 生产大模型
    • L1.4.3 模型工程方法论
    • L1.4.4 模型工程实践
    • L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。

  • 内容

    • L2.1 API接口
    • L2.1.1 OpenAI API接口
    • L2.1.2 Python接口接入
    • L2.1.3 BOT工具类框架
    • L2.1.4 代码示例
    • L2.2 Prompt框架
    • L2.3 流水线工程
    • L2.4 总结与展望

阶段3:AI大模型应用架构实践

  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。

  • 内容

    • L3.1 Agent模型框架
    • L3.2 MetaGPT
    • L3.3 ChatGLM
    • L3.4 LLAMA
    • L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。

  • 内容

    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐