【效果翻倍！AnythingLLM本地知识库你用的还好吗？】部署后必看！（三）调用本地模型问答的黄金技巧

Python老猿

1602人浏览 · 2025-02-12 16:00:00

Python老猿 · 2025-02-12 16:00:00 发布

效果翻倍，告别“幻觉”和“睁眼瞎”的秘密在于：真正实现RAG管道中从足够多的片段中检索到最为相关的TopK个片段，口令是：①调小Chunk Size；②调大TopK检索召回片段数；③不要点Pin。

终于，DeepSeekAPI网站恢复了，作者一大早发现了便火速充值了，然后，不知道从什么时间起，就又暂停充值服务了：

当前服务器资源紧张，为避免对您造成业务影响，我们已暂停 API 服务充值。存量充值金额可继续调用，敬请谅解！

本文，将继续分享通过 【场景重现】-【参数调整】-【结果对比分析】-【查找关联原理及流程】-【得出初步结论】的若干折腾后，发现了两个“黄金法则”。

背景：测试知识文档简介

使用一份经典而又古老的**“IE工业工程-第六章-动作分析”课件**，涉及了9个问题，进行不同配置环境下的问答对比。

文档核心内容： 聚焦动作分析方法论，阐述其定义与目的，介绍具体分析方法，讲解动作经济原则，说明改善应用及影像分析手段，助力提升效率、减轻疲劳。

文档元信息：

“title”: “06第六章-动作分析.pdf”
“word Count”: 982,
“token_count_estimate”: 13211 tokens

对比测试问题设计

Q1: 什么是动作分析，通常把基本的“动作”归纳为了哪几类？
Q2: 什么是动素，吉尔布雷斯将动素总结为多少种，通常将动素分为哪几类，分别包含什么？
Q3: 以“将电阻元件插入电路板”为例，列出对其实施进行动素分析的步骤。
Q4: 以“案例：钻孔作业”为例，总结动素分析的关键分析要点。
Q5: 什么是“动作经济原则”
Q6：什么是“生产三要素”，什么是“动作三要素”。
Q7: 请解释“动作经济的四条基本原则"
Q8: 有哪些具体的方法来基于“动作经济原则”来做动作改善，请总结。
Q9: 经过动作改善改良后的装配螺栓与垫圈的方法是什么，改善效果如何？

黄金法则

AnythingLLM在调用不同的模型处理相对较小知识文档（如课件pdf、SOP文档、故障处理指引文件等）时：

法则1：调用DeepSeekR1 API（即满血版）时，只要点Pin，且全文不超过DeepSeek的上下文窗口大小128K Tokens，那么，AnythingLLM 基本可以完美解答各种“局部问答”和“宏观总结”。
法则2：调用DeepSeekR1 7b或14b 本地版模型时，①调小Chunk Size；②调大TopK检索召回片段数；③不要点Pin.，基本也可以很满意的回答各种“局部问答”和部分“宏观总结”，极大的降低了“幻觉”和“睁眼瞎”现象。

具体有效参数值在本文最后。

关键机理剖析

造成这种差异可能的核心原因是：不同参数量级的模型对不同长度文档语义解析的能力差异较大。

1. Pin的含义：将文档全文片段嵌入到上下文中（即不论如何chunk，都将把所有向量返回，视作“一个整体”）

具体可以通过下面两个信息进一步判断：

一个是AnythingLLM 初始化时，提示的document pinning 介绍；
另一个是，在问答对话中，pin后的 citiations 永远是“一个片段”。

感兴趣的你可以试验并对比“pin”的差异。

2. Chunk Size 与向量数Vector Count

向量数与文本分切大小的关系基本可以这样计算：

比如，一个文档 13211 tokens，设定chunk size=1000，chunk overlap=20，那么 vectors=14，即文档共14个片段。

Note

如果文档的“知识密度较高”——如课件类、SOP类等，可能每个小段落都是“知识点”，那么需要将chunk size 调的足够的小，比如200 tokens+20 tokens overlap。

如果文档“知识密度稀疏”，长篇大论其实就一个核心意思，且文档足够长，如某些电子书片段，那么可以适当将chunk size 调大，但要有足够强能力的模型来解析，比如满血版DeepSeekR1，或豆包、Kimi、智谱清言等。

所以：

Tip

通俗点讲：

需要将约50-70个汉字（200tokens）就总结为一个片段，那么chunk size 就设置为200 tokens；
需要将约250-350个汉字(1000tokens)就总结为一个片段，那么chunk size 就设置为1000 tokens；

在本对比测试中，有效的参数设定是：

Important

调用满血DeepSeek R1 API：**pin+ 全程默认：**chunk size=1000，chunk overlap=20，vectors=14。

调用本地DeepSeek R1-7b/14b : 取消pin, 且chunk size=200，chunk overlap=20，vectors=73。

3. TopK检索召回片段数

在pin后，只要文档总的tokens <128K , 理论上，满血版的DeepSeek R1 都可以解析的足够好！所以，是否调整TopK值，影响不大。（同等效果的还有非本地版的 豆包、Kimi、智谱清言等满血大模型）
在 pin后，哪怕本文测试用的文档 tokens 仅有13K，本地版DeepSeek R1 7B/14B 也解析的很不好。（尽管按上一篇所述方法在models查到的context值也是128K）
在①unpin后，且②当按照小颗粒度（chunk size=200，chunk overlap=20）分切得到73个向量后，③进一步将TopK（最大返回上下文片段数）从默认的4 调整为8后，回答效果立刻改善。

详细见下一段粘贴的回答对比。

关键回答片段对比

Q: 什么是“生产三要素”，什么是“动作三要素”。

差的回答	完美的回答(指按“黄金法则”调整后)
根据您提供的文档内容，文档主要讨论了动作分析、作业现场布置、夹具设计以及工具轻巧化等优化方法，但并未直接提到“生产三要素”或“动作三要素”。因此，无法从您提供的上下文中找到这两个概念的具体定义。	“生产三要素”指的是在生产过程中的关键因素，包括人、机器和物料。它们共同作用，是生产活动的基础。“动作三要素”则是指在动作分析中关注的三个方面：双手操作（如伸手、抓取等）、眼睛观察（如定位目标）以及整个身体的协调配合。这三个部分共同构成了一个完整的动作。

| <==左边的你简直是搞笑，“一本正经的胡说八道” |

Q 请检索上传的知识文档，重新解释“动作经济的四条基本原则"

差的回答	完美的回答(指按“黄金法则”调整后)

难度全文总结题：总结这篇文档的关键方法论要点

满血API的回答	本地版完美的回答(指按“黄金法则”调整后)

总结与收货

近期，由于DeepSeek R1的火爆，无论是网页版，app，还是API，经常会服务器繁忙，空转拒答。

之前总结的残酷真相是：

**在离开“DeepSeek R1 API"**的加持后，那些本地部署的模型在AnythingLLM里的表现，就是个“渣渣”。取得卓有成效的实战效果强依赖于LLM的理解-检索-推理-生成等底座能力

今日经过对RAG原理的深刻学习了理解，终于迎来了用好本地版的黄金法则，

这为进一步其他场景的有效探索，和完全本地化的、安全的、无隐私顾虑的使用“纯纯本地知识库”打下了坚实的基础！

Tip

AnythingLLM 使用环境重置：清空下面文件夹：

C:\Users\users\AppData\Roaming\anythingllm-desktop

AnythingLLM你用的还爽吗？还遇到其他什么问题呢？你有更好的本地知识库方案吗？

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
- L3.2 MetaGPT
- L3.3 ChatGLM
- L3.4 LLAMA
- L3.5 其他大模型介绍

阶段4：AI大模型私有化部署

目标：掌握多种AI大模型的私有化部署，包括多模态和特定领域模型。
内容：
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

UFW防火墙安全指南

UFW（Uncomplicated Firewall）是Ubuntu/Debian系统中简化防火墙管理的工具，通过直观命令帮助用户有效控制网络流量，提升系统安全性。文章详细介绍了UFW的基本命令，包括启停防火墙、添加规则、限制连接速率和日志配置等操作，并提供了安全最佳实践，如默认拒绝策略、IP地址限制和服务级规则管理。同时，还涵盖高级配置技巧，例如多网络接口设置、规则优先级调整、IPv6支持及与f