LLM的擅长与不擅长：深入剖析大语言模型的能力边界

大语言模型（LLMs）如 GPT-4、BERT 和 T5 等，凭借其基于 Transformer 架构和大规模文本数据训练的特性，在自然语言处理领域引发了革命性的变革。它们展现出了在诸多语言相关任务上的卓越能力，但同时也面临着一些显著的局限性。今天我们聊一下LLMs的能力边界，以期为大家提供一个全面而清晰的认识。

小马不会过河

2205人浏览 · 2024-11-16 10:45:00

小马不会过河 · 2024-11-16 10:45:00 发布

一、LLM的工作机制

LLM的核心是基于Transformer架构，通过大量文本数据的训练来预测序列中的下一个词。其工作原理主要包括以下几个步骤：

Tokenization与Embedding

LLM首先将输入文本拆分成更小的单元，通常是单词或子单词（subwords），这些单元被称为tokens。然后，这些tokens被转换成数值表示，即embeddings。例如，句子“The cat sat on the mat”可能被拆分成[“The”, “cat”, “sat”, “on”, “the”, “mat”]，每个token都会被赋予一个唯一的向量表示。
多层处理

嵌入后的tokens通过多个Transformer层进行处理，每个层都包含自注意力机制和前馈神经网络。

自注意力机制：模型计算所有token对之间的注意力分数，从而能够权衡不同单词之间的相对重要性。例如，在句子“The bank by the river is closed”中，模型可能会给“bank”和“river”之间分配更高的注意力分数，以理解上下文。
前馈神经网络：进一步处理来自自注意力机制的信息，以生成每个token的更新表示。

上下文理解

随着输入通过这些层，模型构建出越来越复杂的文本表示，捕捉局部和全局上下文。这使得LLM能够理解微妙的关系，如长距离依赖（例如，理解“他昨天买的书今天到了”中的时间顺序）

二、LLMs 擅长之处

（一）文本生成

创作多样化内容

LLMs 能够生成各种类型的文本，包括故事、文章、诗歌、对话等。例如，在创作故事时，它可以根据给定的主题或开头，构建出情节丰富、逻辑连贯的故事内容。用户提供 “在一个神秘的森林里” 这样的开头，模型能接着生成后续的情节，描述森林中的景象、可能出现的角色以及他们之间的互动等。
在诗歌创作方面，它可以模仿不同的诗歌风格，如古典诗歌的韵律和现代诗歌的自由表达形式，创作出富有意境的诗句。

语言流畅性

生成的文本在语法和词汇的使用上通常较为流畅自然。模型经过大量文本数据的训练，能够学习到自然语言的语法规则和常用词汇搭配，从而生成符合语言习惯的句子。例如，在生成一篇新闻报道时，能够正确使用各种句式结构，使文章读起来通顺易懂。

（二）语言理解与翻译

语义理解

可以理解文本中的语义关系，包括词汇语义、句子语义和篇章语义。在阅读理解任务中，能够准确回答关于文章内容的问题，如主旨大意、细节信息等。例如，对于一篇关于科学研究的文章，它能理解研究的目的、方法、结果和结论等关键信息，并回答相关问题。
能够识别语义相似性和差异性，如判断 “快乐” 和 “愉悦” 是相似的概念，“苹果” 和 “香蕉” 是不同类型的水果等。

语言翻译

在多种语言之间进行翻译时表现出色。能够将一种语言的文本准确地翻译成另一种语言，并且在翻译过程中尽量保留原文的语义和风格。例如，将英语句子 “Hello, how are you?” 翻译成中文 “你好，你怎么样？”，同时还能处理一些复杂的句子结构和文化背景相关的内容。

（三）模式识别与知识学习

语法和句法学习

从大量文本中学习到语法和句法规则，能够正确判断句子的结构是否合理，对语法错误进行纠正。例如，对于 “我去商店在昨天” 这样语法错误的句子，能指出错误并给出正确的表达方式 “我昨天去了商店”。

识别语义关系

善于识别相关概念之间的连接，如理解 “医生” 和 “医院”、“学生” 和 “学校” 之间的关联关系。在处理文本时，能够根据这些语义关系更好地理解上下文。
学习常见短语和习语，能够准确理解和使用它们。例如，理解 “一石二鸟”“趁热打铁” 等习语的含义，并在合适的语境中运用。

（四）多领域应用潜力

辅助信息获取

在信息检索和问答系统中，能够快速处理用户的问题，提供相关的信息和可能的答案。例如，用户询问 “太阳系有哪些行星？”，模型可以迅速从其学习到的知识中提取出相关信息进行回答。

内容创作辅助

为写作者提供创意启发、内容扩展和语言润色等帮助。比如，写作者在撰写一篇关于历史事件的文章时，可向模型询问该事件的一些细节或不同的观点，以丰富文章内容。

三、LLMs 不擅长之处

（一）推理和规划能力

因果理解缺失

在因果推理方面表现薄弱，难以理解事件和行动之间的因果关系。例如，当面对 “因为下雨，地面湿了” 这样的情境时，可能无法推断出 “如果不下雨，地面就不会湿” 这样的反事实情况。在实际应用中，如在医疗诊断场景中，若模型仅根据症状与疾病的关联模式进行判断，而不理解因果关系，可能会导致误诊。
对于复杂的因果链，如多个因素相互作用导致的结果，LLMs 往往难以准确把握。例如，在分析生态系统中多种生物相互影响导致生态平衡变化的情况时，模型很难理清其中的因果逻辑。

多步规划困难

在处理需要多步规划的任务时，难以将复杂任务分解为合理的行动序列。以旅行规划为例，虽然能列出一些相关的项目如预订酒店、购买机票、安排景点游览等，但缺乏对任务步骤的合理排序和依赖关系的理解。可能会出现先安排景点游览，再预订酒店的不合理情况，导致旅行安排出现问题。
在项目管理等领域，无法像人类一样根据项目目标、资源和时间限制等因素制定详细且合理的计划，缺乏对整体任务结构和进程的有效规划能力。

（二）数值处理与计算

数值表示与计算错误

由于其特殊的 tokenization 过程，对数值的处理存在问题。如对数字的 tokenization 方式不一致，导致难以准确理解数值大小和进行数值比较。例如，在比较 “9.9” 和 “9.11” 时，可能会因为错误的 tokenization 和将其视为字符串比较而得出错误的结果。
在进行算术运算时，尤其是涉及较大数字或小数运算时容易出错。如计算 “127 + 677” 可能得出错误答案，对于复杂的数学公式计算更是力不从心。

缺乏数值概念理解

不具备真正的数值概念，只是基于文本中的模式进行处理。在处理涉及数量、比例等问题时，无法像人类一样进行准确的分析和判断。例如，在分析经济数据中的增长率、占比等问题时，模型的回答可能缺乏准确性和深度。

（三）事实准确性与一致性

幻觉问题

容易产生幻觉，生成与事实不符或无意义的信息。在生成文本时，可能会编造不存在的事件、人物或数据。例如，在描述历史事件时，可能会添加一些虚构的情节或细节，误导用户对历史的理解。
在回答问题时，可能会给出没有依据的答案，尤其是在面对一些超出其训练知识范围的问题时，更容易出现这种情况。

上下文一致性维护困难

在处理长文本或多轮对话时，难以保持上下文的一致性。在长故事创作中，可能会出现人物姓名或关键信息前后矛盾的情况。如前面提到主角叫 “张三”，后面却突然变成 “李四”，而没有合理的解释。
在多轮对话中，可能会忘记之前提到的关键信息，导致对话逻辑混乱。例如，在讨论一个产品的购买决策时，前面提到了预算限制，后面却推荐超出预算的产品。

（四）偏见与缺乏理解深度

数据偏见延续

由于训练数据中存在的偏见，LLMs 在生成内容时可能会延续这些偏见。例如，在涉及性别、种族等问题时，可能会生成带有刻板印象的内容，如认为某些职业更适合特定性别等，从而传播不公平的观念。

缺乏深度理解

尽管能够生成看似合理的文本，但实际上并不真正理解文本背后的含义和概念。只是基于文本中的统计模式进行组合和生成，缺乏对知识的深度理解和逻辑推理能力。在处理一些需要深入理解概念和原理的任务时，如科学研究中的理论解释、哲学思考等，模型的回答往往显得肤浅和不准确。

（五）特定领域专业知识应用

专业知识准确性有限

在一些高度专业化的领域，如医学、法律等，虽然能提供一些一般性的信息，但在涉及具体的专业知识和复杂案例时，其准确性和可靠性存在较大问题。例如，在医学诊断中，可能会给出错误的诊断建议，因为缺乏对医学专业知识的深入理解和临床经验。

知识更新滞后

训练数据存在一定的时效性，对于新出现的知识、技术和事件，LLMs 往往不能及时更新和准确理解。在快速发展的科技领域，如人工智能最新研究成果、新兴的生物技术等方面，模型的知识可能已经过时，无法提供准确和前沿的信息。

大语言模型（LLMs）凭借其在语言生成、文本理解、知识问答、语言翻译等多个领域的卓越能力，已经在内容创作、智能客服、语言学习、科研、商业决策等众多实际应用中发挥着重要作用，为人们的生活和工作带来了极大的便利和创新。然而，我们也必须清醒地认识到 LLMs 面临的挑战和限制，如推理和规划能力的不足、数值处理错误、幻觉和偏见等问题。随着技术的不断发展，未来的研究需要致力于解决这些问题，进一步提升 LLMs 的性能和可靠性，使其能够更好地服务于人类社会，推动人工智能技术向更高水平发展。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

UFW防火墙安全指南

UFW（Uncomplicated Firewall）是Ubuntu/Debian系统中简化防火墙管理的工具，通过直观命令帮助用户有效控制网络流量，提升系统安全性。文章详细介绍了UFW的基本命令，包括启停防火墙、添加规则、限制连接速率和日志配置等操作，并提供了安全最佳实践，如默认拒绝策略、IP地址限制和服务级规则管理。同时，还涵盖高级配置技巧，例如多网络接口设置、规则优先级调整、IPv6支持及与f