jieba，一个结巴的Python库

在自然语言处理任务时，中文文本需要通过分词获得单个的词语，此时一个好的分词工具是非常有必要的。jieba分词是一个开源项目，地址为：[github.com/fxsjy/jieba](github.com/fxsjy/jieba)。目前是国内最好的中文分词Python库，它在分词准确度和速度方面均表现非常不错。

Python是我哥

5141人浏览 · 2023-12-11 18:23:59

Python是我哥 · 2023-12-11 18:23:59 发布

微信公众号：愤怒的it男，超多Python技术干货文章。

一、jieba的简介

在自然语言处理任务时，中文文本需要通过分词获得单个的词语，此时一个好的分词工具是非常有必要的。jieba分词是一个开源项目，地址为：github.com/fxsjy/jieba。目前是国内最好的中文分词Python库，它在分词准确度和速度方面均表现非常不错。

二、jieba的安装

使用pip安装，由于官方源在国外，可能由于网络超时而导致安装失败，这里建议使用国内的镜像源：

阿里云镜像：https://mirrors.aliyun.com/pypi/simple/
清华大学镜像：https://pypi.tuna.tsinghua.edu.cn/simple/
豆瓣镜像：https://pypi.doubanio.com/simple/
中科大镜像：https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/

pip的安装命令如下：

pip install jieba -i https://mirrors.aliyun.com/pypi/simple/

三、中文分词

1、默认模式分词

默认模式分词使用jieba.cut或jieba.lcut方法，都是接受四个输入参数:
（1）需要分词的字符串
（2）cut_all：True为采用全面分词，False为采用精准分词
（3）HMM：是否使用HMM模型，HMM默认为True
（4）use_paddle：是否使用PaddlePaddle深度学习框架分词
jieba.cut返回的是迭代生成器，而jieba.lcut返回的是列表

import jieba

text = '微信公众号：愤怒的it男，超多Python技术干货文章。'

seg_list = jieba.cut(text, cut_all=True)
print("/".join(seg_list))
# 微/信/公众/号/：/愤怒/的/it/男/，/超/多/Python/技术/干货/文章/。

seg_list = jieba.cut(text, cut_all=False)
print("/".join(seg_list))
# 微信/公众/号/：/愤怒/的/it/男/，/超多/Python/技术/干货/文章/。

seg_list = jieba.lcut(text, cut_all=True)
print(seg_list)
# ['微', '信', '公众', '号', '：', '愤怒', '的', 'it', '男', '，', '超', '多', 'Python', '技术', '干货', '文章', '。']

seg_list = jieba.lcut(text, cut_all=False)
print(seg_list)
# ['微信', '公众', '号', '：', '愤怒', '的', 'it', '男', '，', '超多', 'Python', '技术', '干货', '文章', '。']

2、搜索引擎模式分词

搜索引擎模式分词使用jieba.cut_for_search或jieba.lcut_for_search方法，都是接受两个输入参数:
（1）需要分词的字符串
（2）HMM：是否使用HMM模型，HMM默认为True
jieba.cut_for_search返回的是迭代生成器，而jieba.lcut_for_search返回的是列表，该分词模式适合用于搜索引擎构建排序索引的分词，粒度比较细

import jieba

text = '微信公众号：愤怒的it男，超多Python技术干货文章。'

seg_list = jieba.cut_for_search(text)
print("/".join(seg_list))
# 微信/公众/号/：/愤怒/的/it/男/，/超多/Python/技术/干货/文章/。

seg_list = jieba.lcut_for_search(text)
print(seg_list)
# ['微信', '公众', '号', '：', '愤怒', '的', 'it', '男', '，', '超多', 'Python', '技术', '干货', '文章', '。']

3、相关知识

HMM：隐马尔科夫模型，是一种用于处理生成序列数据问题的统计模型，被广泛应用于自然语言处理、语音识别等领域。

PaddlePaddle：飞桨，以百度多年的深度学习技术研究和业务应用为基础，集深度学习核心训练和推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体，是中国首个自主研发、功能完备、开源开放的产业级深度学习平台。

四、自定义词典

1、载入字典

开发者可以使用自定义的字典，这样能够保证更高的分词正确率。字典为普通的txt文件，格式为一个词占一行，每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。

import jieba

text = '微信公众号：愤怒的it男，超多Python技术干货文章。'

jieba.load_userdict("userdict.txt")
seg_list = jieba.cut(text)
print("/".join(seg_list))
# 微信/公众号/：/愤怒/的/it男/，/超多/Python/技术/干货/文章/。

2、调整字典

（1）使用add_word(word,freq=None,tag=None)和del_word(word)可在程序中动态修改词典。

import jieba

text = '微信公众号：愤怒的it男，超多Python技术干货文章。'

jieba.add_word('公众号', freq=5, tag='n')
jieba.add_word('it男', freq=5, tag='n')
seg_list = jieba.cut(text)
print("/".join(seg_list))
# 微信/公众号/：/愤怒/的/it男/，/超多/Python/技术/干货/文章/。

jieba.del_word('公众号')
jieba.del_word('it男')
seg_list = jieba.cut(text)
print("/".join(seg_list))
# 微信/公众/号/：/愤怒/的/it/男/，/超多/Python/技术/干货/文章/。

（2）使用suggest_freq(segment,tune=True)可调节单个词语的词频，使其能（或不能）被分出来。

import jieba

text = '微信公众号：愤怒的it男，超多Python技术干货文章。'

seg_list = jieba.cut(text)
print("/".join(seg_list))
# 微信/公众/号/：/愤怒/的/it/男/，/超多/Python/技术/干货/文章/。

jieba.suggest_freq('公众号', True)
jieba.suggest_freq('it男', True)
jieba.suggest_freq(('超', '多'), True)
seg_list = jieba.cut(text)
print("/".join(seg_list))
# 微信/公众号/：/愤怒/的/it男/，/超/多/Python/技术/干货/文章/。

五、关键词提取

1、基于TF-IDF算法提取关键词

使用jieba.analyse.extract_tags基于TF-IDF算法提取关键词，其接受四个输入参数:
（1）sentence：待提取的文本
（2）topK：返回关键词的数量，默认为20
（3）withWeight：是否返回关键词权重值，默认为False
（4）allowPOS：返回指定词性的关键词，默认为空

使用jieba.analyse.set_idf_path设置逆向文件频率（IDF）语料库。逆向文件频率是文件频率的倒数，主要用于TF-IDF算法中。

使用jieba.analyse.set_stop_words设置停止词（Stop Words）语料库。停止词一般指‘的’，‘了’，‘和’等频率高但又不重要的词。

import jieba.analyse

text = '微信公众号：愤怒的it男，超多Python技术干货文章。'

seg_list = jieba.analyse.extract_tags(text, topK=2, withWeight=True, allowPOS=('n'))
print(seg_list)
# [('干货', 2.798156862725), ('公众', 1.6857355419325)]

2、基于TextRank算法提取关键词

使用jieba.analyse.textrank基于TextRank算法提取关键词，其接受四个输入参数:
（1）sentence：待提取的文本
（2）topK：返回关键词的数量，默认为20
（3）withWeight：是否返回关键词权重值，默认为False
（4）allowPOS：返回指定词性的关键词，默认为空

import jieba.analyse

text = '微信公众号：愤怒的it男，超多Python技术干货文章。'

seg_list = jieba.analyse.textrank(text, topK=2, withWeight=True, allowPOS=('n'))
print(seg_list)
# [('文章', 1.0), ('技术', 0.9966849915940917)]

六、词性标注

使用jieba.posseg.cut进行词性标注方式地分词，这对于文本挖掘的帮助很大。

import jieba.analyse

text = '微信公众号：愤怒的it男，超多Python技术干货文章。'

words = jieba.posseg.cut(text)
for word, flag in words:
    print('%s %s' % (word, flag))

# 微信 vn
# 公众 n
# 号 m
# ： x
# 愤怒 v
# 的 uj
# it eng
# 男 n
# ， x
# 超多 v
# Python eng
# 技术 n
# 干货 n
# 文章 n
# 。 x

词性和专用名类别标签集合如下，其中词性标签24个（小写字母），专名类别标签4个（大写字母）。

七、分词定位

使用jieba.tokenize进行分词定位方式地分词，可以返回分词在原文的起止位置。其接受两个输入参数:
（1）待提取的文本，只接受unicode编码的文本
（2）mode：值为’search’则选择搜索引擎模式分词，值为空则选择默认模式分词

import jieba

text = u'微信公众号：愤怒的it男，超多Python技术干货文章。'

words = jieba.tokenize(text)
for word in words:
    print("word %s\t\t start: %d \t\t end:%d" % (word[0],word[1],word[2]))

# word 微信                start: 0                end:2
# word 公众                start: 2                end:4
# word 号          start: 4                end:5
# word ：          start: 5                end:6
# word 愤怒                start: 6                end:8
# word 的          start: 8                end:9
# word it          start: 9                end:11
# word 男          start: 11               end:12
# word ，          start: 12               end:13
# word 超多                start: 13               end:15
# word Python              start: 15               end:21
# word 技术                start: 21               end:23
# word 干货                start: 23               end:25
# word 文章                start: 25               end:27
# word 。          start: 27               end:28

八、命令行分词

使用python -m jieba [options] filename使用jieba命令行界面。

固定参数:
  filename              输入文件

可选参数:
  -h, --help            显示此帮助信息并退出
  -d [DELIM], --delimiter [DELIM]
                        使用 DELIM 分隔词语，而不是用默认的' / '。
                        若不指定 DELIM，则使用一个空格分隔。
  -p [DELIM], --pos [DELIM]
                        启用词性标注；如果指定 DELIM，词语和词性之间
                        用它分隔，否则用 _ 分隔
  -D DICT, --dict DICT  使用 DICT 代替默认词典
  -u USER_DICT, --user-dict USER_DICT
                        使用 USER_DICT 作为附加词典，与默认词典或自定义词典配合使用
  -a, --cut-all         全模式分词（不支持词性标注）
  -n, --no-hmm          不使用隐含马尔可夫模型
  -q, --quiet           不输出载入信息到 STDERR
  -V, --version         显示版本信息并退出

如果没有指定文件名，则使用标准输入。

最后的最后，使用终端命令python -m jieba input.txt > output.txt将周杰伦新歌《mojito》的歌词进行分词

微信公众号：愤怒的it男，超多Python技术干货文章。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【信创-k8s】海光/兆芯+银河麒麟V10离线部署k8s1.31.8+kubesphere4.1.3

介于V4优秀的LuBan架构，核心组件非常少，资源占用也显著降低，同时带来众多功能和便利性。：使用海光3350/兆芯开先KX-5000芯片，麒麟V10 SP3操作系统，以及Containerd 1.7.13、Kubernetes v1.31.8、KubeSphere v4.1.3等软件版本。原创编写，详细记录了从环境准备到平台验证的完整流程，为信创环境下的Kubernetes与KubeSphere

2048 AI社区

MCP：从被动响应到自主执行的自动化协议

AI正突破传统代码生成边界，向全流程智能调度演进。MCP（Model Context Protocol）作为开放协议，为AI与工具建立统一接口，实现跨模型、跨工具的复杂流程编排。其核心价值在于生态复用、安全可控和上下文感知，通过客户端-服务器架构让AI自主调用API完成从代码检查到性能优化的全流程。相比Function Call的单次调用，MCP支持多工具串联和本地数据处理，将重塑前端开发模式——