使用Huggingface中的模型创建中文分词器

使用预训练模型的分词器

一个油桃子

641人浏览 · 2024-06-26 11:05:52

一个油桃子 · 2024-06-26 11:05:52 发布

在自然语言处理任务中，在对文本进行处理之前，需要将文本分词，以创建一个词典，再对每一个词生成一个对应在词典中的序号。模型在训练中使用的就是将对应文本序列替换成了词典序号中的数字序号。
transformers是一个与timm库相比的模型库，由huggingface这个开源社区提供的，许多研究人员将各自的成果上传在这上面，因此里面也就有了许多强大的训练好的自然语言处理模型。在学习的开始，我们当然想去体验一下大佬们的最新成果。现在呢，我们就去使用一下预训练的模型，选择一个看看它是怎么分词的。
huggingface上面众多的模型

第一步，当然是安装好这个库啦；

pip install transformers

创建一个py或者ipynb文件；
导入transformer库中的AutoTokenizer

from transformers import AutoTokenizer

选择你使用的模型；

model_nm = 'intfloat/multilingual-e5-small'

加载预训练好的模型；

tokz = AutoTokenizer.from_pretrained(model_nm)

使用分词器；

tokz.tokenize("我的名字叫小明，现在在上海学习。")

结果

['▁我', '的名字', '叫', '小', '明', ',', '现在', '在上海', '学习', '。']

记录学习，有不正确之处烦请指正。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

UFW防火墙安全指南

UFW（Uncomplicated Firewall）是Ubuntu/Debian系统中简化防火墙管理的工具，通过直观命令帮助用户有效控制网络流量，提升系统安全性。文章详细介绍了UFW的基本命令，包括启停防火墙、添加规则、限制连接速率和日志配置等操作，并提供了安全最佳实践，如默认拒绝策略、IP地址限制和服务级规则管理。同时，还涵盖高级配置技巧，例如多网络接口设置、规则优先级调整、IPv6支持及与f