使用Huggingface中的模型创建中文分词器
使用预训练模型的分词器
·
在自然语言处理任务中,在对文本进行处理之前,需要将文本分词,以创建一个词典,再对每一个词生成一个对应在词典中的序号。模型在训练中使用的就是将对应文本序列替换成了词典序号中的数字序号。
transformers是一个与timm库相比的模型库,由huggingface这个开源社区提供的,许多研究人员将各自的成果上传在这上面,因此里面也就有了许多强大的训练好的自然语言处理模型。在学习的开始,我们当然想去体验一下大佬们的最新成果。现在呢,我们就去使用一下预训练的模型,选择一个看看它是怎么分词的。
- 第一步,当然是安装好这个库啦;
pip install transformers
- 创建一个py或者ipynb文件;
- 导入transformer库中的AutoTokenizer
from transformers import AutoTokenizer
- 选择你使用的模型;
model_nm = 'intfloat/multilingual-e5-small'
- 加载预训练好的模型;
tokz = AutoTokenizer.from_pretrained(model_nm)
- 使用分词器;
tokz.tokenize("我的名字叫小明,现在在上海学习。")
结果
['▁我', '的名字', '叫', '小', '明', ',', '现在', '在上海', '学习', '。']
记录学习,有不正确之处烦请指正。
更多推荐
所有评论(0)