将Hugging Face模型下载到本地并部署为本地服务的步骤指南

下面我将分步骤讲解如何将Hugging Face模型下载到本地并进行部署，包括演示代码。

yuanpan

1990人浏览 · 2025-03-27 10:10:39

yuanpan · 2025-03-27 10:10:39 发布

下面我将分步骤讲解如何将Hugging Face（https://huggingface.co/）模型下载到本地并进行部署，包括演示代码。

步骤1：安装必要的库

首先需要安装Hugging Face的transformers库和torch：

bash

pip install transformers torch

如果需要使用GPU加速，确保安装了对应版本的CUDA工具包。

步骤2：下载模型到本地

方法1：使用`transformers`自动下载

python

from transformers import AutoModel, AutoTokenizer

# 选择模型名称（这里以bert-base-uncased为例）
model_name = "bert-base-uncased"

# 下载模型和分词器
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

# 保存到本地
save_path = "./saved_models/bert-base-uncased"
tokenizer.save_pretrained(save_path)
model.save_pretrained(save_path)

方法2：使用`git lfs`手动下载（适合大模型）

bash

# 安装git lfs
git lfs install

# 克隆模型仓库（以bert-base-uncased为例）
git clone https://huggingface.co/bert-base-uncased

步骤3：加载本地模型

python

from transformers import AutoModel, AutoTokenizer

# 加载本地保存的模型
local_path = "./saved_models/bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(local_path)
model = AutoModel.from_pretrained(local_path)

步骤4：部署模型为API服务

我们可以使用Flask或FastAPI来创建简单的API服务。

使用Flask部署

安装Flask：

bash

pip install flask

创建API服务脚本app.py：

python

from flask import Flask, request, jsonify
from transformers import AutoModelForSequenceClassification, AutoTokenizer
import torch

app = Flask(__name__)

# 加载本地模型
model_path = "./saved_models/bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForSequenceClassification.from_pretrained(model_path)

@app.route('/predict', methods=['POST'])
def predict():
    # 获取输入文本
    data = request.get_json()
    text = data['text']
    
    # 预处理和预测
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)
    with torch.no_grad():
        outputs = model(**inputs)
    
    # 获取预测结果
    predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
    
    # 返回结果
    return jsonify({
        "text": text,
        "predictions": predictions.tolist()
    })

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

运行服务：

bash

python app.py

使用FastAPI部署（推荐）

安装FastAPI和Uvicorn：

bash

pip install fastapi uvicorn

创建API服务脚本fastapi_app.py：

python

from fastapi import FastAPI
from pydantic import BaseModel
from transformers import AutoModelForSequenceClassification, AutoTokenizer
import torch

app = FastAPI()

# 加载本地模型
model_path = "./saved_models/bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForSequenceClassification.from_pretrained(model_path)

class TextRequest(BaseModel):
    text: str

@app.post("/predict")
async def predict(request: TextRequest):
    # 预处理和预测
    inputs = tokenizer(request.text, return_tensors="pt", truncation=True, padding=True)
    with torch.no_grad():
        outputs = model(**inputs)
    
    # 获取预测结果
    predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
    
    # 返回结果
    return {
        "text": request.text,
        "predictions": predictions.tolist()
    }

运行服务：

bash

uvicorn fastapi_app:app --host 0.0.0.0 --port 8000

步骤5：测试API服务

使用curl或Python的requests库测试API：

python

import requests

# 测试Flask服务
response = requests.post(
    "http://localhost:5000/predict",
    json={"text": "I love using Hugging Face models!"}
)
print(response.json())

# 测试FastAPI服务
response = requests.post(
    "http://localhost:8000/predict",
    json={"text": "I love using Hugging Face models!"}
)
print(response.json())

高级部署选项

使用Docker容器化部署

创建Dockerfile：

dockerfile

复制

FROM python:3.8-slim

WORKDIR /app

COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt

COPY . .

CMD ["uvicorn", "fastapi_app:app", "--host", "0.0.0.0", "--port", "8000"]

构建并运行：

bash

docker build -t hf-model-api .
docker run -p 8000:8000 hf-model-api

使用Hugging Face Inference API

如果你不想自己托管模型，可以使用Hugging Face的Inference API：

python

from huggingface_hub import InferenceApi

inference = InferenceApi(repo_id="bert-base-uncased", token="your_hf_token")

result = inference(inputs="I love using Hugging Face models!")
print(result)

注意事项

大模型需要足够的磁盘空间和内存
GPU加速可以显著提高推理速度
生产环境需要考虑并发、负载均衡等问题
敏感模型需要考虑安全性和访问控制

希望这个指南对你有所帮助！根据你的具体需求，可以调整模型类型和部署方式。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【信创-k8s】海光/兆芯+银河麒麟V10离线部署k8s1.31.8+kubesphere4.1.3

介于V4优秀的LuBan架构，核心组件非常少，资源占用也显著降低，同时带来众多功能和便利性。：使用海光3350/兆芯开先KX-5000芯片，麒麟V10 SP3操作系统，以及Containerd 1.7.13、Kubernetes v1.31.8、KubeSphere v4.1.3等软件版本。原创编写，详细记录了从环境准备到平台验证的完整流程，为信创环境下的Kubernetes与KubeSphere

2048 AI社区

从狂热到深耕：一个AI从业者的智能体创业心路历程

2048 AI社区

MCP：从被动响应到自主执行的自动化协议

AI正突破传统代码生成边界，向全流程智能调度演进。MCP（Model Context Protocol）作为开放协议，为AI与工具建立统一接口，实现跨模型、跨工具的复杂流程编排。其核心价值在于生态复用、安全可控和上下文感知，通过客户端-服务器架构让AI自主调用API完成从代码检查到性能优化的全流程。相比Function Call的单次调用，MCP支持多工具串联和本地数据处理，将重塑前端开发模式——