最开始使用一张16G显存的Tesla T10显卡推理大模型,不满足于32B模型爆显存速度极慢,于是又购入一张Tesla T10显卡,双卡32G显存,发现显存是叠加了,跑ollama的32B量化模型也不会爆显存了。
32B模型推理速度:
32B模型推理速度
14B模型推理速度:
在这里插入图片描述
但推理速度相比之前未爆显存的速度没有明显叠加,看了下ollama不支持GPU张量并行,于是打算把ollama替换到vllm平台进行推理。

但研究了发现由于vllm是预分配显存,–gpu_memory_utilization参数设置比例,待机会占用不少显存,没跑推理时显卡待机功耗就比较高,实测T10显卡每张卡大概50几W功耗,而ollama的OLLAMA_KEEP_ALIVE默认是5分钟空闲会释放模型显存,还能自定义时间,到一定时间未调用推理,会主动释放,释放显存后显卡待机功耗每张10W左右(如下图)。
ollama主动释放后GPU待机:
ollama释放显存显卡待机功耗
vllm预占用显存下GPU待机:
在这里插入图片描述

相当于用vllm两张卡每小时共多60W的能耗,待机情况下,一天大概比ollama多1点几度电。而vllm强在多线程并行推理性能很强,可以说并行推理秒杀ollama,实测推理时GPU占用都是很高的,但如果不并行使用的话,推理速度与ollama差不多,个人家用的话,考虑到能耗问题,不建议使用vllm,但如果是公司用的话还是强烈建议vllm的。



vllm相关脚本自记录:

镜像加速拉取:docker pull docker.1ms.run/vllm/vllm-openai:latest

创建vllm文件夹,并创建models子文件夹存放模型文件

自行下载模型文件到models文件夹下(如ModelCloud/QwQ-32B-gptqmodel-4bit-vortex-v1)。

docker-compose.yaml:

services:
  vllm:
    container_name: vllm-server
    restart: no
    image: docker.1ms.run/vllm/vllm-openai:latest
    ipc: host
    volumes:
      - ./models:/models
    # command: ["--model", "/models/QwQ-32B/Qwen_QwQ-32B-Q5_K_M.gguf",  "--served-model-name", "QwQ-32B",  "--gpu-memory-utilization", "0.85",  "--tensor-parallel-size", "2",  "--tokenizer", "/models/QwQ",  "--max-model-len", "8192",  "--max-num-seqs", "1"]
    command: ["--model", "/models/QwQ-32B-gptqmodel-4bit-vortex-v1",  "--max-model-len", "8192",  "--served-model-name", "qwq-32b-q4",  "--gpu-memory-utilization", "0.85",  "--tensor-parallel-size", "2",  "--max-num-seqs", "2",  "--dtype", "half"]
    ports:
      - 8006:8000
    environment:
      - 'HUGGING_FACE_HUB_TOKEN=Hugging Face的Access Tokens'
      - 'HF_ENDPOINT=https://hf-mirror.com'
      - 'VLLM_API_KEY=vllm666'
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]

验证请求:

//验证请求
curl http://192.168.31.8:8006/v1/completions \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer vllm666" \//密码
    -d '{
        "model": "QwQ-32B",
        "prompt": "San Francisco is a",
        "max_tokens": 7,
        "temperature": 0
    }'
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐