Ubuntu 24.04系统使用Ollama安装Qwen2.5-VL-7B模型及OpenAPI调用的详细步骤如下:

一、安装Ollama

# 使用官方脚本安装(需要sudo权限)
curl -fsSL https://ollama.com/install.sh | sudo sh

# 启动服务并设置开机自启
sudo systemctl enable ollama
sudo systemctl start ollama

# 验证安装(显示版本号即成功)
ollama --version

二、安装NVIDIA驱动(若未安装)

# 检查显卡驱动状态
nvidia-smi

# 若未安装,使用ubuntu-drivers自动安装
sudo ubuntu-drivers autoinstall
sudo reboot

三、部署Qwen2.5-VL-7B模型

  • 方法1:直接拉取模型(若模型库已存在)
ollama run qwen2:7b-vl
  • 方法2:手动创建Modelfile(推荐
# 创建模型目录
mkdir -p ~/qwen2.5-vl-7b && cd ~/qwen2.5-vl-7b

# 下载GGUF格式模型文件(示例链接,需替换实际URL)
wget https://huggingface.co/Qwen/Qwen2.5-VL-7B-GGUF/resolve/main/qwen2.5-vl-7b.Q8_0.gguf

# 创建Modelfile
echo 'FROM ./qwen2.5-vl-7b.Q8_0.gguf
PARAMETER temperature 0.7
PARAMETER num_gpu 24' > Modelfile

# 构建模型
ollama create qwen2.5-vl-7b -f Modelfile

四、启动模型服务

# 使用GPU加速运行
ollama run qwen2.5-vl-7b --gpu

# 后台运行模式(推荐)
nohup ollama serve > /var/log/ollama.log 2>&1 &

五、OpenAPI接口调用

1. 直接调用Ollama原生API

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5-vl-7b",
  "prompt": "描述这张图片的内容",
  "stream": false,
  "images": ["<BASE64_ENCODED_IMAGE>"]
}'

2. 使用Python客户端(兼容OpenAI格式)

from openai import OpenAI

client = OpenAI(
    base_url='http://localhost:11434/v1',
    api_key='ollama'  # 任意非空字符串
)

response = client.chat.completions.create(
    model="qwen2.5-vl-7b",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "描述这张图片的内容"},
                {"type": "image_url", "image_url": {"url": "data:image/jpeg;base64,<BASE64_STR>"}}
            ]
        }
    ],
    max_tokens=500
)

print(response.choices[0].message.content)

六、注意事项

  1. 显存优化
  • 7B模型建议使用Q4_K_M或Q5_K_S量化版本降低显存占用
  • 通过PARAMETER num_ctx 2048调整上下文长度控制资源使用
  1. 性能监控
# 查看GPU使用情况
watch -n 1 nvidia-smi

# 查看服务日志
journalctl -u ollama -f
  1. 安全配置
# 启用API鉴权
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_ORIGINS=*
sudo systemctl restart ollama
  1. 多模态支持
  • 图片需要转换为BASE64格式(建议分辨率不超过1024x1024)
  • 视频输入需分帧处理后再传入
  1. 模型管理
# 查看已安装模型
ollama list

# 删除模型
ollama rm qwen2.5-vl-7b

七、常见问题处理

  1. CUDA内存不足
# 减少并行请求数
export OLLAMA_NUM_PARALLEL=1

# 降低量化精度
ollama run qwen2.5-vl-7b:q4_0
  1. API响应慢
# 增加GPU分配比例
export OLLAMA_GPUS="all"
  1. 多用户访问
# 使用Nginx反向代理
location /ollama/ {
    proxy_pass http://127.0.0.1:11434/;
    proxy_set_header Host $host;
}

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐