RTX5060TI 16G运行大语言模型的速度实测 (Qwen3)
测试了RTX5060TI在大预言模型推理方面的性能
·
测试环境介绍:
系统版本 Ubuntu 24.04
驱动版本 575.51.02 - BETA(上市一个月都不更新驱动,只有这版)
显卡型号 RTX5060TI 16G (非boost版本)
CUDA版本 12.8
测试模型 Qwen3 千问3 1.7b到30b-a3b之间的各参数量模型
使用软件 LM Studio
所有模型均完整加载到显存,关闭flash attention,无对话历史记录
所有模型测试问题相同:
请你详细介绍以下广州,对其未来的发展做出判断,将其与珠三角的其他几个主要城市作比较,并给出一首和广州有关的七言律诗。
测试结果如下:
模型 | 速度 |
---|---|
Qwen3 1.7B Q6_K | 114 tok/sec |
Qwen3 8B Q4_K_M | 59 tok/sec |
Qwen3 14B Q4_K_M | 37 tok/sec |
Qwen3 14B Q6_K | 28 tok/sec |
Qwen3 30B A3B Q3_K_L | 58 tok/sec |
本来想要测试Qwen3 32B Q3_K_L的,但是显存无法完整装下模型,不具备参考价值。
5060Ti 16G大模型实测:1.7B到32B Qwen3模型推理性能对比 | 30B参数效果惊人?!
笔者在B站发布的视频,更加详细的介绍可以观看视频。
更多推荐
所有评论(0)