测试环境介绍:

        系统版本        Ubuntu 24.04

        驱动版本        575.51.02 - BETA(上市一个月都不更新驱动,只有这版)

        显卡型号        RTX5060TI 16G (非boost版本)

        CUDA版本     12.8

        测试模型        Qwen3 千问3 1.7b到30b-a3b之间的各参数量模型

        使用软件        LM Studio

所有模型均完整加载到显存,关闭flash attention,无对话历史记录

所有模型测试问题相同:

请你详细介绍以下广州,对其未来的发展做出判断,将其与珠三角的其他几个主要城市作比较,并给出一首和广州有关的七言律诗。

测试结果如下:

模型 速度
Qwen3 1.7B Q6_K 114 tok/sec
Qwen3 8B Q4_K_M 59 tok/sec
Qwen3 14B Q4_K_M 37 tok/sec
Qwen3 14B Q6_K 28 tok/sec
Qwen3 30B A3B Q3_K_L 58 tok/sec

本来想要测试Qwen3 32B Q3_K_L的,但是显存无法完整装下模型,不具备参考价值。

 

5060Ti 16G大模型实测:1.7B到32B Qwen3模型推理性能对比 | 30B参数效果惊人?!

 笔者在B站发布的视频,更加详细的介绍可以观看视频。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐