RTX5060TI 16G运行大语言模型的速度实测（Qwen3）

测试了RTX5060TI在大预言模型推理方面的性能

stlin256

504人浏览 · 2025-05-14 15:30:34

stlin256 · 2025-05-14 15:30:34 发布

测试环境介绍：

系统版本 Ubuntu 24.04

驱动版本 575.51.02 - BETA（上市一个月都不更新驱动，只有这版）

显卡型号 RTX5060TI 16G （非boost版本）

CUDA版本 12.8

测试模型 Qwen3 千问3 1.7b到30b-a3b之间的各参数量模型

使用软件 LM Studio

所有模型均完整加载到显存，关闭flash attention，无对话历史记录

所有模型测试问题相同：

请你详细介绍以下广州，对其未来的发展做出判断，将其与珠三角的其他几个主要城市作比较，并给出一首和广州有关的七言律诗。

测试结果如下：

模型	速度
Qwen3 1.7B Q6_K	114 tok/sec
Qwen3 8B Q4_K_M	59 tok/sec
Qwen3 14B Q4_K_M	37 tok/sec
Qwen3 14B Q6_K	28 tok/sec
Qwen3 30B A3B Q3_K_L	58 tok/sec

本来想要测试Qwen3 32B Q3_K_L的，但是显存无法完整装下模型，不具备参考价值。

5060Ti 16G大模型实测：1.7B到32B Qwen3模型推理性能对比 | 30B参数效果惊人？！

笔者在B站发布的视频，更加详细的介绍可以观看视频。

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

软考中级-软件设计师 UML图详解（类图，对象图，用例图，序列图，通信图，状态图，活动图，构件图，部署图）

cover

机器学习决策树-分类

cover

【SD教程】超详细AI绘画提示词语法讲解！

所有评论(0)

查看更多评论

stlin256

@weixin_45737474

已为社区贡献1条内容