TensorRT 多流并行优化教程

TensorRT 是 NVIDIA 提供的高性能深度学习推理库，广泛应用于低延迟和高吞吐的 AI 任务中。多流（multi-stream）并行是一种提高 GPU 计算效率的方法，适用于批量推理场景，可以显著提升吞吐量。本教程将介绍如何判断 TensorRT 推理的运行瓶颈，并基于瓶颈分析，使用多流并行进行优化。多流（multi-stream）并行是一种提高 GPU 资源利用率的方法，使用多个 CU

我是一个对称矩阵

1358人浏览 · 2025-02-19 08:58:05

我是一个对称矩阵 · 2025-02-19 08:58:05 发布

1. 介绍

TensorRT 是 NVIDIA 提供的高性能深度学习推理库，广泛应用于低延迟和高吞吐的 AI 任务中。多流（multi-stream）并行是一种提高 GPU 计算效率的方法，适用于批量推理场景，可以显著提升吞吐量。

本教程将介绍如何判断 TensorRT 推理的运行瓶颈，并基于瓶颈分析，使用多流并行进行优化。

2. 如何判断推理瓶颈

在优化 TensorRT 推理性能之前，需要确定系统的性能瓶颈。主要瓶颈可以分为以下几类：

2.1 计算瓶颈（Compute-bound）

如果 GPU 使用率接近 100%，说明计算能力已达到上限。可以通过 nvidia-smi 或 nvprof 检查 GPU 利用率：

nvidia-smi dmon -s u

或者使用 nvprof 进行更详细的分析：

nvprof --print-gpu-trace ./your_trt_inference

如果计算瓶颈存在，可以尝试：

量化模型，降低计算复杂度（FP16、INT8）
采用多流并行，提高吞吐量
选择更合适的 TensorRT 引擎配置

2.2 内存带宽瓶颈（Memory-bound）

如果 GPU 利用率较低，但 TensorRT 推理仍然较慢，可能是由于显存带宽受限。可以使用 nvprof 或 Nsight Systems 检测：

nvprof --metrics dram_utilization ./your_trt_inference

如果 dram_utilization 高，说明存在内存带宽瓶颈。优化方法包括：

减少数据拷贝，优化 cudaMemcpy
使用 cudaMallocManaged 进行统一内存管理
使用多流并行，提高数据吞吐能力

2.3 PCIe 传输瓶颈（PCIe-bound）

如果数据从 CPU 传输到 GPU 过慢，则可能受到 PCIe 带宽限制。可以用 nvprof 检测 PCIe 传输时间：

nvprof --print-api-trace ./your_trt_inference

优化方法：

使用 cudaMemcpyAsync 进行异步数据传输
使用 pinned memory（固定内存）提高传输速度
采用批量数据传输，减少 PCIe 交互次数

2.4 其他瓶颈

内核启动延迟：使用 nvprof --metrics kernel_launch_latency 检查
低 GPU 利用率：可能是 batch size 过小，导致 GPU 计算单元未被充分利用
线程同步开销：优化 cudaStreamSynchronize，减少不必要的同步

3. 多流并行优化

3.1 什么是多流并行？

多流（multi-stream）并行是一种提高 GPU 资源利用率的方法，使用多个 CUDA Stream 并行执行不同的数据流，以减少计算与数据传输的串行化问题。

在 TensorRT 中，多流并行可以：

让多个输入批次同时推理，提高吞吐量
充分利用 GPU 计算资源
避免 CPU-GPU 之间的数据传输瓶颈

3.2 启用 TensorRT 多流并行

3.2.1 创建多个 CUDA Stream

在 TensorRT 代码中，可以创建多个 CUDA Stream 用于并行推理：

cudaStream_t streams[NUM_STREAMS];
for (int i = 0; i < NUM_STREAMS; ++i) {
    cudaStreamCreate(&streams[i]);
}

3.2.2 使用多个 Stream 进行异步推理

在 TensorRT 中，可以使用 enqueueV2 在不同的流中执行推理：

for (int i = 0; i < NUM_STREAMS; ++i) {
    context->enqueueV2(bindings[i], streams[i], nullptr);
}

3.2.3 使用 `cudaMemcpyAsync` 进行数据传输

确保数据传输和计算并行进行：

cudaMemcpyAsync(device_input[i], host_input[i], input_size, cudaMemcpyHostToDevice, streams[i]);
context->enqueueV2(bindings[i], streams[i], nullptr);
cudaMemcpyAsync(host_output[i], device_output[i], output_size, cudaMemcpyDeviceToHost, streams[i]);

3.2.4 同步多个 Stream

执行完所有推理任务后，需要同步流：

for (int i = 0; i < NUM_STREAMS; ++i) {
    cudaStreamSynchronize(streams[i]);
}

3.3 多流并行优化策略

3.3.1 选择合适的流数量

流的数量不宜过多，否则可能会导致调度开销增加。可以通过实验确定最佳 NUM_STREAMS，通常为 2-4。

3.3.2 结合 `TensorRT Execution Context`

每个流最好使用独立的 IExecutionContext 以避免竞争：

std::vector<IExecutionContext*> contexts;
for (int i = 0; i < NUM_STREAMS; ++i) {
    contexts.push_back(engine->createExecutionContext());
}

3.3.3 批量推理（Batching）

结合多流并行时，可以使用较大的 batch size 提高 GPU 利用率。

3.3.4 采用 FP16 或 INT8 模式

减少计算量，提高吞吐：

config->setFlag(BuilderFlag::kFP16);

或者使用 INT8 量化：

config->setFlag(BuilderFlag::kINT8);

4. 性能测试与优化

4.1 使用 Nsight Systems 进行性能分析

Nsight Systems 可以直观地分析 GPU 计算任务的并行性：

nsys profile ./your_trt_inference

4.2 调整 CUDA Stream 数量

实验调整 NUM_STREAMS，找到吞吐量最高的配置。

4.3 使用 `cudaEvent` 进行时间测量

cudaEvent_t start, stop;
cudaEventCreate(&start);
cudaEventCreate(&stop);
cudaEventRecord(start, stream);
// 推理代码
cudaEventRecord(stop, stream);
cudaEventSynchronize(stop);
float ms;
cudaEventElapsedTime(&ms, start, stop);
printf("Execution time: %f ms\n", ms);