解密推理部署工程师的必备技能，面试题库分析

推理部署工程师面试题库

1. 描述一下SM的结构？

英伟达 GPU 架构：

* 计算核心：INT32、FP32、FP64 CUDA 核心，Tensor 核心，超低延迟负载/存储。

* 调度和存储器：Warp 调度器注册文件，共享存储器，L1 缓存。

2. 共享内存和寄存器分别应该存放哪些数据。

局部变量、临时变量，场景：高频访问、空间较小。

3. bank冲突是什么？描述具体结构，如何解决？

为了并行处理，NVIDIA GPU的共享内存被划分为多个“bank”来支持并发访问。然而，当多个线程同时访问同一个bank内的不同地址时，可能会导致bank冲突，从而降低内存访问的性能。

数据对齐：确保共享内存中的数据元素（例如数组或结构体）是按照bank大小对齐的。这样，多个线程可以同时访问不同的banks，而不会产生冲突。

线程束（warp）的对齐访问：尽可能地组织线程，使得在同一个warp内的线程访问的数据都来自不同的banks。例如，如果一个warp有32个线程，并且每个线程访问不同的bank，那么整个warp的访问将是无冲突的。

数据填充：Padding方式避免bank冲突。

分支冲突优化处理：

当 Warp 内存在分支冲突时，符合条件的部分将继续执行，无需等待其余部分。该机制可有效提升程序性能。

当一个warp中的线程在执行一个条件分支时，如果不是所有的线程都满足相同的条件（例如，部分线程满足if条件，而其他线程满足else条件），这将导致warp内的线程分裂成多个执行路径，从而增加了计算的开销。

当warp中的线程分裂到不同的执行路径时，它们不能再同时执行相同的指令，因为它们需要执行不同的指令集。这导致了一种情况，其中部分线程在某个时刻被激活，而其他线程则被暂停。在warp内部，所有的线程都是硬件级别上同步的。当一个warp中的线程分裂到不同的执行路径时，这个warp内的所有线程都需要等待，直到所有的分支条件都被满足。具体来说：

多线程中，部分满足 if 条件、其余满足 else 条件的线程将分裂 Warp，形成两个独立的 Warp，提升并行处理效率。每个新的warp都会独立地执行其指定的指令路径，不需要等待其他warp。

5. 项目中用过TensorCore吗？了解TensorCore的原理吗？

揭秘 Tensor Core 的强大之处！

在 AI 领域，Tensor Core 以其压倒性的计算能力，加速了数据处理和模型训练。探索其技术，了解其如何将您的 AI 工作流程提升到新的高度。

6. 为什么用float4向量来存取数据？有什么好处？

向量化优势：

使用 float4 向量，您可在 GPU 和并行处理器上提升性能：

* 数据对齐优化：自动对齐至 4 字节边界，加速数据访问。

* 内存事务优化：减少内存访问开销，处理多个数据元素。

* 带宽利用率提升：通过减少交易数量和增加数据量，有效利用内存带宽。

7. 了解cuda流和cuda graph吗？

CUDA流：优化GPU并行计算

CUDA流是管理和调度GPU操作的强大工具。通过组织操作进入不同流，可以同时执行多个流，提高GPU利用率。它提供了一种灵活的方法来优化并行计算，充分利用GPU资源。

CUDA 图：提升 GPU 性能

CUDA 图是一种先进技术，通过预先定义和优化 GPU 操作顺序，提升并行性并增加性能。它减少了操作间的依赖关系，允许开发人员可视化 GPU 操作，实现更高级的优化和调度。

8. 在Nsight Computing中，经常关注的与内存相关的指标?

内存带宽（Memory Bandwidth）：内存带宽指标告诉你GPU的内存子系统每秒可以传输的数据量。高带宽通常表示内存子系统的性能良好。

L1、L2和L3缓存命中率（Cache Hit Rate）：这些指标告诉你在访问缓存时命中的次数与尝试访问缓存的总次数之间的比例。高的缓存命中率通常表示算法和数据访问模式对缓存友好。

内存利用率（Memory Utilization）：内存利用率指标告诉你GPU内存的使用情况。了解内存的使用情况可以帮助你识别内存使用过多或过少的问题。

内存延迟（Memory Latency）：内存延迟指标告诉你从发出内存请求到收到响应所需的时间。理解内存延迟可以帮助你优化数据访问和计算模式，从而减少延迟并提高性能。

9.cutlass中如何对GEMM进行优化的吗？

深入了解 CUTLASS：功能强大且高效的 NVIDIA GPU 库，专为深度学习而设计。探索其在加快训练和推理方面的应用，

探索Transformer的神秘世界：

* 揭示基础技术，了解其内部运作原理。

* 认识Faster Transformer，提升效率。

* 掌握CUDA优化技巧，释放最大潜力。

11. Paged Attention有了解吗？

基于 FlashAttention 的 PagedAttention 革新了 Attention 性能，将其提升了 2.5 倍，有效减轻了训练大型 Transformer 模型的计算负担。

zhuanlan.zhihu.com/p/638468472

12. TensorFlow和Pytorch设计思路有何不同？

13. Nsight Compute和Nsight System使用场景和区别？

NVIDIA Nsight Compute

Nsight Compute 专注于为 CUDA 应用提供深入性能分析，精准识别核函数的特性和性能瓶颈。Nsight Compute 深入分析内核性能，提供：

- 指令级统计

- 内存访问模式

- 优化计算吞吐量

NVIDIA Nsight Systems

Nsight Systems 提供全景性能洞察，涵盖应用执行流程、资源使用和性能特征，助您轻松掌握整体应用运行状况。Nsight Systems 全面分析 GPU、CPU、内存和系统性能，提供系统级洞察，帮助您快速识别和解决瓶颈，优化系统级性能。使用场景：Nsight Compute 适用针对核函数性能优化和调试的需求。Nsight Systems 适用需要全面系统性能分析和优化的应用场景。

导出 FP32 的 TRT Engine 无精度损失，FP16 损失明显。原因可能包括：

* 量化精度不足（FP16 范围较窄）

* 模型复杂度过高，FP16 难以有效表示

* 数值不稳定或梯度消失（FP16 运算范围更小）

量化精度下降可能是以下因素造成的：

* 量化敏感层导致漂移。

* 权重分布分散，导致量化范围不当，使许多权重归零。

* 未针对具体操作选择量化比例（scale），如minmax、entropy、percentile。

量化后推理结果错误的潜在原因：

* 量化参数选择不当，导致权重或激活值范围过窄或过宽。

* 模型结构不适合量化，如密集连接层过多。

* 量化方法不合适，如使用非对称量化或权重共享。

可能原因有：

a. calibrator的算法选择不对；b. calibration过程使用的数据不够；c. 对网络敏感层进行了量化；d. 对某些算子选择了不适合OP特性的scale计算。

使用TensorRT PTQ量化时，不同批次校正后的模型精度不一致是正常现象。这是因为量化校正过程依赖于输入数据的分布，不同的批次可能存在差异，导致精度略有不同。

校准过程以张量为单位计算。若最大值需要更新，PTQ 将扩大张量范围。为获得最佳精度，建议在不导致内存不足的前提下使用更大的批次大小，因其包含更多样本。

确定最佳批次大小需通过实验，从较大批次开始并逐步减小。需要注意，批次越大，校准时间越长。

17.模型量化到INT8后，推理时间反而比FP16慢，这正常吗？

TensorRT中的INT8推理速度受限

优化策略的冗余导致量化反而降低效率，促使TensorRT使用CUDA内核。当网络参数或架构不合理时，TensorRT会增加处理步骤，导致INT8推理时间超过FP16。通过Trt-Engine Explorer工具可视化模型，可以发现额外的处理步骤。

-对此，您有什么看法见解？-

-欢迎在评论区留言探讨和分享。-

玩酷网

解密推理部署工程师的必备技能，面试题库分析

美媒: 中国工信部正积极推进“国产替代”战略, 美芯或逐步被淘汰

AI时代的GPU集群网络算力分析

台积电董事长: 一万亿晶体管GPU即将到来

薪科技快评