深度学习模型训练与推理的性能优化

发布时间：2022-09-16

　　近年来，在异构计算机系统上部署深度学习模型受到学术界和工业界的广泛关注。在这一场景下，深度学习负载的实际运行性能成为关注的焦点，而影响性能的要素则广泛且复杂，其中主要包括硬件设计（流水线、向量宽度、cache 大小等）、算法、实现方式（编程语言、数据结构、算子库的版本等）、代码生成（编译器）、系统配置（操作系统的选择等）和执行环境（亲和性选择、资源分配和系统噪音等）。在真实的运行系统中, 这些性能因素之间不是独立正交, 而是相互影响，从而形成一个复杂庞大的优化空间。实现应用负载与计算机硬件结构之间的最佳配适，就是在这一复杂空间中寻找最优解。本报告围绕这一主题，针对深度学习应用的具体特性，介绍针对内存管理和访存行为的自动优化策略生成方法。

　　马惠，中科院计算技术研究所高性能计算机研究中心，算法工程师。