KUAE Inference Suite

摩尔线程 AI 推理套件（KUAE Inference Suite）是专为满足生产级 AI 推理需求而设计的全方位平台，旨在加速和优化 AI 模型在生产环境中的部署与执行。

通过汇编级的底层算子融合和 GPU 架构定制优化，实现推理引擎的极致性能提升

提供企业级稳定性、可观测性和安全性，配备专业性能评测工具与监测工具，确保在生产环境中的高可用性和可靠性

支持在云端、数据中心、边缘和嵌入式设备的部署推理服务，实现不同场景下的无缝应用

实现从模型优化到推理服务的全流程智能化管理，提升模型应用效率

适用于生成式 AI、计算机视觉、自然语言处理和语音识别等多领域

支持从稠密模型、MoE、多模态等最新的大语言模型，以及文生图、文生视频等传统 AI 模型

摩尔线程 AI 推理套件集成了专为类 Transformer 架构大模型设计的推理引擎 MT Transformer，以及适用于传统模型的推理引擎 Tensor X，同时还提供了一系列配套的推理场景常用软件工具包，为用户带来全面而高效的 AI 推理解决方案。

针对摩尔线程 GPU 的分布式推理加速框架，实现了对基于 Transformer 架构的 LLM 模型的推理加速。

实现了汇编级别的底层算子融合，并针对摩尔线程 GPU 架构进行了定制优化，实现了优于 FlashAttention 的注意力机制，以追求极致的大模型推理引擎性能，消除算力瓶颈。
支持大于 128k 的超长文本与流式处理，以及包括 Paged Attention、Continuous Batching 等各类最新的优化技术。
支持 vLLM 快速接入并部署 OpenAI 兼容服务，也可根据客户需要灵活定制 serving 方案。

针对摩尔线程 GPU 的推理加速框架，实现了对图片/视频生成、传统 AI 模型的推理加速。

摩尔线程自研的大模型量化、压缩、减枝，以及蒸馏工具。

摩尔线程推出的集性能评测、监控、管理等多功能一体的工具包，包括：

MT DCGM （Data Center GPU Management）：摩尔线程自研的监控和管理工具，提供丰富的功能和 API，用于监视和管理数据中心规模 GPU 的性能、健康状况和功耗。
MTML （MT GPU Management Library）：摩尔线程 GPU 管理函数库。
mthreads-gmi （Moore Threads GPU Management Interface）：基于 GPU 管理中心 SDK 的命令行工具。