夸娥(MTT KUAE)是摩尔线程智算中心全栈解决方案,基于大模型智算加速卡和 AI 大模型训推一体机,
以一体化交付的方式解决大规模 GPU 算力的建设和运营管理问题。

快速交付
集群建设周期只需 30 天

最佳实践
计算、存储、网络的全面优化

开箱即用
完整的工具和软件栈

高性能
支持万亿参数模型的分布式训练
大模型智算底座
夸娥 (MTT KUAE) 全功能 GPU 智算集群
软硬一体 开箱即用
夸娥(MTT KUAE)是以全功能 GPU 为底座,软硬一体化、完整的系统级算力解决方案,
包括以夸娥计算集群为核心的基础设施、夸娥集群管理平台(KUAE Platform)以及夸娥大模型平台(KUAE ModelStudio),
旨在以一体化交付的方式解决大规模 GPU 算力的建设和运营管理问题。
核心能力
夸娥(MTT KUAE)全栈解决方案能够充分发挥摩尔线程 GPU 的优势
产品组合
MTT KUAE 核心组件

MTT KUAE Platform
夸娥集群管理平台除了包含 Kubernetes 集群的标准能力,还针对智算场景创新地提供了大量功能。
- 深度集成全功能 GPU 计算、网络和存储,可批量管理 GPU 驱动,降低适配和运维成本
- 通过虚拟集群、企业空间、项目为不同组织及人员提供多维度的隔离方式
- 支持 GPU 共享,内置多 GPU 感知调度最佳实践,提升资源利用率并最大化业务性能
- 提供物理机、存储、网络、集群组件、工作负载的统一可观测平台,加快问题定位,降低解决成本
- 深度整合业务与设备数据,通过自动巡检及细粒度的监控告警,提前发现潜在问题

MTT KUAE ModelStudio
夸娥大模型平台覆盖模型开发、预训练、微调和推理全流程,支持多种主流开源模型。 具体支持列表请参阅人工智能模型
模型开发
模型开发
- 一键拉起开发环境 (VS Code & Jupyter) ,预装依赖组件并挂载数据集,提高效率
- 支持多开发工作空间的管理以及数据持久化,减少开发噪音
- 支持主流分布式训练框架,可快速发现异常并在 10 分钟以内完成断点续训
- 创新的训练洞察,3D 并行可视化快速定位慢节点,算子性能分析工具助力大规模训练优化
- 一键部署推理服务, 训练模型快速上线
- 自动弹性伸缩,根据负载动态调整资源

MT Training Suite
摩尔线程 AI 训练套件 (MT Training Suite) 是专为满足生产级 AI 训练需求而设计的全方位软件包,旨在为开发者提供强大的工具和框架,以加速和优化 AI 模型的训练过程。该套件包含了训练框架、AI 框架和训练辅助工具,覆盖大模型预训练和后训练全过程。
了解 MT Training Suite
了解 MT Training Suite

MT Inference Suite
摩尔线程的 AI 推理套件(MT Inference Suite)是专为满足生产级 AI 推理需求而的全方位软件包,其中包括了追求极致性能的大模型推理设计引擎 MT Transformer,以及覆盖丰富、性能优异的传统模型推理引擎 Tensor X,同时还提供了一系列量化、监测、Profiling 等推理常用的软件工具,为用户带来全面而高效的软件解决方案。
了解 MT Inference Suite
了解 MT Inference Suite
MTT KUAE 解决的关键问题

GPU 算力的大规模搭建
模块化设计,灵活部署

GPU 算力的线性
加速比优化

高速参数传递
网络的搭建

异构计算集群的
搭建和调度

算力服务支持系统
的设计与建设

云原生 GPU 集群调度
与弹性算力

计算和存储的可靠性
与安全性

高可靠性
自动问题诊断和恢复