夸娥(MTT KUAE)是摩尔线程智算中心全栈解决方案,基于大模型智算加速卡和 AI 大模型训推一体机,
以一体化交付的方式解决大规模 GPU 算力的建设和运营管理问题。
快速交付
集群建设周期只需 30 天
最佳实践
计算、存储、网络的全面优化
开箱即用
完整的工具和软件栈
高性能
支持千亿规模模型的分布式训练
大模型智算底座
夸娥 (KUAE) 全功能 GPU 智算集群
软硬一体 开箱即用
夸娥(MTT KUAE)是以全功能 GPU 为底座,软硬一体化、完整的系统级算力解决方案,
包括以夸娥计算集群为核心的基础设施、夸娥集群管理平台(KUAE Platform)以及夸娥大模型平台(KUAE ModelStudio),
旨在以一体化交付的方式解决大规模 GPU 算力的建设和运营管理问题。
核心能力
夸娥(MTT KUAE)全栈解决方案能够充分发挥摩尔线程 GPU 的优势
产品组合
MTT KUAE 核心组件
MTT KUAE Platform
夸娥集群管理平台除了包含 Kubernetes 集群的标准能力,还针对智算场景创新地提供了大量功能。
- 深度集成全功能 GPU 计算、网络和存储,可批量管理 GPU 驱动,降低适配和运维成本;
- 通过虚拟集群、企业空间、项目为不同组织及人员提供多维度的隔离方式;
- 支持 GPU 共享,内置多 GPU 感知调度最佳实践,提升资源利用率并最大化业务性能;
- 提供物理机、存储、网络、集群组件、工作负载的统一可观测平台,加快问题定位,降低解决成本;
- 深度整合业务与设备数据,通过自动巡检及细粒度的监控告警,提前发现潜在问题;
MTT KUAE ModelStudio
夸娥大模型平台覆盖模型开发、预训练、微调和推理全流程,支持多种主流开源模型,具体支持列表请参阅人工智能模型 >
模型开发
模型开发
- 一键拉起开发环境 (VS Code & Jupyter) ,预装依赖组件并挂载数据集,提高效率;
- 支持多开发工作空间的管理以及数据持久化,减少开发噪音;
- 支持主流分布式训练框架,可快速发现异常并在 10 分钟以内完成断点续训;
- 创新的训练洞察,3D 并行可视化快速定位慢节点,算子性能分析工具助力大规模训练优化;
- 一键部署推理服务, 训练模型快速上线;
- 自动弹性伸缩,根据负载动态调整资源;
MTT KUAE 解决的关键问题
GPU 算力的大规模搭建
模块化设计,灵活部署
GPU 算力的线性
加速比优化
高速参数传递
网络的搭建
异构计算集群的
搭建和调度
算力服务支持系统
的设计与建设
云原生 GPU 集群调度
与弹性算力
计算和存储的可靠性
与安全性
高可靠性
自动问题诊断和恢复