KUAE 云原生套件

KUAE 云原生套件

立即下载查看文档

KUAE 云原生套件(KUAE Cloud Native Toolkits)全面支持容器和 Kubernetes 负载使用摩尔线程 GPU 进行 AI 计算、图形渲染、科学计算,​实现自动化部署、弹性资源切分与智能监控,显著提升资源利用率和降低运维复杂度​​。

简化 GPU 环境搭建

自动化设备发现与映射,驱动库注入与兼容

GPU 弹性计算

支持 GPU 资源精细化切分,动态分配和调度资源

Kubernetes 万卡集群管理

支持 K8s 进行 GPU 任务的管理调度,规模可达万卡

高效运维监控

自动暴露 GPU 指标接口,无缝对接 Prometheus

KUAE 云原生套件

通过​分层整合容器、Kubernetes 生态与摩尔线程 GPU 组件​​,实现从底层裸金属资源到上层容器化应用的统一调度与管理。

先进技术特性 全面加速虚拟机


一键式 GPU 环境部署​​

一键式 GPU 环境部署​​

云原生套件提供自动化 GPU 环境搭建能力,支持设备发现、驱动库注入及兼容性适配的一键式部署。通过集成容器运行时(如 Docker、containerd)和 Kubernetes 设备插件,系统可自动识别 GPU 硬件并完成驱动、MUSA 库等依赖的注入,无需手动配置。同时,该方案兼容主流国产化 CPU 及操作系统,确保异构环境下 GPU 资源的即插即用,大幅降低运维复杂度。
弹性 GPU 资源切分​

弹性 GPU 资源切分​

基于 sGPU 技术,摩尔线程支持细粒度动态切分 GPU 资源。相比传统 GPU 虚拟化方案,弹性 GPU 可精细化分配资源,支持运行时动态调整,显著提升 AI 推理等场景的集群利用率。结合 K8s 调度策略,用户可依据业务需求为容器分配小数倍 GPU 算力,避免资源浪费。
全栈 GPU 容器化支持

全栈 GPU 容器化支持

云原生套件提供完整的 GPU 容器化解决方案,支持 Docker、containerd 等主流容器运行时,并深度集成 Kubernetes 生态。通过标准化的容器接口,用户可直接在容器内调用 GPU 的计算、编解码及显存资源,无需修改业务代码即可实现 GPU 资源的动态分配与管理。该特性兼容 K8s 设备插件框架,支持多容器共享 GPU 资源,显著提升资源利用率,适用于 AI 训练、云渲染等高并发场景。
智能 GPU 监控与指标暴露​

智能 GPU 监控与指标暴露​

内置高性能 GPU 指标采集模块,可实时监控算力利用率、显存占用、温度等关键指标,并通过标准 Prometheus 接口暴露数据,无缝集成企业级监控系统(如 Grafana)。用户可快速定位 GPU 瓶颈或硬件故障。此外,该特性支持自定义指标阈值与自动化扩缩容策略,为 AI 训练、云渲染等场景提供精细化运维保障。

相关产品

  • MCCX D800 X1

    AI 大模型训推一体机

    基于为大模型训练集群、推理效率及性价比优化的服务器硬件系统,且支持兼容主流软硬件生态,以高性能硬件配置解决大模型训推需求。

    查看详情
  • MTT KUAE

    摩尔线程智算中心全栈解决方案

    基于大模型智算加速卡和 AI 大模型训推一体机,以一体化交付的方式解决大规模 GPU 算力的建设和运营管理问题。

    查看详情
  • MCCX D800 X1
  • MTT KUAE
phone phone
人工
客服
400-667-5666

周一至周日,9:00-21:00