KUAE 云原生套件(KUAE Cloud Native Toolkits)全面支持容器和 Kubernetes 负载使用摩尔线程 GPU 进行 AI 计算、图形渲染、科学计算,实现自动化部署、弹性资源切分与智能监控,显著提升资源利用率和降低运维复杂度。

简化 GPU 环境搭建
自动化设备发现与映射,驱动库注入与兼容

GPU 弹性计算
支持 GPU 资源精细化切分,动态分配和调度资源

Kubernetes 万卡集群管理
支持 K8s 进行 GPU 任务的管理调度,规模可达万卡

高效运维监控
自动暴露 GPU 指标接口,无缝对接 Prometheus
KUAE 云原生套件
通过分层整合容器、Kubernetes 生态与摩尔线程 GPU 组件,实现从底层裸金属资源到上层容器化应用的统一调度与管理。
先进技术特性 全面加速虚拟机

一键式 GPU 环境部署
云原生套件提供自动化 GPU 环境搭建能力,支持设备发现、驱动库注入及兼容性适配的一键式部署。通过集成容器运行时(如 Docker、containerd)和 Kubernetes 设备插件,系统可自动识别 GPU 硬件并完成驱动、MUSA 库等依赖的注入,无需手动配置。同时,该方案兼容主流国产化 CPU 及操作系统,确保异构环境下 GPU 资源的即插即用,大幅降低运维复杂度。

弹性 GPU 资源切分
基于 sGPU 技术,摩尔线程支持细粒度动态切分 GPU 资源。相比传统 GPU 虚拟化方案,弹性 GPU 可精细化分配资源,支持运行时动态调整,显著提升 AI 推理等场景的集群利用率。结合 K8s 调度策略,用户可依据业务需求为容器分配小数倍 GPU 算力,避免资源浪费。

全栈 GPU 容器化支持
云原生套件提供完整的 GPU 容器化解决方案,支持 Docker、containerd 等主流容器运行时,并深度集成 Kubernetes 生态。通过标准化的容器接口,用户可直接在容器内调用 GPU 的计算、编解码及显存资源,无需修改业务代码即可实现 GPU 资源的动态分配与管理。该特性兼容 K8s 设备插件框架,支持多容器共享 GPU 资源,显著提升资源利用率,适用于 AI 训练、云渲染等高并发场景。

智能 GPU 监控与指标暴露
内置高性能 GPU 指标采集模块,可实时监控算力利用率、显存占用、温度等关键指标,并通过标准 Prometheus 接口暴露数据,无缝集成企业级监控系统(如 Grafana)。用户可快速定位 GPU 瓶颈或硬件故障。此外,该特性支持自定义指标阈值与自动化扩缩容策略,为 AI 训练、云渲染等场景提供精细化运维保障。