MTT S4000

摩尔线程大模型智算加速卡 MTT S4000，采用第三代 MUSA 架构，配备了 Tensor 核心，单卡支持 48GB 显存和 768GB/s 的显存带宽。基于摩尔线程自研 MTLink 技术，MTT S4000 可以支持多卡互联，支持千卡集群基础设施建设，加速千亿参数大语言模型计算。同时，MTT S4000 提供先进的图形渲染能力、视频编解码能力和超高清 8K HDR 显示能力，助力 AI 计算、图形渲染、多媒体等综合应用场景的落地。尤为重要的是，基于摩尔线程自研的全功能 GPU MUSA 生态架构，MTT S4000 可以充分兼容现有软件生态，实现代码零成本迁移到 MUSA 平台。

大语言模型训练 / 微调

完善的训练平台、成熟 MUSA 软件生态、MTLink 卡间互连、高 MFU、线性加速比 91% 以上

大语言模型推理

完善的推理服务平台
高吞吐、低延时

KUAE 智算中心

软硬一体化解决方案
高可靠性、开箱即用

新一代 Tensor 核心

配备 Tensor 核心
加速 LLM 训练、微调和推理

第三代 MUSA 核心

全功能 MUSA 架构
充分兼容 CUDA 软件生态

图形渲染引擎

全面支持
Vulkan / DirectX / OpenGL / OpenGL ES

大语言模型训练 / 微调

大模型训练平台架构

摩尔线程大模型训练平台，完全兼容 CUDA 和 Pytorch 训练系统，支持 Megatron-LM、DeepSpeed、FSDP 和 Colossal-AI 等大模型分布式训练框架。具有全兼容、高性能、高灵活性和简单易用等特点。支持 GPT 系列、LLaMA 系列、GLM 系列等常见大模型的一键千卡训练。使用夸娥千卡智算集群进行大模型训练，线性加速比可达91%以上。支持 Pytorch 用户自主研发，支持模型训练全监控、自动拉起、断点续训等功能。

大模型训练 / 微调实例

MTT S4000 配备的 Tensor 核心算力、48GB 显存以及超高速卡间互连接口 MTLink，可以有效支持多种主流大语言模型训练，包括： LLaMA / GPT / ChatGLM / Qwen / Baichuan 等。通过摩尔线程大模型训练平台，支持单机 8 卡和多机多卡等多种分布式训练策略，加速从 60 亿参数到千亿参数大语言模型训练以及微调任务。

集群扩展效率

摩尔线程 KUAE 千卡模型训练平台，支持千亿参数模型的预训练、微调和推理，可实现 91% 的千卡集群线性加速比，摩尔线程从应用、分布式系统、训练框架、通讯库、固件、算子、硬件全方位进行优化。MTLink 是基于 MTT S4000 自研的卡间互连技术，支持 2 卡、4卡、8 卡 MTLink Bridge 互连，提升了卡间互连带宽，卡间互连 I/O 带宽达到 240GB/s，可加速集群从 64 卡到 1024 卡的训练速度以及多卡互连的线性度。

大模型推理服务平台

MTT S4000 配备的 Tensor 核心算力以及 48GB 显存，可以有效支持主流大语言模型推理，包括：LLaMA / ChatGLM / Qwen / Baichuan 等主流系列大模型。

KUAE ModelStudio

是面向大语言模型应用场景开发者，基于摩尔线程 GPU 以及官方提供的模型，进行训练、微调和推理的一体化应用平台。

MUSA Serving

是摩尔线程提供的一套推理服务软件，可提供高性能、分布式的推理服务，支持 LLM、图片/视频生成模型、传统 AI 模型等后端模型部署。

MT Transformer

是一套针对摩尔线程 GPU 的分布式推理加速框架，实现了对基于 Transformer 架构 LLM 模型的推理加速。

TensorX

是一套针对摩尔线程 GPU 的推理加速框架，实现了对图片/视频生成、传统 AI 模型的推理加速。

支持 KUAE 集群产品

MTT KUAE 是摩尔线程智算中心全栈解决方案，基于 MTT S4000 和双路 8 卡 GPU 服务器 MCCX D800 X1，以一体化交付的方式解决大规模 GPU 算力的建设和运营管理问题。

了解 MCCX D800 X1

了解 MTT KUAE

新一代 Tensor 核心

摩尔线程新一代 Tensor Core，助力大语言模型的训练、微调和推理计算。
MTT S4000 支持 FP64、FP32、TF32、FP16、BF16、INT8 等主流精度算力。

第三代 MUSA 软件栈

MUSA 是摩尔线程自研的元计算统一系统架构，包括指令集架构、MUSA 编程模型、驱动、运行时库、算子库、通讯库、数学库等。更为重要的是，通过摩尔线程自研的 MUSIFY 工具，可以实现 CUDA 程序平滑迁移至 MUSA。

全面支持主流图形 API

MTT S4000 支持 DirectX、Vulkan、OpenGL、OpenGL ES 等主流图形 API，可为数字孪生、云游戏、云渲染、数字内容创作等场景提供全平台通用图形渲染能力支持。还可配合大模型推理能力，实现 AIGC 等多模态业务场景的一站式解决方案。

查看支持的模型列表

MTT S4000

产品规格

FP32

支持

TF32 Tensor

支持

FP16 Tensor

支持

INT8 Tensor

支持

显存大小

48 GB

显存带宽

768 GB/s

多媒体编码

H.265, H.264, AV1 48 x 1080p30

多媒体解码

H.265, H.264, AV1, AVS2, VP9,… 96 x 1080p30

I/O 接口带宽

240 GB/s

总线接口

PCIe 5.0 x16

片间互联

MTLink

显示接口

4 x DisplayPort 1.4a

安全引擎

MUSA 安全引擎 2.0，支持 TEE 及多种加解密算法

虚拟化

硬件虚拟化，GPU 弹性切分，SR-IOV 隔离

最大功耗

450W

尺寸

266 mm * 112 mm * 39 mm