赤兔 Chitu 高性能大语言模型推理框架

赤兔Chitu 是一个专为大语言模型设计的高性能推理框架，强调效率、灵活性和可用性，支持多种主流大语言模型，包括 DeepSeek、LLaMA 系列、Mixtral 等。

Chitu 持续集成和开发最新的优化技术，包括 GPU 内核、并行策略和量化方法，以提升大语言模型的推理性能。

Chitu 支持流行的 NVIDIA GPU，特别关注各种硬件环境，包括旧款 GPU、非 NVIDIA GPU 和 CPU，目的是提供一个通用的框架，以适应多样化的部署需求。

性能评估

Chitu 在 NVIDIA A800 40GB 和 H20 96GB GPU 上进行了基准测试，并与 vLLM 进行了对比。以下是部分测试结果：

DeepSeek-R1-671B 在 A800(40GB) 集群上的部署

6 节点配置下，vLLM 0.7.3（BF16）因内存不足（OOM）无法运行，而 Chitu 0.1.0（BF16）的推理速度为 29.8 token/s。

3 节点配置下，Chitu 0.1.0（FP8）的推理速度为 22.7 token/s。

是否使用 CUDA Graph 对性能的影响

使用 CUDA Graph 时，Chitu 的性能显著提升。例如，在 6 节点配置下，Chitu 的推理速度从 6.85 token/s 提升到 8.5 token/s。

BF16 和 FP8 模型的性能对比

在 6 节点配置下，BF16 模型的推理速度随 batchsize 增加而提升，从 29.8 token/s（batchsize=1）到 181.4 token/s（batchsize=32）。

在 3 节点配置下，FP8 模型的推理速度从 22.7 token/s（batchsize=1）到 159.0 token/s（batchsize=32）。

Chitu 在性能优化和硬件兼容性上表现出色，支持大语言模型的高效推理和部署。