赤兔Chitu 是一个专为大语言模型设计的高性能推理框架,强调效率、灵活性和可用性,支持多种主流大语言模型,包括 DeepSeek、LLaMA 系列、Mixtral 等。
Chitu 持续集成和开发最新的优化技术,包括 GPU 内核、并行策略和量化方法,以提升大语言模型的推理性能。
Chitu 支持流行的 NVIDIA GPU,特别关注各种硬件环境,包括旧款 GPU、非 NVIDIA GPU 和 CPU,目的是提供一个通用的框架,以适应多样化的部署需求。
性能评估
Chitu 在 NVIDIA A800 40GB 和 H20 96GB GPU 上进行了基准测试,并与 vLLM 进行了对比。以下是部分测试结果:
DeepSeek-R1-671B 在 A800(40GB) 集群上的部署
6 节点配置下,vLLM 0.7.3(BF16)因内存不足(OOM)无法运行,而 Chitu 0.1.0(BF16)的推理速度为 29.8 token/s。
3 节点配置下,Chitu 0.1.0(FP8)的推理速度为 22.7 token/s。
是否使用 CUDA Graph 对性能的影响
使用 CUDA Graph 时,Chitu 的性能显著提升。例如,在 6 节点配置下,Chitu 的推理速度从 6.85 token/s 提升到 8.5 token/s。
BF16 和 FP8 模型的性能对比
在 6 节点配置下,BF16 模型的推理速度随 batchsize 增加而提升,从 29.8 token/s(batchsize=1)到 181.4 token/s(batchsize=32)。
在 3 节点配置下,FP8 模型的推理速度从 22.7 token/s(batchsize=1)到 159.0 token/s(batchsize=32)。
Chitu 在性能优化和硬件兼容性上表现出色,支持大语言模型的高效推理和部署。