在 2026 年全国大学生计算机系统能力大赛——智能计算创新设计赛中,我们在海光 Z100 DCU (gfx906) 上对 vLLM 推理框架的 CUDA Graph 功能进行了完整的测试验证。本文记录开启 CUDA Graph + torch.compile 的具体配置、性能数据和关键发现。 测试环境 项目 详情 服务器 scnet GPU 1x 海光 Z100 DCU (gfx906), 16 GiB Python 3.10.12 PyTorch 2.10.0+das.opt1.dtk2604 vLLM 0.1…