Z100 DCU 上 vLLM CUDA Graph 推理优化实践

我们在海光 Z100 DCU (gfx906) 上对 vLLM 推理框架的 CUDA Graph 功能进行了完整的测试验证。本文记录开启 CUDA Graph + torch.compile 的具体配置、性能数据和关键发现。测试环境项目详情服务器 scnet GPU 1x 海光 Z100 DCU (gfx906), 16 GiB Python 3.10.12 PyTorch 2.10.0+das.opt1.dtk2604 vLLM 0.18.1+das.3266200.dtk2604 Triton 3.4.…

2026年6月15日 0条评论 177点热度 0人点赞 MuWinds 阅读全文

环境信息项目详情 GPU 4× 海光 Z100 DCU，每张 16GB，合计 64GB GPU 架构 gfx906 (Vega 20 / GCN 5.1) DTK 版本 DTK 26.04 (DCC2602-0317) Python 3.10.12 PyTorch 2.10.0+das.opt1.dtk2604 vLLM 0.18.1+das.3266200.dtk2604 Triton 3.4.0（从源码编译，替换原 3.4.0+git1ef59765） transformers 5.5.0 flash_at…

2026年6月8日 0条评论 235点热度 0人点赞 MuWinds 阅读全文

最近社区都在说 Muon 用在 LLM 上的训练效果要比 AdamW 好很多，这里根据 Kimi 的论文（http://arxiv.org/abs/2502.16982）和仓库做了一些尝试。选用模型：minimind，Github 链接：https://github.com/jingyaogong/minimind 硬件：AutoDL自己租个 nv 的卡就行常见的 AdamW 优化器就是在 Adam 的基础上在梯度更新时加上梯度衰减，这样的话可以避免更新的时候产生更大的参数。而 Muon …

2026年5月31日 0条评论 149点热度 0人点赞 MuWinds 阅读全文

最近在翻一些距离算法并考虑他们的GPU并行化实现，记录一下。这里从图片转成向量开始，利用opencv配合torchvision，转成tensor还是比较容易的。这里的to_tensor的大致实现如下：从熟悉的欧氏距离开始，一个经典的欧氏距离就是两点之间计算，公式如下：在几何距离和数学建模常见的聚类（例如K-Means）计算相对常用。对于两个点之间的差异，还有一个常用于网格路径优化的距离就是曼哈顿距离，本身的定义是两个坐标在坐标轴上的绝对值之和。 pytorch的快速实现：此时就得引入范数的概念了，因为p…

2025年10月7日 0条评论 923点热度 1人点赞 MuWinds 阅读全文

无论是打数模还是单纯的搞机器学习，都需要对最后训练结果进行分析，这时候常用的四个指标：准确率、召回率、精确率、F1分数。作为指标，一定会涉及几个方面假设： TP (预测正确)：30个FN (漏检)：10个FP (误认为是)：15个TN (预测正确不是)：45个这四个指标可以形成一个混淆矩阵： 1️⃣准确率 (Accuracy) 所有预测结果中，预测正确的比例最直观的指标，但在数据不平衡时表现不佳 2️⃣精确率 (Precision) 模型所有预测为“苹果”的结果中，有多少是真正的苹果公式：是“预测的准不准”…

2025年9月28日 0条评论 1011点热度 0人点赞 MuWinds 阅读全文

PID控制算法，可以将其看作是一个 “不断尝试缩小目标与现状之间差距”的智能调节器。它广泛应用于工业控制（如温度、压力、流量控制）、机器人、自动驾驶、无人机稳定系统等需要精确调节物理量的场景。其核心思想很简单：测量当前状态（Process Value, PV），与期望的目标状态（Setpoint, SP）进行比较得到误差（Error, e），然后根据误差的“现在大小”、“历史积累”和“未来变化趋势”三个方面来计算一个控制量（Control Output, u），驱动执行器去减小误差，使过程变量尽快、平…

2025年6月29日 0条评论 1216点热度 1人点赞 MuWinds 阅读全文

一、基本概念最优化：首先是一种理念，其次才是一种方法，它所追求的是一种“至善”之道，一种追求卓越的精神。例子：小明同学，烧一壶水要8分钟，灌开水要1分钟，取牛奶和报纸要5分钟，整理书包要6分钟，为了尽快做完这些事，怎样安排才能使时间最少？最少需要几分钟？最优化问题的数学模型的一般形式为： \begin{align*} &\text{opt } z = f(x) \\ &\text{s.t. } h_i(x) = 0, \quad i = 1, \cdots, l \\ &\qquad g…

2025年6月28日 0条评论 1433点热度 0人点赞 MuWinds 阅读全文

线性回归模型，它是统计学和机器学习中最基础、最核心的预测模型之一，主要用于解决回归问题，即预测一个连续的数值型输出。核心思想：建立“输入”与“输出”之间的线性关系线性回归的核心目标非常直观：假设并建模目标变量 y（因变量、输出）与一个或多个预测变量 x（自变量、特征、输入）之间存在的线性关系。它试图找到一条（简单线性回归）或一个平面/超平面（多元线性回归）来“最佳”拟合数据点，从而当我们知道 x 的值时，就可以基于这条线/平面预测 …

2025年6月17日 0条评论 1080点热度 0人点赞 MuWinds 阅读全文

KMP算法（Knuth-Morris-Pratt）是一种高效的字符串匹配算法，它通过避免回溯主串指针来实现O(n+m)的时间复杂度。要深入理解KMP算法，需要掌握其核心思想——部分匹配表（Pi数组）和匹配过程中的智能回退机制。 1. 核心思想：利用已匹配信息避免重复比较传统暴力匹配算法在每次失败时需要回溯主串指针，导致大量重复比较。KMP算法通过预处理模式串，构建一个"部分匹配表"（Pi数组），利用这个表在匹配失败时只回退模式串指针，主串指针永不回溯。 2. 部分匹配表（Pi数组） Pi数组存储了…

2025年6月15日 0条评论 1253点热度 0人点赞 MuWinds 阅读全文

一、定义与核心目的二、适用场景三、测试范围设计原则四、执行逻辑与流程五、与企业级测试策略的关联测试类型目标执行频率深度 Smoke Test 验证核心功能可用性每次构建/部署浅层 Regression Test 确保修改未破坏现有功能主要版本发布前中层 Performance Test 评估系统负载能力季度/重大变更后深层六、典型案例分析场景：银行核心系统版本升级工具链示例：七、常见误区与避坑指南八、进阶实…

2025年5月27日 0条评论 1870点热度 0人点赞 MuWinds 阅读全文

Z100 DCU 上 vLLM CUDA Graph 推理优化实践

海光 Z100 DCU 适配 vLLM 运行 Qwen3.5-27B 完整总结

训练小参数LLM将优化器从AdamW换成Muon的尝试

各种距离算法小记

Accuracy、Recall、Precission、F1 Score分别是什么？

理解PID控制算法

数学建模笔记-最优化问题

线性回归&Logistic Model

KMP算法

Smoke Test冒烟测试理解