Notes | Luca

Latest

基于 vLLM main 分支，按入口、配置、引擎、调度、KV cache、Worker、模型适配、Attention backend 和底层 kernel 拆解这个 LLM serving 工程。

从 LLM serving 的角度理解 vLLM 如何通过调度、batching、KV cache 管理和执行引擎把单请求生成变成高并发在线服务。

梳理 Qwen3-VL 的模型结构、视觉特征注入、位置编码和训练流程。