<aside>
Reference
https://www.deepspeed.ai/tutorials/flops-profiler/
https://docs.sglang.io/advanced_features/speculative_decoding.html
https://github.com/thunlp/FR-Spec/tree/main?tab=readme-ov-file#prepare-fr-spec-vocabulary-subset
</aside>
推测解码(Draft-then-Verify)是加速大模型自回归生成的标准范式。为了追求极低的延迟,SOTA 的 Draft 模型(如 EAGLE-2)通常被压缩到极致,仅保留单层 Transformer 和一个语言模型头(LM Head)。
然而,新一代大模型的词表体积正在急剧膨胀(例如 Llama-3 拥有 128k 词表,Qwen-2.5 高达 152k)。在这种规模下,Draft 模型中 LM Head 的线性投影层成为了新的计算瓶颈。对十几万维的词表计算概率分布,严重拖慢了 Draft 阶段的速度,吃掉了推测解码本该带来的部分效率红利。
针对语料库级别的词频分析,结果显示绝大多数词元在语料库中几乎不出现,呈现出词汇层面的稀疏分布特征。利用这一稀疏特征,让草稿模型专注于生成高概率词元,而出现概率极低的词元则交由大语言模型处理。
FR-Spec核心思想是利用自然语言 Token 词频分布的“长尾效应”(Zipf's Law)。



论文尝试了两个数据集用于词元频率统计:(1)SlimPajama-627B(Soboleva 等人,2023)。从中抽取了10亿个词元的子集,对该子集进行词元化处理耗时不到30分钟。(2)ShareGPT(ShareGPT,2023)。ShareGPT 是 EAGLE-2 的训练数据,使用了整个数据集,该数据集包含1.34亿个词元。
配置特定领域下的FR,能进一步提升加速比。