<aside>

Reference

https://www.deepspeed.ai/tutorials/flops-profiler/

https://docs.sglang.io/advanced_features/speculative_decoding.html

https://github.com/thunlp/FR-Spec/tree/main?tab=readme-ov-file#prepare-fr-spec-vocabulary-subset

</aside>

FR-Spec

核心动机与痛点

推测解码(Draft-then-Verify)是加速大模型自回归生成的标准范式。为了追求极低的延迟,SOTA 的 Draft 模型(如 EAGLE-2)通常被压缩到极致,仅保留单层 Transformer 和一个语言模型头(LM Head)。

然而,新一代大模型的词表体积正在急剧膨胀(例如 Llama-3 拥有 128k 词表,Qwen-2.5 高达 152k)。在这种规模下,Draft 模型中 LM Head 的线性投影层成为了新的计算瓶颈。对十几万维的词表计算概率分布,严重拖慢了 Draft 阶段的速度,吃掉了推测解码本该带来的部分效率红利。

针对语料库级别的词频分析,结果显示绝大多数词元在语料库中几乎不出现,呈现出词汇层面的稀疏分布特征。利用这一稀疏特征,让草稿模型专注于生成高概率词元,而出现概率极低的词元则交由大语言模型处理。


FR-Spec 核心机制

FR-Spec核心思想是利用自然语言 Token 词频分布的“长尾效应”(Zipf's Law)。

image.png

image.png


实验结果与性能表现

image.png

论文尝试了两个数据集用于词元频率统计:(1)SlimPajama-627B(Soboleva 等人,2023)。从中抽取了10亿个词元的子集,对该子集进行词元化处理耗时不到30分钟。(2)ShareGPT(ShareGPT,2023)。ShareGPT 是 EAGLE-2 的训练数据,使用了整个数据集,该数据集包含1.34亿个词元。

配置特定领域下的FR,能进一步提升加速比。

ToDo