FR-Spec

核心动机与痛点

推测解码（Draft-then-Verify）是加速大模型自回归生成的标准范式。为了追求极低的延迟，SOTA 的 Draft 模型（如 EAGLE-2）通常被压缩到极致，仅保留单层 Transformer 和一个语言模型头（LM Head）。

然而，新一代大模型的词表体积正在急剧膨胀（例如 Llama-3 拥有 128k 词表，Qwen-2.5 高达 152k）。在这种规模下，Draft 模型中 LM Head 的线性投影层成为了新的计算瓶颈。对十几万维的词表计算概率分布，严重拖慢了 Draft 阶段的速度，吃掉了推测解码本该带来的部分效率红利。

针对语料库级别的词频分析，结果显示绝大多数词元在语料库中几乎不出现，呈现出词汇层面的稀疏分布特征。利用这一稀疏特征，让草稿模型专注于生成高概率词元，而出现概率极低的词元则交由大语言模型处理。

FR-Spec 核心机制

FR-Spec核心思想是利用自然语言 Token 词频分布的“长尾效应”（Zipf's Law）。

词频排序截断 (Vocabulary Space Compression) FR-Spec 并没有让 Draft 模型在完整的十万级词表上进行矩阵乘法，而是利用预训练语料（如 SlimPajama）提前统计出 Token 的全局出现频率。
高频子集搜索 在 Draft 阶段，模型将候选 Token 的搜索范围硬性限制在一个按频率优先排序的高频 Token 子集内，直接砍掉了长尾低频词的计算。
严格的输出等价性 (Lossless Equivalence) FR-Spec 最精妙的一点在于它修改了推测解码的接受策略（Acceptance Criterion）。即使 Draft 模型仅输出部分词表的概率，该机制依然能在数学上保证最终生成的分布与原始 Target 模型完全一致（无损加速）。
即插即用 (Training-free) 作为一种 Post-training 的优化策略，它不需要花费算力去重新训练 Draft 模型，只需配置好词表索引即可生效。

实验结果与性能表现

论文尝试了两个数据集用于词元频率统计：（1）SlimPajama-627B（Soboleva 等人，2023）。从中抽取了10亿个词元的子集，对该子集进行词元化处理耗时不到30分钟。（2）ShareGPT（ShareGPT，2023）。ShareGPT 是 EAGLE-2 的训练数据，使用了整个数据集，该数据集包含1.34亿个词元。

配置特定领域下的FR，能进一步提升加速比。

ToDo

[ ] 在SGLang下测试EAGLE w/ 和 w/o FR的加速比情况。