
解密Ornith-1.0-9B-MTP-GGUF为什么它是llama.cpp speculative decoding的最佳选择【免费下载链接】Ornith-1.0-9B-MTP-GGUF项目地址: https://ai.gitcode.com/hf_mirrors/protoLabsAI/Ornith-1.0-9B-MTP-GGUFOrnith-1.0-9B-MTP-GGUF是基于deepreinforce-ai/Ornith-1.0-9B构建的GGUF格式模型特别集成了KL蒸馏的MTPMulti-Token Prediction预测头为llama.cpp提供了开箱即用的无损多令牌自推测解码能力无需单独的草稿模型。什么是MTP技术为什么它如此重要 MTPMulti-Token Prediction即多令牌预测技术是llama.cpp中实现推测解码的关键。它允许模型一次预测多个令牌然后通过主模型进行验证从而显著提高解码速度。与传统的单令牌预测相比MTP技术在保持输出质量的同时能带来1.4-1.7倍的解码速度提升。Ornith-1.0-9B-MTP-GGUF的独特之处在于将MTP头直接集成到模型文件中使得用户无需额外配置草稿模型即可享受推测解码的加速效果。这种一体化设计大大简化了部署流程同时确保了最佳的性能表现。多种量化版本满足不同需求 Ornith-1.0-9B-MTP-GGUF提供了多种量化版本以适应不同的硬件配置和性能需求文件格式大小用途ornith-9b-mtp-kl-Q8_0.gguf捆绑主体头部9.8 GB最高质量/最大相对加速ornith-9b-mtp-kl-Q6_K.gguf捆绑7.6 GB接近无损量化ornith-9b-mtp-kl-Q5_K_M.gguf捆绑6.6 GB平衡选择ornith-9b-mtp-kl-Q4_K_M.gguf捆绑5.8 GB最快的k-quantornith-9b-mtp-kl-IQ4_XS.gguf捆绑imatrix5.5 GB低显存接近Q4质量ornith-9b-mtp-kl-IQ3_M.gguf捆绑imatrix4.7 GB更低显存ornith-9b-mtp-kl-IQ2_M.gguf捆绑imatrix3.9 GB极低显存约5 GB即可运行ornith-9b-mtp-kl-BF16.gguf捆绑全精度18.4 GB母版可从此重新量化mtp-ornith-9b-mtp-kl-Q8_0.gguf独立草稿头2.4 GB通过--model-draft附加到基础GGUF特别值得一提的是IQ量化版本它们使用重要性矩阵构建在低比特率下仍能保持高质量。MTP的nextn头被固定为Q8_0确保即使在2比特主体上推测解码的接受率也能保持在IQ2_M-IQ4_XS上验证约为0.81-0.84与k-quant相当。简单三步快速开始使用 ♂️快速入门流程图1. 安装llama.cpp确保您的llama.cpp版本≥b9616以支持Qwen3.5架构和--spec-type draft-mtp选项。git clone https://gitcode.com/hf_mirrors/protoLabsAI/Ornith-1.0-9B-MTP-GGUF cd Ornith-1.0-9B-MTP-GGUF # 安装llama.cpp的步骤请参考其官方文档2. 下载模型文件根据您的硬件配置选择合适的模型文件例如Q4_K_M版本# 假设您已经在模型目录中 # 这里可以添加下载特定模型文件的命令3. 运行模型Ornith-1.0-9B-MTP-GGUF支持两种运行模式捆绑模式推荐- 头文件内置在模型中llama-server --model ornith-9b-mtp-kl-Q4_K_M.gguf \ --n-gpu-layers 99 --ctx-size 8192 --flash-attn on --jinja \ --spec-type draft-mtp --spec-draft-n-max 3独立草稿模式- 将小头与任何基础Ornith-9B GGUF配对llama-server --model ornith-1.0-9b-Q4_K_M.gguf \ --model-draft mtp-ornith-9b-mtp-kl-Q8_0.gguf \ --spec-type draft-mtp --spec-draft-n-max 3 \ --n-gpu-layers 99 --ctx-size 8192 --flash-attn on --jinja--spec-draft-n-max是草稿深度2最大化接受率3最大化吞吐量4开始下降。可根据工作负载调整。性能基准测试速度提升显著 在RTX A6000上进行的基准测试上下文8192flash-attngreedy6个提示代码通用混合显示n-max扫描Q8_0配置解码tok/s接受率加速比基础无MTP71.0—1.00×MTP n-max 2118.30.7661.67×MTP n-max 3122.60.6511.73×MTP n-max 4120.80.5651.70×不同量化版本对比MTP n-max 3量化基础tok/sMTP tok/s加速比接受率Q4_K_M105.4145.31.38×0.659Q8_071.0122.61.73×0.651接受率是量化稳定的n-max 3时约为0.65即使使用Q4头。Q4_K_M在绝对速度上最快MTP的相对增益随着精度的提高而增加Q8的带宽受限基线从并行验证中获益更多。无损是什么意思 MTP推测解码是分布无损的每个草拟的令牌都经过目标验证因此输出分布保持不变。但在greedy/temp 0下它不是比特级相同的——批量验证路径以与顺序解码不同的浮点缩减顺序计算目标logits这可能会翻转greedy argmax并分叉文本。这两种输出都同样有效且质量相同这是预期的llama.cpp行为不是这些权重的缺陷。常见问题解答 ❓错误wrong number of tensors expected 442 got 427或者对于较小的量化版本是got 426——差距是15个mtp.*头张量。如果您直接在基础deepreinforce-ai/Ornith-1.0-9B上运行convert_hf_to_gguf.py而没有先嫁接头就会发生这种情况。基础模型在其config.jsontext_config中保留mtp_num_hidden_layers: 1但不包含任何mtp.*权重——因此转换器将block_count 33/nextn_predict_layers 1写入GGUF元数据声明blk.32MTP层同时保留这些15个张量为空。然后llama.cpp期望442个张量但只找到427个→加载失败。修复在转换之前先将头嫁接到主体中上面的步骤1然后不带--mtp标志进行转换。请注意15个头张量中只有4个被命名为blk.32.nextn.*eh_projenormhnormshared_head_norm其他11个作为普通的blk.32.*层张量attn_*ffn_*规范存在——因此搜索nextn只能看到4个但头是完整的。不想嫁接您根本不必构建捆绑文件——使用--model-draft mtp-ornith-9b-mtp-kl-Q8_0.gguf --spec-type draft-mtp运行基础GGUF。功能相同。来源和许可证 基础模型deepreinforce-ai/Ornith-1.0-9BMIT——一个Qwen3.5-9B混合体线性注意力全注意力微调模型。MTP头protoLabsAI/Ornith-1.0-9B-MTPMIT——针对Ornith自身的隐藏状态进行KL蒸馏。这些GGUF是两者的衍生产品MIT许可证。由protoLabs.studio构建。Ornith-1.0-9B-MTP-GGUF通过创新的MTP技术和优化的量化方案为llama.cpp用户提供了卓越的推测解码体验。无论您是开发者还是研究人员它都能帮助您在保持模型质量的同时显著提升推理速度。立即尝试体验下一代文本生成技术的魅力【免费下载链接】Ornith-1.0-9B-MTP-GGUF项目地址: https://ai.gitcode.com/hf_mirrors/protoLabsAI/Ornith-1.0-9B-MTP-GGUF创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考