Transformer 中的高效推理:推理时注意力压缩

发布时间:2026/6/21 0:09:58
Transformer 中的高效推理:推理时注意力压缩 Transformer 中的高效推理推理时注意力压缩作者: Hao Sun, Yuxuan Li, Wei Lu来源: https://arxiv.org/html/2606.20529v1摘要大型语言模型LLMs的部署成本高昂主要受限于推理阶段的内存与计算开销。本文提出了一种推理时注意力压缩方法旨在不改变模型架构的前提下通过压缩推理阶段的注意力机制来降低内存使用、减少计算量并加速推理。核心概念1. 推理时注意力压缩在推理阶段模型对每个 token 都会生成注意力权重并计算上下文表示这导致了大量的内存读写和计算开销。压缩注意力机制可以显著减少这些开销同时保持模型性能。2. 关键创新动态注意力压缩根据输入内容动态调整压缩比例而不是固定压缩率轻量级压缩头仅压缩推理阶段的注意力不改变模型架构无需重训练在训练好的模型上直接应用无需重新训练实验步骤实验设置# 环境准备pipinstalltransformers pipinstalltorch# 下载预训练模型gitclone https://github.com/huggingface/transformerscdtransformers python-mpytest tests/test_attention_compression.py测试流程基准测试运行标准推理流程记录基础性能指标压缩推理应用注意力压缩记录性能变化对比分析比较压缩前后的内存使用、推理速度和准确率性能结果指标原始模型压缩模型变化内存使用100%65%-35%推理速度1x1.4x40%准确率100%98.5%-1.5%脚本与资源核心脚本fromtransformersimportAttentionCompression# 初始化压缩器compressorAttentionCompression(ratio0.7)# 应用压缩到模型compressed_modelcompressor.compress(model)# 运行推理outputcompressed_model.generate(input_ids)资源下载预训练模型: https://huggingface.co/models/attention-compressed-model代码仓库: https://github.com/attention-compression/数据集: https://github.com/attention-compression/dataset讨论优势内存效率高减少35%的内存使用推理速度快提升40%的推理速度兼容性强适用于多种 Transformer 架构局限性轻微精度损失约1.5%的准确率下降压缩率依赖需要根据任务调整压缩比例结论推理时注意力压缩是一种有效降低 LLMs 部署成本的方法。通过在推理阶段压缩注意力机制可以显著减少内存使用并加速推理同时保持较高的模型性能。这种方法为大规模语言模型的部署提供了新的思路。参考文献Sun, H., Li, Y. (2026). Efficient Inference in Transformers: Attention Compression at Inference Time.arXiv preprint.Vaswani, A., et al. (2017). Attention Is All You Need.NeurIPS.Tay, F., et al. (2020). Efficient Transformers: A Survey.arXiv.