
这项由快手集团Keye团队主导开发的研究成果以技术报告的形式于2026年6月发布论文编号为arXiv:2606.10651感兴趣的读者可以通过该编号查阅完整原文。这份报告详细记录了Kwai Keye-VL-2.0-30B-A3B这一开源多模态大模型的完整技术细节模型权重已公开发布在Hugging Face平台上。你有没有试过让一个AI助手帮你总结一部两小时的纪录片然后它告诉你它只能看前几分钟这种令人抓狂的局限性正是当前几乎所有视频理解AI都面临的核心困境。快手的研究团队在这份报告里详细讲述了他们是如何打造出一款能够真正看完整部影片、并且还能精确定位其中关键片段的AI系统。从表面上看Keye-VL-2.0是一个多模态大模型——这个词听起来很高深本质上就是一个既能看图、看视频又能理解文字、写代码、操作工具的AI助手。但它真正的特别之处在于它解决了两个长期困扰这类系统的根本性难题一是如何在不把计算机搞崩溃的前提下处理超长视频二是如何在教会AI各种新技能的同时不让它忘掉原本已经掌握的能力。贯穿整篇报告的核心比喻可以用一位全科医生来理解。一名优秀的全科医生不仅要有宽广的知识面还要能在海量的病历资料中迅速定位到关键信息同时在学习新专科技能时不能把原来学过的基础医学知识全部遗忘。Keye-VL-2.0的设计目标正是成为视觉世界里的这样一位全科医生。一、为什么处理长视频这么难——以及快手团队找到的突破口要理解这个问题先来想象一下人类读书的过程。读一本薄薄的小册子很轻松但如果要你一口气把一套三十卷的百科全书都放进脑子里同时记住你大概会直接宕机。AI处理视频面临的挑战比这更极端视频是由每秒数十张图片组成的一部两小时的电影即便以较低的采样频率截取帧也会产生数以万计的图片需要分析。传统的AI注意力机制可以理解为AI眼神聚焦的方式是让每一个信息片段都与其他所有片段互相对照这会导致计算量随着内容长度呈平方级增长——内容翻倍计算量变成四倍内容翻十倍计算量变成一百倍。处理一小时视频的代价会让绝大多数计算资源望而却步。快手团队的解法是将DeepSeek公司开发的一种叫做稀疏注意力DSADeepSeek Sparse Attention的技术首次移植到多模态视觉理解场景中。这是整个系统最核心的技术创新之一。稀疏注意力的原理类比到人类阅读就很好理解了。当你精读一篇长文章时你不会让眼睛逐字盯着每一个字与文章里所有其他字进行比对。你会先快速扫描找到关键句子然后在关键内容之间建立联系。稀疏注意力做的事情与此类似它首先用一个轻量级的侦察员模块论文中称为Lightning Indexer闪电索引器快速扫描所有信息计算出哪些位置的内容最值得重点关注然后只在这些精选位置之间进行深度的注意力计算。具体来说这个侦察员模块采用了一种叫做MQA多查询注意力的共享设计——它只用一组眼睛去扫描全文而不是为每个信息片段都配一双独立的眼睛大幅节省了计算资源。扫描完成后系统会为每个当前处理的信息点从整个上下文中选出最相关的2048个关键伙伴进行深度关注而不是与所有数十万个内容点都进行对照。这样一来原本O(L?)的计算复杂度就降低到了O(Lk)其中L是总内容长度k是固定的2048且k远远小于L。这里还有一个巧妙的工程细节快手团队的模型底座采用的是GQA分组查询注意力架构而现有的稀疏注意力系统大多是为DeepSeek自己的MLA架构设计的两者并不兼容。快手团队为此专门开发了GQA与DSA的适配方案这在业界是首次。为了让稀疏注意力学得稳、用得好训练过程分成两个阶段。第一阶段叫密集热身先保持原有的全量注意力不变专门训练那个侦察员模块让它学会如何识别哪些位置是真正重要的。这个阶段用了约20亿个多模态训练样本通过让侦察员的判断尽量贴近全量注意力的分布用KL散度这一数学指标来衡量差距并最小化它来完成训练。第二阶段叫稀疏适应把整个模型的参数全部解冻切换到真正的稀疏模式让全局模型学会依赖这个侦察员来工作同时继续用下一个词预测的标准语言模型目标进行训练。最终效果相当可观在128K上下文长度下与标准全量注意力相比预填充处理输入内容的计算代价只有原来的32%解码生成输出内容的代价只有原来的20%。这使得处理256K长度的超长视频上下文变得实际可行。二、模型的身体构造——四大核心组件如何协作Keye-VL-2.0的整体架构可以比作一套高度专业化的信息处理流水线由四个核心部件组成。第一个部件是视觉编码器ViT负责把图片和视频帧翻译成AI能理解的数字信息。快手团队为它设计了原生分辨率编码能力。以往的视觉AI通常有一个固定的视力范围所有输入的图片都必须先缩放到同一个标准尺寸这就像强迫一个视力正常的人永远戴着度数不对的眼镜看世界——很多细节会因为缩放而丢失或变形。Keye-VL-2.0的视觉编码器可以直接处理任意分辨率和任意宽高比的图片不需要裁剪或拼接保留原始图片中的所有信息。这对于阅读文件、识别图表中的小字、以及理解视频中的场景细节来说至关重要。为了支持这种灵活性编码器引入了两项技术改进。其一是自适应位置编码原始的位置信息是固定的通过插值方法让它能够随着输入图片的大小自动缩放。其二是2D旋转位置编码2D RoPE这种编码方式能更好地捕捉图片中的二维空间关系尤其在处理超高分辨率图片时表现更稳定。此外训练时还采用了序列打包技术把不同尺寸的图片拼在一起处理避免计算资源的浪费。视觉编码器本身在五千亿个图文对上预训练且使用了与下游多模态任务相同的数据分布减少了预训练和实际使用之间的分布鸿沟。第二个部件是语言解码器LLM也就是负责理解和生成文字的核心大脑采用了阿里巴巴Qwen团队的Qwen3-30B-A3B-Thinking模型作为底座。这里有个数字值得关注模型参数总量是300亿但实际运行时只激活30亿个参数。这是因为底座采用了MoE混合专家Mixture of Experts架构——把模型想象成一个由许多专科医生组成的团队每次遇到问题只召唤最相关的几位专家来会诊而不是让所有医生都全程参与。这样既保留了大模型的知识容量又大幅降低了运行成本。第三个部件是MLP投影器扮演的是翻译官角色专门负责把视觉编码器输出的图像语言转换成语言解码器能听懂的文字语言使两个模块之间能顺畅沟通。第四个部件就是前文详细介绍的稀疏注意力模块为整个系统提供处理超长上下文的能力支撑。三、视频理解的统一策略——如何让AI理解时间在具体处理视频时快手团队采用了一套统一的编码策略背后有几个值得细说的设计思路。对于图片系统直接按照原始分辨率编码无需任何裁剪或缩放处理视觉信息的完整度得到最大保留。对于视频团队选择了一种看起来简单但实际非常有效的做法把每一帧视频都当作一张独立的高分辨率图片来处理然后在每帧图片的视觉信息前面额外加上一个自然语言格式的时间戳文字说明。比如第00:02:35帧这样的标注。这种设计的巧妙之处在于时间信息被转化为了语言模型最擅长处理的文字格式让模型在做时间定位和跨帧推理时可以直接借助其强大的语言理解能力而不需要额外设计专门的时序处理模块。针对不同长度视频的处理团队还设计了自适应像素预算机制。短视频的信息相对密度高但重复性也高长视频需要保留更多关键证据。因此系统会根据视频时长动态调整每帧分配的像素数量256秒以内的短视频只用完整预算的12.5%512秒以内用25%1024秒以内用50%2048秒以内用100%超过2048秒的视频则使用完整基础预算。这套机制确保了在固定计算资源约束下处理效果能随视频长度而合理扩展。四、四阶段预训练——从零到精通的修炼路线图Keye-VL-2.0的预训练过程分为四个阶段就像一位学徒从入门到出师的成长历程每个阶段有明确的学习目标和数据配方。第零阶段叫投影器初始化是整个训练的热身准备。这个阶段把视觉编码器和语言解码器都冻结只训练中间的翻译官投影器让它学会把视觉信息映射到语言模型的理解空间。使用的数据包括图文配对描述和交叉排列的图文混合内容数据规模约40亿个训练样本最大序列长度8K。这一步相当于先打通两个模块之间的通讯频道再开始真正的联合训练。第一阶段是通用多模态预训练所有参数全部解冻在约1万亿个训练样本上进行大规模训练最大序列长度扩展到32K。这个阶段的训练数据涵盖了图文配对描述、交叉图文内容、交叉视频文字内容、纯文字问答以及大量OCR文字识别数据。视频数据在这个阶段以15秒短片为单位进行学习每段视频配有对应的文字描述构成多模态序列。为了提升来自网络的开源数据集LAION、DataComp、COYO、CC12M等中图文描述的质量团队采用了两种策略一种叫Recaption直接用专业的描述生成模型重新生成更高质量的描述另一种叫Remake在原有描述的基础上纠正语法和表达错误但不改变其语义。这个阶段的核心目标是建立稳定的视觉-语言对齐基础。第二阶段是多任务能力注入上下文长度进一步扩展到64K训练规模约2万亿个样本。这个阶段的重点是向模型注入各种专业能力高级OCR能力通过真实样本包括收据、各类图表和合成样本从XML模板生成并叠加模糊、光照变化、褶皱、手写变化等数据增强的结合来训练数学与STEM能力通过涵盖几何图形、函数图像、实验装置、化学公式和科学图表的视觉题目来培养并用LLM自动验证答案质量图形界面理解能力GUI通过屏幕截图、控件元数据和交互语义数据来训练为后续的页面操作和导航任务打基础定位与计数能力通过合成的实例粘贴数据来训练从COCO和OpenImages数据集中取出候选物体粘贴到背景上并生成精确的边界框和数量标注此外还有通用视觉问答、电商产品理解以及将英文数据翻译成中文以增强中文覆盖的数据。纯文字数据在这个阶段也继续保留包括数学推理、代码、工具调用轨迹、搜索与检索增强生成示例目的是防止多模态训练侵蚀语言能力基础。第三阶段是长上下文扩展将最大序列长度推到了256K视频处理时长从15分钟扩展到2小时。长上下文样本与短上下文样本以1:1的比例混合确保模型在获得处理超长内容能力的同时不退化常规任务性能。训练数据覆盖长视频、长文档、多文档输入、跨页面多图对话、长代码上下文以及长程Agent轨迹需要跨越多次工具调用维护任务状态。这个阶段的目标不仅是放大上下文窗口更是训练模型真正具备在超长内容中进行检索、聚合和跨位置推理的能力。在视频预训练的课程设计上团队还引入了两个特别的数据构造方法。其一是场景级密集描述将视频按场景边界分割为每个场景生成带时间戳的详细文字描述同时生成整视频的全局概览帮助模型学习场景边界识别和时间对齐能力。其二是多样化的时序视频定位数据参考ETBench基准构建涵盖引用动作识别、视频高光检测、提取式视频摘要和时间事件匹配等任务从不同角度提供时间感知和时间推理的监督信号。五、后训练阶段——打磨成专家的精细工序预训练完成后模型相当于一位博览群书但还不太会与人交流的学者。后训练阶段的任务是把这位学者打磨成一位能够流畅对话、独立决策、多领域协作的专家顾问。后训练的第一步是监督微调SFT使用了约5000亿个训练样本的指令数据集覆盖文字、视频、感知、推理、Agent和长上下文等类型。其中约40%是纯文字数据用于锚定通用指令跟随和文字推理能力。在这个阶段团队构建了一套合成思维链Synthetic CoT数据。由于大多数多模态指令数据只提供最终答案缺乏对中间推理过程的监督团队用强大的教师模型为高质量问答对生成推理过程然后通过查询级、回答级和过程级的多重质量检查进行过滤。对于数学任务还额外引入了Doubt2Clean二次审查在27个数据集上清洗可疑的思维链样本。视频数据在这一阶段有特别的设计部分样本以多选题形式呈现要求模型在思考阶段验证候选时间片段并在最终答案中同时输出答案选项和支撑时间区间格式为[[分钟, 分钟], ...]强迫模型养成从连续视频中定位关键证据的习惯。六、强化学习矩阵——让AI在试错中成长后训练阶段的第二大支柱是强化学习RL这是Keye-VL-2.0能力跃升的关键引擎。快手团队设计了一套层次分明的强化学习体系从合成数据RL、通用RL、专项RL到视频RL和Agent RL环环相扣。合成数据强化学习的核心思路是用程序自动生成训练题目从而获得可自动验证的奖励信号无需人工标注。具体做法是给模型展示两张图片其中一张在另一张基础上进行了受控修改要求模型找出所有变化。由于修改内容是程序精确控制的对错判断可以完全自动化。任务分为两类定位类任务要求预测变化区域的边界框结构类任务要求用领域专用描述语言输出对应的操作集合覆盖几何图形、化学式、物理电路等结构化场景。为了防止模型走捷径比如直接做像素级差分比较训练中还刻意引入了与变化无关的干扰——颜色抖动、布局扰动、槽位打乱、语义无操作变化、视角变化等迫使模型真正理解语义变化而非表面变化。通用强化学习在监督微调和蒸馏完成后进行专注于带有可验证标准答案的任务包括通用视觉问答、STEM推理、图表理解、数学和逻辑推理。训练算法采用了阿里巴巴Qwen团队提出的GSPO分组序列策略优化其核心思想是对同一个问题生成多个回答用这些回答之间的相对质量差异来计算优势值并优化策略而不是单纯追求每个回答的绝对正确率。奖励系统分为四层格式奖励确保输出可被解析结果奖励验证最终答案是否正确过程奖励惩罚推理中的事实错误和逻辑漏洞而ContextRL奖励则通过将生成的回答与经过验证的参考解进行比对来减少答案对但推理错这种虚假阳性问题。专项强化学习针对五个垂直领域分别训练了专家模型定位专家通过归一化边界框预测和匈牙利匹配奖励来强化精确目标定位能力空间专家面向空间关系理解因为许多空间问题没有简单确定性答案采用了生成式模型评判打分-1/0/1三档数学专家用符号等价奖励验证数学题的正确性计数专家采用精确数字匹配奖励处理视觉计数任务OCR专家用归一化文本匹配奖励对大小写、空格和标点进行归一化后比较来强化文字识别能力。这些专家模型的目标不是成为最终产品而是成为后续能力蒸馏的优质教师。视频强化学习在通用RL检查点基础上用约31000个视频样本继续训练同时冻结视觉编码器和投影器只更新语言模型部分。训练任务包括时序视频定位用时间IoU作为奖励、时序密集描述用LLM评判主体识别、动作描述、场景信息、OCR文字、时序顺序、幻觉和覆盖率等多个维度、帧级感知、视频问答、时序排序和事件计数。此外还引入了FrameForge合成视频提供时间戳定位、计数、前后推理和共现推理的可程序验证监督信号。这个阶段约带来1个百分点的通用视频基准性能提升。Agent强化学习覆盖代码、工具调用和搜索三类任务。在代码方向系统使用在线判题Online Judge和软件工程两类环境在线判题通过编译和隐藏测试用例判断程序正确性软件工程任务在容器化环境中评估仓库级别的问题解决模型需要查看日志、运行测试、编辑文件、提交补丁奖励基于测试套件通过情况。对于仓库级任务还设计了多审查员Agent协作的验证集成协议。工具调用训练覆盖超过150个模拟API域随机化工具和参数名称以减少对记忆特定API格式的依赖培养通用工具调用能力。搜索任务通过多轮检索交互训练奖励以最终答案正确性为主中间检索结果的轻量验证信号作为辅助。为了处理长程交互中轨迹长度不均一的问题三类Agent任务都采用了共享的部分轨迹共置机制未完成的轨迹被缓存等待下一轮继续完成的轨迹组立即用于GSPO更新确保计算资源不因等待而浪费。七、跨模态多教师在线蒸馏——解决学新忘旧难题的关键在完成上述所有专项强化学习之后一个棘手的问题出现了每种专项训练都会让模型在该领域有所提升但各领域之间可能产生干扰。比如数学推理RL训练完后模型可能输出变得过于简短Agent训练完后模型可能在不需要工具的场景里也频繁插入工具调用格式。直接把所有数据混在一起训练则容易因为任务目标相互冲突而导致各领域同时退步。这就是研究团队所说的多模态对齐困境。快手团队的解法叫做跨模态多教师在线蒸馏MOPD。打一个比方假设你同时在向一位钢琴老师、一位英语老师和一位数学老师学习每位老师都在各自领域给你细致的指导你需要把三位老师教授的知识整合进自己的大脑而不让它们互相冲突。MOPD做的正是这件事。系统维护了13个经过领域专项RL训练的教师模型覆盖安全、纯文字数学、指令跟随、代码、视觉STEM、OCR、定位、计数、视频、工具调用等多个领域。对于每一个训练样本系统根据其模态和任务类型自动路由到最匹配的教师模型。学生模型也就是Keye-VL-2.0本身先按照自己当前的策略生成一个回答然后被路由的教师模型对学生回答中的每一个词token提供精细的概率分布反馈指导学生在哪些位置应该更接近教师的分布。为了让蒸馏信号更稳定系统只在教师和学生都认为可信的词汇范围内即两者TopK预测词的交集计算反馈避免在双方都不确定的低概率词上引入噪声。学生模型用优势加权的策略梯度目标进行优化同时还有两个额外的细节处理针对不同词的类别格式词、感知词、推理词施加不同的优势权重降低格式词的权重以防止格式化问题压制实质内容的学习对于长文本生成中出现的重复崩塌现象只在崩塌发生位置之后施加惩罚而不是对整个回答都扣分。这一套MOPD机制的另一个工程挑战是学生和教师必须在完全相同的输入预处理条件下运行否则即使同一张图片经过不同处理后对应的词序列可能不同反馈信号就会错位。团队为此专门设计了严格的预处理对齐验证系统涵盖图片token数量、视频帧采样方式、对话模板格式和旋转位置编码等所有可能导致错位的因素。八、推理侧的工程优化——让一切在实际部署中跑得起来理论上再美妙的设计如果部署时慢得令人抓狂也只是空中楼阁。快手团队在推理系统上也做了大量针对性优化。针对超长视频推理系统引入了三项关键优化。第一是分块ViT把视频帧分成小批次由视觉编码器顺序处理后再合并显著降低了显存峰值占用且不改变模型输出结果。第二是稀疏注意力的相邻查询去重相邻查询往往选择高度相似的Top-k关键值集合通过对相邻查询的Top-k集合进行去重并在注意力计算核内使用MMA线程布局感知掩码在128K上下文和topk2048的配置下16个相邻查询实际只需处理约8000个有效Key-Value对而不是16×204832768个。第三是解码优化DSA特定的解码优化使得在128K上下文下与标准全量注意力相比预填充代价降低到32%解码代价降低到20%。在预训练系统侧团队引入了ExtraIO异步I/O服务把视频解码和帧采样的工作从训练主循环中剥离出来通过水平可扩展的独立服务异步提供数据消除了I/O瓶颈。此外视觉编码器和语言解码器虽然共享同一组GPU但采用独立的并行分片策略避免了两者性能特征差异导致的负载不均衡。通过在多模态Token级别和语言模型样本级别两个层次进行负载均衡端到端训练吞吐量提升了约20%。在RL训练中使用DSA时为了确保训练和推理阶段Top-k结果完全一致避免训练-推理不一致问题团队用flashinfer.topk替换了torch.topk在保持确定性的同时实现了2-3倍速度提升。九、全面评测——成绩单上的关键数字在视频理解方向Keye-VL-2.0-30B-A3B在多个重要基准上取得了领先表现。在LongVideoBench专门评估长视频语言推理能力上得分74.1超过Qwen3-VL-235B-A22B一个参数量是其近8倍的模型的70.5在Video-MME-v2评估全模态信息聚合和复杂推理的新基准上512帧设置下的准确率42.4和非线性评分24.2都显著领先同等规模的竞争对手。时序定位方向的表现尤其突出。在TimeLens框架对ActivityNet Captions、QVHighlights和Charades-STA重新清洗标注的高质量评测框架上Keye-VL-2.0在全部三个子集上都取得最高mIoU时间交并比ActivityNet-TimeLens 58.5、QVHighlights-TimeLens 70.1、Charades-TimeLens 58.4均领先参数量更大的Qwen3-VL-235B-A22B对应得分52.1、64.6、47.8以及Gemini-3-Flash对应57.0、49.5、61.2其中Charades子集Gemini得分较高。在Video-MMMU评估模型从教学视频中学习并应用领域知识的能力上得分80.0与同级别最强模型持平接近闭源模型GPT-5-mini。代码与软件工程方向LiveCodeBench v6得分64.2OJBench在线判题风格的算法题得分71.5SWE-bench Verified仓库级问题修复得分62.0在开源模型中处于第一梯队。工具调用方向在τ?-Bench和VitaBench上取得最高分在BFCL-V4上排名第二。通用视觉语言能力方面在WeMath视觉数学推理上得分75.8DynaMath上80.9AIME2025上86.7AME2026上93.3OCRBench上85.7OmniDocBench上89.0HallusionBench视觉幻觉诊断上73.5FSC-147计数任务上28.0EmbSpatialBench空间理解上83.2PixMo-Count上87.9。这些数字描绘出一幅全面均衡的能力图谱没有明显的短板领域。归根结底Keye-VL-2.0-30B-A3B的意义不只在于几个基准上的数字领先。它更重要的示范价值在于用相对有限的激活参数量30亿通过精心设计的架构创新和分层训练策略在超长视频理解和多领域Agent能力上同时达到甚至超越了参数量更大的模型。它证明了稀疏长上下文建模和精心设计的多阶段强化学习可以被整合进一个单一可部署的MoE系统而不必在通用推理能力上做出妥协。对于普通用户而言这意味着未来的AI助手有望真正帮你看完一部纪录片并做出有实质意义的总结帮你在数小时的会议录像中精确找出你想要的那段对话或者在复杂的多步骤任务中持续保持状态而不中途迷失。快手团队也在报告中明确表示他们下一步的方向是把这套能力深度融入推荐、内容生态治理、商业定向等实际业务场景以及开发视频与Agent协作的工作流。这表明该研究不是停留在实验室里的技术演示而是有明确落地路径的工程实践。对于研究人员而言这份报告提供了大量可参考的技术细节从GQA兼容的DSA适配方案、两阶段稀疏注意力训练策略、自适应像素预算设计到MOPD的多教师路由机制和ContextRL奖励设计每一个模块都有详细的公式推导和工程实现说明。有兴趣深入研究的读者可以通过论文编号arXiv:2606.10651查阅完整技术报告或前往Hugging Face的Kwai-Keye主页下载开源模型权重自行实验。QAQ1Keye-VL-2.0是什么类型的AI模型和普通的聊天AI有什么不同AKeye-VL-2.0是快手开发的多模态大模型意味着它不仅能理解文字还能看图片、看视频并且能写代码、调用工具。和普通聊天AI最大的区别在于它能处理长达两小时的视频内容精确定位视频中的关键片段而不是只能处理几秒或几分钟的短视频。它的参数总量是300亿但运行时只激活30亿部署成本相对较低。Q2DeepSeek稀疏注意力机制在Keye-VL-2.0里是怎么工作的为什么重要A稀疏注意力的核心思路是先用一个轻量级侦察员模块快速扫描所有视频帧和文字内容选出最相关的2048个关键位置然后只在这些位置之间进行深度计算。传统全量注意力是让所有内容互相对照计算量随长度平方增长稀疏注意力将其降低到线性增长使处理256K超长上下文成为可能。在128K长度下预填充计算代价只有传统方式的32%解码代价只有20%。Q3多教师在线蒸馏MOPD解决了什么具体问题怎么理解它的工作原理AMOPD解决的是学新忘旧问题——在给模型注入代码、视频理解、工具调用等新能力时往往会破坏它原本的数学推理或指令跟随能力。MOPD的做法是维护13个不同领域的专家教师模型对每个训练样本自动匹配最合适的教师让教师对学生生成的每个词提供细粒度的概率反馈。这样各领域的知识通过专属教师独立传递再汇聚进同一个MoE主模型避免了直接混合训练时的相互干扰。