
今日候选池86篇硬过滤 LLM 打分后通过评估19篇精选 Top-10另列 9 篇速览。关注方向多 Agent 系统 / LLM 后训练RL/SFT / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易 精选1.GBCGBC: Gradient-Based Connections for Optimizing Multi-Agent Systems评分8.6·方向cs.MA · Multiagent Systems ·arxiv2606.28187· PDF GBC把多智能体系统建成计算图用token级梯度连接权重反传损失并定向优化prompt。多Agent系统信用分配Prompt优化摘要本文针对 LLM 多智能体系统中协作失调与细粒度 credit assignment 缺失的问题提出 Gradient-Based Connections (GBC)。该方法将 MAS 建模为计算图用 token 级梯度连接权重量化上游输出对下游智能体的影响并反向传播任务损失以定位错误来源、优化 prompt。其实现 AgentChord 采用 prefix-based gradient computation 提升效率。在 MultiWOZ 和 τ-bench 上GBC 超越强单智能体与多智能体基线且归因质量越高优化效果越好。评分细项rel 9.5 / nov 8.0 / prac 8.0 / author 5.52.QueenBeeQueenBee Planner: Skill-Evolving Communication Topologies for Token-Efficient LLM Multi-Agent Systems评分8.3·方向cs.MA · Multiagent Systems ·arxiv2606.27492· PDF QueenBee Planner 用外层 LLM 生成时序通信 DAG并从执行轨迹蒸馏 Preserve/Modify/Avoid 拓扑规则。多智能体通信拓扑LLM Agent摘要QueenBee Planner 将 LLM 多智能体的通信拓扑视为可检索、可自我改进的设计技能固定 worker、任务适配器和评分函数仅训练外层 LLM planner 生成按轮次组织的通信 DAG。系统从执行轨迹中提炼 Preserve/Modify/Avoid 规则并用 held-out gate、方差感知 credit、motif 归因等机制抑制偶然成功和伪解释。在 Count-Frequency 与 Silo-Bench 类任务上自演化拓扑优于固定拓扑和冷启动生成CF fulltest 中 RMSE 从 12.53 降至 7.87同时减少消息、调用和 token 成本。评分细项rel 9.0 / nov 8.0 / prac 7.5 / author 6.03.TandemRLTandem Reinforcement Learning with Verifiable Rewards评分8.5·方向cs.AI · Artificial Intelligence ·arxiv2606.28166· PDF TandemRL让强弱模型随机交替生成CoT用GRPO和可验证奖励训练强模型。RLVRLLM后训练GRPO摘要RLVR显著提升大模型推理能力但常导致可读性差、语言混杂等分布漂移使弱模型或人类难以利用。本文提出 Tandem Reinforcement Learning (TRL)强 senior 与冻结的弱 junior 随机交替生成推理链共同获得可验证奖励并仅用 GRPO 更新 senior。在竞赛数学上训练 Qwen3-4B-InstructTRL 保持与 vanilla GRPO 相当的单模型推理能力同时提升与 junior 的交接鲁棒性减少相对 junior 的分布漂移并生成更易理解的 chain-of-thought。评分细项rel 9.5 / nov 8.0 / prac 7.5 / author 5.54.ATODATOD: Annealed Turn-aware On-policy Distillation for Multi-turn Autonomous Agents评分8.4·方向cs.AI · Artificial Intelligence ·arxiv2606.27814· PDF ATOD 交替退火 OPD 与 RL并用 T-DUR 重加权多轮 agent 轨迹监督。LLM后训练多轮Agent强化学习摘要小型语言模型智能体在长程交互任务中既需快速模仿也需基于奖励继续提升。OPD 早期高效但接近教师后易饱和RL 上限更高却受稀疏延迟奖励限制。本文提出 ATOD将 OPD-RL 权重退火前期以 OPD 逼近教师后期逐步增强 RL 以鼓励探索并引入 T-DUR对高价值回合进行分歧-不确定性重加权。ALFWorld、WebShop、Search-QA 实验显示ATOD 平均成功率较 OPD 提升 3.03 点、较 GRPO 提升 23.62 点并超过对应教师模型 2.16 点。评分细项rel 9.0 / nov 8.0 / prac 8.0 / author 6.05.FutureAgentInternalizing the Future: A Unified Agentic Training Paradigm for World Model Planning评分8.4·方向cs.AI · Artificial Intelligence ·arxiv2606.27483· PDF 用 WM-AMT、FE-SFT、FC-RL 三阶段训练让 LLM agent 生成状态 rollout 与成功率估计。LLM Agent后训练强化学习世界模型摘要LLM agent 在长程任务中仍偏反应式缺少可先行模拟结果的内部世界模型。本文提出让单一自回归模型同时生成未来状态 rollout 与计划条件成功估计类似文本 Q-value。作者指出直接用前瞻轨迹微调只会学到格式模仿因此设计 WM-AMT、FE-SFT、FC-RL 三阶段流程先注入预测能力再组织格式并校准效用。在搜索和数学推理任务上该方法稳定优于多种训练基线表明有效 foresight 需能力优先的训练管线。评分细项rel 9.0 / nov 8.0 / prac 8.0 / author 6.06.NLLGuidedNLL-Guided Full-Attention Layer Selection for Training-Free Sliding-Window Adaptation评分7.9·方向cs.CL · Computation and Language ·arxiv2606.27791· PDF NLL-guided选择保留全注意力层用1/4全注意力在LongMemEval达64.6%。长上下文推理加速滑动窗口注意力摘要混合 full attention 与 sliding-window attention 可提升长上下文推理效率但哪些层保留 full attention 仍不明确。本文提出训练无关的 NLL-guided 层选择将某层改为滑窗后依据答案 token 负对数似然退化衡量其重要性。在 LongMemEval/Qwen3-4B 上仅用 1/4 full-attention 层达到 64.6% 准确率接近 1/2 周期基线且计算减半并显著优于周期和 LightTransfer 风格基线。校准约 15 分钟可改善长上下文部署的效率-精度权衡。评分细项rel 8.5 / nov 7.0 / prac 8.0 / author 6.07.LPESMitigating Position Bias in Transformers via Layer-Specific Positional Embedding Scaling评分7.5·方向cs.CL · Computation and Language ·arxiv2606.27705· PDF LPES为Transformer各层搜索不同RoPE缩放因子用遗传算法和Bezier曲线缓解lost-in-the-middle。长上下文RoPE推理优化摘要针对 LLM 长上下文中的“lost-in-the-middle”位置偏置问题本文提出层特定位置嵌入缩放LPES为各 Transformer 层分配不同 RoPE 缩放因子无需微调或增加推理延迟。方法用结合 Bézier 曲线的遗传算法高效搜索缩放配置减少搜索空间。多项长上下文基准实验显示LPES 能平衡注意力分布在 key-value 检索任务上最高提升 11.2% 准确率。评分细项rel 8.0 / nov 6.5 / prac 8.0 / author 6.08.GILPGrounded Iterative Language Planning: How Parameterized World Models Reduce Hallucination Propagation in LLM Agents评分7.2·方向cs.AI · Artificial Intelligence ·arxiv2606.27806· PDF GILP 用小型参数化世界模型校验 GPT-4o-mini 规划降低状态幻觉率。LLMAgent世界模型规划摘要本文比较语言智能体中的两类 world model基于 LLM API 的 agent 模型推理灵活但易产生难以度量的幻觉状态参数化转移模型误差可用 NodeMSE、delta accuracy 等评估但规划能力较弱。作者提出 Grounded Iterative Language PlanningGILP用小型参数化骨干提供合法动作、状态变化、风险和值由 LLM 草拟计划并通过一致性门控要求修订。实验中幻觉状态率从 0.176 降至 0.035模拟消融成功率从 0.668 升至 0.838。评分细项rel 7.5 / nov 7.0 / prac 7.0 / author 6.09.GMVPGeomThe Decision Geometry of Covariance Estimation for the Global Minimum-Variance Portfolio under Heavy Tails评分7.2·方向q-fin.PM · Portfolio Management ·arxiv2606.27462· PDF 围绕 GMVP 推导协方差估计误差到组合 regret 的精确恒等式并分析重尾收益下的收敛率。量化投资组合管理协方差估计摘要本文指出GMVP 的协方差估计不应只用矩阵范数评价而应看其对投资组合决策的影响。作者给出精确 regret 恒等式和非渐近界证明误差只通过作用于权重、组合集中度及真实协方差条件数影响次优性并刻画了高维误差中的不变几何。在重尾收益下进一步得到收敛率并用 skew-t/t-copula 仿真验证决策导向方法主要带来更优常数和集中度折扣而非更快速率。评分细项rel 8.0 / nov 7.0 / prac 6.0 / author 5.010.TrainWatchMechanism-Driven Monitors for Preemptive Detection of LLM Training Instability评分7.3·方向cs.CL · Computation and Language ·arxiv2606.28116· PDF 用 QK 双线性分解谱熵和 MoE router 指标在 loss 发散前数千步检测训练不稳定。LLM训练稳定性监控MoEFlashAttention摘要大模型训练一旦因数值或超参数故障失稳loss 和梯度范数可能长时间仍显正常导致算力浪费。本文提出 mechanism-driven monitors从关键模块功能和最早可观测故障位置设计内部信号。对低精度 flash attention监控 QK 双线性分解的谱熵对 MoE router则构造专家选择相关指标。故障注入实验显示这些信号能区分低精度注意力、过大学习率及组合故障并在 loss 发散前数千步预警。评分细项rel 7.5 / nov 7.0 / prac 8.0 / author 6.0 速览 · 其他通过评估的工作9 篇一句话扫读按评分从高到低点击标题跳转 arxiv。cs.CL6.9MultiHashFormer: Hash-based Generative Language Models· MultiHashFormer 用多哈希签名替代词表嵌入在 causal LM 中保持常量词表参数并支持扩词。cs.CL6.7SHIFT: Gate-Modulated Activation Steering for Knowledge Conflict Mitigation in Retrieval-Augmented Generation· SHIFT用轻量门控模块调制内部激活缓解RAG中检索知识与参数知识冲突。cs.MA6.7Delayed Verification Destabilizes Multi-Agent LLM Belief: Instability Thresholds and Optimal Corrector Placement· 用 grounded Laplacian 建模延迟 verifier在多智能体 belief 图上推导剂量-延迟振荡阈值与 corrector 贪心放置。cs.CL6.3Enhancing Numerical Prediction in LLMs via Smooth MMD Alignment· SMMD在数字token子词表上加入值距离核与图平滑用MMD对齐数值预测分布。cs.AI6.2Verifiable Geometry Problem Solving: Solver-Driven Autoformalization and Theorem Proposing· SD-GPS 用求解器执行反馈训练 QwenVL3-2B并验证局部辅助引理生成。cs.CL6.0Position Bias Correction is Insufficient for One-Pass Attention Sorting· One-Pass Attention Sorting用位置偏置曲线校正注意力仍落后迭代排序14.84pp。cs.AI6.3Towards Reliable and Robust LLM Planning: Symbolic Feedback-Driven Iterative Self-Refinement Framework· 符号反馈自精炼框架把验证器错误转成自然语言指令迭代修正 LLM 长程规划。cs.AI6.1Understanding Rollout Error in Graph World Models· Error-Aware GWM 用谱正则、rollout 一致性和关键节点加权抑制图世界模型误差扩散。cs.AI6.0Agentic Hardware Design as Repository-Level Code Evolution· HORIZON 将硬件设计转成 git worktree 代码演化用 Markdown harness 驱动 agent 循环。数据源arxiv.org · 评分与中文摘要由 LLM 自动生成仅供初筛参考