每日AI&科技快讯 (2026年6月8日)

今天从 arXiv 精选了 8 篇值得关注的 AI/ML 论文，涵盖LLM智能体自我进化、概率推理可靠性、多模态视频理解、深度研究多智能体系统、音频编辑基准、边缘端VLA机器人模型、多模态长文档QA优化以及代码仓库探索基准。

1. Q-Evolve：带有分布内优化的自进化LLM智能体

作者: Yudi Zhang, Meng Fang, Zhenfang Chen, Mykola Pechenizkiy | 分类: cs.LG 链接: arxiv.org/abs/2606.07367v1

大型语言模型（LLM）已成为复杂环境中交互式智能体的强大控制器，但训练它们执行可靠的长时序决策仍是一个根本性挑战。关键难点在于信用分配：智能体往往仅在剧情结束时才收到延迟奖励。本文提出Q-Evolve，一个自进化的LLM智能体框架，它将自动过程奖励标注和策略学习统一在一个原则性的分布内强化学习范式中。在每个进化迭代中，该方法从专家演示与智能体生成轨迹混合的离策略数据集中学习一个分布内评判器，通过加权的隐式Q学习目标在稀疏奖励场景中稳定贝尔曼备份。然后利用估计的优函数通过优势估计推导出逐步的过程奖励，无需环境回溯或人工标注即可提供密集且可靠的监督。利用这些信号，我们采用行为邻近策略优化，在用于过程奖励标注的数据上进化智能体，从而实现迭代自我改进而不加剧分布偏移。在AlfWorld、WebShop和ScienceWorld上的评估显示，Q-Evolve在样本效率、鲁棒性和整体任务性能方面均优于强基线。结果表明，通过过程级监督与策略的共同进化（两者均植根于共享的分布内学习循环），稳定的智能体自我进化是可以实现的。

点评: 解决了LLM智能体在稀疏奖励场景下的自我进化难题，提出的“分布内”框架有效缓解了分布偏移，是迈向自主智能体闭环学习的重要一步。

2. LLM在掷骰子时有多可靠？

作者: Luca Avena, Gianmarco Bet, Bernardo Busoni | 分类: cs.CL, cs.AI, cs.HC, math.PR 链接: arxiv.org/abs/2606.07515v1

我们通过一个关于离散概率问题的受控基准研究，调查了大型语言模型的概率推理能力。我们构建了两个数据集，分别是一组标准练习题和一组旨在触发启发式推理的反直觉练习题，并评估了8个最先进的模型，每个模型均在有/无思维链提示两种情况下进行测试。模型在标准问题上的平均准确率达到0.96，但在反直觉问题上仅为0.59。我们进一步提供了Token偏见的实证证据：当规范表述被伪装变体取代时，性能下降超过20%。在提示中嵌入误导性建议可使性能下降高达34%，且没有模型能够免疫。综合来看，这些发现表明，尽管当前LLM在高级数学问题上取得了成功，但它们还没有成为真正的概率推理器。

点评: 一个“反直觉”的有趣研究，用骰子问题揭示了LLM在概率推理上的脆弱性，尤其是对提示措辞和偏见的敏感性，为评估LLM的深层逻辑能力提供了新视角。

3. 观察、记忆、推理：基于MLLM的人类视角视频理解

作者: Jiahao Meng, Yue Tan, Qi Xu, Kuan Gao, Weisong Liu 等 | 分类: cs.CV, cs.AI, cs.MM 链接: arxiv.org/abs/2606.07433v1

多模态大语言模型（MLLM）正迅速改变视频理解领域，研究正从短视频剪辑转向长视频、多模态和知识密集型视频场景。这些场景要求模型处理稀疏证据、长程依赖、多模态对齐并在有限计算预算下进行可靠推理。本文从人类视角出发，围绕三个功能性能力组织基于LLM的视频理解：观看、记忆和推理。我们引入了一个形式化框架，通过感知表示、记忆状态、推理轨迹和最终预测来表征视频理解系统。基于此，我们识别出时空感知、高效长视频处理、记忆建模、流式理解和忠实推理中的挑战。代表性方法按其角色进行分类：观看涵盖细粒度、全面、音视频和高效感知；记忆包括离线与流式记忆；推理涵盖纯文本推理和与视频结合的思考。我们还考察了如自我中心、体育、教学、医疗和叙事视频等应用领域，并涵盖了跨任务类型、监督格式、模态和能力维度的训练数据集和评估基准。最后，我们概述了可扩展、记忆感知和基于证据的视频智能的开放问题和未来方向。

点评: 一篇系统性的综述，创新性地以“观看-记忆-推理”的人类认知视角重构了视频MLLM研究，为理解和分类大量相关工作提供了统一框架。

4. DuMate-DeepResearch：具有递归搜索和Rubric驱动推理的可审计多智能体系统

作者: Lingyong Yan, Can Xu, Yukun Zhao, Wenxuan Li, Qingyang Chen 等 | 分类: cs.AI 链接: arxiv.org/abs/2606.07299v1

深度研究（DR）已成为应对复杂、开放式研究任务的新的智能体范式，要求系统能够迭代地定义问题、获取证据、验证来源并综合生成长篇报告。然而在实践中，当前的DR系统受限于四个相互关联的局限：在未明确范围上的长程规划、单个智能体分解和调度任务的瓶颈、长文综合中的幻觉风险以及有限的过程可审计性。本技术报告介绍了DuMate-DeepResearch，一个基于千帆智能体工厂构建的多智能体DR框架。该框架将负责任务理解、规划和调度的智能体核心与可扩展的用于检索、证据获取和报告渲染的工具生态系统解耦，使每个中间决策和工具调用都显式可追踪。在此基础设施之上，DuMate-DeepResearch进一步引入了三种机制：(i) 基于图的动态规划策略，从粗到细扩展研究路线图，并通过反思、重新规划、回溯和平行分支持续修正；(ii) 递归的两级执行设计，将每个复杂的搜索子任务委托给一个运行自身规划循环的内部搜索智能体，隔离噪声检索并稳定长程执行；(iii) 基于Rubric的测试时优化机制，动态生成任务特定的质量标准，并将其用作基于证据的综合和自适应停止的实时推理支撑。在两个深度研究基准上，DuMate-DeepResearch取得了新的最先进结果：在DeepResearch Bench上获得最佳总分（58.03%），在DeepResearch Bench II上获得最佳总分（61.95%），同时在信息召回和分析维度排名第一。

点评: 构建了一个高度模块化且可审计的深度研究智能体系统，其递归搜索和动态规划机制是应对复杂研究任务的有效工程实践。

5. MMAE：大规模多任务音频编辑基准

作者: Ziyang Ma, Ruiqi Yan, Ruiyang Xu, Jie Fang, Zhikang Niu 等 | 分类: cs.SD, cs.CL, cs.MM 链接: arxiv.org/abs/2606.07229v1

我们介绍了MMAE，一个大规模多任务音频编辑基准，作为首个专门为通用基于指令的音频编辑设计的综合评估平台。受智能创作趋势的推动，交互式编辑已从视觉领域（如Nano-banana 2用于图像、Gemini-Omni用于视频）迅速扩展到音频。然而，当前的评估基础设施严重滞后，仍然高度碎片化且局限于特定的子领域或基本操作。与范围有限的现有基准不同，MMAE覆盖了广泛的现实世界场景，包含7种不同的音频模态，包括音效、语音、音乐及其混合。此外，我们建立了一个全面的分类体系，涵盖6级任务复杂度（从基本修改到多跳推理和多轮编辑）、2级粒度以及8种不同的操作类型。通过人工与智能体协作精心策划，MMAE包含2,000个高保真样本，并配有一个开创性的基于Rubric的评估框架。通过将自由形式任务分解为17,741个可验证标准，这个稳健的Rubric范式能够实现精确、多维度的指令遵循和上下文一致性评估。我们对领先模型的广泛评估显示，当前系统远未实现可靠编辑。引人注目的是，精确匹配率持续低于5%，并在复杂的混合模态任务中降至绝对的0%，暴露了精确执行和结构鲁棒性方面的关键瓶颈。

点评: 填补了音频编辑领域缺少通用、大规模、标准化基准的空白。精确匹配率低于5%的结果揭示了当前模型的巨大不足，为行业发展提供了清晰的诊断路线图。

6. RhinoVLA技术报告

作者: Huixi Intelligence, :, Chen Zhang, Chenyang Zhou, Guanglei Ding 等 | 分类: cs.RO, cs.LG 链接: arxiv.org/abs/2606.07383v1

视觉-语言-动作（VLA）模型在机器人操控方面展现出巨大潜力，但在边缘硬件上的实时部署仍然具有挑战性。在这项工作中，我们确定了VLM视觉和上下文Token是部署延迟的主要来源：对于以通用矩阵乘法为主的投影算子，当模型维度固定时，计算量与输入Token数量呈线性增长。基于这一观察，我们提出了RhinoVLA，一个与Huixi R1边缘SoC协同设计的面向部署的VLA模型。RhinoVLA采用Token高效的Qwen3-VL骨干网络和连续的Action Expert，在保持预训练多模态能力的同时，减少了VLM侧的Token和计算负担。为支持跨机器人学习，RhinoVLA进一步引入了一个统一接口，结合了视图注册表、72维物理状态-动作槽空间和机器人实例LoRA，使得异构机器人观测和动作模式能够在共享策略下对齐。在部署方面，RhinoVLA通过硬件感知编译、混合精度执行和并行视觉编码进行了优化。实验表明，RhinoVLA在相似参数量下实现了与π0.5相当的下游性能，同时在Huixi R1上达到了11.69 Hz的端到端推理频率，满足了10 Hz实时闭环控制目标。

点评: 针对边缘端部署痛点，从Token效率角度出发进行了软硬件协同设计，成功将VLA模型推理速度提升至实时水平，是机器人具身智能走向实用化的关键探索。

7. FLOWREADER：用于多模态长文档问答的最小费用流优化

作者: Ambuj Mehrish, Sebatiano Vascon | 分类: cs.IR, cs.LG 链接: arxiv.org/abs/2606.07235v1

长篇幅的多模态文档迫使检索增强系统从分散在文本、表格和幻灯片中的证据（例如跨长表格单元格、跨多张幻灯片、或分布在图表与其描述之间）来组合答案。Top-k分块检索将每个片段独立处理，无法表示证据之间的关联。我们引入了FLOWREADER，它将证据组装重新构建为一个多模态节点图上的最小费用流问题：一个单一的评分向量h控制源选择、汇聚选择以及每条边的成本和容量。最优流被分解为候选证据路径，通过熵正则化复制者动力学选择一个紧凑的非冗余子集，并行运行的VLM工作器在双过程门控下生成答案，当答案一致性低或路由流紧张时触发一次System-2精炼步骤。在VisDoMBench上，FLOWREADER在证据碎片化最严重的两个子集PaperTab（58.40，+1.30）和SlideVQA（72.93，+0.62）上取得最佳成绩，并在SPIQA、FetaTab和SciGraphQA上具有竞争力。在所有五个子集上的宏观平均得分（65.47）与最强基线G²-Reader（66.21）仅差0.74。总体而言，这些结果表明最小费用流在碎片化的多模态证据上表现良好，而top-k检索在此类场景下失效。它还提供了一种统一的方式来控制评分、路由、选择和自适应计算。

点评: 巧妙地将证据组装问题建模为最小费用流，统一了评分、路由和选择过程，在碎片化证据场景下优于传统的Top-k检索思路。

8. SWE-Explore：基准测试编码智能体如何探索代码仓库

作者: Shaoqiu Zhang, Yuhang Wang, Jialiang Liang, Yuling Shi, Wenhao Zeng 等 | 分类: cs.SE, cs.CL 链接: arxiv.org/abs/2606.07297v1

仓库级编码基准如SWE-bench推动了编码智能体能力的快速提升。然而它们通常将编码任务视为一个整体的二元预测问题（例如已解决或未解决），忽略了细粒度的智能体能力，如仓库理解、上下文检索、代码定位和缺陷诊断。在本文中，我们介绍了SWE-Explore，一个将评估重点放在仓库探索（编码智能体的关键能力）上的基准。给定一个仓库和一个问题，SWE-Explore要求探索器在固定的行数预算下返回一个相关的代码区域排序列表。SWE-Explore涵盖10种编程语言和203个开源仓库中的848个问题。对于每个实例，我们从成功解决同一问题的独立智能体轨迹中派生出行级地面真值，提取出它们的解决方案路径实际查阅的具体代码区域。我们从覆盖度、排序和上下文效率维度评估探索能力，并显示这些指标与下游修复行为高度相关。在广泛的检索方法、通用编码智能体和专门的定位器集合中，我们发现基于智能体的探索器明显优于经典检索方法。虽然文件级定位对现代方法来说已经很强，但行级覆盖度和高效排序仍然是区分最先进探索器的关键轴。

点评: 将编码智能体评估从“能否解决问题”的二元结果深入到“如何探索仓库”的细粒度能力，为理解和改进编码智能体的内在工作流提供了宝贵的分析工具。

本内容由 AI 辅助生成，论文信息来源于 arXiv。

今日AI&科技快讯 (2026-06-08)