每日AI&科技快讯 (2026年6月2日)

今天从 arXiv 精选了 8 篇值得关注的 AI/ML 论文，涵盖多智能体系统可靠性、多模态评估、金融LLM审计、算子学习理论以及错误传播分析等前沿方向。

1. TVIR：构建面向文本-视觉交错报告生成的深度研究智能体

作者: Xinkai Ma, Zhiqi Bai, Dingling Zhang, Pei Liu, Yishuo Yuan 等 | 分类: cs.CL 链接: arxiv.org/abs/2606.02320v1

深度研究智能体在多步信息检索、推理和长篇报告生成方面表现出色，但现有基准和系统仍以文本为中心，缺乏对视觉元素是否事实可靠且与周围分析良好对齐的评估。为解决这一鸿沟，我们提出了TVIR（文本-视觉交错报告生成），包含TVIR-Bench（一个由100个专家精选的多模态深度研究任务组成的基准）和TVIR-Agent（一个分层多智能体框架）。该框架能构建大纲、检索图像、生成可追溯来源的图表，并通过上下文感知的顺序写作来撰写报告。我们还开发了结合文本评估与视觉评估的双路径评估框架。在九个深度研究系统上的实验表明，TVIR-Agent取得了强劲的整体性能，凸显了面向证据驱动报告生成的显式多模态设计与评估的重要性。

点评: 填补了多模态深度研究智能体评估的空白，其双路径评估框架为检验报告中的视觉证据可靠性提供了新标准。

2. POIROT：通过审问智能体实现多智能体系统中的故障检测

作者: Iñaki Dellibarda Varela, R. Sendra-Arranz, Pablo Romero-Sorozabal, J. M. Valverde-García, Annemarie F. Laudanski 等 | 分类: cs.AI 链接: arxiv.org/abs/2606.02282v1

将大语言模型编排成多智能体系统（LLM-MAS）解锁了卓越的推理能力，但突现的故障和幻觉阻碍了其在安全关键领域的部署——新兴的AI法规使这一缺陷在法律上难以承受。现有评估范式的共同缺陷是集中式判断创建了单点故障且需要领域专业知识。我们提出了POIROT协议，该协议将系统自身的智能体重用为其诊断层，利用架构中已有的认知多样性。在各类评估场景中，POIROT优于单LLM评估器基线，其增益随问题复杂度、智能体数量和故障维度增加而提升。结果表明，安全监督无需外部化：执行某个角色的智能体已具备足够的集体智能来进行审计。

点评: 提出了一种创新的“用智能体审计智能体”范式，为多智能体系统的安全关键部署提供了无需外部专家的可扩展诊断方案。

3. 多领域强化学习中跨域干扰与恢复的局部微扰理论

作者: Lei Yang, Siyu Ding, Deyi Xiong | 分类: cs.LG, cs.CL 链接: arxiv.org/abs/2606.02398v1

强化学习（RL）后训练在数学推理、代码生成、问答和创意写作等单个领域改善了LLM，但在一个领域的训练往往会降低其他领域的性能。现有基于灾难性遗忘或全局梯度冲突的解释并不完整：即使在全模型梯度近乎正交时，也可能发生显著干扰。我们发现单领域RL产生稀疏、小幅度的参数编辑，且顶层变化神经元之间重叠较弱，而不同领域仍共享大量活跃计算路径，更新方向决定了这些路径是协同还是冲突。受此启发，我们在多领域RL的局部微扰模型下证明，后领域训练主要通过二阶损伤项损害前领域，且该损伤在观察到的稀疏路径结构下集中于低维共享冲突子空间。此外，短暂的领域刷新可收缩该子空间上的有害成分，实现选择性恢复。

点评: 从局部微扰理论角度揭示了多领域RL训练中干扰与恢复的机理，为LLM连续多任务后训练中的性能权衡提供了可操作的数学解释。

4. 通过感知扰动与奖励建模缓解多模态LLM评判中的感知判断偏差

作者: Seojeong Park, Jiho Choi, Junyong Kang, Seonho Lee, Jaeyo Shin 等 | 分类: cs.CV, cs.AI 链接: arxiv.org/abs/2606.02578v1

近期多模态大语言模型展现出强大的推理能力，但其作为自动评估器的可靠性仍受限于一个关键弱点：当视觉证据与文本线索冲突时，MLLM评判者倾向于奖励看似合理的叙述而不是感知上正确的答案。我们识别并系统分析了这一现象，称之为感知判断偏差。通过可控视觉扰动，我们发现多模态评判者经常锚定于响应文本而非自身的视觉感知。为解决此问题，我们引入了感知扰动判断数据集，并开发了一个结合结构化GRPO奖励与批量排序目标的统一训练框架。实验表明，我们的方法显著提高了感知忠实度、排序一致性以及与人类评估的对齐。

点评: 精准定位了多模态模型作为评判者时的“重文本轻视觉”偏差，提出了基于扰动训练的可扩展解决方案，对提升AI评估可靠性有重要意义。

5. SeClaw：用于评估自主智能体的规范驱动型安全任务合成

作者: Hao Cheng, Changtao Miao, Tianle Song, Yin Wu, He Liu 等 | 分类: cs.CR, cs.AI 链接: arxiv.org/abs/2606.02302v1

自主LLM智能体越来越多地运行在有状态环境中，可访问工具、文件、内存和外部服务。虽然这种能力支持复杂的真实世界工作流，但也引入了现有评估难以捕捉的安全风险。当前的智能体安全基准通常依赖手动策划的任务，对新兴威胁的覆盖有限，且主要关注最终结果而非导致不安全行为的执行过程。我们提出了SeClaw框架，它将规范驱动的安全任务合成与基于执行的安全评估相结合。该基准涵盖资源、用户任务、环境和智能体内在行为产生的风险，并支持超越最终响应的轨迹感知不安全行为评估。

点评: 为自主LLM智能体的安全性评估提供了系统化、可扩展的基准框架，尤其关注执行过程中的不安全行为，填补了现有评估的重要盲区。

6. 上下文算子网络的谱审计

作者: Zhiwei Gao, Liu Yang, George Em Karniadakis | 分类: math.NA, cs.LG 链接: arxiv.org/abs/2606.02427v1

现有对神经算子及上下文算子学习的评估主要依赖于预测误差，但准确的输出预测并不能保证正确的局部动力学结构。一个模型可能匹配解，却表现出不正确的敏感性、失真的频率响应、虚假的模态耦合或不稳定的切向行为。我们为上下文算子学习引入了基于Jacobian的谱审计方法。通过将网络输出相对于查询函数进行微分，并将得到的Jacobian视为学习到的切向算子，投影到傅里叶模态上，获得推断算子的局部谱特征。审计揭示了频率依赖增益、相位结构和跨模态耦合等算子级现象，能检测到预测误差指标部分隐藏的故障。

点评: 提出了一种超越传统预测误差的算子学习评估方法，从谱域检验模型是否真正学到了物理算子而非仅仅拟合输出，对科学计算领域的AI应用至关重要。

7. 金融大语言模型中资产特定偏好的审计：来自比特币表征与投资组合配置的证据

作者: Wenbin Wu | 分类: q-fin.GN, cs.CY, cs.LG 链接: arxiv.org/abs/2606.02528v1

大语言模型现已驱动机器人顾问和交易智能体，但模型是否对特定资产存在固有偏见尚未得到充分检验。我们提出了一个三级审计协议，并将其应用于比特币。行为审计显示，比特币在货币类工具中的排名具有框架依赖性。进一步地，我们在Gemma 3模型中通过稀疏自编码器特征搜索识别出一个主导的比特币选择性特征：放大该特征使模型倾向于该资产，抑制则相反，即使提示中从未出现“比特币”一词。在金融后果测试中，放大将使比特币的投资组合份额提高5.2个百分点，抑制降低4.6个百分点。这项研究将内部表征与外部建议联系起来，为新兴的“了解你的智能体”标准迈出了第一步。

点评: 深入揭示了LLM内部隐藏的资产偏好表征及其对金融决策的实质性影响，为未来AI金融顾问的透明度和监管审计提供了开创性方法论。

8. 并非所有错误都是平等的：大语言模型推理中错误传播的系统性研究

作者: Yafan Huang, Sheng Di, Guanpeng Li | 分类: cs.DC, cs.AI 链接: arxiv.org/abs/2606.02430v1

大语言模型正越来越多地集成到高性能计算工作流中，通过代码生成和领域特定决策加速科学发现。然而，软错误如何传播并影响LLM推理尚不明确。我们提出了一个综合性研究，通过我们提出的LLMFI（一个可配置且确定性的故障注入框架），在三个开源LLM和十三个代表性任务中系统性地注入故障，覆盖推理、多语言、数学和编码领域。此外，我们进行了细粒度案例研究以揭示关键脆弱性模式。总体而言，我们的研究产生了17项发现，推动了LLM推理中错误传播的理解，并引入了四种低开销的纯软件可靠性改进方向。

点评: 首次系统性地研究了软错误对LLM推理的影响，为HPC环境中LLM部署的可靠性保障提供了宝贵的实测数据和实用指导。

本内容由 AI 辅助生成，论文信息来源于 arXiv。

今日AI&科技快讯 (2026-06-02)