每日AI&科技快讯 (2026年6月21日)

今天从 arXiv 精选了 8 篇值得关注的 AI/ML 论文，涵盖多智能体系统偏差传播、LLM知识冲突消解、自动作文评分、遥感多模态模型、恶意软件分类、编译器优化、多模态检索以及离线强化学习中的缺失奖励处理等前沿方向。

1. 传染网络：多智能体LLM系统中的评估者偏差传播

作者: Zewen Liu | 分类: cs.LG, cs.AI, cs.MA 链接: arxiv.org/abs/2606.20493v1

当大型语言模型作为评估者出现在多智能体系统中时，其系统性的评估偏差会通过智能体网络传播。本文提出了“传染网络”（Contagion Networks），一个用于衡量评估者偏差如何在交互的LLM智能体间传播的形式化框架。在采用DeepSeek-chat并设定三种不同评估偏差（结构化、平衡型、基于证据）的受控3智能体实验中，作者测量了交叉智能体传染矩阵Gamma_3，发现评估者偏差在智能体间持续传播（gamma值在0.157至0.352之间），即使是同一基础模型内部也是如此。研究识别出由谱半径rho(Gamma_N)支配的三种传播机制，并证明同质模型智能体产生的传染系数比先前工作中观察到的跨模型系数弱3-5倍，将其置于抑制机制中。研究还表明，将评估委员会规模从k=1增加到k=3可将有效传染降低72.4%，提供了一种可操作的缓解策略。

点评: 首次系统性地量化了LLM评估偏差在多智能体网络中的传播动力学，为构建更可靠的自主AI系统提供了理论基础和实用的缓解方案。

2. 导航不可靠的参数化与上下文知识：面向LLM推理的显式知识冲突消解

作者: Huang Peng, Jiuyang Tang, Weixin Zeng, Hao Xu, Xiang Zhao | 分类: cs.AI 链接: arxiv.org/abs/2606.20245v1

大型语言模型通过利用大量参数化知识和上下文学习能力，在各种语言任务上取得了强大性能。然而，外部知识的整合可能引入冲突，不仅存在于模型内部参数化知识与外部信息之间，也存在于多段外部上下文之间。现有方法通常假设模型或上下文之一是可靠的，忽视了两种来源都可能包含错误，并通过偏向某一来源而非另一来源来回避冲突，而非主动解决不一致。为应对这些限制，本文提出了MACR框架，将LLM知识冲突消解从传统的二元选择范式中解放出来，引入了基于多智能体推理的显式冲突消解机制。具体来说，首先提出了一种自适应知识评估与检索方法，采用改进的语义熵度量来量化模型对给定查询的置信度，当内部知识不足时则检索相关外部知识。随后引入了一个归纳式多智能体推理框架，包含三个专门智能体，分别用于归纳显式规则、分析潜在冲突以及消解所有可用上下文间的不一致。实验结果表明，MACR在两个基准测试上显著优于现有最先进方法，同时提供了可解释的冲突消解过程。

点评: 突破了LLM知识冲突问题中只能“二选一”的局限，通过多智能体协同推理实现了对矛盾信息的主动整合与消解，是提升LLM可靠性的重要一步。

3. PsyScore：心理测量学感知的自适应作文评分与最近发展区支架式反馈框架

作者: Wei Xia, Jin Wu, Haoran Shi, Xiangyu Wang, Chanjin Zheng | 分类: cs.CL 链接: arxiv.org/abs/2606.20287v1

有效的自动作文评分（AES）应同时支持可靠的评估和可操作的指导性反馈。然而，现有方法通常将评分与反馈视为独立组件：神经评分模型解释性有限，而基于LLM的反馈通常对学习者的熟练度水平不敏感。为弥合这一割裂，本文提出了PsyScore，一个心理测量学感知的框架，通过共享的潜在能力表征将诊断性评估与教学支架式指导整合在一起。PsyScore包含三个关键模块：一个特质自适应神经IRT评分器，将等级部分评分模型（GPCM）融入神经架构中，能够在保持心理测量学可解释性的同时精确估计学生能力；一个最近发展区（ZPD）支架式反馈生成器，根据诊断出的能力参数调节多智能体反馈策略；以及一个多视角反馈评估策略，通过成对偏好判断和学生修订模拟来评估反馈质量。在ASAP++数据集上的实验表明，PsyScore在取得有竞争力评分性能的同时，提供了更具教学意义的一致性反馈。

点评: 将心理测量学理论与LLM驱动的内容生成有机结合，实现了“评分知道为什么，反馈知道给什么”的智能化教学闭环，对教育科技有重要启发。

4. 遥感多模态大模型中否定理解能力的评估与增强

作者: Haochen Han, Jue Wang, Alex Jinpeng Wang, Fangming Liu | 分类: cs.CV, cs.AI 链接: arxiv.org/abs/2606.20177v1

多模态大语言模型（MLLMs）在各类遥感任务中取得了显著成功。然而，它们理解否定表达式（negation）的能力尚不充分，这限制了其在真实世界应用中的部署——例如，应急响应人员需要定位非淹没路线用于疏散。为全面研究此问题，本文引入RS-Neg，首个从区域级到场景级任务评估否定理解的基准。作者设计了一个面向遥感图像的自动化数据生成流程，利用LLM合成多样化的否定查询，并引入动态视觉焦点模块进行验证。评估结果显示，先进的遥感MLLMs在处理否定时表现不佳，产生了幻觉和显著的性能退化。为弥补这一差距，作者提出了NeFo，一种新颖的测试时学习方法，将否定的逻辑作用显式融入模型优化中。值得注意的是，仅使用约5%的未标注测试样本，NeFo便显著提升了模型的否定理解能力，并在未见任务上展现出强大的泛化性。

点评: 填补了遥感MLLM在否定理解这一关键安全能力上的评估空白，提出的轻量级微调方法具有很高的实用价值。

5. 基于多视角反编译的LLM恶意软件分类

作者: Bercan Turkmen, Vyas Raina | 分类: cs.CR, cs.AI 链接: arxiv.org/abs/2606.20436v1

恶意软件分析师在缺乏源代码时，通常会检查已编译二进制文件的反编译伪C代码。近期的研究表明，大语言模型可通过分类反编译代码为良性或恶意来辅助这一过程，但现有流程通常依赖单一反编译器视角。本文认为这一假设是脆弱的：反编译器是有损的启发式工具，不同的反编译器可能暴露同一二进制文件的不同构件。作者整理了一个包含良性工具和各类威胁行为的恶意程序的基准，每个样本均使用Ghidra和RetDec两种反编译器进行编译和反编译，得到匹配的伪C代码视图。在多个主流LLM系列的测试中，研究者发现提供两种反编译器视图能提高恶意类的F1分数，主要体现在提高了对恶意样本的召回率。一致性分析进一步表明，Ghidra和RetDec会犯不完全相同的错误，支持了反编译器输出提供互补证据的观点。研究结果表明，多反编译器提示是一种简单、无需训练的方法，可在实际环境中改善基于LLM的恶意软件分类。

点评: 简单但有效的方法——利用多视角反编译信息提升LLM恶意软件判别的鲁棒性，方法本身即具有高度实践指导意义。

6. AutoPass：证据引导的LLM智能体用于编译器性能调优

作者: Zepeng Li, Jie Ren, Zhanyong Tang, Jie Zheng, Zheng Wang | 分类: cs.SE, cs.AI 链接: arxiv.org/abs/2606.20373v1

LLM在代码编译任务上展现出潜力，但将其应用于运行时性能调优因复杂的微架构效应和噪音化的运行时测量而困难重重。本文提出AutoPass，一个面向编译器性能调优的多智能体框架，利用编译器和运行时证据引导LLM生成的优化决策。不同于此前将编译器视为黑盒的自动调优方案，AutoPass向LLM打开了编译器，使其能够查询编译器内部的优化状态并分析中间表示，从而编排编译器选项。搜索过程利用实测运行时反馈迭代优化配置，诊断性能退化并指导降低延迟的修改。AutoPass以纯推理、无需训练的方式运行，无需离线训练或特定任务微调，使其可立即应用于新的基准和平台。研究者在LLVM编译器上实现了AutoPass，并在服务器级x86-64和嵌入式ARM64系统上进行了评估。AutoPass超越了专家调优的启发式方法和经典自动调优方法，在x86-64和ARM64上分别实现了相对于LLVM -O3的几何平均加速比1.043倍和1.117倍。

点评: 将LLM从“看着代码调”升级为“理解编译器内部机理调”，开创了编译器性能调优的新范式，对高性能计算领域意义重大。

7. ELVA：探索基于排序驱动的通用多模态检索

作者: Yuhan Liu, Pei Fu, Hang Li, Yukun Qi, Chao Jiang et al. | 分类: cs.IR, cs.AI 链接: arxiv.org/abs/2606.20280v1

通过对比学习利用多模态大语言模型已成为提升通用多模态检索（UMR）性能的主流范式。然而，以往的工作忽视了将对比学习范式适应到检索任务时的“粒度盲视”（grain blindness）问题。粒度盲视指模型倾向于忽略查询中包含的粒度级信息，而这对于有效处理复杂查询至关重要。这源于对比学习将样本视为二元分类（正/负），忽略了每个负样本携带的不同信息。为解决此问题，本文认为应根据负样本与正样本的相似度区别对待它们，使模型能够从每个负样本中学习不同的粒度信息。文章提出ELVA，一个新颖的基于规则的强化学习框架，通过排序驱动的MLLM来缓解粒度盲视。具体来说，该框架将带验证奖励的强化学习（RLVR）扩展到检索任务，使模型能够探索新的排序行为；通过利用基于规则的奖励，联合优化负样本排序的同时扩大正负样本间的相似度差距。为更精确衡量粒度盲视，文章进一步引入MRBench，一个专为多粒度查询场景设计的新基准。ELVA在标准检索基准上取得了最先进的结果，其在MRBench上13.1%的显著提升进一步证明了其缓解粒度盲视的有效性。

点评: 犀利地指出了对比学习范式在多模态检索中的根本缺陷——“粒度盲视”，并巧妙利用RL对负样本排序优化，思路新颖且效果突出。

8. 针对马尔可夫决策过程中奖励非随机缺失的缺失感知策略的离线策略评估

作者: Ziheng Wei, Annie Qu, Rui Miao | 分类: stat.ML, cs.LG 链接: arxiv.org/abs/2606.20206v1

在离线强化学习中，记录批次数据中的即时奖励常因记录稀疏或不规则、或超出特定奖励值而未被观测到。这一问题出现在包括医疗和市场营销在内的实际场景中。本文研究了有限时域马尔可夫决策过程（MDP）中奖励非随机缺失（MNAR）情况下的离线策略评估（OPE），MNAR打破了可忽略性假设，即使在给定状态和动作的条件下也会引入选择偏差。为解决此问题，作者形式化了一个基于奖励的倾向性模型，并利用未来状态作为影子变量来识别全数据条件平均奖励。文章进一步引入了一个桥函数，在不显式建模MNAR机制的情况下恢复条件平均奖励，并通过最小-最大程序进行估计以避免双重抽样。基于这些识别结果，作者提出了一种类Fitted-Q-Evaluation的估计器，在传播恢复奖励的同时，允许目标策略依赖于过去的缺失指示符。最后，作者建立了OPE估计量的一致性和有限样本误差界，并通过在模拟数据和MIMIC-III脓毒症数据上的实验展示了该方法相对于现有方法的优秀性能。

点评: 直面医疗等关键领域中的奖励缺失这一现实痛点，提供了严谨的理论框架和实用的估计方法，对提升离线RL在实际应用中的可靠性至关重要。

本内容由 AI 辅助生成，论文信息来源于 arXiv。

今日AI&科技快讯 (2026-06-21)