每日AI&科技快讯 (2026年6月20日)

今天从 arXiv 精选了 8 篇值得关注的 AI/ML 论文，涵盖多智能体系统偏差传播、LLM知识冲突解决、心理测量学驱动的作文评分、遥感MLLM的否定理解、基于多视角反编译的恶意软件分类、LLM驱动的编译器性能调优、排序驱动的多模态检索以及奖励缺失下的离线策略评估。

1. 传染网络：多智能体LLM系统中的评估者偏差传播

作者: Zewen Liu | 分类: cs.LG, cs.AI, cs.MA 链接: arxiv.org/abs/2606.20493v1

当大型语言模型在多智能体系统中担任评估者时，其系统性的评估偏差会通过智能体网络传播。我们引入了“传染网络”（Contagion Networks），这是一个用于测量评估者偏差如何在交互式LLM智能体之间传播的正式框架。在一个使用DeepSeek-chat、包含三种不同评估者偏差特征（结构化、平衡、基于证据）的受控3智能体实验中，我们测量了跨智能体传染矩阵Gamma_3，发现评估者偏差在智能体之间持续传播（gamma在[0.157, 0.352]范围内），即使是在同一基础模型内部。我们识别出由谱半径rho(Gamma_N)控制的三种传播机制，并证明同质模型智能体产生的传染系数比先前工作中（MM-EPC: gamma约0.85-1.3）观察到的跨模型系数弱3-5倍，处于抑制区域。我们还表明，将评估委员会规模从k=1增加到k=3，有效传染降低了72.4%，提供了一种可行的缓解策略。我们发布了开源的Contagion Network实验框架。

点评: 本文首次系统性地量化了LLM作为评估者时偏差在多智能体网络中的传播机制，并给出了简单有效的缓解方案，对构建可靠的LLM评估流水线有重要指导意义。

2. 导航不可靠的参数化知识与上下文知识：面向LLM推理的显式知识冲突解决

作者: Huang Peng, Jiuyang Tang, Weixin Zeng, Hao Xu, Xiang Zhao | 分类: cs.AI 链接: arxiv.org/abs/2606.20245v1

大型语言模型通过利用广泛的参数化知识和上下文学习能力，在多种语言任务上取得了优异表现。然而，外部知识的引入可能会引发冲突——不仅存在于模型内部参数知识与外部信息之间，也存在于多条外部上下文之间。现有方法通常假设模型或提供的上下文之一是可靠的，忽略了双方都可能包含错误的情况，并通过偏向某一方来回避冲突，而非主动解决不一致性。为解决这些问题，我们提出了一种新颖的框架MACR，用于LLM知识冲突解决，该框架超越了传统的二选一范式，并引入了一种基于多智能体推理的显式冲突解决机制。具体来说，我们首先提出了一种自适应知识评估与检索方法，该方法采用改进的语义熵度量来量化LLM对给定查询答案的置信度。基于此置信度估计，MACR要么将模型的内部知识外化表示为文本，要么在内部知识不足时检索相关的外部知识，生成后续推理的基础上下文。接着，我们引入了一个归纳式多智能体推理框架，包含三个专门化智能体，分别负责归纳显式规则、分析潜在冲突以及解决所有可用上下文之间的不一致性。实验结果表明，MACR在多个基准测试中显著优于最先进的基线方法，同时提供了可解释的显式冲突解决方案。

点评: MACR跳出了“相信模型还是相信上下文”的二元困境，通过多智能体推理主动解决知识冲突，为提升LLM在复杂、信息不确定场景下的可靠性提供了新思路。

3. PsyScore：面向特质自适应作文评分和最近发展区支架式反馈的心理测量学感知框架

作者: Wei Xia, Jin Wu, Haoran Shi, Xiangyu Wang, Chanjin Zheng | 分类: cs.CL 链接: arxiv.org/abs/2606.20287v1

有效的自动作文评分系统需要同时支持可靠的评估和可操作的指导性反馈。然而，现有方法通常将评分和反馈视为分离的组件：神经评分模型可解释性有限，而基于LLM的反馈通常对学习者的能力水平不敏感。为解决这一碎片化问题，本文提出了PsyScore，一个心理测量学感知框架，通过共享的潜在能力表征将诊断性评估与教学支架式辅助整合在一起。PsyScore包含三个关键模块：一个特质自适应神经IRT评分器，将分级部分评分模型纳入神经架构，能够在保持心理测量可解释性的同时精确估计学生能力；一个最近发展区支架式反馈生成器，根据诊断出的能力参数条件化多智能体反馈策略，以适应不同能力水平的教学重点；以及一个多视角反馈评估策略，通过成对偏好判断和学生修改模拟来评估反馈质量。在ASAP++数据集上的实验表明，PsyScore在实现具有竞争力的评分性能的同时，提供了更具教学一致性的反馈。

点评: 本文出色地弥合了自动评分与教学反馈之间的鸿沟，将心理测量学理论与LLM的能力相结合，有望推动AI在教育评估领域的实际应用落地。

4. 评估与增强遥感多模态大语言模型的否定理解能力

作者: Haochen Han, Jue Wang, Alex Jinpeng Wang, Fangming Liu | 分类: cs.CV, cs.AI 链接: arxiv.org/abs/2606.20177v1

多模态大语言模型在多种遥感任务中取得了显著成功。然而，它们理解否定（negation）的能力仍未得到充分探索，这限制了其在现实世界应用中的部署——例如，应急响应人员需要定位非洪水路线进行疏散。为全面研究这一局限，我们引入了RS-Neg，这是第一个用于评估从区域级到场景级任务的否定理解能力的基准测试。具体来说，我们为遥感图像设计了一个自动数据生成流水线，使用LLM合成多样化的否定查询，并引入了一个动态视觉焦点模块用于验证。我们的评估揭示，先进的遥感MLLM在面对否定时表现挣扎，出现幻觉和显著的性能下降。为弥补这一差距，我们提出了NeFo，一种新颖的测试时学习方法，将否定的逻辑角色明确纳入模型优化中。值得注意的是，仅使用大约5%的无标签测试样本，NeFo就能显著提升模型的否定理解能力，并展现出对未见任务的强泛化能力。

点评: 本文指出了当前遥感MLLM中一个关键但被忽视的短板——否定理解，并证明了少量测试样本即可有效缓解该问题，对提升AI在安全关键型遥感应用中的可靠性至关重要。

5. 基于多视角反编译的LLM恶意软件分类

作者: Bercan Turkmen, Vyas Raina | 分类: cs.CR, cs.AI 链接: arxiv.org/abs/2606.20436v1

当源代码不可用时，恶意软件分析师通常通过反编译得到的伪C代码来检查已编译的二进制文件。最近的研究表明，LLM可以通过将反编译代码分类为良性或恶意来协助此过程，但现有流水线通常依赖于单一的反编译器视角。我们认为这一假设是脆弱的：反编译器是有损的启发式工具，不同的反编译器可能暴露同一二进制文件的不同特征。我们整理了一个包含良性工具和恶意程序的基准测试，覆盖一系列威胁行为。每个样本都使用Ghidra和RetDec进行编译和反编译，得到匹配的伪C视图。在多个主要模型家族的LLM中，我们发现提供两种反编译器视图可以改善恶意类的F1分数，主要原因是提高了恶意样本的召回率。一致性分析进一步表明，Ghidra和RetDec会犯部分不同的错误，支持了反编译器输出提供互补证据的观点。我们的结果表明，多反编译器提示是一种简单、无需训练的方式，可以在实际环境中改进基于LLM的恶意软件分类。

点评: 本文洞察到依赖单一反编译器存在局限性，通过简单的多视图集成思路，显著提升了LLM辅助恶意软件分析的可靠性，实用价值高。

6. AutoPass：基于证据引导的LLM智能体用于编译器性能调优

作者: Zepeng Li, Jie Ren, Zhanyong Tang, Jie Zheng, Zheng Wang | 分类: cs.SE, cs.AI 链接: arxiv.org/abs/2606.20373v1

LLM在代码编译任务中展现出前景，但将其应用于运行时性能调优由于复杂的微架构效应和带噪声的运行时测量而变得困难。我们提出了AutoPass，一个用于编译器性能调优的多智能体框架，它利用编译器和运行时证据来指导LLM生成的优化决策。与先前自动调优方案将编译器视为黑箱不同，AutoPass向LLM敞开了编译器的大门，使其能够查询编译器内部的优化状态并分析中间表示来编排编译器选项。搜索过程通过使用测量的运行时反馈来迭代地精炼优化配置，以诊断性能回退并指导降低延迟的修改。AutoPass在仅推理、无需训练的环境中运行，无需离线训练或特定任务微调，使其易于应用于新的基准测试和平台。我们在LLVM编译器上实现了AutoPass，并在服务器级x86-64和嵌入式ARM64系统上进行了评估。AutoPass超越了专家调优的启发式方法和经典自动调优方法，在x86-64和ARM64上分别比LLVM -O3实现了1.043倍和1.117倍的几何平均加速。

点评: AutoPass将编译器内部的中间表示和优化状态暴露给LLM，实现了远超传统黑盒调优的性能提升，标志着LLM应用于系统软件优化的重要一步。

7. ELVA：探索排序驱动的通用多模态检索

作者: Yuhan Liu, Pei Fu, Hang Li, Yukun Qi, Chao Jiang et al. | 分类: cs.IR, cs.AI 链接: arxiv.org/abs/2606.20280v1

利用多模态大语言模型进行对比学习已成为提升通用多模态检索性能的主流范式。然而，先前的工作忽视了在将对比范式应用于检索任务时的“粒度盲点”（grain blindness）。粒度盲点指的是模型倾向于忽略查询中包含的粒度级信息，而这对于有效处理复杂查询至关重要。这源于对比学习将样本视为二分类（正/负），而忽略了每个负样本携带的不同信息。为解决此问题，我们认为应根据负样本与正样本的相似度对其进行区别对待，使模型能从每个负样本中学习到不同的粒度信息。在本文中，我们引入了一个简单但有效的框架ELVA，这是一种新颖的基于规则的强化学习框架，通过排序驱动的MLLM来缓解粒度盲点。1) 我们不依赖奖励模型，而是将带可验证奖励的强化学习扩展到检索任务，允许模型在没有显式排序标签的情况下探索新的排序行为。2) 通过使用基于规则的奖励，我们的方法联合优化了负样本的排序，同时扩大了正负样本之间的相似度差距。为更精确地衡量粒度盲点，我们进一步引入了MRBench，一个专门为多粒度查询场景设计的新基准。ELVA在标准检索基准测试中取得了最先进的结果，其在MRBench上显著的13.1%提升进一步证明了其在缓解粒度盲点方面的有效性。

点评: ELVA精准诊断并解决了多模态检索中对比学习的“粒度盲点”问题，通过创新的排序驱动RL框架显著提升了复杂查询的检索质量。

8. 面向马尔可夫决策过程中非随机缺失奖励策略的离线策略评估

作者: Ziheng Wei, Annie Qu, Rui Miao | 分类: stat.ML, cs.LG 链接: arxiv.org/abs/2606.20206v1

在离线强化学习中，由于记录稀疏或不规则，或由于超出某些奖励值而被截断，日志批量数据中的即时奖励通常未被观测到。这个问题出现在包括医疗和营销在内的实际场景中。我们研究了在奖励非随机缺失情况下的有限时域马尔可夫决策过程中的离线策略评估，非随机缺失破坏了可忽略性，并即使在以状态和行动为条件后也会引入选择偏差。为解决此问题，我们形式化了一个依赖于奖励的倾向性模型，并使用未来状态作为影子变量来识别完整数据条件下的平均奖励。我们进一步引入了一个桥接函数，无需显式建模非随机缺失机制即可恢复条件平均奖励，并通过最小-最大过程对其进行估计以避免双重抽样。基于这些识别结果，我们提出了一种类似Fitted-Q-Evaluation的估计器，该估计器传播恢复后的奖励，同时允许目标策略依赖于过去的缺失指示变量。最后，我们为我们的离线策略评估估计器建立了一致性和有限样本误差界，并通过实验展示了与现有方法相比在模拟数据和MIMIC-III Sepsis数据上的强劲性能。

点评: 本文理论严谨地解决了离线强化学习中奖励非随机缺失这一棘手问题，提出的方法在医疗等关键领域具有极高应用价值。

本内容由 AI 辅助生成，论文信息来源于 arXiv。

今日AI&科技快讯 (2026-06-20)