每日AI&科技快讯 (2026年6月22日)

今天从 arXiv 精选了 8 篇值得关注的 AI/ML 论文，涵盖多智能体系统偏差传播、LLM知识冲突消解、自动化作文评分、遥感模型否定理解、恶意软件分类、编译器性能优化、多模态检索以及离线策略评估等方向。

1. 传染网络：多智能体LLM系统中的评估者偏差传播

作者: Zewen Liu | 分类: cs.LG, cs.AI, cs.MA 链接: arxiv.org/abs/2606.20493v1

当大型语言模型在多智能体系统中充当评估者时，其系统性的评估偏差会通过智能体网络传播。本文提出了传染网络（Contagion Networks），这是一个用于衡量评估者偏差如何在交互的LLM智能体间传播的形式化框架。在一个使用DeepSeek-chat且具备三种不同评估者偏差特征（结构化、平衡、基于证据）的受控3智能体实验中，我们测量了跨智能体传染矩阵Gamma_3，并发现评估者偏差在智能体间持续传播（gamma在[0.157, 0.352]范围内），即便在同一个底层模型内部也是如此。我们识别出由谱半径rho(Gamma_N)决定的三种传播机制，并证明同质模型智能体产生的传染系数比先前工作中观察到的跨模型系数（MM-EPC: gamma约0.85-1.3）弱3-5倍，使其处于抑制机制中。我们展示了将评估委员会规模从k=1增加到k=3可使有效传染减少72.4%，提供了一种可行的缓解策略。我们开源了传染网络实验框架。

点评: 首次系统量化了LLM作为评估者时偏差在多智能体网络中的传播动力学，并给出了简洁有效的缓解方案（扩大评估委员会），对构建可靠的Agent协作系统极具指导意义。

2. 驾驭不可靠的参数化与上下文知识：面向LLM推理的显式知识冲突消解

作者: Huang Peng, Jiuyang Tang, Weixin Zeng, Hao Xu, Xiang Zhao | 分类: cs.AI 链接: arxiv.org/abs/2606.20245v1

大型语言模型通过利用广泛的参数化知识和上下文学习能力，在各类语言任务上取得了强劲性能。然而，外部知识的引入可能带来冲突——不仅存在于模型的内部参数知识与外部信息之间，也存在于多条外部上下文之间。现有方法通常假设模型或提供的上下文其中之一是可靠的，忽视了两种来源都可能包含错误的可能性，并往往通过优待其中一个来源来回避冲突，而非主动消解不一致。为解决这些局限，我们提出了一个新颖框架MACR，用于LLM知识冲突消解，它超越了传统的二元选择范式，并引入了一种基于多智能体推理的显式冲突消解机制。具体来说，我们首先提出一种自适应知识评估与检索方法，采用改进的语义熵度量来量化LLM对其给定查询答案的置信度。基于此置信度估计，MACR将模型的内部知识外化为文本表示，或在内部知识不足时检索相关外部知识，为后续推理生成基本上下文。然后，我们引入一个归纳式多智能体推理框架，包含三个专门智能体，分别负责推导显式规则、分析潜在冲突以及消解所有可用上下文间的不一致性。实验结果表明，MACR在多个基准测试上显著优于最先进的基线方法，同时提供了可解释的显式冲突消解方案。

点评: 跳出“模型vs上下文”的二元对立，提出了一种更现实的、允许双方都出错的显式冲突消解机制，多智能体归纳推理的设计思路巧妙且实用。

3. PsyScore：一种心理测量学感知的特质自适应作文评分与最近发展区支架式反馈框架

作者: Wei Xia, Jin Wu, Haoran Shi, Xiangyu Wang, Chanjin Zheng | 分类: cs.CL 链接: arxiv.org/abs/2606.20287v1

有效的自动作文评分既需要可靠评估，也需要可操作的指导性反馈。然而，现有方法常将评分与反馈视为分离的组件：神经评分模型可解释性有限，而基于大语言模型的反馈通常对学习者的能力水平不敏感。为解决这一碎片化问题，本文提出PsyScore，一个心理测量学感知的框架，通过共享的潜在能力表征将诊断评估与教学支架整合在一起。PsyScore包含三个关键模块：一个特质自适应神经IRT评分器，将分级部分评分模型融入神经架构，能在保持心理测量学可解释性的同时精确估计学生能力；一个最近发展区支架式反馈生成器，根据诊断出的能力参数调节多智能体反馈策略，以适应不同熟练水平的学习者；以及一个多视角反馈评估策略，通过成对偏好判断和学生修订模拟来评估反馈质量。在ASAP++数据集上的实验表明，PsyScore在取得有竞争力的评分性能的同时，能提供更具教学对齐性的反馈。

点评: 完美弥合了自动评分与教育反馈之间的鸿沟，将心理测量学理论与LLM能力深度结合，尤其“最近发展区”的概念让AI反馈真正做到了因材施教。

4. 评估与增强遥感多模态大语言模型中的否定理解能力

作者: Haochen Han, Jue Wang, Alex Jinpeng Wang, Fangming Liu | 分类: cs.CV, cs.AI 链接: arxiv.org/abs/2606.20177v1

多模态大语言模型在各类遥感任务中取得了显著成功。然而，它们理解否定表达的能力仍未得到充分探索，这限制了其在需要模型明确识别“什么是错误的或不存在的”这一实际场景中的部署——例如，应急响应人员需要定位非洪水路线用于疏散。为全面研究这一局限，我们引入了RS-Neg，这是首个用于评估从区域级到场景级任务中否定理解能力的基准。具体来说，我们为遥感图像设计了一条自动化数据生成流水线，使用LLM合成多样化的否定查询，并引入一个动态视觉焦点模块用于验证。我们的评估揭示，先进的遥感MLLM在否定理解上存在困难，表现出幻觉和显著的性能下降。为弥补这一差距，我们提出NeFo，一种新颖的测试时学习方法，将否定的逻辑角色显式地纳入模型优化中。值得注意的是，仅使用约5%的未标注测试样本，NeFo便能显著提升模型的否定理解能力，并在未见任务上展现出强大的泛化能力。

点评: 精准定位了多模态模型在遥感领域的关键短板——对否定的理解，并给出了一个高效且通用的测试时解决方案，对安全关键应用（如应急响应）意义重大。

5. 基于多视角反编译的LLM恶意软件分类

作者: Bercan Turkmen, Vyas Raina | 分类: cs.CR, cs.AI 链接: arxiv.org/abs/2606.20436v1

恶意软件分析师在源代码不可用时，通常会通过反编译的伪C代码来检查编译后的二进制文件。近期研究表明，大语言模型可以通过将反编译代码分类为良性或恶意来辅助这一过程，但现有流水线通常依赖单一反编译器的视角。我们认为这一假设是脆弱的：反编译器是有信息丢失的启发式工具，不同的反编译器可能暴露同一二进制文件的不同特征。我们整理了一个包含良性工具和恶意程序的基准，涵盖多种威胁行为。每个样本都被编译后，分别用Ghidra和RetDec进行反编译，得到匹配的伪C视图。在来自主要模型家族的多种LLM上的实验表明，提供两种反编译器视图可以提升恶意类的F1分数，主要是通过提高恶意样本的召回率。一致性分析进一步显示，Ghidra和RetDec会犯部分不同的错误，支持了反编译器输出能提供互补证据的观点。我们的结果表明，多反编译器提示是一种简单、无需训练的方法，可在实际环境中改进基于LLM的恶意软件分类。

点评: 思路非常务实，揭示了单一反编译器视角的脆弱性，利用“多视角”互补这一简单策略显著提升了LLM在安全领域的实战能力。

6. AutoPass：证据引导的LLM智能体用于编译器性能调优

作者: Zepeng Li, Jie Ren, Zhanyong Tang, Jie Zheng, Zheng Wang | 分类: cs.SE, cs.AI 链接: arxiv.org/abs/2606.20373v1

大语言模型在代码编译任务上展现出潜力，但由于复杂的微架构效应和含噪声的运行时间测量，将其应用于运行时性能调优非常困难。我们提出AutoPass，一个用于编译器性能调优的多智能体框架，它利用编译器和运行时证据来引导LLM生成的优化决策。与先前将编译器视为黑盒的自动调优方案不同，AutoPass向LLM开放了编译器，使其能够查询编译器内部的优化状态并分析中间表示，以编排编译器选项。搜索过程通过使用测量的运行时反馈来迭代优化配置，诊断性能回退并指导降低延迟的编辑。AutoPass在仅推理、无需训练的场景下运行，不需要离线训练或任务特定的微调，使其能直接应用于新的基准测试和平台。我们在LLVM编译器上实现AutoPass，并在服务器级x86-64和嵌入式ARM64系统上进行评估。AutoPass超越了专家调优的启发式方法和经典自动调优方法，在x86-64和ARM64上分别比LLVM -O3取得了1.043倍和1.117倍的几何平均加速比。

点评: 将编译器从黑盒变为“可解释”的白盒，让LLM能够基于内部证据进行推理，这是传统自动调优手段无法企及的，展示了大模型在系统软件优化中的巨大潜力。

7. ELVA：探索基于排序驱动的通用多模态检索

作者: Yuhan Liu, Pei Fu, Hang Li, Yukun Qi, Chao Jiang et al. | 分类: cs.IR, cs.AI 链接: arxiv.org/abs/2606.20280v1

通过对比学习利用多模态大语言模型已成为提升通用多模态检索性能的主流范式。然而，先前工作忽视了将对比范式适配到检索任务时的“粒度盲目性”。粒度盲目性是指模型倾向于忽略查询中包含的粒度级信息，而这对有效处理复杂查询至关重要。这源于对比学习将样本视为二元分类，而忽略了每个负样本携带的不同信息。为解决此问题，我们认为应根据负样本与正样本的相似度区别对待它们，使模型能够从每个负样本中学习不同的粒度信息。本文引入了一个简单但有效的框架ELVA，这是一种新颖的基于规则的强化学习框架，通过排序驱动的MLLM来缓解粒度盲目性。1）我们不是依赖奖励模型，而是将带可验证奖励的强化学习扩展到检索任务，允许模型在没有显式排序标签的情况下探索新的排序行为。2）通过利用基于规则的奖励，我们的方法在扩大正负样本间相似度差距的同时，联合优化了负样本的排序。为更精确地衡量粒度盲目性，我们进一步引入了MRBench，一个专门为多粒度查询场景设计的新基准。ELVA在标准检索基准上取得了最先进的结果，其在MRBench上显著的13.1%的提升进一步证明了其在缓解粒度盲目性方面的有效性。

点评: 精准指出了对比学习在检索任务中的“粒度盲区”，并巧妙地引入强化学习来解决排序问题，不仅性能提升显著，MRBench基准也为后续研究提供了重要参考。

8. 面向MDP中非随机缺失奖励的缺失感知策略的离线策略评估

作者: Ziheng Wei, Annie Qu, Rui Miao | 分类: stat.ML, cs.LG 链接: arxiv.org/abs/2606.20206v1

在离线强化学习中，由于记录稀疏或不规则，或超过特定奖励值的删失，记录批次数据中的即时奖励常常未被观测到。这一问题出现在包括医疗保健和市场营销在内的实际场景中。我们研究了在奖励非随机缺失的有限时间马尔可夫决策过程中的离线策略评估。非随机缺失破坏了可忽略性，并即使在状态和动作条件下也会引入选择偏差。为解决这一问题，我们形式化了一个依赖奖励的倾向性模型，并利用未来状态作为影子变量来识别完整数据条件均值奖励。我们进一步引入了一个桥接函数，可以在不显式建模非随机缺失机制的情况下恢复条件均值奖励，并通过一个极小极大过程来估计它，以避免双重抽样。基于这些识别结果，我们提出了一种类似Fitted-Q-Evaluation的估计器，该估计器传播恢复后的奖励，同时允许目标策略依赖于过去的缺失指示符。最后，我们为我们的OPE估计器建立了一致性和有限样本误差界，并通过实验展示了我们的方法在模拟数据和MIMIC-III Sepsis数据上相比现有方法的强大性能。

点评: 解决了离线强化学习中一个非常现实且棘手的问题——奖励非随机缺失，理论推导扎实（利用了影子变量和桥接函数），并在医疗数据上验证了有效性，对真实世界RL应用意义深远。

本内容由 AI 辅助生成，论文信息来源于 arXiv。

今日AI&科技快讯 (2026-06-22)