每日AI&科技快讯 (2026年6月19日)

今天从 arXiv 精选了 8 篇值得关注的 AI/ML 论文，涵盖多智能体系统偏差传播、大模型知识冲突消解、遥感否定理解、编译器性能优化与多模态检索等前沿方向。

1. 传染网络：多智能体LLM系统中的评估者偏差传播

作者: Zewen Liu | 分类: cs.LG, cs.AI, cs.MA 链接: arxiv.org/abs/2606.20493

当大语言模型在多智能体系统中担任评估者时，其系统性的评估偏差会通过智能体网络传播。本文提出“传染网络”（Contagion Networks）这一形式化框架，用于衡量评估者偏差如何在交互的LLM智能体之间扩散。在基于DeepSeek-chat的受控三智能体实验中，研究者设定了三种不同的评估者偏差画像（结构化、平衡型、基于证据），并测量了跨智能体传染矩阵Gamma_3。研究发现，即使在相同底层模型中，评估者偏差也能在智能体间持续传播（gamma在[0.157, 0.352]区间）。论文识别出由谱半径rho(Gamma_N)支配的三种传播机制，并证明同质模型智能体产生的传染系数比先前工作中的跨模型系数弱3-5倍，属于抑制机制。研究还表明，将评估委员会规模从k=1增加到k=3可使有效传染降低72.4%，提供了一种可行的缓解策略。论文开源了传染网络实验框架。

点评: 揭示了LLM评估中的系统性偏差会在多智能体网络中“感染式”传播，并提供了量化框架和切实可行的缓解方案，对构建可靠的多智能体系统具有重要指导意义。

2. 驾驭不可靠的参数化知识与上下文知识：面向LLM推理的显式知识冲突消解

作者: Huang Peng, Jiuyang Tang, Weixin Zeng, Hao Xu, Xiang Zhao | 分类: cs.AI 链接: arxiv.org/abs/2606.20245

大语言模型通过利用广泛的参数化知识和上下文学习能力，在多种语言任务上取得了强劲表现。然而，外部知识的引入可能引发冲突——不仅存在于模型内部参数化知识与外部信息之间，也存在于多条外部上下文之间。现有方法通常假设模型或上下文之一是可靠的，忽略了双方均可能包含错误的情况，并通过偏袒某一方来回避冲突，而非主动消解不一致。为解决这些局限，本文提出MACR框架，突破了传统的二选一范式，引入基于多智能体推理的显式冲突消解机制。具体而言，论文首先提出一种自适应知识评估与检索方法，利用改进的语义熵度量来量化LLM对给定查询答案的置信度；据此，MACR或将模型内部知识外化为文本表示，或在内部知识不足时检索相关外部知识；随后引入一个归纳式多智能体推理框架，包含三个专用智能体，分别负责归纳显式规则、分析潜在冲突以及消解所有上下文间的不一致。实验结果表明，MACR在多个基准测试上显著优于现有最优方法，同时提供了可解释的冲突消解过程。

点评: 针对LLM知识冲突问题，跳出了“二选一”的简单范式，通过多智能体主动推理消解矛盾，既提升了性能又增强了可解释性。

3. PsyScore：心理测量感知的适应性作文评分与最近发展区支架式反馈框架

作者: Wei Xia, Jin Wu, Haoran Shi, Xiangyu Wang, Chanjin Zheng | 分类: cs.CL 链接: arxiv.org/abs/2606.20287

有效的自动作文评分系统需同时支持可靠评估和可操作的指导性反馈。然而，现有方法通常将评分与反馈视为独立组件：神经评分模型可解释性有限，而基于LLM的反馈往往对学习者水平不敏感。为解决这一碎片化问题，本文提出PsyScore——一个心理测量感知的框架，通过共享的潜在能力表征将诊断性评估与教学支架整合。PsyScore包含三个核心模块：基于等级部分信用模型的适应性神经IRT评分器，可在保持心理测量可解释性的同时精确估计学生能力；基于最近发展区的支架式反馈生成器，根据诊断出的能力参数调节多智能体反馈策略；以及多视角反馈评估策略，通过成对偏好判断和学生修订模拟评估反馈质量。在ASAP++数据集上的实验表明，PsyScore在保持竞争性评分性能的同时，提供了更具教育学意义的反馈。

点评: 将心理测量学理论与LLM结合，实现了“评分即诊断、反馈即支架”的统一框架，为教育科技领域的智能化评估与个性化辅导开辟了新路径。

4. 遥感多模态大模型的否定理解能力评估与增强

作者: Haochen Han, Jue Wang, Alex Jinpeng Wang, Fangming Liu | 分类: cs.CV, cs.AI 链接: arxiv.org/abs/2606.20177

多模态大语言模型在多种遥感任务中表现出色，但其理解否定表述的能力尚待探索，这限制了模型在实际场景中的应用——例如应急救援人员需要定位非淹没的疏散路线。为全面研究这一局限，本文引入RS-Neg——首个从区域级到场景级评估否定理解能力的基准。论文设计了面向遥感影像的自动化数据生成管线，利用LLM合成多样化否定查询，并引入动态视觉聚焦模块进行验证。评估发现，先进的遥感MLLM在否定理解方面表现不佳，存在幻觉和显著性能下降。为弥合这一差距，论文提出NeFo，一种新颖的测试时学习方法，将否定的逻辑角色显式融入模型优化。仅使用约5%的未标注测试样本，NeFo便能显著提升模型的否定理解能力，并展现出对未见任务的强泛化能力。

点评: 首次系统性地考察了遥感MLLM的否定理解能力，揭示了这一关键盲点，并提出高效的测试时学习方案，对于提升模型在安全攸关场景中的可靠性至关重要。

5. 面向LLM恶意软件分类的多视角反编译

作者: Bercan Turkmen, Vyas Raina | 分类: cs.CR, cs.AI 链接: arxiv.org/abs/2606.20436

在源码缺失的情况下，恶意软件分析师通常通过反编译后的伪C代码来检查编译后的二进制文件。近期研究表明大语言模型可通过分类反编译代码为良性或恶意来辅助这一过程，但现有管线通常依赖单一反编译器的视图。本文指出这一假设是脆弱的：反编译器是存在信息丢失的启发式工具，不同反编译器可能暴露同一二进制文件的不同特征。论文收集了一个涵盖多种威胁行为的良性工具与恶意程序基准集，每个样本用Ghidra和RetDec两种反编译器处理，得到匹配的伪C视图。在多种主流LLM家族上的实验表明，同时提供两种反编译器视图能提升恶意类别的F1分数，主要得益于恶意样本召回率的提升。一致性分析进一步表明Ghidra和RetDec的部分错误具有互补性，支持反编译器输出提供互补证据的观点。结果表明，多反编译器提示是一种简单、无需训练即可提升基于LLM的恶意软件分类性能的方法。

点评: 点出了单反编译器视角的脆弱性，并通过简单有效的多视角融合方案提升恶意软件检测性能，对实际安全分析工作具有直接价值。

6. AutoPass：基于证据引导的LLM智能体用于编译器性能调优

作者: Zepeng Li, Jie Ren, Zhanyong Tang, Jie Zheng, Zheng Wang | 分类: cs.SE, cs.AI 链接: arxiv.org/abs/2606.20373

大语言模型在代码编译任务上展现出潜力，但将其应用于运行时性能调优面临复杂的微架构效应和噪声运行时测量的挑战。本文提出AutoPass，一个用于编译器性能调优的多智能体框架，利用编译器和运行时证据引导LLM生成的优化决策。与先前自动调优方案将编译器视为黑盒不同，AutoPass向LLM打开编译器，使其能够查询编译器内部优化状态并分析中间表示以编排编译器选项。搜索过程通过实测运行时反馈迭代优化配置，诊断性能退化并引导延迟改进。AutoPass在仅推理、无需训练的设置下运行，无需离线训练或任务特定微调，可随时应用于新基准和平台。论文在LLVM编译器上实现AutoPass，并在服务器级x86-64和嵌入式ARM64系统上评估。AutoPass在x86-64和ARM64上分别实现了相对于LLVM -O3的几何平均加速1.043倍和1.117倍，优于专家调优的启发式方法和经典自动调优方法。

点评: 将编译器从“黑盒”变为“白盒”，让LLM通过分析内部状态证据来指导优化，是AI驱动系统软件优化的一个有前景的新范式。

7. ELVA：探索排序驱动的通用多模态检索

作者: Yuhan Liu, Pei Fu, Hang Li, Yukun Qi, Chao Jiang et al. | 分类: cs.IR, cs.AI 链接: arxiv.org/abs/2606.20280

通过对比学习利用多模态大语言模型已成为提升通用多模态检索性能的主流范式。然而，先前工作忽略了将对比范式适应检索任务时的“粒度盲区”问题。粒度盲区指模型倾向于忽略查询中包含的粒度级信息，而这对处理复杂查询至关重要。这一问题源于对比学习将样本视为二元分类（正/负），忽略了每个负样本携带的不同信息。为解决此问题，论文主张应根据负样本与正样本的相似度对其进行差异化处理，使模型能从每个负样本中学习不同的粒度信息。本文提出ELVA，一个新颖的基于规则的强化学习框架，通过排序驱动的MLLM缓解粒度盲区。具体而言，论文将可验证奖励强化学习扩展到检索任务，使模型无需显式排序标签即可探索新的排序行为；并通过基于规则的奖励，联合优化负样本排序并扩大正负样本间的相似度差距。为更精确衡量粒度盲区，论文引入MRBench——专为多粒度查询场景设计的新基准。ELVA在标准检索基准上取得了最优结果，并在MRBench上实现了13.1%的显著提升，证明了其缓解粒度盲区的有效性。

点评: 创造性地将RLVR引入检索任务，通过排序驱动的方式解决了对比学习忽视负样本信息的固有问题，为多模态检索的精细化建模提供了新思路。

8. 面向马尔可夫决策过程中非随机缺失奖励策略的离线策略评估

作者: Ziheng Wei, Annie Qu, Rui Miao | 分类: stat.ML, cs.LG 链接: arxiv.org/abs/2606.20206

在离线强化学习中，由于记录稀疏或不规则，或超出特定奖励值的截断，日志批次数据中的即时奖励常常未被观测到。这一问题出现在医疗保健和市场营销等实际场景中。本文研究了有限时域马尔可夫决策过程中奖励非随机缺失情况下的离线策略评估。非随机缺失打破了可忽略性假设，即使在给定状态和行动的条件下也会引入选择偏差。为解决此问题，论文形式化了依赖于奖励的倾向性模型，并利用未来状态作为影子变量来识别完整数据条件下的均值奖励。进一步，论文引入一个桥接函数，无需显式建模非随机缺失机制即可恢复条件均值奖励，并通过最小-最大过程进行估计以避免双重采样。基于这些识别结果，论文提出了一个类似Fitted-Q-Evaluation的估计器，在传播恢复奖励的同时允许目标策略依赖过去的缺失指示变量。最后，论文建立了其离线策略评估估计量的一致性和有限样本误差界，并通过模拟和MIMIC-III脓毒症数据上的实验证明了该方法相比现有方法的优越性能。

点评: 解决了离线强化学习中一个棘手且现实的问题——奖励非随机缺失下的策略评估，理论严谨且具有重要的实际应用价值，特别是在医疗等关键领域。

本内容由 AI 辅助生成，论文信息来源于 arXiv。

今日AI&科技快讯 (2026-06-19)