每日AI&科技快讯 (2026年6月3日)

今天从 arXiv 精选了 8 篇值得关注的 AI/ML 论文，涵盖多智能体系统、高效推理、AI 加速器内核生成以及智能体强化学习等前沿方向。

1. Traj-Evolve：用于肺癌早筛患者轨迹建模的自演化多智能体系统

作者: 待补充 | 分类: cs.AI 链接: arxiv.org/abs/2606.02812

从纵向电子健康记录（EHR）中建模患者轨迹需要处理稀疏、嘈杂且长上下文的时序多模态数据。现有的基于LLM的多智能体系统解决了上下文长度问题，但独立处理每个患者，未能模仿临床医生如何从相似既往病例中积累经验。我们提出了Traj-Evolve，一个具有两种互补演化机制的自演化多智能体系统。首先，经验池（ExPool）作为一种非参数化内存，索引经过拒绝采样的推理轨迹，以检索相似患者作为少样本上下文。其次，通过奖励排名微调的多智能体强化学习（MARL）参数化地优化智能体间以及智能体与内存之间的协作。一种留一交叉检索策略将两者统一，使训练和推理时的行为在检索增强下保持一致。在利用长达五年的多模态EHR进行肺癌预测任务上，Traj-Evolve在整体人群和具有挑战性的从不吸烟人群上均优于9个强基线模型。对演化动态的分析突出了三个关键发现：（1）扩大ExPool使最优检索从多样化样本转向特定样本；（2）在MARL下，管理智能体的预测损失迅速收敛，而工作智能体的时序推理则继续从更多已验证的患者中受益；（3）两种机制在预测风险上是互补的，ExPool提高了特异性，而MARL提高了敏感性。

点评: 将“经验池”与“多智能体强化学习”巧妙结合，模拟了临床医生从过往病例中学习的过程，是AI辅助医疗决策领域的重要突破。

2. Multi²：面向交互式环境的基于LLM智能体的分层多智能体决策

作者: 待补充 | 分类: cs.LG 链接: arxiv.org/abs/2606.03698

大型语言模型（LLM）研究的一个核心目标是构建能够在动态环境中通过持续交互进行规划、行动和适应的智能体系统。尽管最近的基于LLM的智能体展现出令人印象深刻的上下文推理能力，但它们的长时域决策仍然脆弱，常常遭受目标漂移的困扰。我们引入了Multi²，一个明确将智能体行为分解为互补角色的分层多智能体决策框架。高层智能体（系统1）专注于使用监督微调（SFT）生成上下文感知的子目标，而低层智能体（系统2）则通过交互式环境中的离线到在线强化学习（RL）执行原子动作。这种分离实现了稳定的长时域控制，减轻了目标漂移，并允许高效适应。在多样化的交互式环境中，Multi²始终优于强大的智能体基线，在多轮交互中展现出改进的鲁棒性和协调性。除了性能之外，我们还引入并发布了三个分层基准数据集，填补了训练和评估基于LLM智能体的分层决策这一长期存在的空白。

点评: 借鉴了“系统1/系统2”认知理论，通过分层架构有效解决了LLM智能体在长期任务中的“目标漂移”问题，并贡献了宝贵的基准数据集。

3. ACTS：用于高效且可控LLM推理的智能体思维链引导

作者: 待补充 | 分类: cs.AI 链接: arxiv.org/abs/2606.03965

大型语言模型通过扩展的思维链推理提高了最终答案的准确性，但往往在Token使用上效率低下，且几乎不提供推理时的控制。现有的高效推理方法通过缩短、提前停止或压缩轨迹来控制思考长度，但模型的思考方式是隐式的。本文提出了智能体思维链引导（ACTS），它将推理引导形式化为一个马尔可夫决策过程，其中一个控制器智能体在推理过程中自适应地引导一个冻结的推理器。在每一步，控制器观察推理轨迹和剩余思考预算，然后发出一个由推理策略和引导短语组成的引导动作，以启动推理器的下一步。这使得能够在保持推理器生成连续性的同时，实现预算感知的策略控制以实现高效推理。我们从构建的包含多预算增强的合成引导轨迹中初始化控制器智能体，并通过带有预算条件奖励塑造的强化学习进一步优化它。跨多个基准的实验表明，ACTS在显著节省Token的情况下达到了与全思维链相当的性能，并在不同推理器和任务上实现了可控的准确性-效率权衡。

点评: 将推理控制权交给一个“预算感知”的辅助智能体，实现了对LLM思考深度和Token消耗的精细调控，是非常实用的推理效率优化方案。

4. KForge：面向AI加速器的LLM驱动跨平台内核生成

作者: 待补充 | 分类: cs.LG 链接: arxiv.org/abs/2606.02963

生产环境中的推理越来越多地针对异构的加速器组合。智能体流水线穿插了推理、工具调用和多智能体协调，每个环节都有独特的计算和内存配置。为了达到最佳效率，每个阶段都应该在最合适的加速器上运行。这带来了一个系统挑战：每个流水线现在都需要在越来越多的硬件后端和编程模型上拥有高性能的内核。手工编写这些内核耗时费力，需要深厚的底层专业知识，并且无法随着内核复杂度的增长而扩展。最近，大型语言模型（LLM）已被用于自动内核生成，但低层级代码生成和跨后端泛化的挑战依然存在。我们提出了KForge，一个围绕迭代优化循环构建的跨平台框架，由两个协作的基于LLM的智能体驱动：一个生成智能体，利用编译和正确性反馈来产生并逐步优化内核；一个性能分析智能体，解释从程序化API到基于GUI的工具等分析数据，并发出指导下一轮综合的建议。该循环在功能优化pass（将候选内核推向正确性）和性能优化pass（缩小与手工调优基线的性能差距）之间交替。我们在两个基线参考可用性差异很大的后端上评估了KForge。在NVIDIA B200上，在gpt-oss-20b推理速度基准测试中，与TensorRT-LLM相比，KForge的端到端吞吐量提升了2.12%。在Intel Arc B580上，针对KernelBench Level 2中的37个GEMM+尾操作工作负载，KForge生成的内核比PyTorch eager和torch.compile中较快者实现了5.13倍的几何平均加速，这主要归功于算子融合和混合精度执行。

点评: 针对AI硬件碎片化问题，利用LLM智能体协作自动生成高性能内核，并在NVIDIA和Intel GPU上均有显著性能提升，展现了巨大的工程价值。

5. EvoDS：具备技能学习与上下文管理的自演化自主数据科学智能体

作者: 待补充 | 分类: cs.AI 链接: arxiv.org/abs/2606.03841

大型语言模型（LLM）智能体的最新进展已在自动化数据科学领域取得令人鼓舞的成果。然而，现有方法仍然受到其静态动作集以及缺乏原则性长时域上下文管理的根本限制，这阻碍了它们跨任务积累可复用经验以及在多阶段、迭代式的数据科学流水线中可靠运行。为了解决这些挑战，我们引入了EvoDS，一个通过智能体强化学习来学习扩展其技能并自适应管理长期上下文的自主数据科学智能体。具体来说，EvoDS引入了两个关键策略：（1）自主技能获取（ASA）机制，使智能体能够合成、验证和复用可执行技能；（2）自适应上下文压缩（ACC）策略，将上下文管理视为一个学习控制问题而非被动截断。这些策略在一个两阶段的多智能体训练方案中协同运作，使EvoDS能够随时间自主改进。理论上，我们证明了EvoDS的分层设计减少了工具选择错误，并且其优化目标符合信息瓶颈原理，确保了高效的上下文使用。实验表明，EvoDS在四个不同的基准测试上平均优于最先进的开源数据科学智能体28.9%，同时消除了Token超限失败。

点评: 通过让智能体在任务中“学会学习”（技能获取）和“学会记忆”（上下文管理），解决了数据科学任务中技能复用和长上下文处理的痛点。

6. Libra：面向智能体RL后训练的高效资源管理

作者: 待补充 | 分类: cs.LG 链接: arxiv.org/abs/2606.03077

强化学习（RL）已成为大型语言模型（LLM）标准的后训练范式，其应用已从偏好对齐扩展到复杂推理和多轮智能体行为。在智能体RL中，轨迹展开阶段会生成轨迹并调用工具，产生长尾和非平稳的工作负载，挑战了传统的资源管理假设。由此产生了三个基本挑战。首先，由于长尾分布，一小部分轨迹主导了展开阶段的完成时间。其次，展开和训练在计算模式、内存需求以及对序列长度的敏感性上表现出强烈的不对称性。第三，随着RL策略的演变，轨迹长度分布会随时间漂移，使得任何静态资源分割方案都会逐渐变得次优。我们提出了Libra，它引入了两个核心机制。第一个是周期性全局资源规划器，它联合优化了展开和训练集群上的GPU分配。它利用一个弹性的混合池来实现阶段之间轻量级、非阻塞的工作节点重新分配。第二个是基于因果关系的多级反馈队列（C-MLFQ）调度器，它根据从工具返回结果得出的因果信号（而非依赖脆弱的长短预测）将请求路由到异构的展开存储桶。在48块A800 GPU上的评估表明，与基线相比，Libra实现了最高3.0倍的吞吐量提升，并且奖励收敛速度最高加快了2.5倍。

点评: 针对LLM智能体RL训练中由工具调用引起的非平稳工作负载，提出了精巧的资源调度方案，使GPU利用率大幅提升。

7. 探索多语言多模态大语言模型的对抗鲁棒性与安全对齐

作者: 待补充 | 分类: cs.CL 链接: arxiv.org/abs/2606.03793

多模态大语言模型将视觉感知整合到语言推理中，这引入了一个易受对抗攻击的持续攻击面。先前关于MLLM鲁棒性的研究主要集中在以英语为中心的任务上，忽视了多语言行为。我们通过对17种不同语言的对抗鲁棒性和多模态安全性进行系统性研究来解决这一空白，评估了通过指令调优获得多语言能力的开源MLLM。基于梯度的攻击揭示了一个可转移的多语言脆弱性：针对一种语言优化的对抗图像会继续导致其他语言中的失败，表现出强烈的跨语言可转移性。多语言安全性进一步取决于模型检索或解释有害指令的有效性。当通过文本发出有害意图时，语言基础更强的语言更经常引发能够被滥用的响应，而较弱语言产生的有害输出较少。当作为文字内容嵌入图像时，英文文本能被可靠识别和遵循，而非英文脚本很少被视觉编码器解析。因此，资源较少的语言可能看起来更安全，但这是理解和视觉基础缺陷的产物，而非真正的对齐，我们将这种现象称为“因失效而安全”。相比之下，在训练阶段（而非仅指令调优）就构建多语言能力的MLLM，如Qwen3-VL，展现出真正的跨语言安全性，跨语言保持主动拒绝，而不是掩盖理解失败。浅层多语言适应（如在翻译后的指令数据上微调）可能产生表面理解，在低资源语言中制造出虚幻的安全性；而跨训练阶段的更深入整合才能实现真正的多语言安全对齐。

点评: 揭示了一个重要的AI安全问题：低资源语言的“安全”可能是一种假象，本质上是模型能力不足导致的“因失效而安全”，对评估和构建真正安全的多语言AI系统有深远启示。

8. TAO-RL：基于工具感知与熵引导的高效智能体强化学习

作者: 待补充 | 分类: cs.LG 链接: arxiv.org/abs/2606.03762

智能体强化学习为大型语言模型（LLM）赋予了工具使用能力，这显著改善了其在复杂任务上的推理能力。然而，集成外部工具常常会破坏训练稳定性：过度依赖工具可能引发输入分布偏移，而过于保守地使用工具则限制了有效的探索。为了解决这个问题，我们提出了一个统一的框架TAO-RL，它将工具感知的轨迹过滤与熵引导的探索相结合，以实现高效策略优化。具体来说，在数据层面，TAO-RL根据两个标准过滤展开轨迹：丢弃所有工具调用未能执行的轨迹，并移除所有展开结果要么全对要么全错的轨迹，因为这两种情况都会产生退化的优势估计，无法提供有区分度的学习信号。这种联合过滤保留了既有工具能力又有信息量的数据，建立了高质量的训练分布。在算法层面，我们引入了一个工具感知的熵引导奖励，重塑了工具调用后Token的优势函数，鼓励策略在关键决策点探索更多样化的推理路径。这两个组成部分是相互促进的：轨迹过滤建立了清晰且有信息量的训练基础，而熵引导的探索则推动在关键工具交互点产生更强的推理行为。在3种模型规模、7个具有挑战性的推理基准上的广泛实验证明了TAO-RL相较于现有方法的优越性。

点评: 针对智能体RL中“工具利用”与“探索”之间的矛盾，提出了数据过滤与熵奖励相结合的统一解决方案，显著提升了训练稳定性和最终性能。

本内容由 AI 辅助生成，论文信息来源于 arXiv。

今日AI&科技快讯 (2026-06-03)