今日AI&科技快讯 (2026-05-31)

今日精选 3 篇 AI/ML 论文,涵盖LG, AI, CL等方向

今日AI&科技快讯 (2026年5月31日)

今天从 arXiv 精选了 3 篇值得关注的人工智能论文,涵盖基于上下文的奖励学习、大模型信念管理以及长文档翻译代理等前沿方向。


1. 上下文奖励自适应:鲁棒的偏好建模

作者: Zhenyu Sun, Zheng Xu, Ermin Wei | 分类: cs.LG, cs.AI 链接: https://arxiv.org/abs/2605.30323v1

基于 RLHF 的对齐通常依赖静态的奖励模型,难以适应人类价值观的多样性及未见过的偏好领域。现有的多奖励框架受限于已知域,无法在不进行昂贵重训的情况下适应新分布。本文提出了 In-Context Reward Adaptation(上下文奖励自适应),这是一个基于 Transformer 的框架,旨在即时建模多样化和未见的人类偏好。利用 Transformer 的上下文学习能力,该方法能从少量偏好演示中自适应地推断潜在的奖励结构。研究证明,虽然标准 Transformer 架构存在渐近偏差不足以直接完成此任务,但将人类反应时间 作为辅助输入信号,模型能成功适应来自先前未见领域的偏好。实验表明,该方法为偏好建模提供了更鲁棒的基础,有效处理了异构奖励和分布偏移。

点评: 该研究创造性地引入“反应时间”作为辅助信号,解决了静态奖励模型泛化性差的痛点,为 AI 在复杂人类价值观场景下的即时自适应对齐提供了新思路。


2. 何时应改变模型的想法?大模型中的上下文信念管理

作者: Haoming Xu, Weihong Xu, Zongrui Li, Mengru Wang, Yunzhi Yao et al. | 分类: cs.AI, cs.CL, cs.LG 链接: https://arxiv.org/abs/2605.30219v1

长程交互要求 LLM 管理累积信息:何时更新状态、何时保持状态以及忽略什么。本文将这一挑战定义为 Contextual Belief Management (CBM,上下文信念管理),即在隔离任务无关噪声的同时,维护与形式化证据一致的预测信念状态。为了量化 CBM,本文引入了 BeliefTrack 基准,涵盖规则发现和电路诊断,通过有限的信念空间和符号验证器实现精确的逐轮评估。BeliefTrack 诊断了三种失败模式:保持失败、更新失败和隔离失败。实验显示,普通 LLM 存在严重的 CBM 失败,而显式的信念追踪提示效果有限。相比之下,基于信念状态奖励的强化学习将失败率平均降低了 70.9%。进一步的分析揭示了失败背后的潜在信念状态动态,且表征层面的引导在两项任务中将失败率降低了 46.1%。

点评: 针对长对话中 LLM 容易“忘记”或“胡乱更新”认知的顽疾,本文提出的 BeliefTrack 基准极具价值,证明了 RL 在纠正模型信念状态动态方面显著优于单纯的提示工程。


3. Loong:具有观察-行动自适应上下文选择的类人长文档翻译智能体

作者: Yutong Wang, Xuebo Liu, Derek F. Wong, Zhilin Li, Rongqing Jiang et al. | 分类: cs.CL, cs.AI 链接: https://arxiv.org/abs/2605.30274v1

文档级翻译仍是 LLM 面临的最大挑战之一,受限于上下文窗口导致的连贯性缺失,以及冗余上下文信息导致的翻译质量下降。为此,本文提出了名为 Loong 的类人长文档翻译智能体,它利用 3E 记忆模块(Essence-Exemplar-Entity)来存储摘要、句子对和实体记录作为历史上下文。Loong 不被动关注所有历史,而是执行深度推理,以自适应地识别用于翻译指导的最佳上下文。Loong 利用从自身采样的“观察-行动”推理轨迹中衍生的偏好数据,通过强化学习优化其上下文策略。经验评估表明,Loong 在英中、英德、英法翻译方向上取得了显著的质量提升,在三个评估指标上平均提高了高达 13.0 分。此外,Loong 展现出跨域的强泛化能力、对上下文噪声的鲁棒性,以及在超长文档翻译中的卓越稳定性。

点评: 面对超长文本翻译,Loong 通过模拟人类“观察-行动”的注意力机制和 3E 记忆系统,在有限的上下文窗口内实现了惊人的质量飞跃,是 Agent 范式在复杂 NLP 任务中的成功应用。


本内容由 AI 辅助生成,论文信息来源于 arXiv。