今日AI&科技快讯 (2026年5月31日)

今天从 arXiv 精选了 3 篇值得关注的人工智能论文，涵盖基于上下文的奖励学习、大模型信念管理以及长文档翻译代理等前沿方向。

1. 上下文奖励自适应：鲁棒的偏好建模

作者: Zhenyu Sun, Zheng Xu, Ermin Wei | 分类: cs.LG, cs.AI 链接: https://arxiv.org/abs/2605.30323v1

基于 RLHF 的对齐通常依赖静态的奖励模型，难以适应人类价值观的多样性及未见过的偏好领域。现有的多奖励框架受限于已知域，无法在不进行昂贵重训的情况下适应新分布。本文提出了 In-Context Reward Adaptation（上下文奖励自适应），这是一个基于 Transformer 的框架，旨在即时建模多样化和未见的人类偏好。利用 Transformer 的上下文学习能力，该方法能从少量偏好演示中自适应地推断潜在的奖励结构。研究证明，虽然标准 Transformer 架构存在渐近偏差不足以直接完成此任务，但将人类反应时间 作为辅助输入信号，模型能成功适应来自先前未见领域的偏好。实验表明，该方法为偏好建模提供了更鲁棒的基础，有效处理了异构奖励和分布偏移。

点评: 该研究创造性地引入“反应时间”作为辅助信号，解决了静态奖励模型泛化性差的痛点，为 AI 在复杂人类价值观场景下的即时自适应对齐提供了新思路。

2. 何时应改变模型的想法？大模型中的上下文信念管理

作者: Haoming Xu, Weihong Xu, Zongrui Li, Mengru Wang, Yunzhi Yao et al. | 分类: cs.AI, cs.CL, cs.LG 链接: https://arxiv.org/abs/2605.30219v1

长程交互要求 LLM 管理累积信息：何时更新状态、何时保持状态以及忽略什么。本文将这一挑战定义为 Contextual Belief Management (CBM，上下文信念管理)，即在隔离任务无关噪声的同时，维护与形式化证据一致的预测信念状态。为了量化 CBM，本文引入了 BeliefTrack 基准，涵盖规则发现和电路诊断，通过有限的信念空间和符号验证器实现精确的逐轮评估。BeliefTrack 诊断了三种失败模式：保持失败、更新失败和隔离失败。实验显示，普通 LLM 存在严重的 CBM 失败，而显式的信念追踪提示效果有限。相比之下，基于信念状态奖励的强化学习将失败率平均降低了 70.9%。进一步的分析揭示了失败背后的潜在信念状态动态，且表征层面的引导在两项任务中将失败率降低了 46.1%。

点评: 针对长对话中 LLM 容易“忘记”或“胡乱更新”认知的顽疾，本文提出的 BeliefTrack 基准极具价值，证明了 RL 在纠正模型信念状态动态方面显著优于单纯的提示工程。

3. Loong：具有观察-行动自适应上下文选择的类人长文档翻译智能体

作者: Yutong Wang, Xuebo Liu, Derek F. Wong, Zhilin Li, Rongqing Jiang et al. | 分类: cs.CL, cs.AI 链接: https://arxiv.org/abs/2605.30274v1

文档级翻译仍是 LLM 面临的最大挑战之一，受限于上下文窗口导致的连贯性缺失，以及冗余上下文信息导致的翻译质量下降。为此，本文提出了名为 Loong 的类人长文档翻译智能体，它利用 3E 记忆模块（Essence-Exemplar-Entity）来存储摘要、句子对和实体记录作为历史上下文。Loong 不被动关注所有历史，而是执行深度推理，以自适应地识别用于翻译指导的最佳上下文。Loong 利用从自身采样的“观察-行动”推理轨迹中衍生的偏好数据，通过强化学习优化其上下文策略。经验评估表明，Loong 在英中、英德、英法翻译方向上取得了显著的质量提升，在三个评估指标上平均提高了高达 13.0 分。此外，Loong 展现出跨域的强泛化能力、对上下文噪声的鲁棒性，以及在超长文档翻译中的卓越稳定性。

点评: 面对超长文本翻译，Loong 通过模拟人类“观察-行动”的注意力机制和 3E 记忆系统，在有限的上下文窗口内实现了惊人的质量飞跃，是 Agent 范式在复杂 NLP 任务中的成功应用。

本内容由 AI 辅助生成，论文信息来源于 arXiv。

今日AI&科技快讯 (2026-05-31)

今日AI&科技快讯 (2026年5月31日)

1. 上下文奖励自适应：鲁棒的偏好建模

2. 何时应改变模型的想法？大模型中的上下文信念管理

3. Loong：具有观察-行动自适应上下文选择的类人长文档翻译智能体

相关文章