大型语言模型 (LLM) 在语言生成方面取得了重大进展,但其推理能力仍然不足以解决复杂的问题。数学、编码和科学问题等任务继续带来重大挑战。增强 LLM 的推理能力对于将其能力提升到简单文本生成之外至关重要。关键挑战在于将先进的学习技术与有效的推理策略相结合,以解决这些推理缺陷。
OpenR 简介
来自伦敦大学学院、利物浦大学、上海交通大学、香港科技大学(广州)和西湖大学的研究人员推出了 OpenR,这是一个集成测试时间计算、强化学习和过程监督以改进 LLM 推理的开源框架。受 OpenAI 的 o1 模型启发,OpenR 旨在复制和提高下一代 LLM 中的推理能力。通过专注于数据采集、过程奖励模型和高效推理方法等核心技术,OpenR 成为第一个为 LLM 提供如此复杂推理支持的开源解决方案。OpenR 旨在统一推理过程的各个方面,包括在线和离线强化学习训练和非自回归解码,目标是加速以推理为重点的 LLM 的开发。
论文地址:https://github.com/openreasoner/openr/blob/main/reports/OpenR-Wang.pdf
主要特点:
- 过程监控数据
- 在线强化学习 (RL) 训练
- 生成和判别式 PRM
- 多重搜索策略
- 测试时间计算和缩放
OpenR的结构和关键组件
OpenR 的结构围绕几个关键组件。其核心是采用数据增强、策略学习和推理时间引导搜索来增强推理能力。OpenR 使用马尔可夫决策过程 (MDP) 来建模推理任务,其中推理过程被分解为一系列步骤,这些步骤经过评估和优化以引导 LLM 获得准确的解决方案。这种方法不仅可以直接学习推理技能,还可以促进每个阶段探索多种推理路径,从而实现更强大的推理过程。该框架依赖于过程奖励模型 (PRM),该模型在中间推理步骤上提供细粒度的反馈,使模型能够比仅仅依赖最终结果监督更有效地微调其决策。这些元素共同作用,改进了 LLM 逐步推理的能力,在测试时利用更智能的推理策略,而不仅仅是扩展模型参数。
研究人员在实验中展示了使用 OpenR 的 LLM 推理性能的显著提升。以 MATH 数据集为基准,与传统方法相比,OpenR 的推理准确率提高了约 10%。测试时间引导搜索和 PRM 的实施在提高准确率方面发挥了关键作用,尤其是在计算预算受限的情况下。在推理过程中,研究人员使用了“Best-of-N”和“Beam Search”等方法来探索多种推理路径,OpenR 表明这两种方法都明显优于更简单的多数投票技术。该框架的强化学习技术(尤其是利用 PRM 的技术)在在线策略学习场景中被证明是有效的,使 LLM 的推理能力随着时间的推移稳步提高。
结论
OpenR 在追求大型语言模型推理能力提升方面迈出了重要一步。通过整合先进的强化学习技术和推理时间引导搜索,OpenR 为 LLM 推理研究提供了一个全面而开放的平台。OpenR 的开源特性允许社区协作和进一步开发推理能力,弥合快速自动响应与深度深思熟虑推理之间的差距。OpenR 的未来工作将旨在扩展其能力以涵盖更广泛的推理任务并进一步优化其推理过程,为开发自我改进、具有推理能力的 AI 代理的长期愿景做出贡献。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。