大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等_电脑知识

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

创始人

2024-12-02 10:33:19

随着自监督学习的进步、预训练语料库中数万亿标记的可用性、指令微调以及具有数十亿参数的大型Transformer的发展，大型语言模型（LLMs）现在能够生成符合事实且连贯的人类查询响应。然而，训练数据质量参差不齐可能导致生成不良响应，成为一个重大挑战。在过去的两年里，从不同角度提出了各种方法来增强LLMs，特别是在使其与人类期望对齐方面。尽管做出了这些努力，但尚未有一篇综合性调查论文对这些方法进行分类和详细说明。在本工作中，我们旨在填补这一空白，将这些论文分类为不同主题，并提供每种对齐方法的详细解释，从而帮助读者全面了解该领域的现状。

在过去的几十年中，通过自监督学习对大型语言模型（LLMs）进行的预训练取得了显著进展。这些进步得益于更大的仅解码Transformer的开发、数万亿标记的利用以及跨多个GPU的计算并行化。在预训练阶段之后，使用指令微调来指导LLMs响应人类查询。尽管取得了这些进展，但一个关键问题仍未解决：LLMs可能会生成不良响应，例如提供实施非法活动的指令。为降低这种风险，将LLMs与人类价值观对齐至关重要。

从人类反馈中进行强化学习（RLHF）已成为对齐LLMs的突破性技术。这种方法促进了强大模型的发展，如GPT-4、Claude和Gemini。自RLHF引入以来，许多研究探索了进一步对齐LLMs的各种方法。然而，尚未有一篇综合性评论文章对这些对齐方法进行系统性评审。本文旨在填补这一空白，通过分类回顾现有文献并对个别论文进行详细分析。

本文将我们的综述分为四个主要主题：1. 奖励模型；2. 反馈；3. 强化学习（RL）；4. 优化。每个主题进一步划分为如图1所示的子主题。对于奖励模型，子主题包括：1. 显式奖励模型与隐式奖励模型；2. 点对点奖励模型与偏好模型；3. 响应级别奖励与标记级别奖励；4. 负偏好优化。关于反馈，子主题包括：1. 偏好反馈与二元反馈；2. 成对反馈与列表反馈；3. 人类反馈与AI反馈。在RL部分，子主题包括：1. 基于参考的RL与无参考RL；2. 长度控制RL；3. RL中的不同散度；4. 在线RL与离线RL。对于优化，子主题包括：1. 在线/迭代偏好优化与离线/非迭代偏好优化；2. 分离SFT与对齐与合并SFT与对齐。表1使用这些13个评价指标对所有详细回顾的论文进行了分析。