跳到主要内容

强化学习微调（RLHF）

RLHF（Reinforcement Learning from Human Feedback）通过人类偏好反馈优化模型输出，常用于对齐模型行为与人类偏好、提升安全性与可用性。

与入门的关系

若尚未接触微调，请先阅读微调入门。
RLHF 的原理、流程与实现细节，请参见大模型微调技术深度解析与微调开发指南。

学习建议

掌握微调入门中的基础概念。
在深度解析中学习 RLHF 相关章节。
在开发指南中查阅奖励模型、策略优化与实验配置。

与入门的关系
学习建议