AI 技术栈微调技术强化学习微调(RLHF)本页总览强化学习微调(RLHF) RLHF(Reinforcement Learning from Human Feedback)通过人类偏好反馈优化模型输出,常用于对齐模型行为与人类偏好、提升安全性与可用性。 与入门的关系 若尚未接触微调,请先阅读 微调入门。 RLHF 的原理、流程与实现细节,请参见 大模型微调技术深度解析 与 微调开发指南。 学习建议 掌握 微调入门 中的基础概念。 在 深度解析 中学习 RLHF 相关章节。 在 开发指南 中查阅奖励模型、策略优化与实验配置。