从0到1构建RLHF系统——小红书大模型团队的探索与实践 在QCon上海2024大会上,小红书大模型团队分享了自研RLHF系统的设计和优化。本文将介绍,随着LLM的发展,超长文本、多模态、PPO(Proximal Policy Optim... admin /新鲜讯息 /2025-01-02 /0 评论 /28 阅读