WWW 2023系列(六)| 推荐系统中隐式动作空间的探索和对齐 在推荐系统中,能够对未来长期指标进行优化是强化学习优势之一,但推荐系统动作多定义为推荐列表,其空间大且离散,同时还具有动态性。为此我们可以将推荐策略拆解成两步:第一步生成超动作(h... admin /新鲜讯息 /2023-06-06 /0 评论 /287 阅读