在推荐系统中,能够对未来长期指标进行优化是强化学习 优势之一,但推荐系统动作多定义为推荐列表,其空间大且离散,同时还具有动态性。为此我们可以将推荐策略拆解成两步:第一步生成超动作(hyper -action ),表示为连续向量,方便动作探索和优化;第二步通过一个确定性过程,基于超动作生成对应生效动作(effect-action),即推荐列表。在优化时,我们在原有强化学习方法之上,额外引入动作对齐模块来保证两个动作空间表意的一致性,并使用监督学习模块来稳定强化学习过程。该方法的有效性在基于公开数据集的线上推荐模拟器上得到了验证。
作者:刘殊畅,蔡庆芃,孙博文,汪宇豪,江季,郑东,江鹏,赵翔宇,张永锋 论文地址: https://arxiv.org/pdf/2302.03431.pdf 推荐系统现今被广泛应用在短视频平台、社交和新闻媒体等领域。 近些年有很多研究将用户与推荐系统的交互过程建模成 Markov Decision Process (MDP),以便于强化学习方法的引入。 相比传统单点解决方案,强化学习(RL)的优势之一是能够优化未来多次优化的长期累积目标。 但同时,强化学习在推荐系统中的应用也面临诸多挑战,其中主要问题之一就是其动作被定义为推荐列表,其空间大且离散,同时还具有动态性。 上述问题在传统解决方案中通常可以通过隐变量方法或者双塔模型解决,这样在隐空间可以承载表达任意多的item并且能够应对对候选池的动态变化。在本工作中我们在 RL 解决方案中结合这个思想并将推荐策略拆分为两步: 第一步,使用策略网络生成一个向量化的超动作 hyper-action(HA); 第二步,超动作变换成一个确定性函数并对候选集进行打分排序,最终生成推荐列表作为生效动作 effect-action(EA)。
因为超动作即是第二步打分函数的参数,所以第一步的生成器实际上是一个 hyper network 或 hyper actor。这样拆分可以通过 HA 使用 DDPG 来高效优化和探索超动作空间,又因为一个 HA 唯一确定一个生效动作 EA, 对超动作空间的探索和优化就对应到生效动作空间的探索和优化。这种拆分也意味着原本的 MDP 的问题定义中,action 被拆分成了 HA 和 EA 两部分:
两个动作空间存在不一致性,因为理论上一个生效动作 EA 与用户直接交互,其表达是准确的,但其可能由任意多个超动作 HA 生成;另外超动作 HA 能够端到端高效地学习和探索,但其并不直接与用户交互,不一定能准确表达 EA 的信息。 动作的探索变为两阶段探索,如果不进行更强的引导和约束会使得模型更不稳定。 为了解决这些问题,我们提出 Hyper-Actor Critic (HAC) 学习框架(如下图)。 模型结构上,首先用户的静态信息和历史交互信息通过一个序列模型(本文用到Transformer)编码成用户当前状态 ;然后通过一个 MLP 根据当前状态生成 HA,由向量 表示;最后 HA 会作为打分函数的参数对所有候选集 item 进行打分,生效动作根据打分排序或采样得来,对应图中的 。其中在计算 item 打分时,item embedding 由一个编码器 获得,之后 HA 会作为点乘的权重将编码映射到打分。在探索过程中,HA 空间进行高斯采样,而EA 空间则进行 categorical sampling,其采样概率由 item 打分的 softmax 变换得来。以上为模型在 inference 过程中会用到的模型结构,在训练过程中,HAC框架使用 DDPG 作为基础,通过学习一个 critic 网络(MLP)来评估一个动作的长期价值 ,再通过这个 critic 来引导 hyper-actor 的学习。除此之外,还需要一个逆变换函数 来通过生效动作 反推当时 policy 给出的超动作 。这里逆变换是通过 item embedding 的平均值来实现。
Critic 网络的学习采用标准的 TD 方法,为了确保动作表意上的准确性,我们希望使用 EA 来训练这个评估函数,这里可以通过共享使用 critic 网络 并结合之前提到的逆变换函数得到 ,最终的 TD loss:
Policy 的学习只涉及 hyper-actor,我们希望能够端到端高效学习,所以这里使用 HA 的 critic 网络来引导: 为了确保两个动作空间的一致性,我们在上述 DDPG 的基础上增加一个动作对齐的目标,其作用是使得由 EA 逆推得到的 HA 与但是生成的 HA 保持一致: 为了确保学习过程的稳定性,我们使用一个基于 BCE 的有监督学习来直接通过 EA 中的 item 进行单点学习,其中需要使用单点的 作为监督信号。 实验在线上模拟器上验证了 HAC 的有效性,其效果优于有监督学习和现有的主要 RL 学习框架。 其中 DDPG-RA 同样使用了 HA 和 EA 的拆分,但是其对动作一致性的规范化是在 EA 空间进行的(见附录),而 HAC 则是通过 HA 空间进行动作一致性的优化。
分解后的 policy 相比较单一动作空间的 DDPG,效果下降,说明分解过程带来的额外的不一致性和不稳定性。 有监督学习 的引入有效保证了模型学习的稳定性,其观测到的 reward 方差更小,并在 DDPG 基础上提升了效果。 动作对齐 的引入能够进一步提升模型效果并降低 reward 方差,但可能导致模型收敛速度变慢。
另外,如之前所述,policy 分解的副产物之一是两个动作空间的联合探索问题。理论上联合探索时,动作的采样概率为 。当 是确定性过程时(如top-k选择),其采样过程仅由 决定;相反,如果 是确定性过程,则整个模型将退化为标准的 policy gradient 方法。在 HAC 的设计思路中,通过引入两个空间的对齐模块,其希望能够使得对 HA 的探索能够对应到 EA 空间中的探索;另外由 和 共同优化 item 编码器 ,希望 HA 空间能够学得协同过滤的特性,以使高斯采样更加合理。
在 HAC 的实验效果中也可以观测到两个阶段进行探索时,表现各不相同: HA 通过调整高斯采样的方差来控制探索,效果上能明显看到过小的探索会降低效率,而过大的探索会降低学习的准确性。 EA 通过 categorical sampling 采样或者惊醒 top-K 选择,在生成动作时通过调整 sampling 的占比来控制探索,效果上我们发现使用 sampling 相较 top-k 方法能够显著提升效果。
本工作针对 RL 方法在推荐系统中遇到的动作空间难以优化和探索的问题,提出了 Hyper-actor Critic 学习方法,其将 policy 分解成了 HA 生成器和 EA 生成器,并能够同时优化探索两个动作空间。 该方法在线上模拟器上得到验证,并且能够兼容很多现有 RL 解决方案。 作为一次引入性的尝试,超动作的概念来自于 Hyper-network,其网络输出即为另一个模型的参数,在这里对应了打分函数的参数。理论上更加复杂的打分函数也能通过 HAC 学习,但其 HA 空间也会变得更加复杂,其探索和优化可能需要更加精细的设计。
还没有评论,来说两句吧...