在短视频与直播混合推荐的场景中,直播推荐系统(RS)需在每次用户请求时决定是否插入直播。不当的直播分配策略会损害用户长期体验,显著降低应用使用时长和留存率。因此,制定最优的直播分配策略对最大化用户长期活跃度至关重要。近年来,强化学习虽常用于推荐系统以捕捉用户长期兴趣,但其传统算法常面临收敛性差、训练不稳定等问题,限制了其在大规模工业级推荐系统中的实际应用,在上述这样具有挑战性的场景下尤为明显。
为解决这些问题,快手团队提出了一种新颖的、融合监督学习的多分组Actor-Critic算法(SL-MGAC)。该方法不仅在平台级约束下优于各类基线方法,还在实际线上推荐中展现出了更高的稳定性。目前,相关成果《Supervised Learning-enhanced Multi-Group Actor Critic for Live Stream Allocation in Feed》已被 KDD 2025国际顶会收录。
论文链接:https://arxiv.org/pdf/2412.10381
代码链接:https://github.com/frankg1/SL-MGAC-torch
一、研究背景
本研究主要聚焦于直播与短视频混合推荐场景中的直播插入决策问题(如图1所示)。
该问题的核心目标在于双重优化:一方面需最大化直播分发的效率以提升用户直播观看时长;另一方面,必须严格遵循平台维度的约束条件,避免因直播插入过度而导致用户整体应用使用时长的下降。因此,该决策过程可被看作是一个每次用户请求时均需做出决策的带约束马尔可夫决策过程。
近年来,强化学习(RL)技术在工业界推荐系统中已有多项应用尝试。然而,强化学习技术在训练与部署阶段普遍面临显著的不稳定性问题。尤其是在工业界推荐系统场景中,系统流量在高、低峰期差异巨大,且用户行为数据分布随时间推移呈现剧烈波动。这些动态特性极大地加剧了强化学习模型性能退化甚至崩溃的风险。
因此,如何在确保满足平台约束条件的前提下,有效利用强化学习技术最大化用户的长期使用时长收益,并同时在推荐系统的在线服务环节(即最终决策环节)保障模型的稳定性仍然是一个巨大的挑战。
图1 直播与短视频混合推荐系统架构
二、问题定义
我们可以把上述的短视频流插直播且需要满足时长约束的问题描述为一个带约束的优化问题:
其中,我们将reward函数设置为是直播的后验观看时长,而约束函数设置为是当前请求下短视频次均播放时长与直播观看时长的差值,即,用来间接衡量插直播的动作是否会带来APP 时长的下降。
通过将上述问题转化成min-max优化问题并引入拉格朗日乘子项,可以将带约束的优化问题转化成不带约束的优化问题。再进行一系列公式推导可以得到最终的优化目标如下:
三、研究方法
在本篇论文中,快手提出了融合监督学习的多分组Actor-Critic框架SL-MGAC (Supervised Learning enhanced Multi-Group Actor Critic),如下图2所示:
图2 SL-MGAC的算法框架
SL-MGAC包括如下几个模块:
1. 用户和直播的特征提取模块 (User & Live-stream Feature Extraction)
2. 基于多分组状态分解模块的Actor网络 (Multi-Group State Decomposition)
3. 监督学习增强的Actor Critic网络 (Supervised Learning enhanced Actor Critic Networks)
特征提取模块
该模块输入用户侧和直播侧静态特征、ID特征、用户直播观看历史、短视频观看历史等序列特征等,并通过target attention等机制进行特征融合得到最终的融合embedding作为后续Actor Critic网络的输入。
多分组的状态分解模块
在工业级推荐系统中进行强化学习建模,通常面临状态空间过于巨大的问题,因此强化学习模型对于不同状态表征的学习通常是不充分的。此外,在直播推荐业务中,用户对直播的偏好通常是比较复杂的,无法用单一分布进行建模。因此,团队提出了多分组的状态分解 (MGSD)模块,通过统计分析得到先验的用户活跃度并进行状态分解,用于捕捉不同活跃度分组用户的差异化状态表征。在后续的Actor Critic网络中都会使用到MGSD模块。
监督学习增强的Actor Critic
在Actor Critic框架中,团队发现Critic网络经常在实际训练中出现崩溃及不收敛的问题,同时存在Q值预估不准确的问题。因此,他们提出了监督学习增强的Actor Critic网络。在Critic部分,我们按照如下公式对Q值的预估拆分为reward和Q值残差的预估两个部分:
其中和分别是reward预估网络和Q残差网络。
此外,在reward预估层面,团队对短视频时长和直播时长的预估都采用了时长分布离散化分桶的方式,仅通过预估桶内的比例减小模型预估的误差。同时对于reward进行了sigmoid归一化处理来减小方差,结合监督学习对于reward预估值的约束,提高整个Q值预估的准确性和Critic网络的稳定性。在Actor网络中,团队也对策略梯度loss中的Q值进行了归一化处理,等价于梯度裁剪,来使得Actor网络在训练中也能够较为稳定的梯度,防止Actor网络崩溃。
模型最终的loss函数如下所示:
Critic部分:
监督学习部分:
Actor部分:
总loss:
四、实验结果
团队从快手海外版直播推荐系统中采集了离线数据集对SL-MGAC模型的效果进行了评估,同时进行了在线AB测试及稳定性测试等。离线对比和消融实验结果如图4所示,可以看出SL-MGAC显著优于其他方法。
图3 SL-MGAC离线对比和消融实验结果
同时,在线上AB实验中,SL-MGAC也优于传统的Learning to Rank模型和单步的RL模型,如图4所示。
图4 SL-MGAC在线AB实验结果
此外,团队也监控了模型线上的直播透出比例,发现SL-MGAC的天级波动会小于baseline的SAC模型,如图5所示。
图5 SL-MGAC线上直播透出比例监控
五、总结与展望
在本篇论文中,快手海外推荐部团队提出了监督学习增强的多分组Actor-Critic框架,通过引入多分组状态分解来捕捉直播业务中不同用户群体的差异化偏好,结合监督学习来提升Critic网络的预估准确度和稳定性,同时也引入了方差降低的技术来提升模型的整体稳定性。
目前,SL-MGAC模型已经部署在快手海外版Kwai线上推荐系统中,实现了强化学习技术在推荐系统最后一个环节的落地应用。该模型在稳定性方面的优化也为强化学习技术在工业界场景的应用提供了新的思路。此外,SL-MGAC模型对于混合推荐系统的决策问题所给出的解决方案也可以应用在广告、电商、用户增长push等多个业务场景中。
- END -
”
欢迎加入
成立于2017年,承担快手国际版kwai在全球流量分发的重要作用,我们致力于打造世界一流的短视频推荐平台,海外短视频市场处于高速发展期,kwai在海外多国家已经常年占据top2市场份额,未来发展空间巨大;快手海外短视频推荐系统,是基于海外亿级用户,百亿级内容打造的超大规模在线机器学习系统,在这里,你将能够学习到业内最复杂的机器学习系统的运转原理,遇到最为挑战的前沿推荐领域的问题,在多目标、多模态、多市场、多语言、新市场冷启、用户兴趣探索、session维度时序决策建模、留存建模、创作者流量分发机制等领域问题上做出最为前沿的创新工作;海外推荐部是快手海外业务核心增长引擎,为海外业务发展做出关键性的作用,团队氛围融洽,协作顺畅,注重团队成员的培养和成长。
「招聘岗位」
推荐算法工程师/专家-【海外产品】
「欢迎加入」
扫描二维码了解岗位信息&一键投递
扫码添加HR微信或投递简历至邮箱:[email protected]
”
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...