用户兴趣探索是推荐系统中一个重要且极具挑战性的课题,它可以有效缓解推荐模型与用户-物品交互记录间的闭环效应。基于上下文的多臂老虎机Bandit(CB)算法希望在用户交互信息的探索和利用(Exploitation-Exploration)之间做出较好的平衡,以便有机会挖掘出用户的潜在兴趣。然而,经典的CB算法只能应用于一个较小的、或是采样之后的物品集(通常是数百个),这导致其在推荐系统中的应用局限于有限的小规模场景当中。
我们引入了两种简单但有效的分层CB算法,使经典的CB模型(如LinUCB和Thompson Sampling)不再局限于一个较小的物品集,而是能够探索用户在大规模推荐场景下对所有物品的兴趣。具体而言,我们首先通过自底向上的聚类算法构造了一个具有层次结构的物品树,并以由粗到细的方式来归类物品。在此基础上,我们进一步提出了一种分层CB (HCB)算法来在层次树中探索用户的兴趣。HCB将用户兴趣的探索问题转化为一系列决策过程,其目标是找到一条从根到叶节点的路径,并将损失函数反向传播到该路径中的所有节点。除此之外,我们还提出了一种渐进分层CB (pHCB)算法,该算法仅在具有一定可信度的可见节点中进行探索,以避免层次树中因为误选错误节点导致的对上层节点的误导。我们在两个公共推荐数据集上进行了大量实验,实验结果证明了我们方法的有效性和灵活性。
该成果“Show Me the Whole World: Towards Entire Item Space Exploration for Interactive Personalized Recommendations”发表于The Fifteenth ACM International Conference on Web Search and Data Mining(WSDM"22)(pages 947-956, 15 Feb. 2022)。该会议是数据挖掘领域的顶级会议之一,是中国计算机学会(CCF)推荐的B类国际学术会议。
论文链接:
https://dl.acm.org/doi/abs/10.1145/3488560.3498459
背景与动机
近年来,推荐系统作为帮助用户从大量的候选物中轻松地找到他们喜欢的物品的强大工具,受到了越来越多的研究关注。通常的推荐模型,如协同过滤和DeepFM,会利用用户的历史行为来估计用户在未来对物品的喜好。然而,仅基于模型的推荐系统通常存在闭环效应:一方面,用户大多只与系统推荐的商品进行交互;另一方面,系统进一步将用户的配置文件与部署模型推荐的物品进行整合。因此,随着时间的推移,系统将偏向于给每个用户推荐一个较小的、且已经暴露在历史中的兴趣集,并不断向同一用户推荐有限范围内的物品,进而形成信息茧房。
而基于上下文的多臂老虎机算法,如LinUCB,是利用侧面信息在Exploitation-Exploration之间提供平衡的经典方法,可以有效减轻闭环效应。在这种算法里,物品被比喻为老虎机中的手臂,推荐模型则被视为操作老虎机的智能体。在每一轮中,推荐系统都会从
还没有评论,来说两句吧...