国际信息与知识管理会议 CIKM 是数据挖掘领域顶级会议,由国际计算机学会ACM SIGIR分会主办,是中国计算机学会(CCF)推荐的B类国际学术会议。自 1992 年以来,CIKM 大会迄今为止已经是第32届。今年大会于2023年10月21日至10月25日在英国伯明翰召开,快手社区科学线有 5 篇论文被录用。本次会议收到投稿 1472 篇,接收 354 篇,录用率约为 24%。下面为大家简要介绍被录用的 5 篇论文,涉及模型压缩、用户兴趣网络、去偏多语义标签、隐式负反馈建模、统一搜索-推荐数据集等话题。
论文01:SHARK: A Lightweight Model Compression Approach for Large-scale Recommender Systems| 下载地址:https://arxiv.org/abs/2308.09395| 论文作者:张北川(快手), 孙承根(快手), 谈建超(快手), 蔡鑫军(快手),赵军(快手),苗孟琦(快手),殷康(快手),宋成儒(快手),牟娜(快手),宋洋(快手)| 论文简介:增加 embedding layer 的大小已被证明可以有效提高推荐模型的性能,但逐渐导致工业推荐系统中 embedding layer 的大小超过 TB,从而增加计算和存储成本。为了在保持模型性能的同时节省资源,我们提出了SHARK。SHARK 由两个主要组件组成。首先,我们使用泰勒展开近似 Shuffle 来修剪 embedding table(特征字段)的数量。其次,我们引入了一种新的量化方法,对每个 embedding 应用不同的量化策略。我们对公共和工业数据集进行了广泛的实验,证明我们提出的 SHARK 框架的每个组件都优于以前的方法。我们对快手的短视频、电商、广告推荐模型等多个模型进行了A/B测试。在线A/B测试结果表明 SHARK 可以有效减少 embedding layer 的内存占用。特别是在短视频场景,在性能无任何下降情况下,模型可显着节省70%的存储空间和数千台机器,提高30%的每秒查询量(QPS)。所有被压缩的模型已被部署于线上。* 本篇为模型与应用部自研
论文02:Query-dominant User Interest Network for Large-Scale Search Ranking| 下载地址:https://arxiv.org/abs/2310.06444| 论文作者:郭通(快手),李宣平(快手),杨海涛(快手),梁潇(快手),袁勇(快手),侯径幽(快手),柯冰清(快手),张超(快手),何军林(快手),张舜禹(快手)| 论文简介:用户的历史行为在推荐领域展示出强大的效果和潜力。用户的历史行为包含各种不同的类型,相比之下,用户的搜索行为更为稀疏。目前大多数的个性化搜索排序方法都使用稀疏的搜索行为来学习具有瓶颈的表示,而未充分建立长期用户兴趣模型。长期兴趣对于即时搜索来说过于多元化,如何有效利用成为一大挑战。为解决上述问题,我们提出一种以搜索词主导的用户兴趣网络,其中包含两个级联的单元,作用分别是过滤原始用户行为及对不同行为进行赋权。我们特别提出一种相关性检索单元,可根据用户的搜索词,从完整的行为序列中检索出一个子序列,再从该子序列中检索出与目标物品相关的子序列。检索出的物品会输入至混合注意力单元,能对ID和属性计算注意力得分,并根据用户在这些物品上的消费深度自动融合得到的物品嵌入和内容嵌入。此方法已在多个公开数据集的离线评估及在线AB测试中得到验证,并已服务于快手搜索的主流量。* 本篇为搜索技术部自研
论文03:Leveraging Watch-time Feedback for Short-Video Recommendations: A Causal Labeling Framework| 下载地址:https://arxiv.org/abs/2306.17426| 论文作者:张洋(中科大), 白移梦(中科大),常健新(快手),臧晓雪(快手),卢松(快手),吕静(快手),冯福利(中科大),牛亚男(快手),宋洋(快手)| 论文简介:随着短视频应用的普及,短视频推荐的重要性大大增加。与其他推荐场景不同,短视频推荐系统严重依赖于观看时间的反馈。现有方法仅将观看时间视为直接标签,未能有效利用其广泛的语义并引入偏差,从而限制了基于观看时间对用户兴趣建模的潜力。为了克服这一挑战,我们提出了一个名为去偏多语义提取标签(DML)的框架。DML通过利用观看时间分布导出的分位数构建包含各种语义的标签,优先考虑相对顺序而不是绝对标签值。这种方法在模型学习方面更容易,同时与推荐的排序目标保持一致。此外,我们引入了一种受因果调整启发的方法来改进标签定义,从而直接减轻标签层面的偏差。我们通过在线和离线实验证实了我们的DML框架的有效性。广泛的结果表明,我们的DML框架能够有效利用观看时间来发现用户的真实兴趣,提高用户在我们应用中的参与度。论文04:Learning and Optimization of Implicit Negative Feedback for Industrial Short-video Recommender System| 下载地址:https://arxiv.org/abs/2308.13249| 论文作者:潘韵竹(电子科技大学),李念(清华),高宸(清华),常健新(快手),牛亚男(快手),宋洋(快手),金德鹏(清华),李勇(清华)| 论文简介:短视频推荐是当今工业信息系统中最重要的推荐场景之一。与其他推荐场景相比,大量的反馈是最典型的特点。具体而言,在短视频推荐中,最容易收集到的用户反馈来自于跳过行为,而这给推荐模型带来了两个关键挑战。首先,跳过行为反映了用户的隐式偏好,因此对于兴趣提取来说是具有挑战性的。其次,这种特殊的反馈会影响用户的总观看时间,这涉及到业务的多个优化目标。在本文中,我们介绍了快手中的工业解决方案,该解决方案每天为数亿用户提供服务。具体而言,我们部署了一个具有反馈感知的编码模块,该模块可以很好地提取用户偏好,并考虑到上下文的影响。我们进一步设计了一个多目标预测模块,可以很好地区分短视频推荐中不同模型目标之间的关系和差异。我们进行了广泛的在线测试,并进行了详细的分析,验证了我们方案的有效性。
论文05:KuaiSAR: A Unified Search And Recommendation Dataset| 下载地址:https://arxiv.org/abs/2306.07705| Code地址:https://kuaisar.github.io/| 论文作者:孙忠祥(中国人民大学),思子华(中国人民大学),臧晓雪(快手),冷德维(快手),牛亚男(快手),宋洋(快手),张骁(中国人民大学),徐君(中国人民大学)| 论文简介:KuaiSAR是一个统一的搜索和推荐数据集,其中包含从短视频应用快手收集的真实用户行为日志。快手是中国领先的短视频应用,有超过3亿的日活用户。这是第一个同时记录记录真实用户搜索和推荐行为的数据集,它记录了每次在搜索或推荐服务中的交互以及用户在这两种服务之间的转换。如下图所示,快手app提供搜索和推荐服务。该图展示了快手应用中集成的搜索和推荐场景。当观看视频时,用户可以通过推荐服务上下滚动来浏览不同的视频(从中图到左图);或者点击放大镜图标进入搜索服务(从中图到右图)。从用户的角度看,搜索和推荐服务之间的界限可能并不明确。用户体验到的是一个结合了搜索和推荐功能的统一服务。在推荐服务中,如下图中的a.和b.所示,存在一些设计促使用户使用搜索服务。同样地,在搜索服务中,如下图中的c.和d.所示,展示了各种推荐系统建议的查询语句来激励用户进行进一步的搜索。KuaiSAR包含了在快手应用上19天内25,877名用户的真实搜索和推荐行为。该数据集根据一个条件对用户进行了筛选:即用户在2023/5.22 14:30至2023/6.10 9:30时间段内是否使用了搜索和推荐两个服务。因此,最终的数据集涵盖了在搜索或推荐服务中活跃度不同的用户,从而为各种参与程度的用户提供了一个全面的代表性。
与其他现有的数据集相比,KuaiSAR具有以下优点:这是第一个记录用户真实搜索和推荐行为的数据集。
它记录了用户搜索行为的来源,例如主动输入查询语句和点击推荐的查询语句。
它全面地记录了用户在搜索和推荐服务之间的转换,例如记录用户在推荐系统中观看视频时是否发起搜索。
它为用户和视频提供了丰富的附加信息。
它记录了用户与视频的真实互动,包括正面和负面的反馈。
* 本篇由模型与应用部和中国人民大学合作产出
还没有评论,来说两句吧...