近日,国际人工智能顶级会议AAAI 2025公布论文接收结果,快手共有7篇论文被收录。AAAI(AAAI Conference on Artificial Intelligence)是由国际人工智能促进协会主办的学术盛会,也是中国计算机学会(CCF)推荐的A类国际学术会议。AAAI 2025将于2月25日至3月4日在美国宾夕法尼亚州费城举办,本届共收到12,957篇投稿,最终有3,032篇论文被接收,录用率为23.4%。
论文01:D&M: Enriching E-commerce Videos with Sound Effects by Key Moment Detection and SFX Matching
|论文地址:https://rucmm.github.io/VDSFX/
|论文简介:在广告短视频中,为了更好地突出产品特性,创作者通常会在关键时刻添加适当的音效(SFX),以增强视频的表现力。此前关于在视频中添加SFX的研究停留在整个视频与SFX的匹配上,缺乏将SFX添加到特定时刻的能力。同时,之前关于Video Highlight Detection或Video Moment Retrieval的研究仅关注时刻定位,没有综合考虑SFX匹配的问题。相比之下,我们在本文中提出了D&M,一种同时完成关键时刻检测和SFX匹配的统一方法。此外,对于新的VDSFX任务,我们构建了一个大规模数据集SFX-Moment。为了公平比较,我们通过将许多当前的Video Moment Retrieval方法扩展到新任务来建立baseline。SFX-Moment上的大量实验表明,所提出的方法相比baseline具有更优越的性能。
论文02:Granularity-Adaptive Spatial Evidence Tokenization for Video Question Answering
|论文简介:视频问答在计算机视觉的发展中起着至关重要的作用,大语言模型的最新进展进一步推动了该任务的进步。然而,当前的视频问答技术在捕获视频空间维度上的细粒度视觉内容方面仍然存在一些局限性,这主要是由于视频帧固定的和低分辨率的输入引起的。虽然一些使用高分辨率输入的方法可以在一定程度上缓解这个问题,但它们由于对整个高分辨率帧进行编码而引入了过多的计算负担。在这项工作中,我们提出了一种用于视频问答的粒度自适应空间证据编码模型。我们的方法在空间维度上引入了多粒度视觉编码,以根据问题生成各种粒度的视频标记。模型通过粒度加权模块突出显示低分辨率帧的空间激活补丁,然后自适应地在高分辨率帧中编码这些激活补丁以补充细节。为了减轻高分辨率帧编码带来的计算开销,我们开发了一个掩码和加速模块,以实现高效的视觉标记化。此外,粒度压缩模块用于根据输入的文本问题动态选择和压缩不同粒度的视觉标记。我们在十一个主流视频问答数据集上进行了广泛的实验,结果验证了我们方法的有效性。
论文03:LEARN: Knowledge Adaptation from Large Language Model to Recommendation for Practical Industrial Application
|论文地址:https://arxiv.org/abs/2405.03988
|相关代码已开源:
https://github.com/adxcreative/LEARN
|论文简介:当代推荐系统主要依赖ID Embedding来捕捉用户和物品之间的潜在关联。然而,这种方法忽视了物品文本描述中蕴含的丰富语义信息,导致性能欠佳和泛化能力不足。通过利用大型语言模型对文本内容的理解和推理能力,可以为提升推荐系统的性能提供广阔前景。为此,我们提出了一个大语言模型驱动的知识自适应推荐(LEARN)框架,该框架将开放世界知识与协同知识相结合。我们通过使用预训练的大型语言模型作为物品编码器,并冻结大型语言模型参数以避免灾难性遗忘和保留开放世界知识,来解决计算复杂性的问题。为了弥合开放世界和协同领域之间的差距,我们设计了一个由推荐任务监督的双塔结构,并将其适配于实际的工业应用。通过在真实大规模工业数据集上的实验和在线AB测试,证明了该方法在工业场景中的有效性。我们还在六个Amazon Review数据集上达到了最先进的性能,验证了我们方法的优越性。
论文04:Learning Multiple User Distributions for Recommendation via Guided Conditional Diffusion
|论文简介:典型的推荐模型会将用户和物品编码为向量,并通过评估这些向量之间的相似度来生成推荐。尽管这些模型很有效,但使用单个固定用户向量的模型在对用户不确定性进行建模以及捕捉多样用户兴趣方面存在困难。近期的研究已开始探索基于用户兴趣分布的推荐范式。然而,目前一些方法为每个用户采用单一分布,无法有效划分兴趣语义边界,从而导致推荐效果欠佳。
为此,在本文中我们提出了一种可指导的条件扩散推荐模型(GCDR),旨在为每个用户学习多个分布。具体而言,GCDR尝试解决两个主要挑战,一是学习解耦的兴趣分布;二是学习个性化兴趣分布。GCDR分别通过条件扩散和指导扩散来捕捉用户间以及用户内的分布特性。它保留特定于用户的嵌入向量,以便为条件扩散编码长期兴趣;而对于指导扩散,它结合了从近期交互中编码得到的短期兴趣以及类别偏好。为了使扩散模型与推荐任务相匹配,我们使用三种损失函数(包括用户损失、推荐损失和扩散损失)对 GCDR 进行训练。在四个真实世界数据集上进行的大量实验表明,GCDR能够学习有效的用户分布,并且优于十三种最先进的基准方法。
论文05:LLM-Powered User Simulator for Recommender System
|论文地址:https://arxiv.org/abs/2412.16984
|论文简介:用户在线交互数据能够反映实时反馈和偏好,对持续优化推荐系统至关重要。然而,由于收集开销和隐私问题,获取真实用户的交互数据面临诸多挑战,因此有效模拟用户交互成为亟待解决的难题。用户模拟器可以快速生成交互数据,促进推荐系统的评估,同时保护用户隐私。
用户与商品的交互可以分为两个阶段:首先是认识商品,即了解商品的基本信息;其次是理解商品是否符合个人兴趣。以电影推荐为例,用户首先了解电影的类型、潜在的喜好或厌恶因素等客观信息;随后,用户从主观角度评估该电影是否符合自身兴趣,通常基于历史偏好或其他用户的评价。
基于这一交互逻辑,我们设计了一种基于大语言模型的用户模拟器,用于显式模拟用户的交互过程(如下图)。具体而言,我们通过大语言模型分析商品,生成可能的喜欢或不喜欢原因,并总结为关键词。这些关键词既基于商品的客观描述,也来源于用户的评价文本,从而涵盖了商品的客观与主观特征。
在推理阶段,给定候选商品,模拟器会将其潜在的喜好、不喜欢的原因与用户历史中相似商品的交互原因进行匹配,最终预测用户的交互结果。我们综合使用匹配度、相似度计算和传统统计模型,从逻辑、统计分析两个维度共同评估交互结果,以确保模拟的可靠性。通过在五个不同场景的推荐数据集中进行实验,我们证明了该模型在强化学习推荐算法训练中的有效性。
论文 06:KRP: Plug-and-Play Tri-Branch Invertible Block for Image Rescaling
|论文简介:快手视频图像修复处理体系(KRP, Kuaishou Restoration Processing)包含一系列视频图像处理算法,旨在修复低质量视频,增强细节纹理并改善画质。目前已广泛应用于快手多个业务场景,助力提升用户体验和优化平台成本。
其中,图像重缩放技术(Image Rescaling)利用可逆神经网络,在前向阶段将高分辨率图像缩小为低分辨率表示,在恢复阶段则将低分辨率图像还原至原始分辨率并修复细节。该技术既能适应不同分辨率设备的显示需求,又能有效优化存储和传输成本。与传统的超分任务不同,图像重缩放技术通过全链路联合优化下采样和上采样过程,能够更好地实现压缩与恢复。
本文提出了一种即插即用的三分支可逆模块T-InvBlock(Tri-Branch Invertible Block),在传统可逆模块基础上将低频分支分离为亮度和色度分量,实现了低频信息的通道解耦和跨域信息融合。此外,本文还提出了高频信息全零映射策略,在恢复阶段使用全零张量取代分布采样作为高频信息输入,降低了分布采样引入的随机性风险,提高了恢复的准确性。结合所提出的方法,我们构建了一般场景和压缩场景下的图像重缩放模型T-IRN和T-SAIN。得益于模块的跨域信息处理能力及全零映射对目标任务的适配性,本方法在主观和客观指标上取得了业界领先的效果。
论文07:Trigger3: Refining Query Correction via Adaptive Model Selector
|论文地址:https://arxiv.org/abs/2412.12701
|论文简介:大小模型协同是降低大模型部署中计算开销的有效途径。本文以搜索场景中的查询纠错为例,围绕简单拼写错误、背景知识不足等多方面因素,提出了面向查询纠错的自适应大小模型选择方法。具体地,本文提出了Trigger3,一个包含纠错触发器、大语言模型触发器和回退触发器的多级大小模型选择方法。Trigger3 可根据查询特性、小模型纠错结果及大语言模型纠错结果,自适应地选择最合适的查询纠错方式,在保证查询纠错性能的同时减少调用大语言模型的次数。在公开数据和商业数据上的实验结果表明,Trigger3 可通过大小模型协同的方式,在保持高推断效率的同时显著提升查询纠错的准确性。
END
点个「在看」 你最好看
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...