在 SIGIR2024 大会上,小红书团队和清华大学信息检索实验室合作的论文 Scaling Laws for Dense Retrieval 获得了最佳论文奖(Best Paper Award),为该会议成立47年来首次由中国大陆机构牵头获得。以扩展定律描述大型语言模型性能水平与其参数规模之间的经验性规律,是大型语言模型区别于传统人工智能模型的重要特征,这一规律是否适用于其他深度神经网络模型仍旧面临着较大争议,论文针对这一问题开展了系统深入的研究,通过设计新型检索性能评价范式等验证了该规律在稠密向量检索中的适用性,对搜索引擎、推荐系统等信息检索系统的设计将发挥重要的指导作用。
对语言模型的扩展定律研究可以追溯到上个世纪初,有学者发现语料库中某个词出现的频率大约是它在整个词表中的排序的倒数,也就是著名的齐普夫定律(Zipf's Law)。在上世纪六十年代,语言学家 Gustav Herdan 发现特定语料库中出现的不同词汇数量和语料库大小存在一定的关系。这种关系一般用一个指数函数进行近似,也被称为哈夫定律(Heap's Law)。
这些定律对如今的检索系统有着深远的影响,例如齐普夫定律启发了许多统计检索模型的设计与构造(例如 BM25 和 Query Likelihood Model),哈夫定律则被应用于估计几乎所有检索系统中存在的倒排索引的大小。
然而,相比于生成式大模型任务,稠密检索模型的性能和更复杂的因素相关(例如标注数据质量)。目前,尚未有研究者针对稠密向量检索模型中的扩展定律进行相应的研究。另外,常用的检索评价指标 NDCG 具有离散跳变性质,在刻画模型性能的连续性方面存在着局限性。
针对以上考虑,本文对模型参数量大小、训练数据量、标注数据质量等方面探究了稠密向量检索模型性能的扩展定律。在两个大规模中英文数据集 MS MARCO 和 T2Ranking 上的实验结果证明,稠密向量检索模型的性能确实符合一定的扩展定律。基于该规律,在未来我们可以在给定预算限制的情况下,更好地进行各项资源的配置,以得到最优的模型性能,助力低碳、绿色的检索系统发展。
2.1 研究问题
在本文中,我们主要想探究以下三个研究问题:
RQ1:模型大小是怎样影响稠密向量检索模型性能的?
RQ2:人工标注的训练数据规模如何影响稠密向量模型的检索性能?
RQ3:不同质量的标注数据如何影响扩展定律?
2.2 评价方式
通常来说,检索模型使用基于某个位置截断的指标(例如,NDCG@K)进行性能评价。然而,该类指标并不适用于进行扩展定律的探索。
以 NDCG 为例,它的值域是离散的、非连续的,并不能很好地刻画模型性能的连续变化。另外,截断因子使得排在 K 位之后的文档对最终指标的贡献为 0。因此在本文中,我们使用对比熵作为评价指标(如下式)。对于数据集中的任意一对查询-文档对,我们随机选取 n=256 个负例来计算对比熵。
探索对比熵和已有检索指标之间的关系,可以发现它们之间具有强的正相关性。另外,在对比熵值 0.25 左右,各种检索指标的值发生了明显的跳变。该现象可以归结为“排序涌现能力”,即优化模型训练损失低于一定阈值之后,模型的头部排序性能会产生一定的涌现和跳变。
3.1 基于模型大小的扩展定律
对于模型大小,本文拟合了如下形式的扩展定律。其中 N 表示模型中非 embedding 的参数量,其他均为超参数。其中,第二项是一个非负项,表示即使模型有无穷多的参数,由于标注数据中的噪音或者是标注者之间的不一致性,训练损失仍然不能降低为零(而是一个很小的数值)。
对于 MS MARCO 数据集(英文),将训练数据固定为 500K 个样本点之后,本文测试了从 BERT-tiny(0.5M)到 BERT-base(82M)各个大小模型的检索性能。对于 T2Ranking 数据集(中文),将训练样本量固定后,使用不同大小的 ERNIE 模型测试模型性能。使用最小二乘法进行扩展定律的拟合,得到下图的结果(横轴经过对数处理)。
从拟合结果来看,稠密向量检索模型的性能和模型大小基本遵守着扩展定律,在两个数据集上拟合曲线的决定系数都在 0.99 以上,说明拟合性能非常突出。该定律在未来具有潜在的应用性能,在特定任务上,我们可以先训好一个小模型并且拟合扩展定律,外推到大模型的预测性能,大大降低实验成本。
3.2 基于训练数据的扩展定律
类似地,固定模型大小为 BERT-base ,本文对训练数据量对模型性能的影响展开了探究,目标是拟合以下曲线。其中 D 代表训练数据量大小,其他均为超参数,这里依然引入了一项非负项来表示理想状态下模型能拟合的最低损失。
拟合 MS MARCO 和 T2Ranking 的标注数据,得到如下的扩展定律。基于拟合的确定系数,可以基本得出结论:稠密向量检索模型的性能和训练数据大小存在一定的指数关系。利用该规律,在未来研究者只需要先标注很小一部分数据,然后根据扩展定律估计最终需要的标注数据量。
除了训练数据外,本文还探究了标注数据质量对基于数据量的扩展定律的影响。在这里,作者尝试生成了三种不同质量的标注数据,分别是:
逆向完形填空(Inverse Cloze Task,ICT):从文档中随机提取句子,然后作为该文档的伪查询,作为一种低质量的标注数据;
监督式查询生成(Supervised Generation Model):使用 docT5query 模型,给每个文档生成若干伪查询。由于该模型是用人类标注数据训练生成的,其生成的伪查询质量是比较高的;
大语言模型(Large Language Models,LLMs):设计如下模板提示大模型基于给定文档生成相关查询。由于大模型具有出色的语言理解能力,作者预期该类标注比前两种具有更高的质量;
对于这几种标注数据,拟合的扩展定律曲线如下所示。可以发现,基于不同质量的标注数据进行训练,模型性能和数据量大小之间均呈现类似的幂率关系。其中 ICT 曲线的斜率是最小的,也符合该类标注质量比较低的预期。
作者发现,使用 docT5query 模型生成的标注数据效果优于使用大模型(ChatGLM3)。这可能是因为 docT5query 模型正好是在该数据集上进行训练得到的,而 ChatGLM3 则是处于零样本状态生成的伪查询。最后,人类标注数据具有最好的效果,说明大模型生成的伪训练数据仍有较大的改进空间。
3.3 基于模型大小和训练数据量的联合扩展定律
在本节,作者结合了模型大小和训练数据量两个因素,去拟合一个联合的扩展定律,其基本形式如下所示。其中 N 代表模型参数量大小,D 代表训练数据量大小,其他为超参数。
下图中实心点表示用来拟合的真实数据点,虚线表示拟合的联合扩展定律曲线,红星表示用于预测的数据点。可以看到,红星和拟合曲线数值是比较接近的,验证了联合扩展定律的可信度。
本节给出了一个基于扩展定律的应用实例。针对稠密向量检索模型的全周期,作者统计了标注数据成本、训练成本、推理成本,得到一个如下的综合成本计算公式:
其中第一项为每个标注样本成本(约为 0.6 美元),第二项为每单位参数的训练成本,第三项为每单位参数的推理成本。假设查询长度为 30 、文档长度为 60。训练时,采取 Pairwise 方式(1 查询+2 文档),batch size 为 256。推理时,需要对 Google 索引中的所有网页文档(约 30*10^12 篇)进行编码,每个文档长度约为 512。
使用一张英伟达 A100 80G 的 GPU 进行模型训练和推理,其峰值算力为 312T FLOPS,每卡每小时费用为 3.93 美元,假设平均 GPU 利用率为 25%。
另外,根据此前 OpenAI 的报告,训练和测试 Transformer 的计算量分别为 6N 和 2N FLOPS。根据以上假设可以分别得到单位参数的训练成本和推理成本为如下值:
在不考虑推理成本时,基于扩展定律可以得到如下的资源配置趋势图。例如,在预算为 15 万美元时,最优模型大小超过了 10B。
而在考虑推理成本时,得到另一张资源配置趋势图,最优模型大小大大压缩。例如,在预算为 500 万美元时,最优模型大小(不含 embedding 参数)仅为 10M;而在预算为 2000 万美元时,最优的模型大小仅为 40 M。这说明,由于推理成本过于昂贵,即使有较为充足的预算,最优模型的大小也不超过 BERT-base。在推理阶段,需要使用小模型来保证推理高效性。
本文系统地研究了稠密向量检索中的扩展规律,在中英文数据集上均进行了充分的实验,以评估模型大小、数据大小和标注方法对检索性能的影响。通过使用对比熵作为评价指标,作者观察到在不同的标注方法和数据集上,性能与模型大小和数据大小之间存在幂律关系。
我们还证明了扩展定律有助于优化训练过程。例如,实验证明,扩展定律对管理和分配实验预算很重要。此外,扩展定律还评估了不同种类标注数据的有效性。正如实验所示,使用大型语言模型来生成相关性标注仍然有很大的改进空间。
我们相信扩展定律提供了一种系统的方法来评估和改进排序模型的训练过程。虽然这项研究为该领域的未来探索奠定了基础,仍需进一步的研究来深入探索对不同领域、规模、架构和评估的扩展定律的理解。
方言
硕士毕业于清华大学计算机系,在 SIGIR、AAAI 发表多篇信息检索领域顶会论文。
詹靖涛
清华大学计算机系博士生,在 SIGIR、ACL、WSDM、CIKM、AAAI 等顶会发表多篇论文,曾获得 WSDM2022最 佳论文奖。
陆时
博士毕业于清华大学计算机系,负责小红书社区搜索精排CTR模型,在 SIGIR、WWW、WSDM、CIKM、TOIS 等顶会顶刊上发表十余篇论文,曾获得 WSDM Cup 2023 竞赛 Pre-training for Web Search & Unbiased Learning to Rank 任务全球亚军、2023 年度吴文俊人工智能科学技术奖优秀博士论文奖等。
搜索算法工程师-社区技术(社招)
岗位职责
对小红书搜索效果进行优化,包括搜索算法和策略的调研、设计、开发、评估等环节,提升用户体验;
解决小红书搜索实际问题,更好的满足用户的搜索需求;
跟进业内搜索相关模型和算法的前沿进展,并在实际业务中进行合理应用。
任职资格
本科及以上学历,计算机相关专业背景;
有搜索、推荐、广告、图像识别等相关背景优先;
熟悉机器学习、NLP、数据挖掘、知识工程的经典算法,并能在业务中灵活解决实际问题;
在国际顶级会议(KDD、SIGIR、ICLR、NeurIPS、ICML、ACL、EMNLP等)以第一作者发表过高水平论文者、知名数据挖掘比赛(例如 KDD Cup 等)中取得领先名次者优先;
积极向上,踏实勤奋,自我驱动,善于沟通,解决问题优先。
欢迎感兴趣的朋友投递简历至:
并抄送至下方邮箱以获得最快速响应:
小红书 REDstar 顶尖人才计划火热招募中,面向2025届全球本硕博毕业生,诚挚邀请各技术领域的优秀同学加入!
REDstar 是小红书面向全球高校顶尖技术人才发起的专属人才计划。我们提供行业超高水平薪酬、亿级月活用户真实场景,并为所有 REDstar 同学设置定制化培养方案和成长通道。在这里,你将与顶尖技术团队紧密合作,探索技术边界,不断创新。期待和优秀的你一起用技术定格、铭记、传递每一个普通人的美好! 了解项目详情。
往期精彩内容指路
添加小助手,了解更多内容
微信号 / REDtech01
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...