小红书广告智能创意能力构建过程详解

小红书社区内容以 UGC 为主，经验分享类的广告创意形式更贴合社区用户的消费习惯，也能获得更好的广告效果。如何帮助客户降低广告创意制作门槛，低成本、高效率、持续性制作大量优质广告创意，并合理进行广告创意优选和流量适配，是智能创意方向致力于解决的重点问题。

经过一年多的探索与建设，我们构建了一套完整的广告创意生产与优选能力，帮助客户一站式投放广告创意。本文将介绍我们在小红书广告智能创意方向进行的能力构建和技术解决方案。

在小红书，用户通过富媒体笔记分享和发现世界的精彩。商业广告作为小红书生态的一个重要组成部分，也需要符合社区的审美和调性，在这个超大型 UGC 社区里，基于个人经验的真诚分享更受用户青睐，广告信息也不例外。

广告创意是广告信息的主要载体，一方面承载了广告主想要推广和营销的内容，另一方面是用户被商业信息触达的第一门面，所以广告创意的质量直接影响广告投放的效果和用户体验。广告图片是否简洁直接地突出产品特点，标题是否展现了产品的适用场景等等，都是影响用户关注的因素，也是广告创意的一部分。而优质创意的制作成本较高，小红书若能帮助客户降低广告创意制作门槛，并且帮助客户进行创意优选和流量适配，对于提升广告的投放效率和满足用户体验意义重大。

业界其他公司经过多年的发展，已经在广告创意的标题、图片、展现样式等多个方面提供了智能化的能力。小红书的商业化起步虽然较晚，但是在智能创意方向也正迎头赶上。

小红书广告从2021年开始进行智能创意相关的建设，已经先后在搜索和信息流两大主要场景实现了产品化，并逐渐形成了完善的功能矩阵：

在素材层面，由于小红书天然就是富媒体笔记的形态，笔记中本身就有优质图片素材，所以我们率先落地了图片优选的能力。

后续又提供给了客户自动生成的标题作为候选集，经客户筛选后再由系统在投放过程中进行优选。

优选支持的物料，也由普通笔记广告扩展到了线索广告，之后还会支持商品广告。

智能优选策略，不仅建设了高效的 E&E 算法，也建设了千人千面的大规模深度学习模型。

这些产品功能的上线和效果的提升的背后，是一个个技术问题的解决。

“巧妇难为无米之炊”，丰富且优质的创意素材是智能创意提升效果的源泉。为了保证用户体验，小红书的广告形式非常原生化，也是笔记的形式，所以创意的素材主要由两部分组成：封面图和标题。一篇图文笔记中通常有多张图片，已经是博主或广告主进行精心挑选的结果，可以直接用作封面图的素材。而对于视频笔记，我们可以从博主提供的视频中抽取关键帧，作为封面图的素材。但是，无论是视频笔记还是图文笔记，博主都只提供了一个标题，如何在不增加博主负担的前提下，得到更多的标题素材呢？

技术难点

文本生成技术几年前就开始在工业界有应用，技术上难点在于怎么同时兼顾可控性和多样性。为了保证可控性，早期的方案主要是基于模版或者基于规则进行文本生成，带来的问题是多样性比较差。随着 NLP 大模型的出现，开放式自然语言生成慢慢具备可行性，但也带来了一个新的问题：大模型虽然看似很智能地生成了较为通顺的内容，实际应用时却又容易出现张冠李戴的现象。怎么让 NLP 大模型生成的文本可控但不受限，自由但不散漫，是一件很有技术挑战性的事情。

我们基于最前沿的可控式文本生成的技术，结合小红书海量高质量的文本大数据，构建了一套基于内容理解的小红书特色标题生成体系。

可控式生成

生成范式上，我们主要使用了基于语言模型（GPT2）和 Seq2Seq（T5）两种生成范式。

● 其中 GPT2 模型使用内容丰富的笔记正文作为输入，充分学习笔记上下文信息，同时结合特征控制信息（关键词、标题长度、是否包含表情符合等）进行标题生成，极大的保证的生成标题与原文的相关性。

关键词/特征控制信号 + 笔记正文 -> 生成标题

● Seq2Seq 模型主要针对原标题进行改写，通过挖掘高频 query, bidword，并以品牌、功能点、利益点等信息作为 prompt，同时融合不同的风格元素，对原有标题进行改写，既保持原标题的核心内容，又增加了标题的多样性。两类生成模型在线上结合使用，保证对不同的广告笔记均有较好的生成结果。

原标题核心内容 + 原笔记正文特征 | 风格模型 -> 风格标题（包含标题核心内容）

预训练技术底座

好的生成能力离不开一个熟知小红书营销风格且强大的预训练语言模型。基于业界最前沿的大规模语言模型理论和实践经验，我们建设了 RED 系列-预训练模型技术底座：提供了基于小红书内部数据构建的 RED-BERT (理解式)、RED-GPT2 (生成式)、RED-T5 (seq2seq) 等预训练模型，充分利用大规模语言模型对小红书海量的文本知识进行无监督学习。

其中 RED-BERT 支持了生成依赖的卖点抽取、相关性评估、机审质控、离线预估等内容理解相关的需求，而核心的可控式生成能力则由 RED-GPT2、RED-T5 支持。市面上的开源生成模型都是基于公开语料进行训练的，如中文维基百科等，与小红书笔记的语言风格存在很大的差异，我们的 “RED-” 系列预训练模型是基于小红书内部10亿规模的笔记内容训练的，可以更好地学习小红书笔记的语言特点。同时，我们也改善了公开模型中的词表适配性的问题，如 vocab 太大，缺少对于特定中文语料的侧重，缺少 emoji 和小红书表情等。

下面是2种生成模型的离线评估指标，相比开源模型，基于小红书场景训练的生成模型在相关指标上有明显的提升：

高效的优选策略，是这些创意素材能够发挥作用体现价值的关键。优选策略的好坏体现在两个方面：

1. 选得好不好？能否选出来用户最喜欢的创意，是提升广告投放效率的关键。

2. 选得快不快？能否尽快把好的创意选出来，是客户及用户感知效果的关键。

在没有先验知识的前提下，从一个广告笔记的多个创意素材中，选出最好的那个，其实是一个 MAB (Multi-Armed Bandit，多臂赌博机) 的问题。这类问题业界常用的算法策略有 epsilon 贪心 (ɛ-greedy)、汤普森采样 (Tompson sampling)、UCB (Upper confidence bound) 等。通过综合分析各算法的收敛速度、对反馈数据的敏感程度等因素，我们采用了 UCB 策略。

UCB策略简介

多臂赌博机问题 (MAB)：老虎机有一条摇杆（类似于一条手臂），摇动摇杆即会按照一定概率吐出一定量的钱，一个赌徒面对多台老虎机，在不知道老虎机吐钱概率分布的情况下，如何最大化收益？

UCB 策略解决 MAB 问题的思路是使用置信区间：给每台老虎机一个置信区间，区间的中间值为该机器的平均收益（吐出钱的平均值），宽度与玩的总次数的对数值成正比，与在该机器上玩的次数成反比。面对多台老虎机，每次都选择有最大上界的那个机器。

在创意素材优选的场景中：对于每个素材，使用多次曝光该素材的收益 (Reward)+该素材置信区间宽度 (Bonus) 计算出区间上界 (Score)，每次曝光 Score 最高的那个素材。

其中，Reward 为某个素材累计曝光的综合收益（例如 ctr 的增幅、收入的涨幅，也可以联合起来），Bonus 的计算与该素材的曝光次数 (Imp) 及所有素材的曝光次数 (totalImp) 有关，公式如下：

经过一定量的探索之后，置信区间的宽度将渐近变小，此时 Reward 也趋于稳定，会倾向于曝光综合收益较大的素材。如果某个素材曝光较少，随着总曝光次数的增加，该素材的 Bonus 会变大，Score 也会变大，同样有一定的曝光概率进行探索。

在基于 UCB 对小红书的广告创意进行优选策略设计时，我们需要同时考虑以下三个问题：

1. 如何兼顾用户体验？

2. 如何帮助广告主节约优选成本？

3. 浏览深度对优选有何影响？

如何兼顾用户体验

小红书社区非常注重用户的体验，对于广告展现样式的改动，有可能会影响用户体验。算法设计时，在力求商业侧的收益最大化的同时，也需要兼顾用户体验的指标。

我们以用户停留时长 (avgViewTime) 作为衡量服务质量 (QoS，Quality of Service) 的一个综合指标，如何通过 QoS 来计算得出用户体验 (QoE，Quality of Experience)？

QoE 的相关研究指出：当 QoS 较低时，用户的 QoE 已经很低了，即使 QoS 继续恶化，QoE 也不会再降低很多了。同理，当 QoS 较高时，用户的 QoE 已经很高了，QoS 的进一步提升也不会再增加 QoE，如下图所示：

所以，我们得到的 QoE 的表达式为：

其中为可以动态调整的加强系数。最终我们将 UCB 中的 Reward 设置为：

其中，为ctr的权重，用来调节停留时长部分的量纲，为平均停留时长的权重。

实验表明：这种 Reward 的设计，可以在保证在用户侧指标不降的约束下，广告 ctr 指标有较大幅度提升。

如何帮助广告主节约优选成本？

经过数据分析发现，使用 UCB 策略进行优选时，素材的 ctr 会在较短的时间内收敛到一个较为稳定的值，并且经过较长时间观察，最优素材的稳定表现比其他素材更好，因此可以考虑设计退场机制，减少探索成本。下面以图片优选为例：

退场机制：考虑对于达到某一条件（足够的曝光、点击，或 ctr 稳定在一个区间）的笔记，只曝光 Reward 最高的图片。同时在一个滑动窗口时间内，选取一个阈值，保障每个图片都有一定的曝光。退场机制的实现逻辑如下：

实验表明，有退场机制的 UCB 优选策略，可以减少探索次数，节约广告主优选成本，并且对平台收益有正向作用。（注意：退场机制只适用于静态素材，且需要素材间 Reward 差异较明显）

广告浏览深度对优选有何影响？

在搜索场景下，用户寻找特定信息的目的性很强，随着浏览深度的增加，用户积累的信息越多，对于物料的点击需求越低。因此，当一个广告曝光在不同位置时，其 ctr 的差异很大，这会对 Reward 中的 ctr 部分产生较大影响。这种情况下，我们考虑对 ctr 进行基于广告坑位的纠偏。

工业界常用 COEC (Click on Expected Click) 来衡量两个物料的优劣，进一步地，可以衡量两个有不同曝光坑位的优选元素差异，其计算方法如下：

其中 表示第 n 坑位的曝光量， 表示第 n 坑位的点击量， 表示第 n 坑位的点击率。

但在我们的场景中希望可以将这种差异归结到 ctr 上，方便 UCB 策略中的 Reward 计算，这就需要添加额外的超参，将 COEC 值映射到 ctr 上，并且保证其分布近似，这增加了一定的不可控性。

基于业务现状，我们创新性地提出了一种对于 ctr 进行坑位纠偏的方法，命名为 ECOI (Expected Click on Impression)。

ECOI (Expected Click on Impression)：借鉴 COEC 的思想（根据不同坑位的平均 ctr，计算期望点击数量），将所有位置的点击都与首位进行校准对齐，其计算方法如下：

ECOI 也能对 ctr 进行纠偏，相比 COEC，其含义和取值范围基本与实际 ctr 一致，方便直接替换模型中的 ctr，并且也不用再引入超参并寻找与 ctr 的映射关系。但是 ECOI 也有其不足之处，单看某一坑位上的点击数校准后的值，可能比曝光数大（这种情况出现的几率很小，尤其是在广告系统中点击数远小于曝光数，因此可以忽略）。

经过对比实验发现：使用 ECOI 的实验组效果略好于使用 COEC 的效果，并且远好于不进行坑位纠偏的效果。

UCB 依赖后验数据的反馈，但是创意素材（包括封面图和标题）有很多都是分布在长尾上，可能无法在有限的时间内搜集到足够多的反馈数据得到置信的结果。所以我们构建了大规模离散值 DNN 模型来补充创意上的泛化能力。

另外，针对热门创意的素材，我们在模型中将用户的个性化也考虑进来，使系统具有了千人千面的优选能力，从而进一步提升优选效果。

如何提升泛化能力

特征是大规模离散值 DNN 的学习基础，在项目一期，我们对创意素材和用户进行了精细的刻画，构建了具有较强泛化能力和个性化能力的模型。

● 创意素材泛化：挖掘基础的创意泛化特征，如图片的类目，OCR 结果，文本的分词，实体词等。一方面防止模型在自解释特征上过拟合，另一方面对于冷启动阶段的新创意，自解释特征还未完全收敛时，泛化特征可以提供相应的信息从而提高预估效果。

● 用户个性化刻画：用创意侧特征去刻画用户兴趣，以用户历史点击过的笔记的图片 id 构造点击行为序列，并以图片 id 的泛化特征去扩展用户行为序列，包括 OCR 序列、图片类目序列、实体词序列等。此外，基于用户在图片各个特征维度的泛化特征序列，我们通过取每个序列里 top3 出现的特征，来作为对用户最感兴趣的特征的刻画。

● 创意侧特征交叉：将用户侧特征与当前创意特征做交叉，来刻画用户对当前创意的偏好，通过特征交叉，可以增强模型在个性化预估下对候选创意的区分度。在 query 上，将当前 query 和候选图片 OCR 识别出来的文字以及创意标题做字粒度、词粒度以及实体词的匹配。在用户行为上，将当前候选图片与用户历史点击行为序列里的图片类目、OCR 序列做匹配。

如何解决计算规模问题

深度模型的推理粒度是比笔记更深一层的素材级别，即一个笔记会有多个候选的候选的标题和图片，为了提高模型预估的准确性，我们在标题和图片的笛卡尔积上进行推理，使模型可以直接选出最优的标题图片组合。但这也使模型推理的计算量提高了一个数量级。

为了在这个计算量级上进行模型推理，我们设计了一个级联双塔结构来保证模型的预估效果，具体如下：

● 双塔模型中左侧塔是一个完整的点击率模型结构，输入层只接收广告特征的 embedding，模型结构上相比右侧复杂度和参数量都要大很多。

● 右侧是一个浅层 DNN 网络，输入层加入创意侧特征的 embedding。同时，我们将左侧广告塔的输出和上层的隐层向量传递到右侧塔，来指导创意特征对点击率的学习。

● 在训练时，右侧塔接收左侧塔的信息，并融合创意特征共同学习。右侧创意塔的梯度不回传给左侧塔，保证左侧塔学习的是广告整体的表现，在特征和训练上都不包括创意特征的信息。

● 线上推理时，每个广告对左侧广告塔仅计算一次，右侧创意塔计算 N 个创意的点击率。相比于点击率模型，仅增加了 N 个创意塔的计算量，避免了创意展开导致的计算量爆炸。

由于创意侧特征较少，容易在 id 类特征上过拟合，我们在创意侧的网络结构上进行了精细化的设计：

● 创意特征通过 SENet 来学习每个特征的嵌入向量的权重。

● 对于图片 id 特征额外在 SENet 上加入正则化，并添加自适应 dropout 来减弱 id 类特征的影响。

● 对于泛化特征，我们增加 user_id、query 以及广告侧传过来的 embedding 合并到一起，与创意侧泛化特征的 embedding 通过 DeepNet 来增强创意特征与广告特征的交叉能力。

由于具有泛化能力和个性化的能力，深度优选模型使广告创意的优选效果得到了进一步的提升。