一条保健品广告在系统里亮起了红灯。
一、困在“猜谜游戏”里的创意人
“素材又被拒了,到底哪里不行?” 这可能是广告创作者最头疼的问题。现在的审核系统就像一个“信息黑洞”——你知道有问题,却不知道问题在哪,只能凭经验试错。“如果能直接告诉我是哪一帧、哪句文案有问题就好了。”这是许多创作者的心声。特别是对于时效性强的营销活动,快速定位问题、高效完成修改,能够有效提升投放效率。
商业化广告审核的特殊性在于:既要保障合规“安全”,也要实现营销“效果”。通用审核规则侧重风险规避,但优质的商业表达需要在合规基础上充分释放传播价值。比如,将违规的“第一”简单替换成“最佳”,虽然规避了排名类用词,但“最佳”本身仍可能被判定为绝对化表达。这反映出一个关键需求:风控审核不仅要识别“什么不行”,更要提供“怎样表达更好”的建设性方案。
在商业化生态安全场景下,商业化风控围绕自建风控明镜大模型BLM,依据业务所需构建了系列大模型。专门用于修复素材的就是其中的BLM-AhaEdit,这个名字取自“Aha Moment”——期望每一次修复,都不只是简单的合规通过,而是一个能激发灵感、实现“点石成金”的“顿悟时刻”。
二、从“发现问题”到“解决问题”的技术突围
首先,通用大模型在广告修复上表现不佳:
风格保持性差:修改后的字体影响观感,画面失去原意
缺乏全局观:遮挡一个Logo时,会忽略背景透视关系,留下生硬“补丁”
多对象协同难:修复多个关联元素时,容易出现逻辑断裂
可控性挑战:生成式模型的随机性导致修复结果时好时坏,这在商业化广告场景中是致命的。
在这些问题的背后,隐藏着一个关键的因素:编辑模型难以将编辑指令与编辑区域精细匹配,导致模型出现幻觉,生成偏离指令甚至违反物理规律的结果。
图2 闭环修复系统流程图
为此,我们为AhaEdit设计了一套独特的技术路径:“分层解构、精准定位、定向生成”,构建了“审核-定位-修复-再审核”的闭环修复系统。在这个系统中,我们聚焦两项核心能力:“风险定位”和“AI修复”,不仅告诉模型怎么改,还要让模型知道改哪里,为什么改。
2.1 风险定位:AhaEdit的“火眼金睛”
在数字广告的浩瀚海洋中,精准识别风险是智能修复的第一步。AhaEdit的风险定位模型,就如同为系统装上了一双“火眼金睛”——它不仅要找到违规的“病灶”,更要精准诊断其“病因”。
2.1.1 多模态精准打击:从“看到”到“看懂”
我们为不同形态的素材,设定了统一的精准定位范式:
文字素材:直接定位到违规的具体词汇或片段,并阐明其触发的审核条款。
图像素材:以包围框圈定违规区域,并解释其违反的具体规则。
视频素材:精确到违规内容出现的起止时间戳,实现对动态内容的帧级管控。
这些信息共同为后续的修复模型绘制出一张清晰的“手术导航图”,指明了不仅是“改哪里”,更是“为什么改”的核心方向。
图3 风险定位流程图
2.1.2 架构革新:“识别+定位”的一体化作战
传统的风险定位流程如同一个松散的“流水线”:先识别风险类型,再根据类型去定位风险区域。这种两阶段模式存在天然的“阿喀琉斯之踵”——误差累积。前序的识别误差会直接传递给后续定位,导致“失之毫厘,谬以千里”。
为从根本上解决这一问题,我们摒弃了传统架构,训练了一个“识别与定位一体化”的端到端模型。主要包含两个核心环节:即CoT SFT和RL环节,将风控审核规则与大模型深度融合,完成风险定位能力建设。
图4 识别&定位一体化模型
将风险识别和风险定位两个任务深度融合,实现了两大核心优势:
1.误差最小化:一体化建模消除了阶段间的误差传递,显著提升了定位精度。
2.任务协同化:识别与定位过程相辅相成。模型在识别“是什么”风险时,对场景的深度理解会反向增强其“在哪里”的定位能力,形成了“1+1 > 2”的协同效应。
这双经过架构革新锤炼的“火眼金睛”,让AhaEdit能够在亿级创意中,瞬间锁定毫厘之间的风险,为后续的精准修复奠定了无可撼动的坚实基础。
2.2 AI修复:兼具外科医生的精准与艺术家的美感
当风险被精准定位后,系统便进入了最具挑战性的环节——修复。这不仅需要外科手术般的精准,更要求艺术家般的审美,以确保修复后的内容“天衣无缝”。我们为此构建了一套“理解-生成”协同的智能修复流程。
图5 AI修复流程图
2.2.1 理解环节:基于大模型的编辑决策
面对一个违规元素,首要问题是确定“如何修”。是直接删除,还是寻找合规的词汇或视觉元素进行替换?甚至是调整人物姿态以符合规范?
我们引入VLM大模型作为系统的“策略大脑”,它能根据风险定位信息进行深度语义推理,生成最优的编辑方案,告诉模型“怎么改”。
2.2.2 生成环节:数据与算法双轮驱动的专有模型
明确的指令需要卓越的“执行者”。我们并未使用通用模型,而是专门为商业化广告场景,从数据与模型两方面入手,训练了一个专业的AIGC编辑模型。
数据基石:构建行业领先的广告修复“教科书”
高质量的训练数据是模型的基石。由于广告素材的多样性与复杂性,我们设计了一套 “预处理-生成-后处理” 的数据自动化生成链路,系统性地构建了百万量级的商业化场景数据集,覆盖文本、图像、视频模态,基本囊括了所有常见广告场景,其中图像和视频数据生成链路如图6所示。
图6 图像和视频数据生成链路
模型炼金术:基于DiT架构的精细化训练
我们采用DiT架构作为模型主干,并通过LoRA微调等技术大幅降低训练成本。为了让模型精准理解“怎么改”、“改哪里”和“为什么改”,我们将编辑指令与风险定位信息作为控制条件输入。
训练采用由粗到精的两阶段策略:
阶段一:大规模能力奠基。我们以文生图/视频模型为基座,结合开源与广告数据,使用千万级数据进行预训练,让模型广泛掌握各种编辑技能。
阶段二:商业化场景精修。本阶段仅使用高价值的广告场景数据微调,并将编辑指令和风险定位信息融入提示词,使模型能精确定位风险区域并理解违规原因,最终确保编辑结果在视觉、语义与合规性上都达到高标准。
通过这套“策略大脑”与“专业巧手”的协同,AhaEdit的修复不再是简单的涂抹,而是基于深度理解的智能再创造,真正实现了从感知到执行的无缝闭环。
图7 AIGC编辑模型
三、“一键过审”正在成为现实
如今的AhaEdit已经能够支持多种模态的素材修复:
文本编辑:精准删除或替换违规词汇
图像编辑:文字擦除、物体擦除/替换、人体表情/姿态调整、背景替换
视频编辑:擦除/替换违规元素
这意味着,那些曾经需要数小时甚至数天的修改流程,现在可以在几分钟内完成。“一键过审”从一个美好愿景,正在变成可衡量的技术指标。让我们一起来看看AhaEdit的“魔法”。
3.1 文本编辑--文本删除/替换
3.2 图像编辑--文字擦除
prompt:擦除图像中的标语和符号
3.3 图像编辑--物体擦除/替换
prompt:擦除画面中红色灯笼。
prompt:将陶瓷杯替换成盛着水的透明玻璃杯。
3.4 图像编辑--人体表情/姿态调整
prompt:将画面中人物表情修改成微笑prompt:将画面中人物头部姿态修改成朝前看
3. 5 图像编辑--背景替换
prompt:将画面背景替换成黄色土地背景
3. 6 视频编辑--字幕擦除
prompt:擦除视频下方的字幕
3. 7 视频编辑--物体擦除
prompt:将视频中的猫擦除
3. 8 视频编辑--物体替换
prompt:将视频中的黑色越野车替换成轿车
四、迈向新范式:内容理解与内容生成的统一
AIGC技术正朝着更高效、更轻量的方向演进。在这个背景下,风控审核正在经历一场深刻的范式变革。通过建设AhaEdit,我们不再止步于过去单一的内容理解,而是构建了内容理解与生成的统一能力,即在识别风险的同时,提供智能化的修复方案。这一转变尤其对中小自助客户意义重大:有效解决了广告主不理解审核规则、难以精准定位问题的痛点,助力广告主长效经营。
面向未来,我们的目标是构建下一代智能编辑架构:将内容的理解、定位与编辑能力深度融合于单一模型,从根本上实现从感知到生成的统一。为此,我们将聚焦四大技术攻坚:生成过程的可控编辑、跨模态内容的高一致性、实时的人机交互体验,以及多模态的协同编辑。特别是在充满挑战的视频领域,我们致力于攻克时序和空间一致性的核心难题,打造真正高效、轻量的长视频编辑解决方案。
让创作更自由,让表达更安全。这不只是目标,更是我们的使命——颠覆性内容审核创新,理解+生成统一范式,助力商家持续经营。
【END】
【相关阅读】
点个在看你最好看
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...