ACL 2025｜大模型长度准确可控生成：为何不准？如何更准？

长度可控文本生成（LCTG）迎来重大突破。小红书搜索团队在最新论文 《MarkerGen：子能力解耦诊断驱动的长度可控生成框架》 提出创新性解决方法，全面提升现有可控文本生成方法的控制精度与生成质量与泛化性。

目前大型语言模型在LCTG任务上的表现仍未达到预期，成为落地应用的主要瓶颈。现有方法多依赖端到端训练以强化长度约束，却缺乏对 LCTG 子能力的拆解与针对性增强，难以进一步突破。为此，我们自底向上分解 LCTG 所需子能力并进行细致误差分析。在此基础上提出 MarkerGen——一种高效泛化、可插拔的方案：整合外部工具补足基础长度建模能力缺陷，动态插入标记显式控制长度，三阶段解耦生成兼顾文本质量与长度对齐。

我们在多个模型与基准上进行实验，覆盖跨任务、跨尺度、跨语言、跨粒度等多种设置。结果表明，在精确长度约束下，MarkerGen 将平均绝对误差降低至 5.57%，较基线下降 12.57%，同时质量评分更高且仅消耗 67.6% 的成本。在区间长度约束下，MarkerGen 的合格率达到 99%，进一步验证了其有效性。

论文标题：

From Sub-Ability Diagnosis to Human-Aligned Generation: Bridging the Gap for Text Length Control via MARKERGEN

论文地址：

https://arxiv.org/pdf/2502.13544

精准控制输出长度是文本生成所需的核心能力。随着 LLM 快速发展并广泛落地，不同文本类型、用户需求以及外部限制等多样化长度约束在真实场景中频繁出现，亟需一种跨场景泛化且精准的 LCTG 方案。然而，现有方法面临两大挑战：

（1）训练式方法泛化能力受限

当前训练式方法多通过端到端微调或强化学习，在生成阶段隐式建模长度约束。由于文本类型、长度约束粒度（如精确字数要求、长度区间限制）、尺度差异巨大，同一模型一旦切换任务或约束即难保持稳定效果，导致泛化能力不足，难以满足多场景、多粒度、多语言的实际需求。

（2）子能力解耦缺失与可控性不足

现有方法侧重整体目标优化，忽略自底而上的对模型长度可控生成能力的解耦分析与针对性提升。模型在追求长度时，往往牺牲语义完整性，且缺乏细粒度长度建模误差反馈，限制了进一步压缩长度控制误差和提升文本生成质量的空间。

为弥补这一空白，我们类比人类的写作模式来建模 LLM 的长度可控文本生成（LCTG）过程，自底向上解耦 LCTG 所需的子能力。例如：当人类撰写 500 字故事时，通常会先规划内容并为各部分分配字数，在写作过程中持续追踪词数并确保文本与计划一致。该过程逐步检验四项关键能力：正确识别并切分字词、精确计数字数、规划各部分字数以满足长度约束、在保证语义完整的同时对齐生成文本与长度要求。从这一视角来看，LLM 的整体 LCTG 能力可以自底向上系统分解为“识别”（Identifying）、“计数”（Counting）、“规划”（Planning）和“对齐”（Aligning）四项子能力。

据此，我们对这些子能力进行了详尽的误差分析：

（1）识别误差（Identifying Error）

识别误差反映模型对长度基本单元（如“Word”或“Token”）的错误识别，导致其估计的文本长度与实际长度产生偏差。令为模型在间隔为 1 时的预测总数，为真实总数，则识别误差定义为：

为消除其他因素干扰，我们进一步减去以“Letter”为长度单元的误差基线。实验中分别以“Word”和“Token”为单位测量，结果表明：

Finding 1. 无论“Word-level”还是“Token-level”，LLM 都存在显著的，表明基础识别能力不足。
Finding 2. 以“Word”为单位得到的低于“Token”，说明模型更依赖语义感知而非解码机制进行长度建模。

（2）计数误差（Counting Error）

计数误差指模型对给定序列长度单元的枚举偏差。我们令模型以间隔 n 进行显式计数，其中 n=1 时即为识别误差。定义：

其中为间隔为 n 时的预测总数。我们与模型直接输出整体长度的“隐式计数”基线对比。实验结果显示：

Finding 3. 隐式计数往往产生较大偏差。
Finding 4. 较小间隔的显式计数显著优于隐式计数，细粒度计数有助于改善长度建模。

（3）规划误差（Planning Error）

规划误差指模型在不同部分之间对词数分配不当，从而导致生成文本的总体长度偏离目标长度。给定查询和精确长度约束，令模型生成各部分的字数规划总和，则规划误差为：

我们还计算“先规划再生成”方法相对于“直接生成”在长度偏差的缩减与质量得分提升。结果表明：

Finding 5. 规划阶段能有效满足长度约束，且计划内容质量较高，证明规划具有高可靠性。
Finding 6. 先规划再生成可同时降低长度偏差并提升语义质量，相比直接生成更优。

（4）对齐误差（Aligning Error）

对齐误差指在长度约束与语义完整性约束条件下，模型的感知长度与目标长度之间的偏差。令模型在计数间隔 n 下“感知”已生成长度，则对齐误差定义为：

实验发现：

Finding 7. 频繁的显式计数会干扰模型的语义建模，导致生成提前终止并出现对齐不良。相反，较大的计数间隔更接近隐式计数，能够保持更自然的生成流程。

（5）LCTG 总误差（LCTG Error）

LCTG 总误差定义为生成文本的真实长度与目标长度之差：

为分析不同计数间隔 n 下各子能力误差对 LLM LCTG 总误差的影响程度，我们按以下公式计算它们的绝对贡献：

实验结果表明：

Finding 8. LCTG 总误差主要源自基础长度建模能力的不足，贡献度依次为“计数误差 > 识别误差 > 对齐误差 ≫ 规划误差”，且随着计数间隔增大，计数误差的累积导致总误差上升。

这一发现表明，基础长度建模能力不足是 LCTG 表现受限的主要原因，也解释了训练式方法难以进一步提升 LCTG 的根本原因——它们无法为这些基础能力提供细粒度监督信号。

据此，我们提出 MarkerGen，一种简单高效且即插即用的 LCTG 方法。首先，为缓解模型在识别与计数能力上的缺陷，我们集成外部 tokenizer 和计数器，以精确追踪长度信息。随后，设计衰减间隔插入策略，在生成过程中动态注入长度标记，使模型能够显式建模长度且尽量减少对语义建模的干扰。最后，引入三阶段解耦生成范式，将语义约束与长度约束分离，确保在不牺牲内容质量的前提下更好地满足长度要求。

3.1 辅助标记插入解码策略

外部工具调用

LLM 在“识别”和“计数”两个基础子能力上存在显著误差，直接影响长度建模的准确性。为补足这两项能力，我们引入外部 tokenizer 与 counter，分别用于单位识别与精确计数。鉴于实验证明模型对“Word”单位的感知优于“Token”，我们选用“Word”作为长度单元。

长度信息注入

在获得精确的长度信息后，我们希望将其有效输入模型以进行长度建模。由于模型固有的隐式长度建模误差较大且难以直接融合外部长度信息（见 Finding 3），我们在生成过程中主动插入精确标记（marker），实现显式长度辅助建模：

其中Marker 定义了标记格式，策略根据当前已生成长度Len(x≤t) 与目标长度决定是否插入标记。通过将这些标记视作对齐锚点，LLM 能在生成中不断校正长度建模信息，从而降低最终的 LCTG 误差。

3.2三阶段解耦生成

Finding 7 表明，对齐误差主要源于频繁显式计数对语义生成的干扰，导致生成提前终止或对齐失败。虽“先行规划再生成”可部分缓解干扰（见 Finding 6），但长度建模仍与语义建模过程耦合。为进一步降低对齐误差并提升生成质量，我们设计了三阶段解耦生成范式。

阶段一：规划
模型根据输入查询与长度约束，生成各部分的内容概要与字数分配。

阶段二：语义聚焦
在遵循第一阶段规划的前提下，模型专注于高质量的语义生成，不受长度约束的严格限制。

阶段三：长度对齐
对第二阶段得到的高质量但可能不符合长度要求的文本，采用 辅助标记插入解码 机制进行重写。重写需满足：（1）保留输入文本的高质量语义；（2）严格满足长度约束。具体流程为：模型首先对上一阶段文本进行改进分析；若输出仍不满足长度要求，则最多重写T 次，直至达标。

该三阶段解耦方案将语义生成与长度对齐分离，既保证内容质量，又能灵活精准地控制文本长度。

4.1 主要结果

如表3，7所示，常用的隐式计数基线平均 LCTG 误差达 18.32%，即便多次采样选取最优响应，仍难摆脱底层子能力缺陷的局限。训练式基线 Ruler 在与训练集匹配的场景中表现尚可，但在我们所选基准上大幅退化，凸显其泛化受限。相比之下，MarkerGen 在严格长度约束下相较隐式基线绝对值降低 12.57%，最终误差仅 5.57%，并且在解耦语义与长度建模、结合衰减插标策略后，平均质量评分有所提升，且仅耗 64% Token 消耗。

4.2 泛化性

跨模型与任务
表 3 展示了 MarkerGen 对不同 LLM（Qwen2.5、Llama3.1 Series等）及多种生成任务（摘要、故事、问答、启发式生成等）的强泛化性。

跨长度尺度
表 3 同时涵盖 18–1450 字不同长度规模。进一步在 100 至 400 字范围内逐步增加目标长度的实验（表 4）显示，随着长度增加，MarkerGen 的误差呈下降趋势，彰显辅助插标解码对抑制隐式误差累积的作用。

跨约束粒度
我们评估了范围约束下的拒绝率，结果表 4 显示，MarkerGen 在所有设置中均将违约率控制在 3% 以下，显著优于基线。

跨语言
在中文 GAOKAO 基准上的测试（表 8）同样验证了 MarkerGen 的有效性。

4.3 消融研究

我们在 TruthfulQA 上以 Qwen2.5-32B-Instruct 为例，对 MarkerGen 的核心模块进行消融，结果见表 5：

工具调用
若移除外部 tokenizer 与 counter，仅依赖模型自身插标，LCTG 误差迅速升高，超过 15%。

衰减间隔插标
固定标记符插入间隔 n 时，长度控制与语义完整度相互制衡，导致误差不稳定；引入衰减间隔策略后，既实现了显式建模，又最大程度保全语义，误差 E更低，质量评分 S 更优。

三阶段解耦生成
与两阶段方法（:8.7→2.66，但:4.45→4.28）相比，三阶段方法通过解耦LCTG生成过程为规划、语义生成和长度对齐阶段，进一步平衡了长度控制约束与文本语义约束，双指标均获提升。

4.4 工作原理分析

为了深入理解 LLM 如何利用 MarkerGen 中插入的长度标记，我们对 Llama-3.1-8B-Instruct 模型的浅层与深层注意力矩阵进行了可视化，结果显示：

浅层聚焦长度信息：在浅层网络中，注意力权重明显集中于长度标记所在位置（红框示意），表明模型在浅层阶段主要利用这些标记完成显式的长度建模与精确编码。
深层聚焦语义内容：随着网络层级加深，注意力中心逐步转移至标记周围的语义内容区域（橙框示意），表明模型在深层阶段基于已编码的长度信息展开语义生成。

这一注意力迁移模式揭示了 MarkerGen 的双阶段工作流程：浅层负责捕捉并固化长度约束，深层则结合长度信息与上下文语义，生成既符合长度要求又保持语义完整的高质量文本。

针对当前 LCTG 方法缺乏子能力剖析与跨场景泛化的问题，本文从“识别–计数–规划–对齐”四大子能力入手，通过细致误差解耦揭示了计数与识别误差为主要性能瓶颈。基于此提出 MarkerGen 框架：整合外部工具补齐基础长度建模能力，动态插标实现显式长度建模，三阶段解耦生成并行优化语义与长度对齐。大量实验表明，MarkerGen 在多种设置下显著提升 LCTG 表现，展现出优异的效果与泛化能力。MarkerGen 为工业级长度可控文本生成树立了新标杆，助力各类摘要、对话与长文生成应用迈向生产级落地。

袁沛文

现博士就读于北京理工大学，小红书社区搜索组实习生。在 NeurIPS、ICLR、ACL、EMNLP、AAAI 等机器学习、自然语言处理领域顶级会议上发表十余篇一作论文，主要研究方向为语言模型评测与推理。

谭楚译

现本科就读于北京理工大学，小红书交易算法组实习生。在ACL会议上发表一篇论文，主要研究方向为语言模型评测与无监督学习。

冯少雄

现负责小红书社区搜索机制和垂类。曾负责个性化和长冷向量召回、大模型满意度标注/答案生成（基于后验行为RLHF）。兼职北京理工大学校外博导，在 ICLR、NeurIPS、AAAI、ACL、EMNLP 等机器学习、自然语言处理领域顶级会议上发表多篇论文，主要研究方向大模型推理/评测/蒸馏、生成式检索、开放域对话生成。

小红书社区搜索算法工程师（全职 / 实习）

【岗位职责】

1、对小红书搜索效果进行优化，包括搜索算法和策略的调研、设计、开发、评估等环节，提升用户体验；

2、发现并解决搜索场景中在查询分析、意图识别、向量召回、排序模型、去重等方向的问题；

3、解决小红书搜索实际问题，更好地满足用户的搜索需求；

4、跟进业内搜索相关模型和算法的前沿进展，并在实际业务中进行合理应用。

【任职资格】

1、本科及以上学历，计算机相关专业背景；

2、有搜索、推荐、广告、图像识别等相关背景优先；

3、熟悉机器学习、NLP、数据挖掘、知识工程的经典算法，并能在业务中灵活解决实际问题；

4、在国际顶级会议（KDD、SIGIR、WSDM、ICLR、NeurIPS、ICML、ACL、EMNLP 等）以第一作者发表过高水平论文者、知名数据挖掘比赛（例如 KDD Cup 等）中取得领先名次者优先；

5、积极向上，踏实勤奋，自我驱动，善于沟通，解决问题优先。