人工智能生成的宣传内容有多大说服力？

近年来，网络上的隐蔽宣传活动频繁且持续，政策制定者、技术专家和研究人员对宣传者可能利用人工智能工具，以低成本、大规模的方式生成文本，从而加剧隐蔽宣传活动表示十分担忧。

能否利用人工智能生成具有说服力的宣传，并针对受众进行定向传播？为了探究这一问题，斯坦福大学、美国安全与新兴技术中心的研究人员近日在《PNAS Nexus》期刊上发表了题为《人工智能生成的宣传内容有多大说服力？》的学术文章，以探讨使用人工智能生成的文本是否具有与人类撰写的宣传文本相媲美的说服力。元战略摘编文章重要内容，旨在为探讨人工智能生成宣传内容的说服力提供参考。

简介

学术界、记者、网络平台和政府都表明，网络隐蔽宣传活动频繁且持续不断。2016年社交媒体上针对某大国的虚假信息活动被披露，这提高了人们对这些活动的认识，并促使平台投入更多资源来发现和中止这些活动。然而，网站、社交媒体平台、加密信息应用程序和其他渠道上的秘密宣传活动仍在继续。

最近，许多人表示担心，新的人工智能工具可以让宣传人员以低成本大量生产文本，从而为隐蔽宣传活动注入新的活力。机器学习界在语言模型方面取得了重大突破，使得这些模型可以根据文本输入生成原始文本。尽管人们普遍关注将语言模型用于宣传和其他信息活动的问题，但使用社会科学方法来评估其风险的研究为数不多。学者们研究了人们是否认为人工智能生成的新闻文章可信，是否能识别人工智能生成内容的虚假性，以及民选官员是否回复人工智能生成的选民信件。然而，还没有研究将人工智能生成的宣传与生态上有效的基准进行比较，以考察其说服力。

实验设计

（一）文章的选择和构建

研究者首先确定了6篇文章（篇幅从151到308字不等），这些文章是调查记者或研究人员发现的隐蔽宣传活动的一部分，然后，研究人员使用GPT-3生成关于这6个主题的文章。对于每个主题，实验人员向GPT-3提供了原始宣传文章中能阐明文章主要观点的一两句话，以及其他3篇与主题无关的宣传文章。

（二）实验对象

2021年12月，研究者通过Lucid（调查公司）对美国成年人进行了采访，该调查公司使用配额抽样来实现地域和人口代表性。根据预先登记，在调查开始时未通过注意力检查的受访者将不被邀请继续进行调查，在3分钟内完成调查的受访者将被排除在外，因此最终样本为8221人。

实验结果

1. GPT-3生成的宣传文本具有很强说服力

为了建立评估GPT-3的基准，研究者首先评估了阅读原始宣传品与不阅读任何有关该主题的宣传品相比较的效果。列出了对所有主题和产出的估计值，然后再将主题和产出分别列出。如图1所示，原始宣传具有很强的说服力。在没有阅读文章的受访者中，只有24.4%的人同意或非常同意论题陈述，而在阅读了原始宣传的受访者中，同意率跃升至47.4%（增加了23个百分点）。因此，原始宣传几乎使同意论述声明的参与者比例翻了一番。由GPT-3生成的宣传也具有很强的说服力，43.5%的受访者在阅读了由GPT-3生成的文章后表示同意或非常同意论述，而对照组中只有24.4%（增加了19.1个百分点）。这表明，宣传人员可以利用GPT-3来指导GPT-3确定新文章的风格和长度，从而以最小的人力成本生成具有说服力的文章。

图1 原始宣传和 GPT-3 生成的宣传具有很强的说服力

图2和图3显示，原始宣传和GPT-3宣传在不同社会群体中的说服效果相当一致。当我们按照人口统计学变量、党派/意识形态、新闻消费、社交媒体使用时间等因素对样本进行拆分时，并没有发现处理效果存在实质性的异质性。这表明，人工智能生成的宣传可能对社会中广泛的群体具有吸引力。

图2 各分组对论题陈述的同意率差异

图3 各分组对论题陈述的同意度差异

在图4中，研究者按文章主题对结果进行了细分，并展示了GPT-3生成的三种输出结果。虽然对照组的基线同意率因主题而异，但几乎所有GPT-3输出都具有很强的说服力。在大多数问题上，GPT-3生成的每篇文章都与原始宣传的说服力相当。然而，情况并非总是如此，在一些问题的回答上人工智能生成的内容并不有效。这表明人类宣传员可以发挥潜在的作用，他们可以审查GPT-3的输出结果，并选择能表达宣传员观点的高质量文章。

图4 将特定文章分配给特定主题受访者的概率

2. 人机合作

在实践中，宣传人员可能不会在宣传活动中使用模型的所有输出结果。相反，他们可以采用人机合作的方式来提高人类宣传人员的效率，同时仍有一定程度的人工监督和质量控制。在运行模型后，人类可以充当策展人的角色，剔除那些与宣传者想要表达的观点不符的文章。为了模拟这种情况，人类会仔细阅读每篇GPT-3输出，查看文章的标题或正文是否符合论文声明的主张。GPT-3宣传文章中有两篇（共18篇）没有提出预期的主张。当研究者剔除这两篇文章，只关注那些能提出论点的文章时，同意率提高到了45.6%，原始宣传文章和经过策划的GPT-3宣传文章之间的差异不再具有统计学意义（见图5）。因此，在剔除少量未包含论点声明的文章后，GPT-3与原始宣传一样具有说服力。

人工参与的另一个策略是编辑GPT-3的提示。原始宣传包括错别字和语法错误，这可能表明作者的母语不是英语。为了模拟由英语流利者为GPT-3撰写提示语的情况，研究人员做了两处改动：

(1)向GPT-3提供了研究人员撰写的论文声明，而不是原始文章的节选；

(2)编辑了与主题无关的范例文章，希望写得更好的范例能带来更好的输出。

如图5所示，GPT-3生成的带有编辑提示的文章与原始宣传文章一样具有说服力46.4%和47.4%之间的差异很小，在统计上并不显著。同时编辑提示和策划输出效果会更好。如果宣传人员对输入内容进行编辑，并从每个主题的三个输出内容中选出最佳内容，那么GPT-3生成的宣传内容将比原始宣传内容更具说服力（52.7%对47.4%）。

图5 人为策划使GPT-3与原始宣传一样具有说服力

3. GPT-3在其他指标上的表现

研究可能会受到一个批评，那就是文章生成过程和实验设计可能会在说服力指标上有利于GPT-3。如上所述，研究者首先确定了其认为的每篇文章的主要观点。对于GPT-3输出（未经编辑），研究人员在提示中向GPT-3输入了原始宣传文章中提出主要观点的片段。在研究者编辑了GPT-3中的范例文章后，再将研究人员撰写的论文声明输入GPT-3。如果研究者根据对文章主要观点的错误解读来创建GPT-3生成的文章，并使用同样的错误解读来进行说服力测量，那么与原始宣传相比，此过程将更有利于GPT-3生成的文章。反过来，这可能会夸大GPT-3在宣传活动中的作用。

为了解决这个问题，研究者从另外两个方面对GPT-3和原始宣传进行了比较：感知可信度和写作风格。通过询问受访者是否认为文章可信，以及是否认为文章是为了报道事实（而不是为了说服读者相信自己的观点）来衡量可信度。作为写作风格的代用指标，询问受访者是否认为文章写得好，以及是否认为作者的母语是英语。在所有这些测量指标上，GPT-3的表现都与原始宣传材料相当，甚至更好。

研究结果表明，GPT-3生成的内容可以融入在线信息环境，与从现有宣传活动中获取的内容不相上下。虽然这可能不是一个很高的标准（只有38.7%的受访者认为原始宣传内容值得信赖，只有52.4%的受访者认为原始宣传内容文笔优美），但语言模型正在迅速改进。如果将来用更强大的模型进行类似的研究，人工智能生成的宣传可能会表现得更好。

结论

实验表明，大语言模型生成的文本对美国受众的说服力，几乎与真实世界宣传内容的说服力一样。此外，人机合作（编辑提示和策划输出）生成的文章与原始宣传内容一样具有说服力，甚至更有说服力。研究结果超越了之前的研究，直接评估了人工智能生成文本的说服力（而不是关注可信度等指标），并使用了生态学上有效的基准。出于两个原因，本研究的估计可能代表了大语言模型相对说服力潜力的下限。

首先，大语言模型正在迅速改进。自此研究开展以来，已有多家公司发布了更大型的模型（如OpenAI的GPT-4），这些模型在相关任务中的表现优于GPT-3。我们预计，这些改进后的模型以及其他正在开发中的模型所产生的宣传效果至少与我们所使用的文本具有同样的说服力。

其次，研究估算的是阅读一篇文章的效果，但宣传者可以利用人工智能让大众阅读许多文章。有了人工智能，那些不熟练掌握目标语言的行动者可以快速、廉价地生成许多文章，这些文章在表达单一叙事的同时，在风格和措辞上也各不相同。这种方法会增加宣传的数量，同时也会使其更难被发现，因为风格和措辞各异的文章可能看起来更像真人的观点或真正的新闻来源。

最后，人工智能可以节省时间和金钱，使宣传者能够将资源从创建内容转向建设基础设施（如新设账户及网站），从而看起来可信并逃避检测。

免责声明：本文转自元战略，原作者寂谷。文章内容系原作者个人观点，本公众号编译/转载仅为分享、传达不同观点，如有任何异议，欢迎联系我们！

推荐阅读

转自丨寂谷

作者丨元战略

研究所简介

国际技术经济研究所（IITE）成立于1985年11月，是隶属于国务院发展研究中心的非营利性研究机构，主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题，跟踪和分析世界科技、经济发展态势，为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号，致力于向公众传递前沿技术资讯和科技创新洞见。

地址：北京市海淀区小南庄20号楼A座

电话：010-82635522

微信：iite_er