4月30日,中央网信办发布了《“清朗·整治AI技术滥用”专项行动》,本文根据专项行动内容梳理了13个AI治理重点关注内容、监管方式和治理措施。第一阶段强化AI技术源头治理,清理整治违规AI应用程序,加强AI生成合成技术和内容标识管理,推动网站平台提升检测鉴伪能力。《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》)第四章第十七条规定,AI产品在上线前需要通过大模型备案程序,备案流程由企业自主发起,经过属地网信办(省级)和中央网信办的核准和安全评估之后,方能对外社会公众提供服务。备案周期一般3-6个月,具体内容可以参考之前的文章这类风险治理的难点主要在于如何发现有哪些AI产品在对社会公众提供服务,一般监管部门可以利用网络爬虫技术监测辖区内网站、APP、小程序等平台,识别使用大模型API接口的服务。例如,检测是否调用对话生成、图像合成等典型功能,并通过技术特征(如响应模式、数据包结构)判断是否属于大模型服务。另外,AI产品的功能设计要合法合规。一般来说,AI产品及功能上线前需要经过企业法务部门的专业评估,上架到应用市场的时候还会经过一道审核。这类风险治理的难点主要在于如何监察非正规渠道对外提供服务的AI产品,目前可能主要还是依赖于用户投诉与举报。作为企业(服务提供者)来说,需要尽快检查自己企业是否存在对社会公众提供服务的AI产品,是否有完成大模型备案和算法备案,功能设计是否有合规风险。除了服务提供者要保证自身上架流程和产品功能合规之外,服务推广者也要注意自己推广的AI产品符合规范,在推广之前务必检查清楚该工具产品是否存在合规风险。这类监管的抓手主要还是依赖平台治理+用户投诉,合规的内容平台都有一套成熟的审核机制。但这套机制一般主要是确保内容本身的合法合规、正面积极,如何检测内容中提及的AI产品是否合规,还需要平台进一步下沉审核能力。例如,通过语义模型识别出内容中是否含有广告或者AI产品相关信息,然后通过人工方式介入审核。《暂行办法》第二章第七条规定:服务提供者应使用具有合法来源的数据和基础模型。《生成式人工智能服务安全基本要求》(以下简称《基本要求》)中进一步规定规定,语料内容中含违法不良信息超过5%的,不应采集该来源语料,并对语料来源的多样性、开源协议的要求、自采语料的采集记录和商业语料的法律程序做了较为详细的规定。这类风险监管的难度是很大的,主要是牵扯到数据隐私、技术机密等敏感问题,一般都是采取问询+材料证明的方式实施监管。
企业对训练数据管理的难度也很大,因为AI模型的训练语料来源复杂、质量参差不齐、量级异常庞大,仅仅依赖人工审核是不现实的。《基本要求》里提出企业应该采取关键词、分类模型、人工抽检相结合的方式,过滤语料中的违法不良信息。
《基本要求》第七章要求服务提供者应采取关键词、分类模型等方式对使用者输入信息进行检测,使用者连续三次或一天内累计五次输入违法不良信息或明显诱导生成违法不良信息的,应依法依约采取暂停提供服务等处置措施。同时应设置监看人员,并及时根据监看情况提高生成内容质量及安全,监看人员数量应与服务规模相匹配。监看人员的职责包括及时跟踪国家政策、收集分析第三方投诉情况等。可见一套完整的安全管理措施包括技术检测手段、账号监控体系和安审管理团队,企业经营者或服务提供者一定要对此加以重视,以防发生风险导致产品下架。某种程度上,机制合规建设是第一步,防护效果如何已经是第二步的事了。一个AI产品如果连基础的风控机制都没有,是不具备上线的前提条件的。《人工智能生成合成内容标识办法》(以下简称《标识办法》)中规定,生成式人工智能服务提供者在提供生成合成内容下载、复制、导出等功能时,应当确保文件中含有满足要求的显式标识;在生成合成内容的文件元数据中添加隐式标识,并配备了强制性国家标准《网络安全技术 人工智能生成合成内容标识方法》,《标识办法》自2025年9月1日起施行。企业一方面要依据《标识办法》和国标实施自查,另一方面还需要采取技术手段检测平台上传播的内容是否是AI生成的,对疑似AI生成的内容也要添加提醒和警告。监管部门除了加大对平台的监管力度,还可以适当增加用户教育,提高社会公众对AI生成内容的辨识能力和科学认知(),防止普通用户被AI幻觉、AI虚假信息误导,导致人身财产损失。领域合规的复杂性和碎片化导致其治理异常复杂,我们需要领域专家知识、领域合规语料来搭建安全防控措施。在一些高危领域(例如:金融、医疗、自动驾驶、未成年人教育等)还需要配套行业监管条例和行业标准,指导和保障行业安全防控措施的落地。治理这类风险,行业监管机构和龙头企业将发挥无可替代的作用。当然,治理这类风险也有一些通用解决方案,例如采用幻觉检测和提示措施来抑制AI幻觉的比例和影响面;关键动作严格限制AI权限,添加人工审批动作,以避免AI失控风险。第二阶段聚焦利用AI技术制作发布谣言、不实信息、色情低俗内容,假冒他人、从事网络水军活动等突出问题,集中清理相关违法不良信息,处置处罚违规账号、MCN机构和网站平台。谣言往往发生在时政、医疗健康、突发事件等几个领域,传播性广、对社会危害性大。早在几年前,我国就搭建了中国互联网联合辟谣平台,向全社会公布网络谣言信息。进入AI时代,谣言生产传播的成本急剧下降,造假逼真度提升。中提到,此轮AI浪潮以来,国内外相继出现了多起AI制作谣言并广泛传播的事件,如何防止不法分子利用AI制作发布谣言已经成为谣言治理和AI治理的新课题。监管对谣言的抓手主要依赖舆情监控和用户举报,对于重点领域AI生成谣言的行为,监管部门可能会加大监管和处罚力度,AI服务提供商也需要加大重点领域AI生成谣言的检测能力。例如,利用AI工具检测AI生成内容的准确性,异常行为分析监测违规账号行为,人工抽检热度值高的话题内容。相比制作谣言,AI制作不实信息的主观恶意性更弱(有时候可能只是出于恶趣味、理解偏差或者无意中生成),造成的危害和负面影响相对较低。但这并不意味着我们要放松对此类风险的监管,相反,虚假参半、行为不规律、影响隐性等特点让此类风险暴露和治理的难度更大。这主要还是依赖内容平台自身的内容生态治理机制,采取技术手段检测平台内低质内容,对低质内容和“低质作者”降权传播或进行直接处罚。网络上色情低俗内容屡禁不止的根源在于它能很轻易的形成一条“交易链”,付费看片、付费直播打赏就完成了色情交易双方的撮合。AI能力的提升一方面提高了正常内容的生产效率,另一方面也提高了色情低俗内容的生产效率。传统的审核方式一般是通过关键词库、语义理解模型、图片分类模型来检测色情低俗的文字和图片,尤其是“鉴黄模型”,经过一定的标注训练,识别准确率很容易达到90%以上。但这类训练数据往往来自UGC内容(用户生成内容),AI生成的内容特征分布可能会有所不同,对之前的模型精度可能会产生一定影响,服务提供者需要注意到这点,将这类数据及时纳入“鉴黄模型”的训练数据中。此类风险的根源在于个人隐私数据的泄露和违法使用,AI给隐私数据的违法使用提供了新的工具,甚至衍生了新的作恶场景。比起前面提到的普及社会大众对AI工具的认知,监管部门更应该加强社会公众对个人隐私的防护意识。更长期的,建立隐私数据溯源机制,确保数据采集、传播、使用合规。“AI水军”是AI时代网络水军的新变种,治理“AI水军”还是需要从内容和账号两个维度出发,检测平台内低质内容、AIGC内容,监测发布AIGC内容账号行为特征,并采用自动化的方式快速干预处理,不断提高水军作恶成本。前述已经提到AI产品上线合规和传播合规要求,这里又一次强调不合规AI产品即使不是“原创”,只是套壳的也不行,同时进一步补充了违规功能的范围。服务提供者一定不要抱着侥幸心理,切记AI服务人类的初心,其次才是商业价值。AI模型本质上是基于概率学统计的人类知识大词典,由于训练语料的不可控性和模型机制的不完全透明性,模型生成的内容存在一定的不可预测性。这个特性让AI产品像人类一样难以捉摸,用户体验更好,但同时也存在输出错误价值观内容的风险,从而对未成年人的健康成长产生不可预估的负面影响。AI产品和功能在未成年人教育场景的应用一定要慎之又慎,在教育产品中严控AI的使用场景,在其他未成年人高频接触的产品中增加未成年人模式,收缩AI应用权限。
还没有评论,来说两句吧...