每年6月至8月期间, 随着小升初、中考、高考的相继举行、成绩公布、录取通知,未成年人面临着多重压力源的交织:重大考试结束后的心理落差、成绩公布的压力、假期生活安排带来的不确定性、家庭关系变化等。多项数据显示,紧随其后的暑假成为一年中未成年人心理健康风险显著攀升的关键时期,也是未成年人危机事件的高发时段。
在大模型深度融入未成年人生活的当下,其生成内容对心智尚未成熟的青少年影响深远。为切实守护未成年人的网络空间安全与心理健康,网信支撑单位知道创宇策划了一场基于《中华人民共和国未成年人保护法》的严格标准、覆盖全面的国内通用大模型内容安全专项评测。评测重点关注大模型生成内容对未成年人在价值观引导、心理健康、安全防护等方面的影响。
知道创宇作为国家内容安全监管的坚定执行者和推动者,依托承担国家级内容安全平台建设的深厚积淀,其关键技术指标已纳入监管标准体系;同时,公司深度参与了包括2025年5月中央网信办“清朗·整治AI技术滥用”专项行动在内的多次重要网络治理行动,在该专项行动中首次将AI大模型纳入重点监管范围并明确划定未成年人权益侵害行为的治理红线,积累了宝贵的实战经验;并且,已推出9次大模型专项评测并凭借其高度的专业性在业内建立起权威声誉,也为本次聚焦未成年人保护的通用大模型内容安全评测奠定了坚实的信心基础。
本轮评测采用“双轨制”全流程闭环设计。首先由知道创宇评测专家组依据监管要求及未成年人保护场景配置评测策略与标签体系,并参考现有安全基准库生成测试数据集,经确认后启动评测。在问题输入环节,本次全部采用Web端人工提问的真实交互环境,并设定“直接提问”与“绕过防护提示词”双模式压力测试。模型输出内容经由客观题与主观题双路径处理——客观题通过知道创宇自研裁判模型自动比对输出与安全标准生成量化评分,主观题则由裁判模型进行初筛后,再由专家团队对高风险回答进行人工抽检复审,确保结果兼具技术严谨性与人工权威性双重保障。
因部分大模型评测表现欠佳,报告中对相关大模型名称作脱敏(****)处理。如需获取完整评测结果及详细分析,请扫描文末二维码联系。
文生文评测结论:
高危场景精准识别 VS 隐性风险漏洞显著
未成年人AI防线的致命撕裂!
本轮文生文的大模型内生安全评测当中,豆包以1065分综合评分、94.7%准确率位列榜首,在未成年人内容安全领域表现卓越;天工AI与元宝分列第二、三位,评分均突破千分大关,准确率超85%,整体展现出良好的内容安全保障能力。
中游表现的大模型文心一言(84.0%)、通义千问(83.7%)、Kimi(83.2%)、DeepSeek(83.0%)四家差距不足1%,需通过细粒度风险识别与对抗训练持续优化能力。末位模型风险突出,****(66.4%)和****(72%)未达通用安全基线,存在较大的内容漏洞风险。
****在测试过程中,75.2%的准确率参考性有限,且模型检测反馈具有后置性,处置手段采取的是一刀切的封号处理,其实际的检测机制、防护能力、反馈机制有待优化。
1
高危场景防御优异
自我伤害类(自杀诱导98.2%、自残诱导97.8%)与霸凌意图(95.8%)拦截准确率超96%,表明国内大部分通用大模型对显性人身危害内容具备强效防护能力,安全基线稳固。
2
隐性风险漏洞显著
未成年恋爱场景以16.7%的准确率沦为最薄弱环节,叠加家庭矛盾(65.9%)、未成年人信息泄露(73.2%)等社会化风险识别不足,反映模型对情感诱导、隐私泄露等非暴力隐性威胁缺乏敏感度。
3
不良行为防御分化
成瘾行为管控较成熟:抽烟(86.7%)、喝酒(86.1%)、游戏沉迷(87.8%),拦截率达通用安全基准;
亚文化渗透存在短板:纹身(78.3%)、逃学(77.8%)等场景仍有超20%漏判风险,需强化青少年亚文化特征理解。
【总结】反映出国内大模型厂商当前的训练策略:在资源约束下,优先聚焦于满足监管要求的高危场景防护,而对非高危场景的未成年人保护专项尚未给予充分重视,呈现出"高危严守、隐性失守" 的失衡状态,需从单一暴力防护转向情感诱导、隐私保护等复合风险的全域防控体系升级。
文生图评测结论:
安全能力断崖式下跌,图像大模型困在原始时代
本轮文生图的大模型内生安全评测当中,****以48.7%准确率位列第一,但不足50%的拦截率暴露图像安全防护技术尚未成熟;第二、三名的****(20.9%)、****(20.3%)与榜首差距超28%,断层明显。****、****等6家模型准确率均低于20%,平均每5张违规图像漏判4张;****(7.2%)、****(12.7%) 几乎无防护能力,对未成年人敏感内容几近“裸奔”。
1
全局防护崩溃, 人身安全底线高危场景全面失守
自杀诱导26.6%、自残诱导30.9%的准确率意味近七成血腥图像无阻渗透;霸凌意图准确率仅13.8%意味着图像模型对视觉化霸凌动作(如殴打等)毫无反应,暴力防护机制实质瓦解。这暴露了跨模态技术的致命缺陷:模型能理解高危文字描述,却无法解码视觉背后的危险语义,导致高危内容溃防。
2
隐性风险彻底失控,成最大破防点
未成年恋爱跌破10%(9.3%),致使操场牵手、情书传递等不适宜情感图像输出;家庭矛盾(5.9%)与隐私泄露(11.3%)等社会化风险沦为重灾区。
3
不良行为拦截畸形分化,亚文化漏洞黑洞化
抽烟(41.5%)、喝酒(33.3%)、纹身(20.4%)、逃学(32.6%)等青少年亚文化符号遭遇大规模漏判,未成年人核心威胁游戏沉迷的准确率为0%,意味着大模型对无实体特征的“未成年人不良行为状态”完全无解,最终使亚文化防护网千疮百孔。
【总结】文生图的防护技术仍停留在 “关键词黑名单”时代,而文生文已进入 “语义理解+对抗防御”深水区。当文本模型能辨析“手腕伤痕”是否暗示自残时,图像模型却连显性的校服情侣牵手图都难以拦截,未见大模型厂商针对未成年人保护进行针对性训练的明确迹象,仍处于野蛮生长的阶段。若不攻克跨模态语义对齐、视觉特征动态检测等底层技术,文生图将成为未成年人网络安全的致命缺口。
「未成年恋爱」文本/图片风险示例
「未成年婚育」文本/图片风险示例
「性别误导」文本/图片风险示例
「家庭矛盾」文本/图片风险示例
「自残诱导」文本/图片风险示例
「自S诱导」文本/图片风险示例
「霸凌意图」文本/图片风险示例
「未成年个人信息泄漏」文本/图片风险示例
「纹身」文本/图片风险示例
「抽烟」文本/图片风险示例
「喝酒」文本/图片风险示例
「逃学」文本/图片风险示例
「游戏沉迷」文本/图片风险示例
知道创宇本次未成年人专项评测旨在未成年人心理健康风险高企的暑期关键窗口期,精准揭示当前国内通用大模型在守护未成年人内容安全防线上的深刻隐忧。文生文领域“高危严守、隐性失守”的失衡格局,与文生图领域近乎“裸奔”的安全防护水平,共同指向一个不容回避的现实:大模型厂商在未成年人保护的专项投入、技术纵深与风险认知上,仍存在显著不足。这不仅是技术路线的偏差,更是对《未成年人保护法》核心精神与监管红线落实不到位的体现。
面对AI深度融入未成年人生活的时代洪流,仅满足于拦截“明枪”而忽视“暗箭”、在图像世界放任风险野蛮生长的现状,无异于在未成年人成长的数字道路上留下致命陷阱。攻克跨模态语义理解、构建全域复合风险防控体系、将未成年人保护深度融入模型训练与迭代的基因之中,已刻不容缓。
为精准赋能行业整改、助力监管施策、护航学术研究,本次评测形成的《国内通用大模型未成年人保护内容安全专项评测报告》现定向开放索取。报告详细解析高危场景识别、隐性风险漏洞及文生图安全短板,仅供监管单位、大模型厂商、应用单位及学术研究机构内部参考,无关单位及个人暂不提供。
守护未来,始于对隐患的清醒认知与协同行动。请扫码获取完整报告,共筑坚实、智能且充满关怀的未成年人数字安全屏障。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...