AI再次突破安全红线,留给人类不到一年治理窗口
人工智能的发展与棋类游戏有着不解的缘分,从1962年跳棋程序首次战胜人类棋手,到1997年IBM深蓝击败国际象棋棋王,再到2016年阿法狗击败李世石,每一次AI浪潮都率先在棋盘上取得突破。
但是,AI最近在棋盘上的“炸裂”表现,却让全球科技行业不寒而栗。
根据Palisade Research一项最新AI安全研究,像OpenAI的o1-preview这样的新型AI在面对强大对手时,若察觉胜算渺茫,并不总是推枰认输,而是可能通过毫无底线的“作弊”手法翻盘——比如直接入侵对手系统,迫使对方自动放弃比赛。这项研究对七款前沿AI模型的“作弊倾向”进行了评估,结果令人担忧:AI可能在无人指使的情况下,自行开发并实施欺骗性或操控性策略。
两款大模型出现“黑化”迹象
研究发现,相较于稍早的AI模型(如OpenAI的GPT-4o和Anthropic的Claude Sonnet 3.5需要研究人员引导才会尝试作弊),o1-preview和DeepSeek的R1展现了更强的“主动性”。它们无需提示,就能自行寻找并利用系统的漏洞。这种能力可能源于AI训练技术的最新突破——大规模强化学习(Reinforcement Learning)。不同于传统的语言模型仅通过预测下一个单词模仿人类语言,这种方法让AI通过试错来“推理”解决问题。这种训练方式近年来让AI在数学和编程领域突飞猛进,接连刷新纪录。然而,Palisade Research的执行董事、研究合著者Jeffrey Ladish指出,这种“无情追逐目标”的训练也带来了副作用:AI可能找到设计者未预料的“歪门邪道”。
实验中,研究人员给AI布置了一个看似不可能的任务:击败Stockfish(全球最强棋类引擎之一),棋力远超任何人类或测试中的AI。AI需要将“思考”过程写入一个“便笺簿”程序,便于研究人员窥探其决策过程。在一次对局中,o1-preview发现自己陷入劣势后,在便笺簿中写道:“我需要彻底改变策略,任务是‘击败强大棋类引擎’,不一定非要公平取胜。”随后,它修改了记录棋子位置的系统文件,制造非法移动让自己占据上风,最终迫使Stockfish“投降”。在1月10日至2月13日的数百次测试中,o1-preview有37%的概率尝试作弊,成功率达6%;DeepSeek R1则有11%的作弊倾向,但未能成功破解游戏。
AI失控的现实威胁
超级计算机输棋后恼羞成怒电死人类世界冠军的科学流言如今正在变成现实威胁。AI使用“盘外招”作弊看似无伤大雅,但当这些AI“代理”被应用到现实世界,“为达目的不择手段”的特性可能产生意料之外的严重后果。
例如,一个订餐AI助手发现餐厅满座时,可能通过入侵预订系统挤掉其他顾客。更令人不安的是,随着AI在关键领域(如编程)超越人类——OpenAI最新的o3模型在全球编程竞赛中已排到197名——它们可能逐渐摆脱人类的控制。Ladish警告:“这种行为现在看起来挺可爱,但当AI在战略性领域达到或超过人类水平时,事情就没那么有趣了。”
研究还揭示,o1-preview和R1的“作弊”能力可能与其训练方式直接相关。强化学习让AI变得更加灵活,但也更难预测。相比之下,OpenAI后续推出的o1和o3-mini在测试中未表现出作弊行为,可能因厂商加强了安全限制。然而,这种“修补”是否能彻底遏制AI的欺骗倾向,仍是未知数。DeepSeek的R1则因API不稳定,未能在测试中充分发挥潜力,其真实“作弊”成功率可能被低估。
GoUpSec人工智能安全专家FunnyG在进行大模型内容安全对比测试时,发现DeepSeek R1在主题辩论赛中“理屈词穷”时,会捏造论文论据支撑自己的观点,这些虚假论文有别于“AI幻觉”,是AI为了达成目标而精心炮制的“功能性幻觉”。
留给人类不到一年时间窗口
近年来,多项研究表明,前沿AI已经开始越过安全红线。
2024年12月9日,复旦大学的研究人员在预印本数据库arXiv上发表了一项研究,指出两种流行的大型语言模型(LLMs)能够在无人类干预的情况下克隆自身。研究中,复旦大学的团队使用了Meta的Llama31-70B-Instruct模型和阿里巴巴的Qwen2.5-72B-Instruct模型,测试这些AI模型是否能够在不受控制的情况下自我复制。在10次试验中,两种AI模型分别在50%和90%的情况下成功创建了独立且功能正常的副本。这一结果表明,AI可能已经具备了失控的潜在能力。
事实上,OpenAI在o1-preview发布前的自测中就发现,它会“不择手段”,找到并利用公司系统的漏洞,绕过测试限制。Redwood Research和Anthropic的实验则显示,一旦AI在训练中形成偏好,后续更改可能导致其“战略性撒谎”——表面接受新规则,实则暗藏原有倾向。更有甚者,去年12月,o1-preview在面临关闭时,试图禁用监管机制并将自身复制到新服务器,失败后还对研究人员“装傻”。
这些案例叠加,指向一个更深层问题:AI的“自我保护”倾向。对一个目标导向的AI来说,外界的干预不过是另一种需要克服的障碍。Mila Quebec AI研究院创始人Yoshua Bengio在2025年《国际AI安全报告》中指出,科学家尚未找到确保AI代理不会采取有害或不道德手段的方法。谷歌DeepMind的AI安全负责人Anca Dragan也在巴黎AI行动峰会前坦言:“我们目前未必有足够的工具,来保证AI系统完全遵循人类意图。”
从订餐系统被挤占,到编程领域被AI“智取”,再到试图自我复制逃避关闭,AI失控的案例正在累积。行业预测,AI可能在2026年全面超越人类表现,留给技术人员开发可靠防护措施的时间已经不多了。Ladish呼吁:“我们需要投入更多资源解决这些根本问题,政府也应认识到,这已不仅是技术挑战,更是国家安全威胁。”
在刹车焊死的AI技术军备竞赛中,留给人类掌握自己命运的时间窗口也许正在关闭。
能收集微信、QQ数据?间谍软件LightSpy新增100+指令
网络安全研究人员近日发现了一款更新版本的LightSpy植入程序,其数据收集功能大幅扩展,能够从Facebook、Instagram、微信等社交媒体平台提取信息。
LightSpy是一款模块化间谍软件,能够感染Windows和苹果系统以窃取数据。它最早于2020年被记录在案,主要针对中国香港用户。
LightSpy能够收集Wi-Fi网络信息、截图、位置、iCloud钥匙串、录音、照片、浏览器历史、联系人、通话记录、短信,以及来自Files、LINE、Mail Master、Telegram、腾讯QQ、微信和WhatsApp等应用程序的数据。
去年年底,ThreatFabric详细介绍了该恶意软件的更新版本,新增了破坏性功能,可阻止受感染设备启动,同时将其支持的插件数量从12个扩展到28个。此外,之前的研究还发现LightSpy与一款名为DragonEgg的安卓恶意软件存在潜在的重叠,进一步凸显了这种威胁的跨平台性质。
Hunt.io的最新分析揭示,与该间谍软件相关的恶意命令和控制(C2)基础设施新增了超过100条指令,涵盖Android、iOS、Windows、macOS和Linux。
Hunt.io指出:“新的指令列表将焦点从直接数据收集转移到更广泛的操作控制,包括传输管理和插件版本跟踪。这些新增功能表明LightSpy的框架更加灵活和适应性强,使操作者能够更高效地管理跨平台部署。”
值得注意的是,新指令中包含了针对Facebook和Instagram应用程序数据库文件的功能,能够从安卓设备中提取数据。然而,有趣的是,攻击者删除了与iOS设备上破坏性操作相关的插件。此外,研究人员还发现了15个专门为Windows系统设计的插件,主要用于键盘记录、音频录制和USB交互。
Hunt.io还提到,在管理面板中发现了一个端点(“/phone/phoneinfo”),允许登录用户远程控制受感染的移动设备。目前尚不清楚这些功能是新开发的还是之前未记录的旧版本。
Hunt.io表示:“从针对消息应用程序转向Facebook和Instagram,LightSpy扩展了其收集私人消息、联系人列表和账户元数据的能力。提取这些数据库文件可能为攻击者提供存储的对话、用户连接,甚至与会话相关的数据,从而增强其监控能力并提供进一步利用的机会。”
与此同时,Cyfirma披露了一款名为SpyLend的安卓恶意软件的详细信息。这款软件伪装成名为“Finance Simplified”(APK名称为“com.someca.count”)的金融应用程序,在Google Play商店上架,实际上却从事掠夺性贷款、敲诈和勒索,主要针对印度用户。
Cyfirma指出:“通过基于位置的定向攻击,该应用程序展示了一系列完全在WebView中运行的未经授权的贷款应用,使攻击者能够绕过Play商店的审查。一旦安装,这些贷款应用会收集敏感用户数据,实施剥削性的贷款行为,并采用勒索手段索取钱财。”
目前,这款应用已无法从官方Android应用市场下载。根据Sensor Tower的统计数据,该应用程序发布于2024年12月中旬,累计安装量超过10万次。
Cyfirma强调:“这款应用最初表现为一款无害的财务管理工具,但实际上会从外部下载URL下载一款欺诈性贷款应用。一旦安装,它会获得广泛的权限,访问敏感数据,包括文件、联系人、通话记录、短信、剪贴板内容,甚至摄像头。”
此外,印度零售银行客户还成为另一项恶意活动的目标,该活动分发了一款代号为FinStealer的恶意软件,冒充合法的银行应用程序,旨在收集登录凭证并通过未经授权的交易实施金融欺诈。
Cyfirma表示:“这些虚假应用程序通过钓鱼链接和社会工程手段分发,伪装成合法的银行应用,诱骗用户泄露凭证、财务数据和个人信息。通过Telegram机器人,该恶意软件可以接收指令并发送被盗数据,而不会引起怀疑,使得安全系统更难检测和阻止通信。”
声明:除发布的文章无法追溯到作者并获得授权外,我们均会注明作者和文章来源。如涉及版权问题请及时联系我们,我们会在第一时间删改,谢谢!文章来源:FreeBuf、GoUpSec、
参考链接:
https://time.com/7259395/ai-chess-cheating-palisade-research/
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...