什么是灾难性遗忘?
灾难性遗忘是指神经网络在接受新数据训练或针对特定任务进行微调后忘记了之前学习过的任务。这种现象也称为灾难性干扰,它会导致经过训练的网络在连续学习过程中接受新数据训练时丢失与旧任务相关的信息。
许多人工智能实现都需要机器学习模型随着时间的推移适应新的用例。当新任务的训练过程干扰模型对旧任务的理解时,就会发生灾难性遗忘。随着新知识取代先前的学习,模型失去了处理其原始任务的能力。
为什么会发生灾难性遗忘?
灾难性遗忘现象最早由迈克尔·麦克洛斯基和尼尔·科恩于1989年发现,是机器学习算法适应新数据集的结果。深度学习模型(如大型语言模型(LLM))的训练过程包括将模型暴露于数据并允许其相应地更新权重。2023年的一篇计算机科学论文发现,它对大型模型的影响比对小型模型的影响更严重。
网络权重,也称为模型参数,是模型用于捕获训练数据集中的模式和关系的内部规则集。在训练过程中,机器学习算法会根据损失函数(一种测量模型预测误差的数学方程)迭代更新其权重。
训练的目标是通过梯度下降等方法最小化损失函数。学习率决定了模型在训练过程中更新权重的速度。
模型权重的配置是其知识表示:模型如何理解其训练数据的数学反映。如果模型对其权重进行足够大的调整,以至于新值不再与之前的任务相关,它将失去执行这些任务的能力。在学习新任务的过程中,模型已经“灾难性地”或完全忘记了如何处理旧任务。
神经网络为什么会忘记?
神经网络由相互连接的节点组成,这些节点模仿人类大脑中的神经元。学习时,大脑会在大脑皮层(负责高级认知的大脑区域)的神经元之间建立突触或连接。同时,海马体负责将短期记忆转换为长期记忆并保存知识。
虽然神经科学领域对大脑还有很多未解之谜,但我们知道大脑擅长内部优化。神经可塑性或大脑可塑性是指大脑自我重组以持续学习的能力。使用频率较高的突触连接会变得更强,而使用频率较低的突触连接则会逐渐萎缩并最终消失。
可塑性使人们在遭受脑外伤后能够恢复失去的能力,例如说话或运动。如果没有神经可塑性,人类就无法在成长过程中学习。婴儿和幼儿的大脑具有更大的可塑性,这就是为什么他们能够比普通成年人更轻松地学习语言。
人工神经网络的工作原理与此类似,它们会根据新数据调整权重,就像大脑建立新的突触连接一样。神经网络输入和输出之间的隐藏层会随着时间的推移而发生变化。当神经网络过于重视新数据而不是以前的知识时,它们可能会过度调整权重:模型不是扩展其知识,而是有效地用新数据取代其以前的知识。
灾难性遗忘的影响
灾难性遗忘会对机器学习模型(例如用于生成式 AI 应用的模型)的性能产生重大影响。当模型应用于新的用例时,它们的权重会发生变化,从而导致模型漂移,并最终导致灾难性遗忘。
灾难性遗忘可能会产生不利影响:
模型训练和资源使用:忘记基础知识的模型必须重新训练。支持领先的生成式AI服务的LLM需要花费数百万美元进行训练,包括计算资源以及为容纳它们的超大规模数据中心供电所需的电力和水。
模型部署和AI应用维护:随着模型性能下降,调用该模型的应用也会遭遇性能问题。在模型必须适应本地情况的边缘部署中,灾难性遗忘的风险可能会增加。
自主学习:体验式学习系统可能会随着时间的推移而遭受灾难性的遗忘。基础知识的丢失可能会降低这些系统的适应性、可靠性和一致性。对于机器人和自动驾驶汽车来说,这些影响可能尤其危险。
克服灾难性遗忘
研究人员和其他专家提出了一系列应对灾难性遗忘的技术。詹姆斯·柯克帕特里克、安德烈·A·鲁西等人于2017年发表了一篇具有里程碑意义的论文,探讨了一种基于减慢与旧任务相关的权重的学习速度的方法。
2025年,另一组计算机科学家探索了使用反向传播来克服灾难性遗忘。
克服灾难性遗忘的其他技巧包括:
正则化
建筑解决方案
集成方法
排练技巧
记忆增强神经网络 (MANN)
正则化
正则化是一组技术,它使模型更具通用性,但存在增加偏差的风险——它们更容易适应新数据。弹性权重合并 (EWC)就是这样一种技术,它为损失函数增加了惩罚,以调整对旧任务很重要的模型权重。
突触智能的工作原理类似,它阻止模型改变主要参数。这两种技术都使模型不太可能丢失先前的知识。
建筑解决方案
模型架构描述了神经网络的结构,包括其层数和节点连接方式。每一层都专用于AI 工作流程中的不同功能,例如预测或特征提取。
渐进式神经网络 (PNN)为新任务添加网络,同时保留用于早期角色的网络中的连接。该模型结合了所有网络的输出,即使在处理新任务时也能利用其旧知识。
其他网络在多任务学习中使用动态权重平均(DWA),在训练过程中动态调整模型权重。DWA 允许模型灵活地适应不同的任务。
集成方法
集成方法将多个模型的输出组合在一起,以获得更可靠的结果。终身学习森林是随机森林模型,它为新任务添加新的森林或决策树——类似于 PNN 随着工作负载的增加而添加新网络的方式。
同时,分区模块化架构可以防止新数据污染网络的其余部分。特定任务模块会根据需要激活,在不使用时保存已获得的知识。
排练技巧
排练技术让模型在训练新任务时接触旧数据,有助于确保模型不会完全忘记之前学到的东西。经验重放是一种强化学习技术,其中模型将过去的经验存储在单独的数据集中,然后在训练期间从该记忆中随机抽样。
记忆增强神经网络 (MANN)
记忆增强神经网络是一种将神经网络与外部存储器相结合的有前途的架构。在处理输入序列(例如用户提示)时,MANN 可以读取和写入内存。许多 MANN 使用注意力机制来隔离每个任务最相关的记忆成分。
梯度情景记忆 (GEM)是 MANN 的一个例子,它允许 AI 模型存储和回忆过去的经验,以指导新任务并保存以前获得的知识。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...