本文首先审查了智能系统和大模型的前沿进展,抽象出智能系统的基本组件;其次介绍了基于大模型的智能系统架构及其所具备的可行性、可控性和通用性等三大特性;然后详细介绍了各个组件的技术及功能,以及大模型和知识图谱的协同实现可控和通用的智能系统。在此之外,本文还梳理了基于大模型的智能系统的应用,并总结了所面临的挑战和未来的研究方向。
引言
大模型,狭义上指大语言模型,广义上则指包含了语言、视觉、声音、时空数据等的多模态大模型,通常是指参数规模巨大的深度神经网络模型。在大算力、大数据和精巧的网络结构共同作用下,大模型在自然语言处理、计算机视觉和声音处理等众多领域取得了令人瞩目的成就,是继知识图谱之后人工智能技术发展的新高峰。基于大模型的智能系统也开始广泛应用到各个领域中。本文将全面介绍基于大模型的智能系统的关键技术、架构、特性、关键组件和应用,并总结智能系统面临的挑战以及未来研究方向等。
相关工作
智能系统是一类能够模拟人类智能,具有感知、理解、学习、推理、决策和交互等能力的计算机系统。智能系统能够根据环境和目标自主或半自主地进行决策和行动,能够处理复杂、不确定和动态的任务。智能系统的核心目的是利用人工智能方法和技术解决实际问题,其发展过程与人工智能相伴相生。
智能系统具备根据用户需求动态地调整决策和行动的自适应性,能够与人类或其他智能系统进行有效的交互,实现沟通和协作,确保决策与行动可靠并符合预期,并能够以用户可理解的方式对决策和行动进行说明和解释。典型的智能系统有基于规则和逻辑的专家系统(expert systems)、基于统计学习和贝叶斯推断的不确定性推理系统(uncertainty reasoning systems)、多智能体系统(multi-agent systems)、基于知识的智能系统(knowledge intelligence systems)等。
图1是智能系统的典型架构,由交互、需求理解、决策、行动、环境理解、评估和结果生成等组件构成。随着大模型能力的涌现,以大模型为智能核心的智能系统逐渐兴起并成为了主流。
图1 智能系统架构
狭义的大模型,即大语言模型,指具备数十亿乃至万亿参数,通过高达万亿词元数量的文本语料训练出来的深度神经网络模型。大语言模型在语言理解和生成上取得了出色的成绩,其发展历史可以追溯到2013年的Word2Vec,但直到近年诸如GPT-3、LaMDA、PaLM、PaLM-2、LLaMA、LLaMA-2、CodeLLaMA、WizardMath等大模型的出现(见图2),才使得大语言模型的应用得到普及。广义的大模型则包含了语言、声音、视觉等多模态任务,其典型代表是Flamingo和GPT-4。大模型能够发展到如此高度,得益于充分利用注意力机制进行序列建模的变换器网络(Transformer)架构以及稀疏变换器网络这样的变种。最近,变换器网络架构最终统一了语言、视觉、声音和多模态的建模。大模型支持通过提示工程(prompt engineering)实现应用于特定任务的情境学习,展示了强大的通用能力,并预示了通用人工智能曙光初现。此外,知识更新、事实凭据、复杂推理等对智能系统至关重要,知识图谱在其中发挥着关键作用。
图2 2018~2023年大模型发展情况
基于大模型的智能系统架构
基于大模型的智能系统充分利用了大模型的能力实现智能系统的感知、理解、学习、推理、决策和交互,进而实现广泛的领域适应性、灵活的多任务迁移和友好的多模态交互能力。图3展示了基于大模型的智能系统架构。其中,大模型是智能系统之所以智能的核心所在,提示工程则是智能系统实现智能的直接体现,知识图谱为智能系统的知识更新、事实凭据、复杂推理提供支撑,模型训练与管理、数据管理(Data Management,DM)和微调管理等组件为大模型提供基础支撑。
图3 基于大模型的智能系统架构
智能系统的运行既依赖于对用户需求的理解,也要考虑系统所处的环境。基于大模型的智能系统,需要考虑可行性、可控性和通用性这三大特性,如图4所示。可行性和可控性是所有智能系统都具有的特点,而通用性则是因为大语言模型支持下的智能系统能够在各异的任务、场景和需求之间进行迁移,进而对智能系统架构提出新的要求。
图4 智能系统的三大特性
在智能系统中,直接面对用户需求的是交互组件。在大模型出现之前,自然语言交互虽然已经存在很长时间,但因受到语言理解能力的限制,其应用场景有限。更为广泛的交互是鼠标、键盘、触摸屏和机械按键等。基于大模型的智能系统则使自然语言(包括文字、语音等)交互成为了核心交互。大模型具备的强大的跨语言理解和生成能力,使得用户可以用母语和智能系统交互,并获得其他语言的知识。典型的例子如图5所示,用户用中文描述需求,并要求智能系统用英文检索arxiv.org上的论文,然后用中文输出所总结的内容。
图5 基于大模型的智能系统的跨语言交流示例
大模型子系统
大模型子系统以大模型为核心,通过提示工程组件与智能系统的其他组件协同完成用户的需求。类似GPT-4这样的大模型具备非常强大的通用能力,使得智能系统本身具备通用性与可行性。但另一方面,大模型修改自身参数的代价非常高,实时地修改和更新知识几乎不可能。同时,大模型还存在可解释性差、人工不可介入、无法实现复杂和长程(long term)等推理问题。智能系统为了具有更强的可行性和可控性,也会加入知识图谱等组件协同适应环境和完成任务。
大模型
这里的大模型通常是指变换器网络架构的自回归语言模型,并可能支持多模态输入。由于自回归的特性,大模型使用提示工程适应不同的环境并响应不同的用户需求。大模型的能力决定了智能系统可行性和通用性的上限。
数据管理
数据管理组件负责存储和管理不同来源和类型的数据,为大模型的训练、微调、对齐和评估等提供数据服务。数据有多种来源,如公开数据集、私有数据集、网络爬虫等。这些数据包含丰富的类型,如结构化数据、非结构化数据、来自知识图谱的通用或专业知识等。数据有不同的用途,如无监督训练数据集、有监督训练数据集、评估数据集等。数据也应当适应不同的任务,比如问答、推理、跨语言理解与生成等。数据管理组件需要能够根据来源、类型、用途、任务等不同特点管理数据,同时支持更新、评价、标注和权限管理等功能,确保数据能够被便捷、合理和安全地使用。
模型训练与管理
模型训练和管理组件负责大模型的无监督大规模预训练或增量预训练、有监督的指令微调与人类反馈强化学习的偏好对齐、模型效果的评估、模型量化压缩及效果影响评测、多模型的索引和模型选择、模型算力调度和模型推理等。许多智能系统并不是只有一个大模型,同时模型本身也会随着技术的发展、数据的更新而不断迭代。如果说大模型是智能系统的大脑,那么模型训练和管理组件就是智能系统的心脏,不断将数据、知识等养分输送给大模型(大脑)。
微调管理
这里的微调特指高效参数微调(Parameter-Efficient Fine-Tuning,PEFT),即利用少量标注数据对大语言模型进行有监督学习,调整模型的少部分参数(模型固有的或额外引入的),使其能够适应特定的应用场景和任务,从而提高目标任务的性能和质量。PEFT中的典型方法是低秩适应(Low-Rank Adaptation,LoRA),通过注入可训练的低秩矩阵对模型进行微调,其优点是大幅减少微调时需要更新的参数数量,从而提高模型的训练速度和推理效率,并减少计算资源的使用。为了适应不同的场景,LoRA产生了诸多在特定情况下更加高效的变种,比如Laplace-LoRA和LoRA-FA。微调管理组件就是充分利用PEFT的最新方法,使用与特定目标任务有关的少量高质量标注数据微调模型,使其达到预期效果。在实践中,PEFT有时候比使用提示工程改变大模型输出的情境学习(in-context learning)更经济和有效。
除了微调方法的管理和选择之外,微调管理组件还需要支持微调数据管理和数据标注、微调效果的评估方法和管理、微调任务的调度等。
提示工程
提示工程组件是基于大模型的智能系统的神经中枢,负责将大模型的能力输送给智能系统的所有模块。提示工程的核心功能包括设计和管理不同任务的提示,为决策、需求理解、环境理解和评估等模块提供智能服务。提示工程通过自然语言提示控制和引导大模型,使其根据任务的需求和特点输出结果。事实上,正是因为提示工程能触发和引导大模型针对不同任务进行情境学习,基于大模型的智能系统才得以具备通用性。
在提示工程中,注入少量标注样本能够更好地引导大模型理解目标任务的特定概念,实现少样本学习。这种标注样本既可以通过在提示工程组件中引入样本标注管理实现,也可以根据知识图谱中的知识自动生成。此外,作为中枢的提示工程组件,还需要提供提示的设计、管理、自动或半自动优化、测试和验证等功能。复杂的系统还需要解决提示之间的依赖关系、进行多提示的任务调度等。此外,提示本身的分发、共享和保护(安全)也是重要的。
知识图谱
知识图谱为大模型提供新鲜的知识、持续更新的事实,并实现长程和复杂的推理等。知识图谱通常是经过精心构建的权威知识源,通过与大模型提示工程的协同,以外挂的方式为智能系统提供高可靠、实时更新的知识和事实,以弥补大模型在知识覆盖和准确性方面的不足。知识图谱也可以通过数据管理模块,在训练、微调大模型时将知识内化到大模型中。在许多专业场景中,比如工业生产过程中的故障分析等,知识图谱还可以为智能系统提供复杂的推理,强大的和可解释的演绎推理、谓词逻辑、数学、规则、规划等方面的能力,进一步增强基于大模型的智能系统的决策能力,弥补大模型在推理复杂度和可解释性方面的不足。除此之外,大模型依赖于提示工程,知识图谱能够为提示管理、少样本情境学习的样本生成等提供支撑。图6是知识图谱和大模型协同的典型例子,大模型实现语言理解,知识图谱为智能系统提供可靠的知识,两者协同实现了可信的问答。
图6 基于大模型和知识图谱的可信问答
基于大模型的智能系统应用
基于大模型的智能系统催生了许多新一代的智能应用,涵盖了文本、语音、图像、视频等多模态信息和知识的处理及应用。
对话系统是最常见的应用。在对话系统中,知识图谱增强的大模型负责理解用户的自然语言问题及上下文信息,进行推理、事实验证,并可以编写和执行程序来分析数据,最后生成用户易于理解和阅读的答案。
企业知识管理(knowledge management)也随着大模型的发展而出现新的形态——“Drop & Chat”,即将文档资料等“丢”给新一代知识管理系统,并以跨语言对话的方式获取所需知识。企业知识往往具备多样性、动态性、演化性、隐含性、上下文相关性等特征。大模型协同知识图谱能够多角度和多层次地进行分析、建模、表示和处理知识,更好地实现企业知识的收集、表示、存储、组织、共享、利用和创新。
基于大模型的智能系统也被用于文本写作和创意内容生产,例如诗歌、散文、故事、小说、营销文章、游戏剧本、图像、视频、新闻写作等。大模型固有的“幻觉”在其他应用中是缺点,但在虚构故事写作和创意内容生产上恰恰是优点,能够很好地为用户提供写作灵感和建议,扩充故事细节,丰富人物形象,自动进行角色扮演,激发用户的创造力。此外,在知识图谱的协同下,智能系统也可以应用于严肃内容的生产和事实类写作,比如新闻、研究报告、会议纪要等。
自动编程是指智能系统根据给定的功能或需求自动地生成计算机程序,是一种跨领域的文本生成任务。专门为自动编程构建的大模型,如CodeLLaMA、AlphaCode、Codex、Pangu-coder2和Codegeex等的出现,使得高质量自动编程成为可能。ChatGPT-4 Code Interpreter为智能系统的自动编程及自动执行提供了示范。除此之外,智能系统还能够实现多种编程语言之间的互转,比如把Java语言包转化为Python语言包。特别地,在严格的测试驱动和完善的测试样例的支持下,上述过程可以全部由智能系统完成,而无需程序员参与。
数据分析是自动编程衍生出来的应用,智能系统通过自动编程实现数据的选择、过滤、重新组织、分析、挖掘、预测和可视化等任务。
基于大模型的智能系统在专业领域的应用更为广泛,比如工业生产制造领域的故障分析,工业产品研发和设计环节的创新创造支持,电网、通信网络和交通网络等复杂系统的智能检修和运维,设备的预测性维护,上市公司的财报自动分析,财务和法务的自动审核审计,金融或其他风险的管理与控制,等等。
面临的挑战和研究方向
基于大语言模型的智能系统并非尽善尽美,也面临着许多技术和伦理的挑战。
智能系统的能力提升依赖于更好的大模型,包括创建出更强大的模型网络结构,发展专家混合(Mixture-of-Experts,MoE)稀疏模型和多模态大模型,改进模型的训练方法,提升训练的效率,降低巨大的计算资源消耗和时间成本等。这不仅是经济问题,也是碳中和、绿色可持续发展的问题。智能系统决策的逻辑关系和证据支持尤其重要,而编造和幻觉则是不可接受的,研究如何在基于大模型的智能系统中实现可解释和可控的决策至关重要。研究大模型与知识图谱的协同共生,是实现可信、可靠和可控大模型系统的重要方向。
当前的大模型已经展现出了一定的跨语言、跨模态的能力,但在连续视觉理解,以及语言之外的声音处理,嗅觉、触觉、味觉等方面都还非常欠缺。这限制了智能系统自主探索物理世界的能力,是非常值得深入研究的方向。另一个普遍存在的问题有关跨语言的公平性问题。在智能系统愈加普及的情况下,小语种和方言往往被忽视,但这是一个值得研究且应当被研究的主题。
数据隐私、数据泄露、数据安全和伦理道德毫无疑问是当前研究的热点,这包含研究智能系统的可靠性(reliability)、可解释(explainability)、公平(fairness)、偏见(bias)、隐私(privacy)、责任(accountability)等问题。同时,当前智能系统处在迈向通用和自主的关键时期,研究如何避免智能系统与人类产生冲突,引导智能系统的发展保证人类的福祉,是不紧迫但至关重要的。更紧迫的是伦理责任、道德和公平性等社会问题。如何评估智能系统在社会各层面(如经济、政治、文化等)产生的影响,进而促进积极因素,遏制消极因素,引导智能系统向善、向上,是极有必要的。
王文广
CCF高级会员。达观数据有限公司副总裁,高级工程师。主要研究方向为知识图谱、自然语言处理、认知智能、大模型、计算机视觉、深度学习、强化学习等。
特别声明:中国计算机学会(CCF)拥有《中国计算机学会通讯》(CCCF)所刊登内容的所有版权,未经CCF允许,不得转载本刊文字及照片,否则被视为侵权。对于侵权行为,CCF将追究其法律责任
CCF推荐
【精品文章】
点击“阅读原文”,查看更多CCCF文章。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...