当下很多人对大模型的态度是“期待太高,耐心太少。想的太多,用的太少”。
人工智能或许会在大模型的帮助下,迎来产业应用的拐点,不断下沉成为信息社会的基础设施,成为像大数据、云计算一样的信息基础设施,并且再进一步发展成为像水、电、气一样的社会基础设施。但这需要时间与耐心,可能一年、五年,也可能是又一次寒冬来临的前夜。
面对产业界的高预期,媒体的过度解读,我们要保持耐心,通过研究分析大模型的技术特点与技术价值,观察其行业发展趋势,不断地探索大模型的应用场景,确保在长周期的技术赛道中占有一席之地。
01
引言
Introduction
ChatGPT掀起的AI风暴还未平息,多模态GPT-4、百度文心一言、阿里通义千问又带来了新的浪潮。英伟达公司的首席执行官黄仁勋认为“我们正处在AI的iPhone时刻”,也有人将ChatGPT Plugins比作苹果应用商店,大模型被认为将像移动互联网一样开启一个新的时代。
我想通过这篇文章,揭开大模型的神秘面纱,一起研究大模型是什么?能做什么?跟我们有什么关系?
1、大模型的定义
大模型,也叫大语言模型(Large Language Model,LLM)。
大模型的“大”,是指模型参数至少达到1亿以上。GPT-3的参数规模是1750亿。大模型之外,还有“超大模型”,通常拥有数万亿到数千万亿参数。大模型和超大模型的主要区别,就在于模型参数数量的多寡、计算资源的需求和性能表现。
模型,通常是一个函数或者一组函数,以线性函数、非线性函数、决策树、神经网络等各种形式呈现。模型的实质,就是对这组函数映射的描述和抽象。
训练和优化各种模型,就能够得到更加准确和有效的函数映射。模型的目的,是为了从数据中找出一些规律和模式,更好地预测未来。
2、大模型是人工智能历史的突变和涌现
如果从1956年达特茅斯学院的人工智能会议算起,人工智能的历史已经接近70年。
图 1 人工智能发展路径
(图片来源于《大模型时代:ChatGPT开启通用人工智能浪潮》)
达特茅斯学院的人工智能会议发展出人工智能的三个基本派别:
(1)符号学派(Symbolism),又称逻辑主义、心理学派或计算机学派。
(2)联结学派(Connectionism),又称仿生学派或生理学派。
(3)行为学派(Actionism),该学派的思想来源是进化论和控制论。
在相当长的时间里,符号学派主张的基于推理和逻辑的AI路线处于主流地位。但是,因为计算机只能处理符号,不可能具有人类最为复杂的感知,符号学派在20世纪80年代末开始走向式微。联结学派和行为学派迎来春天,在之后的AI发展史中,有三个重要的里程碑:
第一个里程碑:机器学习(ML);
第二个里程碑:深度学习(DL);
第三个里程碑:人工智能内容生成大模型。
大模型的训练需要大量的计算资源和数据,OpenAI使用了数万台CPU和GPU,并利用了多种技术对模型进行了优化和调整。2018—2023年,OpenAI实现大模型的五次迭代。同时,OpenAI也提供了API接口,使得开发者可以利用大模型进行NLP的应用开发。
大模型是在数学、统计学、计算机科学、物理学、工程学、神经学、语言学、人工智能学融合基础上的一次突变,并导致了一种“涌现”。大模型也因此称得上是一场革命。在模型尚未达到某个临界点之前,根本无法解决问题,性能也不会比随机好;但当大模型突破某个临界点之后,性能发生越来越明显的改善,形成爆发性的涌现能力。
谷歌、斯坦福和DeepMind联合发表的《大语言模型的涌现能力》(Emergent Abilities of LargeLanguage Models)用实验证明了涌现的特点:“许多新的能力在中小模型上线性放大,规模都得不到线性的增长,模型规模必须呈指数级增长并超过某个临界点,新技能才会突飞猛进。”
图 2 模型参数规模扩大为大模型带来的能力“涌现”
(图片来源于《大模型时代:ChatGPT开启通用人工智能浪潮》)
02
大模型的大脑和心脏
Brain and Heart
如果说神经网络是大模型的“大脑”,那么Transformer就是大模型的“心脏”。
大模型以人工神经网络(ANN)为基础。以OpenAI为代表的团队,为了让具有多层表示的神经网络学会复杂事物,创造了一个初始化网络的方法,即预训练(pre-trained)。在GPT中,P代表经过预训练(pre-trained),T代表Transformer,G代表生成性的(generative)。实际上,是生成模型为神经网络提供了更好的预训练方法。现在的大模型都是以人工神经网络为基础的算法数学模型。
图 3 神经网络
(图片来源于《大模型时代:ChatGPT开启通用人工智能浪潮》)
2017年6月,谷歌的阿希什等人发表论文:Attention Is All You Need,系统提出了Transformer的原理、构建和大模型算法。此文的开创性的思想,颠覆了以往序列建模和RNN画等号的思路,开启了预训练大模型的时代。
Transformer是一种基于注意力机制的深度神经网络,可以高效并行处理序列数据,与人的大脑非常近似。Transformer包括以下基本特征:
(1)由编码组件和解码组件两个部分组成;
(2)采用神经网络处理序列数据;
(3)拥有的训练数据和参数越多,它就越有能力在较长文本序列中保持连贯性和一致性;
(4)输入文本必须经过处理并转换为统一格式,然后才能输入到Transformer;
(5)并行处理整个序列,从而可以将顺序深度学习模型的速度和容量扩展到前所未有的速度;
(6)引入“注意机制”,可以在正向和反向的非常长的文本序列中跟踪单词之间的关系;
训练和反馈,在训练期间,Transformer提供了非常大的配对示例语料库(例如,英语句子及其相应的法语翻译),编码器模块接收并处理完整的输入字符串,尝试建立编码的注意向量和预期结果之间的映射。
03
大模型的构建模式
Pattern of Construction
大模型构建可以划分为4层:硬件基础设施层、软件基础设施层、模型MaaS层和应用层。
图 4 大模型的结构层级
(图片来源于《大模型时代:ChatGPT开启通用人工智能浪潮》)
模型即服务MaaS层是一套大模型的核心。我们使用的大模型应用(例如文心一言)必须通过这一层的模型(文心大模型4.0)提供的能力来实现对话、写作、分析、写代码等各种用户级功能。通过企业服务模块的应用程序编程接口(API)形式,大模型向企业客户或应用开发者提供多种能力调用,包括模型推理、微调训练、强化学习训练、插件库、私域模型托管等。
04
大模型的应用模式
Pattern of Application
图 5 构建在基础大模型上
(图片来源于《大模型时代:ChatGPT开启通用人工智能浪潮》)
大模型的分工越来越明确。日益增多的大模型,特别是开源大模型可以实现不同的组合,将大模型乐高化,构成大模型集群。未来具有资金、技术、数据绝对优势的企业构建基础模型,提供类似于公有云这类基础设施服务。绝大多数企业,基础行业特征和对业务的理解,构建轻量级业务领域模型,直接服务于业务。
小切口、大纵深。一个特别好的思路是:把自己的工作、产品拆分成20个、50个细化的场景,然后才能看出AI可以在哪些场景帮上忙。
05
大模型的企业应用路径
Path of Enterprise Application
图 6 大模型的企业应用路径
(图片来源于《大模型时代:ChatGPT开启通用人工智能浪潮》)
企业根据业务需求考虑第三方闭源大模型能否满足需求,若可以满足,则使用第三方闭源大模型与其开放的API对接。第三方闭源大模型包括百度的文心一言、阿里的通义千问、科大讯飞的讯飞星火、腾讯的腾讯混元等。
若第三方闭源大模型不能满足业务需求,那么可以考虑采取开源大模型,如果可以满足要求,那么可以在开源大模型上做微调训练、强化学习等,大模型完善工作。如果开源大模型要重做预训练,则需要进一下修改开源大模型的算法和数据集,在企业自有的算力上做预训练。开源大模型包括Facebook的Transformers、BART、LLaMA,Google的ELECTRA。百度的ERNIE、ALBERT。
06
大模型的产业化周期性
Industrialization Periodicity
计算机、互联网、人工智能,一代又一代的技术发展,出现过许多泡沫周期。现在,大模型来了,我们在周期里的什么位置呢?
如果以大模型为主语,那就处在这个小周期的第一个上升波段,会出现过度乐观情绪,未来还会回调,然后再上升。
图 7 大模型所处的周期阶段
(图片来源于《大模型时代:ChatGPT开启通用人工智能浪潮》)
如果以人工智能为主语,那现在便处于第二个上升波段,已经过了曾经的泡沫巅峰,也过了破灭的谷底,开始落地爬坡。后面会有波折,但不影响大的趋势。
图 8 人工智能视角的大模型周期阶段
(图片来源于《大模型时代:ChatGPT开启通用人工智能浪潮》)
07
介绍一些大模型工具
Some Tools
参考文献
1.《大模型时代:ChatGPT开启通用人工智能浪潮》龙志勇、黄雯,中译出版社。
2.《BERT基础教程:Transformer大模型实战》作者:苏达哈尔桑·拉维昌迪兰,翻译:周参,人民邮电出版社。
文章作者:孙亚东
封面设计:Lina
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...