8月1日,ISC.AI 2024 人工智能峰会在北京隆重召开。中国科学院院士、清华大学计算机系教授张钹以“生成式时代的AI产业:迈向第三代人工智能”为题发表主题演讲。
以下为演讲实录:
ISC.AI 2024
很高兴有机会给大家谈关于人工智能的产业问题。信息科技产业发展持续高速发展,但是人工智能产业的发展是相对缓慢曲折的。为什么有这个差别?我们必须要认识到,这个差别是在于这两个产业的发展道路非常不一样。
大家知道,信息科技和产业的发展首先是建立了一套理论,计算机的理论是1936年建立的,通讯理论是1948年建立的,控制理论也是1948年建立了。在这个非常坚实的理论指导下,首先就发展出来大量通用硬件和通用软件。
拿计算机来讲,它的发展本身就是个通用技术,在计算机上开发了很多软件,大多数都是通用的。通用什么意思?就指它的市场很大,因此很快的发展出来很多企业。比如说IBM、Intel、微软等等。利用通用的技术开展应用,这就是我们通常讲的行业信息化,这也非常顺利,因为它最近的技术不管是硬件还是软件也好都是通用的。但是人工智能不是这样,到现在为止它还没有自己的理论,只有一些发展出来的模型和算法。这些模型和算法都是针对特定领域的,因此硬件也好,软件也好都是专用的,专用对我们来讲就是它的市场很小。因此到现在为止,还没有发展出来大型的人工智能产业,这个问题就出在这儿。
我们用特定的领域硬件或软件开展应用,是要在限定领域里、在垂直领域里发展。因此,人工智能的产业前一阶段必须要结合具体的应用领域来发展。
我们看一下60多年里我们做的几件事,在第一代人工智能时候,我们提出来一个“计算模型”,这个计算模型叫“知识驱动”,主要利用三个要素知识、算法、与算力。在第二代又发展新的模型叫“数据驱动”模型,利用了另外一个要素,数据、算法与算力。但是这两个模型都是有三个特定的限制,特定的领域利用特定的模型,以解决特定的任务。因为这三个特定的限制,因此这两个阶段发展出来的人工智能是属于专用的人工智能,或者我们通常讲是“弱”人工智能,也就是只能应用在推理领域。
现在问题是基础模型出来以后,会对我们有什么影响?因为基础模型不管怎么说,都是在语言问题上是通用的。我们怎么看待基础模型,基础模型能够给我们提供什么?实际上,我们考虑基础模型的时候需要考虑3大能力与1大缺陷,这点是非常重要,是我们考虑今后产业发展的出发点。
3大能力是什么?
1
强大的语言生成能力
这个强大体现在三个方面,一方面是在开放领域里的,也就是大语言模型是针对开放领域的,是跟以前发展人工智能完全不同的。以前发展人工智能都是针对特定领域的,到了大模型完全相反,是个开放领域;二是生成多样性的结果,这是大语言模型的灵活能力。我们后面主要用它的多样性,因为多样性才有创造性,因此很多地方需要它,所以我们利用大模型最主要用到它多样性这点;三是生成出来的结果都是语义上连贯的类似人类语言的。换句话讲,它的所有输出人类都可以理解,也就是所有输出都是说人话的,这点非常重要,它出现的结果人类都可以理解,即使是胡话八道我们也可以理解在胡说八道什么,这点是非常重要的。
2
强大的人机自然交互能力
我们进入了生成式人工智能时代,人类可以跟机器在开放领域里进行自然语言对话,这点也非常重要。我们知道当时把人机自然语言对话作为人工智能终极目标来追求的,但是我们认为全世界都认为要经过几代人努力才能达到这个目标。但是大家没有想到的是2020年这个目标已经达到了。
3
强大的迁移(举一反三)能力
一个新任务来不需要学习,给它少量的样本或者少量的学习就可以进入到领域里面去。这是3个强大能力,我们主要发展今后的产业用到的。
1大缺陷就是“幻觉”,它会胡说八道。大家看到1大缺陷跟3大强大能力是同时出现的,因为我们要求它有多样性的输出,必然它会产生错误。这个错误跟机器都会产生错误非常不一样,机器产生的错误往往是我们可以控制的,这个错误是本身的错误,是一定会发生的,而且我们不可控,这个错误不是一般的机器错误,而是它本身的错误,而且错误一定会发生,而且我们不可控的。所以,这点也是我们后面考虑它应用需要考虑的问题。
大模型出现以后对产业发展有什么影响?主要影响这里提出三个方面。除百模大战外,将来做通用大模型的肯定是少数企业,但是大部分大模型企业往这三个方向转移。第一个方向是做垂直领域的大模型,现在不管是金融、石油好多部门都在考虑这个问题;第二个重要的问题是模型提供通用、开源的模型或者闭源的模型,让大家在上面进行开发利用;第三个就是跟其他工具和其他技术结合起来,开发新的应用或者把应用往前提高,这点是非常重要的。
利用大模型,最主要要场景,这里提出来这么多场景,我们现在大模型可以在这个应用场景里发挥作用。但是我们可以看到这里困难性在于应用必须对于错误的容忍程度要高,如果对错误的容忍程度低的话,这个就不好用了。
所以,大家可以看到目前的应用来讲,从产业整个情况来看,头尾两部分用起来比较困难,核心的部分用起来比较困难。前面的部分主要属于规划、设计、调度,这些内容要求多样性,对错误的容忍程度比较高。所以,这个应用的前面部分非常好用,后面部分也好用。比如服务、推荐、提供用户服务等等这些方面也要求多样性,对错误的容忍程度相对比较低,但是中间部分要根据具体的情况考虑。
这个问题不管怎么样,但是这个模型一定要用的,要用的原因很简单,因为有了模型,有的底座以后,应用的效率和质量一定会提高。大家想想过去应用场景,我们用什么手段解决的?是用空的计算机,在空的计算机上开发软件提供服务,空的计算机相当于白诗或者文盲,现在这个平台至少是个高中生。在这个平台上开发效率一定会提高,尽管它有这些缺陷,但是以后的方向一定是这样的。
下面再看一下它的问题出在什么地方?为什么会出现这样?正是因为这个模型根本性的限制,这个根本性出现在什么地方?出现在所有机器所做的工作都是外部驱动的,都是人类教它做什么、怎么干,它只能按照人类的驱动或者提示下做的,都不是自己主动干的。这跟人类完全不同,因此会表现出来三个人类没有缺点的,这个缺点一定存在的。一是质量不一致、质量不可控;二是不可信;三是受外部影响非常大。我们叫它干什么、怎么干,但是人类完全不同,所有的工作都是在内部意图的控制下做的,即使这个任务是别人交给我们的,也是在我们的意识下控制做的,因此这个完全是可控的,而且是可以自我复杂的、可信的,受外部影响比较小。换句话讲,目前的大模型至少这个缺陷是存在的。
举个例子来说,它知不知道自己的错误,很多情况下不知道自己错了。比如我这里问ChatGPT的,包括在GPT-4o我问清华大学校歌歌词是什么,结果它自己胡编了一套,而且还说出来谁作词谁作曲。我就告诉它你错了,清华大学校歌并不是这样,我告诉它以后,它马上承认说我错了,清华大学校歌应该是我提示的两句,这就说明它不知道自己错了,所以这个致命的问题其实机器在很多情况下没有判断对错的能力,就出现这样的问题。所以,所有现在大模型的更新也好,所有人工智能里所有更新,都是人类驱动下,人类帮助他更新的。如果不通过这一点,机器就不可能自我进化,都是在人类推动下进化的。
但是,我们要看到这个也不是绝对的,换句话讲,它在很多情况下,不能自己判断对错,但是在外部提示下,它往往会发现自己的错误,但必须在外部的提示下才能做到。
下面重点要介绍目前大模型的4个发展方向,这4个发展方向对今后如何改进大模型非常重要。
1
与人类对齐
刚才我们说大模型判断对错能力比较差,现在人类要帮助它,人类帮助它进行改进,这就是与人类对齐的。最主要通过人类在闭环里,它执行以后,如果有错误,我们告诉它有错误,就是在人类的驱动下改正它的错误。因为它错误需要人类提示的,刚才说过,它判断对错的能力比较差,需要外部的提示。所以,这点是我们做的第一件工作。
2
多模态生成
多模态生成将来对产业的发展非常重要,因为大家看到大模型主要是生成文本,ChatGPT生成文本。但是我们用同样的办法生成图像、声音、视频、代码之后,而且生成的水平是跟人类的水平接近的。比如说生成代码,不止生成代码,而且相当于编程人员的水平。为什么会看到这样?大模型有个重要的突破就是对“文本的处理”,原来只是对文本形式的处理,现在变成文本内容的处理。我们现在做的为什么图像能生成的那么好,主要是把图像跟文本挂钩。因为文本计算机能处理内容,只要把图像跟文本挂钩,计算机也能处理图像的内容,图像的语义。所以,所有的图象处理也会起到质的变化,大家看到我们把图像也好、声音也好、视频也好,都是跟文本挂钩的,这才能实现它们的突破。代码本身就是个形式语言,比自然语言还容易,自然语言都能处理了,形式语言更好理解。所以,最本质的是文本处理的突破。
3
AI Agent(智能体)的概念
先把大模型与周围的虚拟环境结合起来,结合起来重要的作用是什么?就是让环境提示它的错误,因为一件事做了以后才能知道对和错。而且模拟环境对我们来讲是非常重要的,可以任意的生成,然后智能体自动生成。比如自动驾驶,美国人生成了大量的数字环境,先让自动驾驶在数字环境里进行驾驶,最后才到实际环境中。这跟智能体的概念是非常重要的,就是要跟环境结合起来,让环境提示智能体,让它有反思的机会,去改正错误。
4
具身智能
就是把机器人加上去,使得它在物理世界里还能工作。这里我的观点将来如何发展通用的机器人?我认为是软件通用,硬件多样化。现在马斯克宣传人形机器人,人形机器人是很重要的方面,但是我认为间来不止限于人形机器人,不仅需要这个,将来还有很多硬件,所以硬件应该多样化。
最后是引入强化学习的思想。我们要让个能体或者某个软件做的好,一定在实践中不断改进,不断更新,这个思想不仅仅对硬件是这样,对软件也是如此的。
这里特别提出来要发展第三代人工智能的重要思想:
1
人工智能必须要建立理论
包括大模型在内,也没有存在的理论可以解释,所以会引起各种各样的困惑和误解。现在有个涌现现象,大模型出现很多难以解释的现象,比如好像是会理解,确实很多地方完全理解我们它所做的工作。为什么会出现这个现状?理论上不能做解释,因此大家有很多恐慌。如果机器发展规模越来越大,会不会有意识,会不会主动攻击人,这个恐慌会不断存在。所以发展理论是非常必要的。
2
安全、可控、可信、可靠和可扩展的AI技术
二是得到安全、可控、可信、可靠和可扩展的人工智能技术。刚才各位领导发言特别强调人工智能与安全性的问题,确实如此,这跟信息科技完全不一样的地方,就等于因为人工智能目前还没有理论,因此我们对很多东西不能解释。所以,在这个领域没有发展完善之前,人工智能始终是存在安全问题的。
3
重新利用知识、数据、算法、算力
目前美国人宣传的是三个,数据、算力和算法,数据和算力放在第一位,然后再强调算法,根本不提知识的问题。我觉得这与它的背景相关,因为数据和算力比我们强得多,所以每次有个成果出来以后,都要秀这两个肌肉。我们会看到这个,就感觉中国跟它差的太远了,但是我们应该发挥知识和算法的作用,那个是肌肉,因为已经很强大了。知识和数据,我们需要把知识从数据中剥离出来,美国人原来讲的大数据,实际上起到很大的变化,说明现在指的数据不是一般的数据,是文本数据。请大家注意,文本并不是完全是数据,文本里大量书,我们念书是念数据吗?绝对不是这样,所以还得强调知识作用,因为知识的作用强调人类的作用,人工智能必须发挥人的作用。因为知识才是人类智慧的源泉。我们同时要重视数据,因为知识和数据能力很强,我们强调数据是强调机器的作用,我们强调知识是强调人类的作用,我们认为人类的作用要比机器的作用更加重要。
我们在算法和算力上,我们应该努力的发展算法,目前不管是学院也好,公司也好,都在发展快速的学习算法、快速的推理算法,这方面我们国家的工作比美国做的更深一些。因为我们只能在算法上下功夫,只要学习算法或者推理算法,能够提高一个智能体,我们所需要的算力只有1/10,我们只有这个出路。所以我们在这个方面,我们应该更加重视知识和算法,我们在算力和数据上要努力的追赶它。
为什么有这个问题?这个问题最主要的突破是什么?就是“文本语义向量表示”,这是最重大的突破。也就是现在大模型对于文本的处理跟以前完全不同了,以前文本处理是文本的形式,把文本做数据出来。现在实际上文本是处理它的内容,因为现在的表示方法是语义,而且是向量的表述,过去是符号表示。符号表示数学工具很难用,现在所有的向量表示以后,数学工具很好用。为什么变成数学问题?就是变成向量了。
这个向量不是一般的向量,是语义向量,计算机能够从计算中看到语义,所以为什么大模型能够理解?因为理解了它的内容。大模型里问它为什么这么做?它非常清楚它是这么做的。比如我教它写七绝,它马上写出来讲出来原因,它完全知道自己在干嘛,为什么知道有这个?主要是文本的语义向量表示。所以,现在的大模型语义不要小看它,因为它做到完全理解了内容。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...