中科院院士陈润生：大语言模型存在涌现和顿悟现象

今年以来，以ChatGPT、文心一言等为代表的大语言模型火爆出圈，人工智能（AI）能否超越人类的问题引发各界热议。5月29日，由中国智能计算产业联盟组织召开的“2023中国算力发展研讨会”在中科院计算所召开。此次研讨会以ChatGPT下算力的机遇与挑战为主题，汇集了业内多位权威专家学者，从技术、生态等多维度展开深度交流研讨，厘清算力产业的发展风向，并就当下人工智能基础设施及算力服务建设等课题给出应对之策。

研讨会上，中国科学院院士陈润生表示，人工智能的发展不是人所能阻挡的，这是科学发展的本质。他同时指出，大语言模型中出现的“涌现（Breakthroughness）”和“顿悟（Grokking）”现象，值得大家思考。

何为“涌现”？一个复杂系统由很多微小个体构成，这些微小个体凑到一起，相互作用，当数量足够多时，在宏观层面上展现出微观个体无法解释的特殊现象，即为“涌现”。陈润生形象地解释说，“我给它（大模型）很多学习数据，结果它的答案里面会出现学习数据里没有的事，这种现象叫涌现。”大模型的运算表明，当训练数据很大时（比如超过了1000亿），就会出现涌现现象，规模小的时候不会出现这个现象。

需要明确的是，目前科学界对涌现现象是有争论的。比如，斯坦福大学某教授认为这是度规问题，牵扯到度量、基本物理坐标系等。

“自然语言处理过程中，由于整个计算量的迅速增加而出现的涌现现象，这个是新问题，值得思考”，陈润生说。

何为“顿悟”？陈润生解释，“你训练一个神经网络的过程中，一遍它不懂，两遍也不懂，第四遍还不懂，第五遍一下学会了，就像小孩学东西一样，教一两遍不懂，教到N+1遍突然就学会了。”

他认为，这是人脑学习的一种模式，“学到某一个时间开窍了”，“计算机不可能出现顿悟，但是大模型会出现顿悟的情况”。

不久前，ChatGPT的主要竞争对手之一Claude将语境窗口token数扩展到10万，相当于7.5万个单词，大大超越GPT-4语境窗口的8192 tokens。这意味着用户可以将高达500页的文档上传到Claude，它可以在不到1分钟之内就理解、消化这些信息，并基于上传的信息回答用户的问题。

Claude是Anthropic公司推出的，这家公司由前OpenAI员工创立，自2022年底以来，谷歌已向该公司投资了近4亿美元。

对此，陈润生认为，目前大模型的学习速度比我们想象中快得多，“这两家公司（OpenAI与Anthropic）你追我赶，说不定再过一段时间，GPT-5出来之后又比Claude强了，它发展那么快，将来人们赶不上。”

“更麻烦的是，这些大模型公司都在考虑去操纵第三方设备”，陈润生说，“能够去操纵第三方设备是令人担忧的一件事情，如果操纵和安全、国防相关的东西，那就不得了了。”

陈润生坦言，人类的神经网络结构远比目前的大模型复杂得多，人工智能的发展还有很长的路要走，“现在的（人工智能）神经网络在空间结构模型上应该有革命性的变化，也许那个时候，（AI）真的能够超越人的智力。”

来源：光明网

-END-

欢迎关注我们~