近日,DeepSeek的横空出世,在全球科技领域激起千层浪,引发了从学界到业界的广泛热议与深度思考。《科技导报》2025年第3期刊发李国杰院士的《DeepSeek引发的AI发展路径思考》一文,深入剖析了DeepSeek背后所蕴含的AI发展路径相关问题,见解深入、专业、富于启发,特此全文呈现给广大读者。
1 为什么DeepSeek会引起全球性的科技震撼
全球人工智能龙头企业纷纷拥抱DeepSeek,凸显其不可抗拒的影响力。微软最早宣布将DeepSeek R1模型添加到其云平台Azure AI Foundry,开发者可用于构建基于云的应用程序和服务。亚马逊云科技(AWS)、英伟达、超威半导体(AMD)等公司相继宣布在其AI服务平台上部署DeepSeek V3和R1模型。不管某些国家政府如何抵制,少数媒体如何恶意中伤,上亿用户和众多大公司根据DeepSeek的性价比和亲身体验做出选择,主动融入DeepSeek生态。DeepSeek推出的高效率、低成本的推理模型和开源商业模式,将引领人工智能行业新潮流。
DeepSeek的V3和R1模型广受欢迎,首先是因为其在模型算法和系统软件层次都有重大创新。DeepSeek-V3的模型参数量高达6710亿,但由于采用了自主研发的混合专家模型(MoE)架构,每一层有256个细分领域的路由专家和1个共享专家,每次调用只激活约370亿个参数,显著降低了训练计算成本。DeepSeek改进的多头潜在注意力机制(MLA),减少了键值缓存开销,把显存占用降到了其他大模型的5%~13%,极大提升了模型运行效率。DeepSeek-R1模型摒弃了传统的监督微调(SFT),开创性地提出群组相对策略优化(GRPO),直接通过强化学习从基础模型中激发推理能力,大幅降低了数据标注成本,简化了训练流程。DeepSeek揭示了一个真相,即推理模型的开发比想象中更为简单,各行各业都可以做。DeepSeek的这些发明并非首次提出来的原始创新,但DeepSeek通过艰苦的努力把技术做到极致,在前人公开成果基础上,登上新的技术高峰。
2 “规模法则(Scaling Law)”是否已遇天花板
鼓吹“Scaling Law”的人,常以强化学习之父理查德·萨顿(Richard S.Sutton)的文章“苦涩的教训”作为追求高算力的依据:“研究人员曾一次又一次试图通过精巧的工程设计来提升性能,但最终都败给了简单粗暴的‘加大算力’方案,历史证明,通用方法总是在AI领域胜出。”但是,萨顿本人这两年对“Scaling Law”做了深刻反思。他指出,虽然Scaling Law在提升模型性能方面确实有效,但它并不是解决所有问题的万能钥匙。AI系统不仅需要具备强大的计算能力,还需要具备持续学习、适应环境、理解复杂情境等能力,这些能力往往难以通过简单地增加算力来实现。
但现在就说规模法则已经走到尽头,也没有根据。与人脑的神经连接复杂性相比,现在的人工神经网络至少还有上百倍的差距。继续扩大神经网络的规模和增加训练的数据量,是否还能取得与投入相称的回报,要看今后的实际效果。但GPT-5迟迟不能问世,可能说明规模扩张的效果已经不太明显。图灵奖得主杨立昆(Yann LeCun)和OpenAI前首席科学家伊利亚·苏茨克维(IlyaSutskever)等直言,规模法则已触及天花板。
3 发展“通用人工智能”(AGI)应选择什么道路
“通用人工智能”是一个模糊的没有形成广泛共识的术语。OpenAI公司追求的通用人工智能(artificial general intelligence,AGI)是其中的一种,指的是AI在多个领域以人类水平处理复杂问题的能力。人工智能界有一个莫拉维克悖论:“复杂的问题是易解的,简单的问题反而是难解的。”从这个角度看,能解复杂问题的人工智能不一定就是通用人工智能。许多人认为,能够应对设计者预料之外的情况,才叫“通用”。因此,人工智能学术界更关注智能系统持续学习,自我改进的能力。人工智能的通用性不仅表现在对语言的处理上,还包括像人一样基于常识和日常经验与外部客观世界互动的能力。
人工智能是对人类智能某一个方面的再现和超越。在科学技术领域,所谓“通用”一定是相对的,有一定的条件或范围。我们要认识人工智能的局限性,不能盲目追求能够解决所有问题的人工智能。重点还是要根据实际需求,将相对通用的人工智能技术落地到各个行业,让一定范围内的人工智能技术见到实效。实现通用智能是一个渐进过程,不会因某项技术的发明就突然到来。人工智能的通用性已经比前两波有明显的提高,但在某些应用中通过图灵测试只是阶段性成果,目前的技术离真正的通用智能还有较大差距。
究竟如何才能实现通用人工智能,现在还没有结论。DeepSeek和OpenAI都以发展“通用人工智能”为目标,但走的路径不一样。OpenAI公司相信Scaling Law正在尽量扩大模型规模,希望先做出通用的基础模型,再“蒸馏”出各行业可使用的行业垂直模型,走的是“由通到专”的路。除降低通用大模型的训练成本外,如何在保持泛化能力的同时,提高在特定领域或任务上的性能和效率,仍是需要解决的问题。与之相反,DeepSeek走的是“由专到通”的人工智能发展之路,试图在模型算法和工程优化方面进行系统级创新,为在受限资源下探索通用人工智能开辟新的道路。所谓“混合专家模型”就是集小智为大智,集专智为通智。“小而精”的模型将人工智能的重点发展方向从面向企业的to B引向更贴近消费者的to C,从广泛覆盖的“横向通吃”引向深入钻研的“纵向做精”,让更多的中小企业参与,可能会创造更大市场空间。但整合多个专用模型为通用模型也需要解决诸多技术和工程问题,如模型间的接口、数据格式的统一、训练时的负载平衡等。
4 发展人工智能应该追求高算力还是高算效(高能效)
发展人工智能的初始动机是模拟人脑,自然界进化了数百万年的人脑是一个计算效率和能效极高的计算装置,功耗只有20W左右。人脑的极低功耗是因为采取了分布式的模拟计算。目前计算机的高能耗是因为采用软硬件分离的数字计算。深度学习的奠基人辛顿(Hinton)教授最近提出“凡人计算”的新研究方向,采用与人脑一样的存算一体模拟计算方式,颠覆了硬件与软件分离的传统计算模式。这类研究追求的是计算的高算效和高能效,从长远来讲,是发展人工智能的正确方向。
DeepSeek发布以后,斯坦福大学华裔科学家李飞飞指导的团队,以阿里通义千问(Qwen)模型为基础,通过“蒸馏”谷歌的AI推理模型Gemini 2.0 Flash Thinking Experimental,并结合SFT技术,使用16个英伟达H100 GPU进行了26min的训练,以不到50美元的云计算费用成功训练出s1模型,其性能超过了Open AI的o1-preview模型。这种低训练成本的模型的通用性可能不如大公司的模型,但令人吃惊的低成本可在某些应用上做到与高端模型相媲美的性能,显示出人工智能的低成本化还有巨大的提升空间。
5 “开源”为什么有这么大的威力
虽然OpenAI为代表的生成式人工智能红红火火,但多数企业不敢将本公司的数据交给私有AI平台生成自己的垂直模型,因为害怕提交的数据泄露自己的技术机密。人工智能之所以在各个行业难以落地,这可能是一个根本性的原因。DeepSeek的彻底开源模式破解了这一难题,现在全世界的企业和用户都可以将DeepSeek提供的小而精的模型下载到本地,即使断网也可以“蒸馏”出高效率的垂直模型,真正实现了技术的民主化。
长期以来,美国的AI龙头公司夸大开源AI的安全风险,力图通过监管抑制开源AI。事实上,开源模型对于全球AI供应链至关重要,发展中国家尤其需要开源AI技术。若美国继续在这一领域设置障碍,中国就有望在开源AI全球供应链中占据核心地位,从而使更多企业转向中国企业而非美国企业的技术方案。
6 中国是否已具有在人工智能上引领全球的实力
应当承认,中国在人工智能的基础研究和核心技术上与美国仍然有差距。尽管在人工智能领域,中国的论文发表总数和专利授权数量超过美国,但是引用最多的源头性论文大多出自美国,美国也是顶尖AI模型的主要来源国。斯坦福大学发布的《2024年人工智能指数报告》显示,2023年,美国有61个较著名的AI模型,中国只有15个。近几年中国在AI领域快速追赶,进步速度喜人。根据《日本经济新闻》对2020—2024年神经信息处理系统大会(NIPS)等3个机器学习顶级会议的统计,在3万多篇发表的论文中,中国作者有8491人(美国14766人),过去4年中国作者增长了8倍。
人工智能不同于资本密集型和经验积累型的集成电路产业,不仅要“烧钱”,更要“烧脑”,本质上是拼人的智力的新兴产业。因此人工智能产业具有明显的不对称性,一个具有100多个聪明头脑的小企业就可以挑战市值上万亿的龙头企业。DeepSeek只是中国具有潜力的人工智能企业之一。近日,《麻省理工科技评论》刊发了一篇题为《关注DeepSeek之外的4家中国人工智能初创公司》的报道,指出阶跃星辰(Stepfun)、面壁智能(Model Best)、智谱AI(Zhipu)、无问芯穹(Infinigence AI)4家企业同样展现出不逊于DeepSeek的技术实力与全球竞争力。DeepSeek脱颖而出以后,人们盛传“杭州6小龙”的故事(深度求索、宇树科技、游戏科学、云深处、群核科技、强脑科技6家初创AI公司)。迄今为止,中国共有52家人工智能领域的独角兽企业,约占全球人工智能独角兽企业的18%。这说明在AI领域,中国已经有一批创新型小企业进入世界前列,开始展现引领全球的实力。
7 中国实现人工智能自立自强要如何发力
要实现人工智能自立自强,最困难的是构建自主可控的产业生态。英伟达公司的“护城河”不是GPU芯片本身,而是统一计算设备架构(compute unified device architecture,CUDA)软件生态。DeepSeek冲击了CUDA生态,但没有完全绕过CUDA,其生态壁垒仍然存在。从长远来讲,需要开发一套比CUDA更优秀的自主可控的AI软件工具系统,重构AI软件生态。实现这个目标需要周密的规划和长期努力,相关部门应该下决心组织全国的开发力量,充分调动上下游企业的积极性,完成这件大事。
资金投入不是决定AI成败的唯一因素,但最近几年中国投资市场规模急剧萎缩值得警醒。CB Insights数据显示,2023年,美国的AI投资达到672亿美元,是中国AI投资的8.7倍。这一年美国的AI投资实现了22.1%的增长,而中国AI私人投资下降了44.2%。其中,在生成式AI私人投资上,2023年美国总投资额达到224.6亿美元,中国仅为6.5亿美元。风险投资和私募基金对于支撑科创产业极为重要,他们为创新起到了资金池和担保的作用。中美科创市场曾经并驾齐驱,但到2023年,中国科创投资额仅相当于美国的8%。尽管美国投资界追捧“大算力”,存在一定的泡沫,但正常的金融支持是发展AI的必要条件。政府和资本界要合力构建一个健康的科创金融生态,为创新提供必备的动力,这样才会有更多DeepSeek出现。
产业生态的形成也要靠市场牵引。国家要通过政策引导,鼓励在PC、手机和物端设备上推广AI应用,增强国产GPU、CPU和国产软件的市场占有率。要高度重视芯片设计和大模型的开源战略,争取中国在全球人工智能的开源系统中起到主导作用。我们需要在有限算力条件下,通过算法和软件的协同创新,充分发挥硬件的极致性能,挖掘所有可能的优化空间。国内的人工智能模型与美国的水平十分接近,我们要做好算力资源与人工智能平台的优化适配,力争中国的人工智能科研和应用走在世界前列。
论文全文发表于《科技导报》2025年第3期,原标题为《DeepSeek引发的AI发展路径思考》,欢迎订阅查看。
白名单回复后台「转载」
精彩内容回顾
《科技导报》创刊于1980年,中国科协学术会刊,主要刊登科学前沿和技术热点领域突破性的成果报道、权威性的科学评论、引领性的高端综述,发表促进经济社会发展、完善科技管理、优化科研环境、培育科学文化、促进科技创新和科技成果转化的决策咨询建议。常设栏目有院士卷首语、智库观点、科技评论、热点专题、综述、论文、学术聚焦、科学人文等。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...