文末,iLaw团队精心准备《2025年我国制造业数字化转型发展形势展望》《数字孪生网络实践与启示研究报告2024》内容详实充分,如有需要,欢迎扫描下方二维码添加iLaw小助理,发送本文链接进行领取~
前言
2025年,中国自主研发的DeepSeek-R1大模型横空出世,以开源、高性能、低成本的核心优势,7天用户破亿,迅速成为全球AI产业的焦点。其技术突破不仅重新定义了AI研发范式,更通过对数据要素产业的深度重构,推动经济形态向智能化跃迁。本文聚焦DeepSeek-R1对数据要素产业链的重塑效应,并展望通用人工智能(AGI)的未来影响。
01
DeepSeek: 以高质量数据工程实现数据质量革命
数据优选系统提高了数据利用效率,传统模型依赖海量数据训练,而DeepSeek通过强化学习自动筛选高价值推理数据,使训练数据量需求从千亿级降至百亿级。数据质量优先原则逐渐成为领域共识,比数据规模更重要的是数据质量与密度。
开展了教科书级的数据工程,DeepSeek采用LaTeX结构化数据、图文关联标注、多模态对其技术,数据预处理效率和输出呈现效果得到极大提升。
合成数据表现出色。DeepSeek采用的高质量合成数据与其训练方式、推理任务相匹配,极大降低了数据成本。DeepSeek-R1 Zero首次证明了基于大规模强化学习与高质量合成数据结合的技术路径,可在不依赖标注数据的情况下,获得高水平推理能力。此外,DeepSeek-R1能够通过合成数据将高级推理能力迁移到较小的模型中,达到接近在原始数据上训练的效果。
02
产业重构:数据要素上中下游的协同迭代
(一)上游:数据与算力产业的迭代
1.语料行业:数据需求从“量”向“质”转变
传统数据标注业或受到冲击。MIT协议允许自由蒸馏R1模型,导致对传统语料数据集的需求萎缩。某从业者坦言“DeepSeek-V3/R1的诞生,冲击最大的行业是数据集公司,因为R1是MIT协议,蒸馏下随便就能超高分数,再老实买数据集从头训练似乎不太划算了”。另一位从业者直言“传统语料生意迟早是要萧条的,DeepSeek搞的数据真是好,教科书一般,图文并茂,真不是一般的好,节约了太多预处理工作量。现在各个大厂都在猛蒸馏 DeepSeek”。这一转变推动数据要素产业从粗放式采集向精细化治理升级,倒逼数据标注等环节迭代。
模型提升将更多依赖RL自主强化学习,而非人工标注。随着DeepSeek-R1/Chatgpt o3的诞生,大模型的智商已经超越了普通人,只有专家级别的标注人员,才有可能进一步帮助模型提升,传统的数据标注企业基本很难再给DeepSeek这类模型提供有价值的数据集了。同时,任何专家标注数据都无法使得AI逃离人类思维的枷锁,因此为了训练出更强大的模型,DeepSeek等AI企业将进一步挖掘RL的自主强化学习能力,利用未标注数据进行预训练,通过挖掘数据中的内在规律和特征,进一步摆脱对人工乃至专家标注数据的依赖。
2.算力行业:国产化、边缘化与云端化并行
DeepSeek-R1的算法优化打破了“算力即权力”的深话,推动推理算力需求占比从30%升至65%。其影响体现在:依托国产算力摆脱英伟达依赖。DeepSeek推动算力市场从“英伟达依赖”向“多元适配”转型,带动国产芯片应用。目前DeepSeek已完成对华为昇腾910B、寒武纪MLU370的完整适配,在国产芯片集群上实现92%的英伟达A100等效算力利用率,成本低40%。催动边缘计算崛起。DeepSeek采用先进的模型压缩技术,大幅减少模型参数量和计算复杂度,使其能在资源受限的边缘设备上高效运行,突破了设备性能限制,模型轻量化技术使智能手机可本地运行R1级模型,其高隐私、低延迟、高可靠能有效满足市场需求。带动云计算产业升级。中金报告指出,DeepSeek推动算力需求从训练向推理迁移过程中,光模块、AI服务器等硬件需求激增,而云计算服务商通过提供弹性算力服务,成为连接数据要素与终端应用的关键节点。
(二)中游:数据流通范式迁移
数据交易形式迭代。进一步从“数据集”交易模式迭代到“数据服务”交易模式。目前上海数据交易所场内的数据产品交易中,数据服务及数据应用数量已超过数据集。随着DeepSeek接入交易所和供需企业,基于DeepSeek部署的数据服务交易会越来越多。此类实践标志着数据要素从“原材料”向“高附加值商品”的跨越。
数据交易流程优化。传统数据交易面临数据定价难、供需匹配效率低等痛点。DeepSeek可助力开展智能定价与撮合,基于AI的数据价值评估模型可动态分析数据稀缺性、应用场景和合规风险,为交易双方提供精准定价参考。目前上海数据交易所正推动数据资产入表、数据资产估值(金准估)、数据资产披露对接(金拱桥)等环节深度嵌入DeepSeek,提升入表、估值、撮合效率,提升数据交易及数据价值化实现效率。
数据流通基础设施提质增效。数据空间是解决数据流通安全问题和收益分配问题的尝试,基于区块链、隐私计算等技术高效实现“数据脱敏”和“数据确权”,推动医疗等领域的敏感数据“供出来”。DeepSeek或将提升数据空间中的价值挖掘与供需方匹配效率,并结合区块链为供数方精准定价及收益透明分配,提升各方供数意愿、降低用数难度。2024年上海数据交易所联合芯超数据多方共建幽门螺杆菌数据空间,未来将结合AI进一步提升数据供需方间的流通效率。
数商服务将从专业化走向一体化。数商生态包括了数据经纪服务商、数据产品开发服务商、数据资产评估服务商、数据合规评估服务商、数据授权运营服务商、数据质量评估服务商、数据咨询服务商等多种类型。随着DeepSeek应用渗透率提升,未来形态的数商将更多具备数据产品/数据资产全链条服务能力,为数据服务需方提供更高效优惠的“一站式”服务。这要求数商的能力维度从“垂直纵深”向“横向覆盖”演变。
(三)下游:“数据要素×重点行业”的应用场景变革
DeepSeek的开源战略打破了传统AI研发的封闭性,形成“技术普惠—场景扩展—生态繁荣”的正向循环,使中小企业和科研机构能够低成本部署AI能力,加速数据要素的应用场景扩展。开源模型衍生出金融、医疗、教育等数十个垂直子模型,推动技术生态从“通用大模型”向“行业小模型”下沉。
金融领域。国盛证券通过部署DeepSeek实现智能客户问答与系统运维,效率提升20%;江苏银行利用AI进行合同质检与估值对账,业务准确率显著提高。
医疗领域。平安好医生开发的诊疗Agent日均处理量等效300名全科医生,准确率达85%,推动医疗资源普惠化。
教育领域。学而思、作业帮等平台接入DeepSeek后,教育AI市场规模预计2025年突破800亿元,智能辅导覆盖超千万学生。金山办公WPS智能助手使合同撰写效率提升4倍,错误率降至0.3%以下。
文娱领域。视觉中国接入DeepSeek多模态API,3D素材库扩容后毛利率提升15%;横店影视城利用AI生成剧本分镜,制作周期压缩40%,实现文娱产业降本增效。
商贸领域。某电商客服系统引入DeepSeek后,日均处理量从百万级跃升至千万级,GPU集群扩容3倍以上。
这一过程中,中小企业的角色从“技术追随者”转变为“场景创新者”,开源模型引发的去中心化、低成本、遍地开花式的场景应用,其效能远远超过闭源的中心化、付费型产业互联网推进流程,将在“技术普惠”逻辑下极大提升我国的产业能力。
03
未来展望:通向AGI的数据要素产业演进
(一)AGI演进路线预测
当前较多被引用的预测主要来自2023年11月谷歌DeepMind联合创始人Shane Legg以及2024年7月OpenAI CEO Sam Altman分别提出的AGI分级框架。前者认为AGI可能在2028年到来,而后者则估计AGI将在2035年实现。目前以DeepSeek-R1和Chatgpt o1/o3为代表的推理模型大致已达到DeepMind路线图中Level 2“熟练AI”,以及OpenAI第二阶段“推理者”的水平。
图一:谷歌DeepMind提出的AGI分级框架
图二:OpenAI提出的AGI分级框架
(二)通往AGI时代的数据要素产业特征
对未来数据要素产业的预测很难精确,但大致将包含如下特征:一是数据自生产闭环,AI及人形机器人的组合系统可自主生成训练数据,如特斯拉人形机器人实时生成工业操作数据,使其能够自主学习和适应动态环境。二是数据流通方式演进,未来数据交易所、数商等模式将发生重大调整,更多数据交易/交换或将由沉淀在每个机构内的“边缘AI”间经由基于区块链的数据空间开展。三是数据价值评估方式变革,从线性的静态估值模型演进为非线性的动态估值模型,通过动态评估同一数据集在不同应用场景中的价值差异,数据价值将取决于其在最终决策中产生的实时增益。四是以数据收益分配驱动数据价值化创新,通过区块链记录的数据贡献链条(“数据贡献度通证”)将得到更广泛应用,并按贡献比例分配收益。例如医疗领域,或将出现链接各类医疗机构的超大规模数据空间,而分散部署在各医疗机构的诊疗Agent将由消化了全国医疗数据的大模型定制生成,Agent间的收益分配将由数据空间内的数据贡献度通证确定,数据空间由部署在各机构的“连接器”来体现。当前,上海数据交易所正推动构建基于各行业数据空间的“泛在互联”交易体系,致力于实现数据供需方间的泛在链接、生态互联。
DeepSeek-R1的技术突破,标志着数据要素产业从“资源开采”向“智能炼金”时代迈进。当Level 2人工智能继续向通用人工智能演进时,数据要素的价值创造逻辑将发生根本性变革:从人类设计的数据利用范式,转向AI自主驱动的数据生态演化。在此过程中,数据需求的供给如何迭代、数据流通交易的形态如何调整、各类产业的应用如何演进,都是我们不得不前瞻思考的命题。这场变革不仅关乎技术,更关乎人类社会“生产-流通-分配”体系的重构。
参考资料
[1] Deepseek R1可能找到了超越人类的办法
https://mp.weixin.qq.com/s/YgRgDw8ndSHJwcPNMqWZNQ
[2] 当我们谈论DeepSeek时是在谈论什么
https://finance.sina.com.cn/jjxw/2025-02-08/doc-ineisxxp9508330.shtml
END.
免责. 本文及其内容并不代表iLaw对有关问题的法律意见,同时我们并不保证将会在载明日期之后继续对有关内容进行更新,我们不建议读者仅仅依赖于本文中的全部或部分内容而进行任何决策,因此造成的后果将由行为人自行负责。如果您需要法律意见或其他专家意见,我们建议您向具有相关资格的专业人士寻求专业帮助。
■
文末福利
iLaw团队精心准备《2025年我国制造业数字化转型发展形势展望》《数字孪生网络实践与启示研究报告2024》内容详实充分,如有需要,欢迎扫描下方二维码添加iLaw小助理,发送本文链接进行领取~~~👇
■
1.
2.
3.
5.
6.
7.
8.
■
点亮在看👇
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...