陆志鹏首先谈到大模型数据集的训练过程,他认为,大模型训练一般要经历以下流程:一般是公开数据,包括互联网数据、代码库,然后对这些数据进行半监管的训练,训练后形成了一个较为高质量的数据语料库以后,供大模型训练。
“但大模型公司可能会因为侵犯隐私和知识产权被起诉。”陆志鹏举例说,美国大模型出来后,就已经面临着一些法律风险。主要来自两个方面,一个是隐私,一个是知识产权。
与美国目前鼓励型的监管政策、欧洲保守型的监管政策相比,中国是一种包容型、审慎的监管政策。
“大模型技术出现后,数据供应的过程中间遇到了什么问题?”陆志鹏说,一是缺少合规确权的机制,目前国内面临的问题就是数据的有效供给不足。很多企业都在做语料库,但数据都非常有限,而且可能面临着统一标准的问题;二是缺少数据的计量估价机制;三是缺少协调分配;四是缺少安全隐私保护机制。
面对这四个方面的问题,陆志鹏提及,中国电子这几年来和清华大学进行了跨学科研究,因为数据的构建非常复杂,涉及到了法律、管理、经济、金融、技术还有人文甚至政治等因素,为此,中国电子联合清华大学七个学院、将近一百个专家进行了联合攻关,形成了一套方案。大模型训练与数据要素的问题实际上是一致的,同样涉及确权、计量定价、流通分配和保护安全。
目前,中国电子研究开发出来的数据底座,可以对现有的数据进行归集、清洗、治理以后,形成一个标准的数据产品,这个初级产品可能是文本数据,也可能是结构数据,也可能是非结构数据,并能够将这些数据提供给大模型及各个应用方。
陆志鹏说,之所以OpenAI发布的语言大模型震动很大,其中一个原因是提供给其的语料非常好,“用我们的话是小学、初中、高中到大学都是名校,所以数据需要进行治理”。
数据运算过程中,变量越多,大模型的反应就会越来越灵敏;参数越多,大模型的精准度越高,然而,面对大的参数计算机运算时,还要经过多层次的变化、多层次的降维才可以实现。如果数据量不经过加工治理,很难获得应用、很难挖掘价值,于是,中国电子提出“数据元件”,先把数据加工成元件,由元件来支撑流通、支撑模型训练。这样就有效地解决了四个问题。
第一个是确权问题,目前数据确权是大问题,大家感觉无处下手, “数据二十条”发布提出数据产权“三权分置” 破解数据产权难题,数据元件与此相呼应。
第二个是计量问题,无论是文本数据还是结构化数据,从数据字段而言,它的价值很难进行计量,只有融合后的计量才有意义。也就是说,原始数据的价值是很难估量的。以前大家有一个误区,提出把数据评估进入会计报表,如果对现在的数据进行估值,只能通过成本法,计算采集数据花了多少人力、保存数据花了多少电费等等。而如果推动数据流通,计量这个数据到底有什么价值,此时数据的最大价值,即它承载的信息量能够计算出来,数据的价值就出来了。
第三个是在定价阶段,需要分阶段定价、分阶段分配。如果不在“数据元件”阶段前把分配问题解决,后续分配就很难落实。
第四个则是安全隐私问题,有了“数据元件”以后,可以通过元件监管方式回避安全问题。一是防止数据泄露,二是防止数据篡改。“大模型会不会把我的数据带走,会不会篡改我的数据,会不会滥用我的数据?”这些都是公众比较关心的问题。
最后,陆志鹏谈到了数据元件支撑的政务大模型应用探索,中国电子正在推动中国数字政府建设,参与数字广东、数字云南、数字湖南等省域数字政府平台建设。基于数据元件的数据底座,能够支撑政务系统的大模型训练,为目前国内很多的大模型公司提供数据支撑,即政务行业大模型。
“基于数据元件破解数据有效供给难题,构建多模态优质数据集,打造支撑大模型高质量发展的安全可信数据底座,推动数据要素高效流通、释放数据价值。”陆志鹏说。
来源:清华中国电子数据治理工程研究院公众号
— END —
点击“阅读原文”,前往《网络安全与数据治理》期刊官网投稿
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...