CNCC2024
论坛简介:
大模型时代如何构建大数据分析的新基建和新范式?
举办时间:10月26日13:30-17:30
地点:秋苑-教室区(东6)
大模型的发展推动了数据存储、计算和处理需求的爆发式增长。然而,大数据基础设施面临着存储扩展性、计算资源利用、实时处理能力、数据安全与隐私保护等多方面的挑战。如何构建高效、弹性、智能化的大数据分析基础设施,满足企业级应用的复杂需求,成为当前技术创新的重要方向。
本次论坛聚焦大数据分析与大模型时代的新基建与新范式,探讨云原生数据平台、大模型与数据智能的深度融合,推动大数据平台的智能化发展。报告涵盖云计算弹性架构、大模型预训练语料清洗、数据管理与分析智能化等前沿技术,展示了向量引擎、推理加速、生成式SQL优化、以及网络数字孪生技术在提升数据处理与管理效率中的关键作用,为Data+AI融合应用提供前瞻性思路与实践经验。
论坛日程
顺序 | 主题 | 主讲嘉宾 | 单位 |
1 | Data+AI驱动的云原生数据平台:机遇与挑战 | 李飞飞 | 阿里巴巴 |
2 | 海量大模型预训练语料的清洗 | 陈文光 | 清华大学 |
3 | 大数据+大模型:数据智能的新路径 | 高云君 | 浙江大学 |
4 | 数字网络的数字孪生探索 | 田臣 | 南京大学 |
5 | 生成式SQL语句的优化方法与挑战 | 王肇国 | 上海交通大学 |
Panel环节 | 本论坛所有讲者 |
论坛主席及嘉宾介绍
论坛主席
袁野
CCF杰出会员、数据库专委副主任,北京理工大学科研院院长
教授、博士生导师,国家杰青和优青基金获得者。主持国家自然基金重点项目,科技部重点研发项目。曾获国家科技进步二等奖,中国电子学会自然一等奖,教育部和辽宁省科技进步一等奖、全国优秀博士论文提名奖、CCF优秀博士论文奖。主要研究方向为大数据管理与分析。在SIGMOD、VLDB、ICDE、VLDBJ、TKDE、TPDS等重要学术会议和期刊上发表CCF A类论文100余篇。
郑渤龙
华中科技大学计算机学院教授、博士生导师
国家高层次青年人才,主要研究方向为大数据管理与分析,在SIGMOD、VLDB、ICDE、VLDBJ、TKDE等重要学术会议和期刊上发表CCF A类论文50余篇。主持国家自然科学基金(面上、中欧人才、青年),国家重点研发计划子课题等。曾获VLDB 2024最佳论文提名奖,VLDB 2020优秀论文,ICDE 2019优秀论文,ACM SIGSPATIAL中国新星奖,华为火花奖等。CCF YOCSEF武汉分论坛主席(2024-2025),CCF数据库专委、信息系统专委执行委员。
论坛讲者
李飞飞
ACM/CCF/IEEE Fellow(会士),阿里云资深副总裁
CCF大数据专家委员会、数据库专业委员会常委,获数据库与大数据系统方向多项国际顶级学术科研与技术会议最佳论文/成果奖(IEEE ICDE 2024 Industry and Application Best Paper Award, ACM SIGMOD 2024 Industry Track Best Paper Award, ACM SIGMOD 2023 Beset Paper Award, EDBT 2022 10 Years Test of Time Award, IEEE ICDCS 2020 Best Paper Award、ACM SoCC Best Paper Award Runner Up、ACM SIGMOD 2016 Best Paper Award, ACM SIGMOD 2015 Best System Demonstration Award, IEEE ICDE 2014 10 Years Most Influential Paper Award, IEEE ICDE 2004 Best Paper Award), 作为第一完成人获得世界互联网大会2019全球领先科技成果奖、浙江省科技进步一等奖、中国电子学会科技进步一等奖等。担任多个国际及国内一流学术期刊和学术会议的编委、主席。带领团队研发了以云原生数据库PolarDB为核心的阿里云瑶池数据库产品矩阵,实现了中国数据库市场份额第一,作为国内唯一数据库厂商连续4次进入Gartner全球Cloud DBMS市场分析报告领导者象限。
报告题目:Data+AI驱动的云原生数据平台:机遇与挑战
摘要:数据与算力驱动了人工智能的快速发展,云计算提供了海量易用的算力资源池,云原生数据平台因其弹性扩展、高可用、分布式等特性而推动了数据驱动的人工智能模型发展(如LLM大语言模型)。为满足弹性扩展、弹性计算、按需按量使用、AI推理、RAG构建等企业级应用需求,云计算平台与云原生数据平台需要探索新的体系架构,如通过分布式共享存储shared-storage来实现shared-everything的架构和存储计算分离,基于向量引擎和推理加速来支持Data+AI的推理应用以及RAG应用。同时,金融级高可用、异地多活、以及多源异构的多模数据管理等技术挑战也是云原生数据平台必须提供的关键能力。人工智能和数据平台在快速的向云原生化、平台化、一体化、智能化的四化方向演进。基于对以上技术挑战的不断探索和实践,我们自研了云原生数据库系统PolarDB,提供企业级云原生数据库能力。同时我们也自研了企业级云原生数据仓库AnalyticDB(ADB)以及云原生多模数据库Lindorm。基于算力平台和数据平台阿里云研发了大语言模型通义。经受了阿里巴巴双十一世界级的交易峰值挑战并在阿里云上取得了商业化成功。我们深度结合机器学习和安全加密等最新技术,提供下一代企业级应用的智能化、高效安全的一站式Data+AI云原生数据平台。
陈文光
CCF会士,学术工委主任,YOCSEF荣誉委员,清华大学计算机系教授
主要研究领域为操作系统、编译器与并行计算。现为北京计算机学会副理事长;ACM中国理事会常务理事。
报告题目:海量大模型预训练语料的清洗
摘要:大模型能力依赖于大量高质量语料,目前开源模型已经使用了10万亿量级的token。尽管互联网提供了远远超过10万亿token的语料,其中的高质量语料仍然需要通过复杂的数据清洗才能用于模型训练。大模型语料处理需要分词、语种判断、去重、质量判断等多个过程,是一个典型的Data + AI的处理过程,对底层的数据处理系统提出了很高的要求。本报告介绍诸葛弩大数据系统,通过兼容PySpark接口,并支持Python UDF的性能优化,可以有效支撑大模型预训练语料的清洗。
高云君
浙江大学求是特聘教授,博士生导师
国家杰出青年科学基金获得者(2020)、国家优秀青年科学基金获得者(2015),研究方向为数据库、大数据管理与分析、DB与AI融合,已发表CCF A类论文150余篇,出版专著4部,授权专利20余项,登记软著4项,并获ICDE等会议最佳/优秀论文6次,省部级或全国性学会科技进步特等/一等奖3项。现为ACM中国SIGSPATIAL分会副主席,全省大数据智能计算重点实验室主任,浙江大学软件学院副院长。担任TKDE、JCST、FCS、《计算机研究与发展》等期刊编委/副编辑,VLDB、SIGSPATIAL、WISE等10余个顶级/重要国际学术会议程序委员会/Workshop/Tutorial/宣传/出版/本地(共同)主席,SIGMOD、VLDB、ICDE、SIGKDD、SIGIR等会议(资深)程序委员会委员。培养多名博/硕士生获省部级或全国性学会优秀博/硕士学位论文奖8次以及KDD Cup 2022风电预测(Wind Power Forecast)赛道全球冠军。
报告题目:大数据+大模型:数据智能的新路径
摘要:随着训练数据规模的不断增大,大模型演化出强大的泛化能力,并涌现出新智能。大模型的智能是来自数据的智能。大模型的智能也正反哺大数据管理与分析,已在数据治理、数据分析等方面展现出巨大的潜力。大数据和大模型的深度融合将铸就数据智能的新路径。本报告聚焦大数据与大模型融合研究前沿,先介绍大数据和大模型的相关背景,而后探讨数据管理技术对大模型的赋能(DB for LLMs)以及大模型技术对数据分析的赋能(LLMs for Data Analytics),并汇报报告人负责团队在向量数据库、检索增强生成、Text-to-SQL、数据智能体等方面的探索。
田臣
南京大学教授
博士生导师,获国家杰出青年科学基金资助。田臣老师在计算机网络和分布式系统领域SIGCOMM、NSDI、OSDI、FAST、SIGMOD等多个顶级学术会议和知名国际期刊上录用和发表论文100余篇。他的工作受到了国内外研究者的广泛引用和关注,根据Google Scholar 最新学术搜索数据,迄今为止论文累计被引用5000余次。
个人主页:https://cs.nju.edu.cn/tianchen.
报告题目:数字网络的数字孪生探索
摘要:网络的数字孪生是以数字化方式重现物理网络,通过实时或非实时的数据采集方式将物理网络上的数据包括数据报文、配置信息、节点状态等采集到数据仓库,从而使得借助人工智能、专家经验、大数据分析等技术实现对物理网络全生命周期的分析、诊断、仿真和决策提供数据支撑。本报告将汇报南京大学NASA研究组在网络的数字孪生方面的初步进展。
王肇国
上海交通大学长聘副教授、博导、软件学院副院长
优秀青年科学基金获得者,重点研发项目负责人。主要从事数据库与分布式系统方面研究,相关成果发表在OSDI、SIGMOD、VLDB、NSDI、PPoPP、PODC等相关领域权威会议上。曾获2023 SIGMOD研究亮点奖、SIGMOD 2022最佳论文荣誉提名奖、APSys 2017最佳论文奖、ACM ChinaSys新星奖、华为奥林帕斯先锋奖,以及两次华为火花奖。主要学术兼职包括OpenHarmony技术指导委员会智能数据管理TSG负责人、ACM ChinaSys秘书长、CCF数据库、系统软件、高性能专委会执行委员等,受邀担任EuroSys 2025、NSDI 2024、SOCC 2024、IEEE ICDCS 2019/2023、IEEE Cluster 2021等国际会议的程序委员会成员。
报告题目:生成式SQL语句的优化方法与挑战
摘要:SQL优化是数据系统中的核心问题。近年来,随着Web框架和机器学习技术的发展,SQL语句逐渐由开发者手写转变为系统辅助生成。这一变化打破了传统数据库系统对SQL优化的假设,使现有的优化规则和方法难以继续适用。同时,现有研究主要关注生成SQL的准确性,而对其性能优化关注较少。本次报告将简要汇报我们在生成式SQL性能优化以及重写规则方面的研究成果,并分享在研究过程中遇到的一些挑战和思考。
关于CNCC2024
CNCC2024将于10月24-26日在浙江省东阳市横店镇举办,大会主题为“发展新质生产力,计算引领未来”。大会为期三天,包括18个特邀报告、3个大会论坛、138个专题论坛及34场专题活动和100余个展览。图灵奖获得者、两院院士、国内外顶尖学者、知名企业家在内的超过800位讲者在会上展望前沿趋势,分享创新成果。预计参会者超过万人。
点击“阅读原文”,进入CNCC官网。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...