大模型技术从基础语言理解向深度思考跃迁。以DeepSeek R1等为代表的推理模型,结合强化学习与思维链(CoT),实现类人类逻辑推理突破。本期ADL专注大模型深度思考与推理技术,涵盖理论、算法、应用等,旨在推动AI研究与应用发展。
CCF学科前沿讲习班
The CCF Advanced Disciplines Lectures
CCF ADL第156期
主题 DeepSeek与大模型深度思考技术在本期CCF学科前沿讲习班ADL156《DeepSeek与大模型深度思考技术》中,我们将系统探讨大模型深度思考与逻辑推理的核心技术及其前沿进展。本期ADL内容聚焦从推理模型的基础理论(如思维链增强与强化学习),到复杂决策任务的算法突破;从单智能体的推理能力优化,到工业级高性能计算架构支撑;从学术研究的前沿探索,到产业落地的关键技术路径等多个维度。通过理论与实践结合的讲解,我们致力于帮助学员深入理解大模型推理技术的核心机制,掌握强化学习与思维链融合的创新方法(如DeepSeek R1的规则驱动训练范式),并洞察其在科学发现等领域的应用潜力。参与者将通过本讲习班构建从技术原理到工程实践的完整知识体系,推动AI从语言理解向深度推理的跨越式发展。
本期ADL讲习班邀请了7位来自国内外著名高校活跃在前沿领域的专家学者做主题报告。第一天,中国人民大学的赵鑫教授和南京大学的俞扬教授将探讨大模型慢思考的基本原理、强化学习技术的基本知识和面向语言模型的强化学习应用。第二天,来自上海交通大学的刘鹏飞老师将介绍认知工程与测试时计算扩展的深度思考突破。清华大学的章明星老师将介绍深思考模型对AI基础设施的机遇。第三天,来自香港科技大学的何俊贤老师和清华大学的孙友邦、丁宁老师将分别介绍团队在理解和实验深思考模型的最新发现、强化学习的关键理论、融合密集监督的强化学习方法。通过三天教学,旨在面向学员全面梳理大模型的强化学习、深度思考和推理技术的基础知识、前沿动态、未来发展和创新应用。
学术主任:刘知远 长聘副教授 清华大学
主办单位:中国计算机学会
本期ADL主题《DeepSeek与大模型深度思考技术》,由CCF高级会员、清华大学长聘副教授刘知远担任学术主任,邀请到赵鑫(中国人民大学教授)、俞扬(南京大学教授)、刘鹏飞(上海交通大学副教授)、章明星(清华大学助理教授)、何俊贤(香港科技大学助理教授)、孙友邦(清华大学助理研究员)、丁宁(清华大学博士后)等7位专家做专题讲座。
活动日程:
2025年4月11日(周五) | |
9:00-9:10 | 开班仪式 |
9:10-9:20 | 全体合影 |
9:20-11:30 | 专题讲座1:大模型慢思考技术探讨 赵鑫中国人民大学 |
12:00-13:30 | 午餐 |
13:30-16:30 | 专题讲座2:RL for LLM:面向语言模型的强化学习 俞扬南京大学 |
2025年4月12日(周六) | |
9:00-12:00 | 专题讲座3:大模型的第二幕:认知工程与测试时计算扩展的深度思考突破 刘鹏飞上海交通大学 |
12:00-13:30 | 午餐 |
13:30-16:30 | 专题讲座4:深度思考模型带来的AI基础设施挑战与机遇 章明星清华大学 |
2025年4月13日(周日) | |
9:00-12:00 | 专题讲座5:通过强化学习自我提升推理性能和效率 何俊贤香港科技大学 |
12:00-13:30 | 午餐 |
13:30-14:50 | 专题讲座6:强化学习中策略梯度算法若干理论解析 孙友邦清华大学 |
15:00-16:30 | 专题讲座7:融合密集监督的强化学习方法 丁宁清华大学 |
学术主任
刘知远
清华大学
个人简介:
刘知远,清华大学计算机系长聘副教授、博士生导师、清华大学学生学习与发展指导中心主任,中国计算机学会高级会员。主要研究方向为自然语言处理、知识图谱和社会计算。2011年获得清华大学博士学位,已在ACL、EMNLP、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文100余篇,Google Scholar统计引用超过4.2万次。曾获2020年和2022年教育部自然科学一等奖(第2完成人)、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖(第2完成人)、中国中文信息学会汉王青年创新奖,入选国家青年人才、2020-2022年Elsevier中国高被引学者、《麻省理工科技评论》中国区35岁以下科技创新35人榜单、中国科协青年人才托举工程。
特邀讲者
赵鑫
教授 中国人民大学
个人简介:
赵鑫,中国人民大学高瓴人工智能学院教授。2014年7月于北京大学获得博士学位,随后进入中国人民大学工作至今。研究领域为信息检索与自然语言处理,共计发表论文200余篇,谷歌学术引用3万余次,曾主导研发了玉兰系列大语言模型,组织编写了大语言模型综述论文《A Survey of Large Language Models》(预印版文章)以及《大语言模型》中文书(高等教育出版社出版)。曾荣获2020年吴文俊人工智能优秀青年奖、ECIR 2021时间检验奖,CCF-IEEE CS青年科学家奖。
报告题目:大模型慢思考技术探讨
报告摘要:最近以DeepSeek-R1为代表的大模型慢思考技术受到了较大关注,慢思考模型通过生成更长的思考过程来解决更具挑战性的问题,在多个科学场景和应用领域都取得了重要突破。本次报告将聚焦大模型慢思考的基础技术与实现方法,对于其中可能涉及到的技术路径进行探索和系统性讲解,主要介绍以强化学习为主线的关键技术,并结合自身实践经验讨论其中的技术挑战,然后探讨推理模型的科学价值,并且总结现阶段推理模型的局限以及未来的技术发展趋势。
俞扬
教授 南京大学
个人简介:
俞扬,南京大学人工智能学院教授。主要从事人工智能、机器学习、强化学习方向的研究,在中国计算机学会推荐A类期刊会议上发表论文百余篇,工作获5项国际论文奖、3项国际算法竞赛冠军。入选国家青年人才计划、IEEE“国际人工智能十大新星”,获CCF-IEEE青年科学家奖,首届亚太数据挖掘“青年成就奖”,并受邀在国际人工智能联合大会IJCAI 2018上作“青年亮点报告”。
报告题目:RL for LLM:面向语言模型的强化学习
报告摘要:强化学习作为一种以目标为导向的学习方法,为语言模型的优化提供了新的空间,从ChatGPT开始,RL for LLM受到越来越多的关注和应用。报告将介绍强化学习基础、语言模型与强化学习的结合、面向语言模型的强化学习等,并展望RL for LLM的未来研究方向,旨在为研究者和实践者提供强化学习与语言模型结合视角。
刘鹏飞
上海交通大学
个人简介:
刘鹏飞是上海交通大学副教授、创智学院导师,国家海外优青。专注于自然语言的预训、生成和评估等研究方向;谷歌学术引用18000余次。提示工程(Prompt Engineering) 概念最早提出者之一,单篇引用超过5000余次。曾获得首届蚂蚁InTech科技奖等。代表作o1 journey系列,LIMA, LIMO等。
报告题目:大模型的第二幕:认知工程与测试时计算扩展的深度思考突破
报告摘要:本教程深入探讨人工智能领域的范式转变——"认知工程",即通过测试时计算扩展系统性地发展AI思维能力。第一代大型语言模型主要通过大规模预训练实现知识获取,而当前处于生成式AI的"第二幕",前沿致力于优化推理过程中的计算资源分配,以实现更深层次的推理能力。报告将详细分析主要的测试时扩展方法(例如并行采样、树搜索、多轮修正和长链式思考推理等),包括其理论基础、实际实现及在不同应用场景中的相对优势。同时,将探讨使这些能力成为可能的训练策略,包括强化学习和监督微调方法。最后,讨论实施挑战、基础设施需求以及这一快速发展领域的未来研究方向。
章明星
清华大学
个人简介:
章明星,清华大学助理教授,主要从事内存系统研究,开源项目Mooncake和KTransforemers发起人。相关成果在OSDI、SOSP、ASPLOS、HPCA、EuroSys 等国际顶级会议和期刊上发表论文三十余篇,包括FAST最佳论文,SIGSOFT杰出论文,和国内高校首篇OSDI。曾获得ChinaSys新星和优博奖,IEEE TCSC优博,入选中国科协青年人才托举计划,科技部重点研发项目课题负责人。曾任深信服首席算法技术专家,创新研究院院长,相关孵化产品应用于数万家客户。
报告题目:深度思考模型带来的AI基础设施挑战与机遇
报告摘要:深度思考类模型在显著提升推理能力和多步逻辑处理能力的同时,也使得输出长度大幅增长。这一趋势直接导致模型在训练与推理两个阶段的计算和资源消耗急剧上升,给现有的AI基础设施带来了前所未有的挑战。
在算力紧张和成本敏感的背景下,如何提升计算资源的使用效率,已成为业界关注的核心议题。讲座内容将系统梳理当前业界主流的优化策略,并围绕以下三个维度展开深入探讨:如何更高效地利用现有GPU算力、如何挖掘算力优化以外的新突破口、以及如何通过算法与系统的协同设计推动整体性能的跃升。
同时,也将探讨下一步可能的优化路径。
何俊贤
香港科技大学
个人简介:
何俊贤是香港科技大学计算机科学与工程系助理教授。他于2022年从卡内基梅隆大学计算机学院获得自然语言处理领域的博士学位。他最近的研究重点是大模型推理。他发布了流行的中文大语言模型评估项目C-Eval,以及与DeepSeek同期发布了利用规则反馈的强化学习项目SimpleRL。他曾担任ICLR、ACL和EMNLP的领域主席。
报告题目:通过强化学习自我提升推理性能和效率
报告摘要:基于强化学习框架的自我提升正日益成为增强模型推理能力的关键后训练方法。例如,这一方法直接促成了DeepSeek-R1的成功。在本次报告中,我们将重点分享三项围绕自我提升的研究工作:(1)B-STaR,一种在训练过程中平衡探索与利用的自我提升框架。该框架通过确保模型生成内容的多样性并避免性能崩溃,实现了持续的自我改进;(2)SimpleRL-Zoo:我们对多种开源基座模型的零样本强化学习(Zero RL)训练进行了全面探索。我们在覆盖不同模型家族和规模的10种基座模型上研究了Zero RL训练,通过采用关键设计策略(如优化格式特定的奖励机制和控制数据难度),在大多数场景下显著提升了推理准确性和思维链长度。特别值得一提的是,我们首次在Qwen系列之外的小型模型中观察到了“aha moment”。我将分享实现Zero RL训练成功的核心设计原则,以及我们的研究发现与实践经验;(3)除了自我提升推理性能外,我还将介绍我们在自我提高推理效率、有效压缩思维链长度方面的工作。最后,我会简要探讨特定领域推理能力的学习如何在更广泛的推理任务中泛化。
孙友邦
清华大学
个人简介:
孙友邦,清华大学电子工程系助理研究员。主要研究方向为多智能体强化学习,分布式优化,联邦学习,以及探索优化与机器学习理论在大语言模型中的发展。已发表一作学术论文十余篇,包含NeurIPS,ICLR, IEEE TAC等。2019年获得中国科学技术大学学士学位,2025年获得美国东北大学机械与工业工程系博士学位。
报告题目:强化学习中策略梯度算法若干理论解析
报告摘要:传统强化学习任务中,策略梯度算法因其有效性被广为使用。本报告将重点讨论策略梯度相关的理论特性研究,例如收敛速度,近似估计,采样复杂度,以及off-policy带来的分布偏移等等理论问题,和相关算法设计思路。近期,随着RL在LLM相关任务上受到越来越多的关注,基于策略梯度的RL-LLM算法同样广泛应用于对大语言模型研究与实践之中。本次报告希望能为RL-LLM方向的研究者们对未来研究方向的展望提供一定的理论参考。
丁宁
清华大学
个人简介:
丁宁,清华大学电子工程系博士后,拟入职助理教授。入选清华大学水木学者、电子系“张克潜冠名博士后”。研究方向为机器学习、大语言模型等。2023年于清华大学计算机科学与技术专业取得博士学位,在Nature Machine Intelligence、ACL、ICLR、NeurIPS、ICML等人工智能会议和期刊发表多篇论文,谷歌学术引用量超过7000次,曾入选中国科协青年人才托举工程,获ACL最佳系统演示论文奖、世界人工智能大会青年优秀论文奖和云帆奖、中国算力大会最佳学术论文奖、清华大学优秀博士论文、百度奖学金等奖项。
报告题目:融合密集监督的强化学习方法
报告摘要:DeepSeek R1、OpenAI o1/o3等深思考模型的出现,揭示了另一种以探索为中心的扩增定律(Scaling Law),强化学习则是其中的核心技术。然而,目前的强化学习仍然以仅适用结果奖励为主,而没有很好地高效运用密集奖励。本次报告将着眼于如何产生和使用密集奖励这两大难题,介绍ImplicitPRM和PRIME两个工作以及相关的技术探索。
时间:2025年4月11日-13日
地址:北京•中科院计算所一层报告厅(北京市海淀区中关村科学院南路6号)
报名须知:
1、报名费:CCF会员2800元,非会员3600元。食宿交通(费用)自理。根据交费先后顺序,会员优先的原则录取,额满为止。本期ADL为线下活动,请到北京现场参会。(如果确有特殊情况,不能到现场参会,可以线上参会,请会前发邮件到adl@ccf.org.cn邮箱说明情况。线上线下报名注册费用相同。线上会议室号将在会前1天通过邮件发送。)
2、报名截止日期:2025年4月10日。报名请预留不会拦截外部邮件的邮箱。会前1天将通过邮件发送会议注意事项和微信群二维码。如果届时未收到邮件,请务必咨询邮箱[email protected]。
3、咨询邮箱 : [email protected]
缴费方式:
在报名系统中在线缴费或者通过银行转账:
银行转账(支持网银、支付宝):
开户行:招商银行股份有限公司北京海淀科技金融支行
户名:中国计算机学会
账号:110943026510701
报名缴费后,报名系统中显示缴费完成,即为报名成功,不再另行通知。
报名方式:
请选择以下两种方式之一报名:
1、扫描(识别)以下二维码报名:
2、点击报名链接报名:
https://conf.ccf.org.cn/ADL156CCF推荐
【精品文章】
点击“阅读原文”,立即报名。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...