大模型和检索相融相生,推动人工智能时代信息获取、处理和交互方式的巨大变革。本期ADL围绕大模型和信息检索融合这一主题,探讨大模型赋能信息检索、检索增强大模型、生成式检索、AI搜索、信息智能体、GUI智能体等热点问题,促进相关群体的交流合作。
CCF学科前沿讲习班
The CCF Advanced Disciplines Lectures
CCF ADL第 158期
主题 AI搜索与信息智能体
2025年5月16~18日 北京
大模型(LLM)和信息检索(IR)系统是人类获取信息的两种主要手段。一方面,LLM可以赋能、升级和改造传统的IR系统,推动信息检索技术进一步发展。另一方面,IR系统也可以有效缓解大模型的幻觉问题和时效性瓶颈。二者紧密结合,相融相生,推动人工智能时代信息获取方式的巨大变革。目前,检索增强生成技术成为大模型落地应用的核心方案之一;深度搜索(Deep Search)体现出强劲的发展势头,可以有效应对用户的复杂信息查询意图,成为新型AI搜索技术的代表;同时,各种信息智能体(包括GUI界面智能体)重构了信息获取、处理和交互的方式,显著提升了效率和用户体验。此次ADL,我们将围绕着大模型和信息检索融合这一主题,探讨大模型赋能信息检索、大模型检索增强、生成式检索、AI搜索、信息智能体、GUI智能体等热点前沿问题,邀请11位学术界和工业界的先行者,给大家带来精彩的专题讲座。希望能够通过此次ADL促进学术界、工业界相关群体的沟通和交流,推动相关信息技术和产业发展。
报告嘉宾包括同济大学特聘研究员王昊奋,中国人民大学高瓴人工智能学院教授窦志成、博士后朱余韬,微软亚洲研究院通用人工智能组高级研究员王亮,北京智源人工智能研究院研究员钱泓锦,清华大学东昱晓副教授,中国科学院计算技术研究所副研究员张儒清,百度搜索策略高级总监殷大伟,快手科技快意大模型知识增强研发负责人毛航宇,360搜索和智脑负责人张向征,Jina AI联合创始人兼首席技术官王楠。主办单位:中国计算机学会
活动日程
学术主任
窦志成
中国人民大学
个人简介:
窦志成,教授,博士生导师,中国人民大学高瓴人工智能学院副院长,负责中国人民大学人工智能学科本硕博人才培养管理。担任CCF大数据专家委员会秘书长,中国中文信息学会理事,信息检索专委会副主任,CCF大模型论坛常务委员,中文信息学会大模型专家委员会委员。主要研究方向为信息检索、大模型、AI搜索、信息智能体、司法智能等,在国际知名学术会议和期刊上发表论文150余篇,主持研发中国人民大学涉外法治大模型,开源大模型检索增强工具包FlashRAG。曾获教育部自然科学奖一等奖、国际信息检索大会(SIGIR)最佳论文提名奖,国际万维网大会(WWW)亮点论文奖,亚洲信息检索大会(AIRS)最佳论文奖,全国信息检索学术会议(CCIR)最佳论文奖等奖励。担任CCF中国数据大会程序主席、中国大数据学术会议组织主席、全国信息检索学术会议大会主席等。
朱余韬
中国人民大学
个人简介:
朱余韬,中国人民大学高瓴人工智能学院博士后,合作导师为窦志成教授。CIPS青工委成员,CCIR专委会委员。研究方向为信息检索与大语言模型。2023年毕业于蒙特利尔大学并获博士学位。博士期间曾获谷歌卓越博士生奖学金。目前,在人工智能和信息检索领域的国际顶级期刊和会议上发表学术论文40余篇,谷歌学术统计引用量2700余次。担任多个国际学术会议如ACL、NeurIPS、ICML、ICLR、SIGIR的程序委员会委员,并为TOIS、JASIST、KAIS等国际学术期刊的审稿人。是中国人民大学“玉兰”大模型项目组成员,负责基座模型的训练。主导开发检索增强生成工具包FlashRAG,在Github上获2.1k+星标。在检索增强生成领域具有丰富的研究与开发经验。
特邀讲者
王昊奋
个人简介:
王昊奋,同济大学特聘研究员,博士生导师。他是全球最大的中文开放知识图谱联盟OpenKG轮值主席。他负责主持多项国家AI专项,发表100余篇AI领域高水平论文。他构建了全球首个可交互养成的虚拟偶像—“琥珀·虚颜”;所构建的智能客服机器人已累计服务用户超过10亿人次。目前,他担任CCF术语工委副主任,自然语言处理专委秘书长,信息系统专委常委,智能机器人专委会执委;中国中文信息学会理事,大模型专委会指导委员会委员,语言与知识计算专委会副秘书长;中国指挥控制学会大模型专委会常务委员;上海市计算机学会自然语言处理专委会副主任等社会职位。
专题讲座1:RAG2.0:融合图、推理与决策的知识增强新范式
报告简介: 知识检索增强技术(RAG)作为大语言模型(LLM)优化的关键手段,通过引入外部知识源,有效解决了幻觉问题和知识时效性问题。随着大语言模型的不断进化,包括更大规模的基座模型、复杂推理能力的提升(如以DeepSeek-R1为代表的深度思考模型),以及RAG技术自身的演进(如模块化RAG、GraphRAG、AgenticRAG等),RAG系统正逐步迈向更复杂的应用场景。通过与具备更高推理能力的模型以及图结构的结合,RAG技术正在经历从模糊语义匹配到逻辑驱动的精准检索、从信息堆砌到逻辑自洽的答案建构、从单一问答到系统性决策支持、从盲目检索到智能资源分配、从被动知识助手到认知伙伴的全面升级。本次报告将首先回顾2024年RAG技术的发展动态,并对上次报告中提出的十大挑战及发展路线图进行跟踪与总结。在此基础上,报告将结合当前大语言模型的发展阶段,深入探讨“是否仍需要RAG,以及需要怎样的RAG”这一核心问题。报告将从RAG与图技术的融合、RAG推理能力的提升以及RAG在决策支持中的应用三个维度展开,系统梳理从技术到应用的演进路径,并展望未来趋势。通过这一融合趋势的深入讨论,报告旨在帮助技术管理者与创业者更好地把握Agentic RAG的潜能与价值,为未来的技术升级与创新奠定坚实基础。
窦志成
朱余韬
专题讲座2:从大模型检索增强到AI搜索
报告简介:本报告将系统性地阐述团队在大模型检索增强领域的最新研究成果与创新实践。报告首先聚焦于传统检索增强生成框架,介绍检索必要性判定机制、高效的检索与排序模型、检索结果精炼技术,以及面向检索增强生成任务的微调策略等一系列创新性工作。其次,介绍团队在多模态信息融合、对话式交互以及智能体驱动等复杂应用场景下,提出的一系列检索增强生成方法,凸显多样化场景下检索增强的适应性与先进性。最后,介绍团队基于前沿大模型推理能力,探索的包括“深度搜索(Deep Search)”与“深度研究(Deep Research)”在内的新的检索增强生成范式,这类方法在生成结果准确性、深度及智能性上取得了进一步提升。
王亮
个人简介:
王亮,现任微软亚洲研究院通用人工智能组高级研究员。主要研究方向为信息检索、问答系统和基础模型的增强。2014年和2017年分别获得北京大学学士和硕士学位。目前已在ACL、EMNLP、SIGIR、AAAI、ICLR等自然语言处理和机器学习领域会议发表论文30余篇。主导开发并开源的E5系列的文本向量模型获得了广泛关注,累计下载次数达数百万,并在微软内部产品线上得到应用。
专题讲座3:Test-time Scaling在信息检索中的应用
报告简介:Test-time scaling通过扩展推理阶段的算力,大幅提升了困难推理任务上的性能。本报告将探讨如下几个议题: 1)test-time scaling的基本原理和训练算法;2)如何将test-time scaling应用于信息检索的相关任务,包括文档排序、知识密集型问答等;3)test-time scaling如何驱动搜索智能体解决复杂的研究型任务,并分析其面临的挑战和未来的研究方向。
钱泓锦
个人简介:
北京智源人工智能研究院研究员,北京大学博士后,研究方向为信息检索与大语言模型。2024年于中国人民大学高瓴人工智能学院获得博士学位,已在人工智能与信息检索领域的国际顶级期刊与会议发表论文二十余篇。其所在团队长期专注于信息检索开源模型生态的建设,先后开发了BGE、MemoRAG等多个开源模型,相关项目在GitHub上累计获星超过一万,模型在Hugging Face平台月下载量达数亿次。
专题讲座4:信息检索在大语言模型长上下文中的应用
报告简介:处理长上下文是大语言模型的一项核心能力,同时也是当前面临的主要技术挑战之一。本报告将聚焦信息检索在长上下文处理中的关键作用,重点探讨以下几个议题:1)基于检索增强生成的长上下文处理技术;2)如何优化RAG框架应对长上下文带来的挑战;3)现有方法在不同任务与场景中是否具备稳定的一致性表现。
东昱晓
个人简介:
东昱晓,清华大学计算机系副教授,曾工作于脸书人工智能和微软总部研究院,研究方向为基础大模型、数据挖掘、图机器学习,相关学术成果应用于多个大模型系列产品和系统。入选2024年清华大学“清韵烛光-我最喜爱的教师“,获2022 ACM SIGKDD新星奖。
专题讲座5:探索GUI智能体大模型
报告简介:基础大模型在意图感知、指令跟随、目标规划等方面展现出强大的泛化能力,为智能体的研究和应用提供了通用模型基座。大模型GUI智能体旨在通过自动理解并操控图形用户界面,完成各类软件应用中的复杂任务,其核心挑战在于跨模态信息的融合与跨域泛化能力的构建。报告将分享面向手机和网页的大模型GUI智能体能力提升探索。首先构建针对Android自主智能体的统一训练与评测框架AndroidLab,通过建立标准化的操作环境,支持基于XML信息的文本输入模式和基于屏幕截图的SoM多模态模式,在统一的操作空间下实现点击、滑动、文本输入、长按等基础动作。进一步设计自进化在线课程强化学习框架WebRL,通过自进化课程学习策略解决GUI智能体训练中的任务稀缺、反馈稀疏和策略漂移等关键挑战,在多个智能体基准任务上取得明显效果提升,相关技术应用于智谱AutoGLM智能体产品等。
张儒清
个人简介:
张儒清,中国科学院计算技术研究所副研究员,阿姆斯特丹大学访问学者,研究方向为生成式信息检索(GenIR),在国际重要学术会议和期刊上发表论文40余篇,获EMNLP 2024最佳论文奖、CCIR 2018优秀学生论文奖,成果获钱伟长中文信息处理科学技术奖一等奖,个人获CCF优秀博士学位论文奖、中科院院长优秀奖等荣誉;联合组织国际首届生成式信息检索论坛和讲习班(SIGIR)以及鲁棒信息检索论坛和讲习班(SIGIR),担任中文信息学会信息检索专委会委员、计算机学会女工委委员;主持国自然面上项目、国家重点研发计划课题、中国科学院先导专项课题等项目。
专题讲座6:大模型时代的信息检索
报告简介:本次报告将从回顾信息检索的发展历程切入,对信息检索与大模型相结合的前沿方向进行系统梳理,并分享课题组的相关研究成果,主要包括:(1)LLM for IR(生成式信息检索):信息检索架构从“以索引为中心”到“以模型为中心”的转变,即采用一个一体化生成式模型取代传统的流水线架构,包括标识设计、模型学习和在线检索;(2)IR for LLM(检索增强的生成):利用外部检索信息补充大模型的生成,包括何时使用检索增强、何种检索结果有助于模型生成,以及如何提升生成结果的可靠性;(3)最后,对大模型时代下信息检索的鲁棒性问题进行讨论,进一步提升检索模型的鲁棒性。
殷大伟
个人简介:
殷大伟现任百度公司高级工程总监,负责网页搜索、垂直搜索及新兴的AI搜索方向的科学研究工作。在加入百度之前,他曾于2016年至2019年担任京东高级总监,领导推荐系统工程团队。在此之前,他是Yahoo Labs的高级研究经理,领导相关性科学团队,负责Yahoo搜索的核心相关性研究。殷博士分别于2013年和2010年获得美国里海大学的博士和硕士学位,2006年毕业于山东大学。其研究兴趣涵盖数据挖掘、应用机器学习、信息检索及推荐系统。他在国际顶级会议和期刊上发表了大量论文,获得了包括KDD、WSDM和ICDM在内的八项最佳论文奖或提名。他是ACM杰出会员。
专题讲座7:人工智能驱动的搜索新范式
报告简介:本次演讲深入探讨了大型语言模型(LLMs)与搜索系统的融合所带来的变革,这标志着从传统搜索引擎向由人工智能驱动的搜索范式的转变。我们将探讨推动这一演进的关键技术,包括查询规划、参考信息检索、检索增强生成(RAG)以及LLM推理加速。该框架将最前沿的LLM能力与实际的搜索基础设施相结合,为构建可信赖、适应性强且可扩展的AI搜索系统提供了深刻见解。
毛航宇
个人简介:
毛航宇,现就职于快手科技,快意大模型知识增强研发负责人,同时兼任智能交互团队负责人。主要关注强化学习、智能体和大模型等技术,在NeurIPS, ICML等CCF-A/B类会议和期刊上发表论文30余篇,申请国际、国内专利10余项,相关研究在企业场景落地并产生较大效益。本人和所带领的团队曾获全球数字经济大会“人工智能大模型-场景应用典型案例”、国际人工智能会议NeurIPS强化学习竞赛冠军、中国计算机学会“多智能体研究优秀博士论文奖”、北京市和北京大学“优秀毕业生”、华为“创新先锋总裁奖”。
专题讲座8:基于知识增强的大模型智能体
报告简介:以ChatGPT为代表的大模型是人工智能领域最火爆的研究热点之一,而智能体(AI Agent)是大模型最有潜力的应用方式之一。本报告首先梳理智能体的发展脉络,其次介绍一些典型的智能体技术,尤其是基于知识增强的大模型智能体技术,最后在不泄露公司机密的前提下分享一些企业实践中的心得体会。
张向征
个人简介:
张向征,360智脑总裁,360智能搜索事业部总经理,国家人工智能标准化总体组大模型专题组联合组长。拥有十余年人工智能技术研发和团队管理经验,长期深耕于搜索、推荐、NLP等方向,主导了认知型通用大模型360智脑的研发,支持了360AI搜索、AI办公、数字人、儿童手表等多个业务大模型落地,并为政务、金融、安全等多个行业和垂直场景提供企业级大模型解决方案。
专题讲座9:AI搜索的产品演进与技术挑战
报告简介:以 ChatGPT 为代表的生成式人工智能技术快速发展,正在重塑用户使用搜索的习惯和获取信息的方式。搜索的产品形态、交互方式、技术路径和商业模式也在持续迭代更新。国内外科技巨头纷纷布局 AI 搜索市场,360也推出了AI搜索产品纳米搜索。本次演讲将分享360AI搜索的产品演进、遇到的技术挑战与解决方案,并展望AI搜索未来在产品、内容和商业等方面的探索方向。
王楠
个人简介:
王楠博士,Jina AI联合创始人兼首席技术官,2023年度“中国开源先锋33人”入选者,同时担任Linux基金会AI&DATA TAC成员。作为人工智能与信息检索领域的资深专家,他主导开发包括 jina-embeddings、jina-colbert、jina-reranker、jina-clip在内的多款 Al 模型,这些模型在全球范围内累计下载量已超过2000万次,日均API调用量超三十亿词元。王楠博士长期致力于AI技术在自然语言处理与信息检索领域的创新应用,并积极推动 AI 技术的开源生态建设。他曾担任中国计算机学会前沿讲习班第147期讲师,累计为开源社区贡献40余场学术讲座,推动AI领域的技术普及与交流。作为Jina Al的联合创始人之一,他领导公司在 Al搜索模型领域的技术创新,助力企业与开发者构建高效的搜索与生成式AI解决方案。Jina AI作为全球领先的AI搜索技术提供商,已累计获得3800万美元融资,持续引领行业发展。
专题讲座10:推理、多模态与多向量:Jina AI在大语言模型时代的搜索技术演进
报告简介:随着DeepSeek-R1等开源大语言模型(LLM)的发布,LLM的推理能力正在快速演进,为信息检索系统带来了前所未有的革新机遇。相比传统的单轮检索增强生成(Retrieval-Augmented Generation, RAG)方法,将LLM的推理能力与多阶段的信息检索流程深度融合,正成为构建高性能智能搜索系统的关键路径。本次讲座将系统解析如何基于LLM构建新一代搜索引擎,重点剖析Jina DeepSearch的整体架构,深入探讨向量检索模型与重排序模型在该系统中的协同机制。讲座的后半部分将介绍Jina AI近期在信息检索领域的最新探索,涵盖基于LLM的多向量模型、多模态向量模型及多模态重排序技术,展示这些前沿技术在实际应用中的潜力与挑战,并展索系统中的未来演进方向。
时间:2025年5月16日-18日
地址:北京•中科院计算所一层报告厅
报名须知:
1、报名费:CCF会员2800元,非会员3600元。食宿交通(费用)自理。根据交费先后顺序,会员优先的原则录取,额满为止。本期ADL为线下活动,请到北京现场参会。(如果确有特殊情况,不能到现场参会,可以线上参会,请会前发邮件到adl@ccf.org.cn邮箱说明情况。线上线下报名注册费用相同。线上会议室号将在会前1天通过邮件发送。)
2、报名截止日期:2025年5月15日。报名请预留不会拦截外部邮件的邮箱。会前1天将通过邮件发送会议注意事项和微信群二维码。如果届时未收到邮件,请务必咨询邮箱[email protected]。
3、咨询邮箱 : [email protected]
缴费方式:
在报名系统中在线缴费或者通过银行转账:
银行转账(支持网银、支付宝):
开户行:招商银行股份有限公司北京海淀科技金融支行
户名:中国计算机学会
账号:110943026510701
报名缴费后,报名系统中显示缴费完成,即为报名成功,不再另行通知。报名方式:
请选择以下两种方式之一报名:
1、扫描(识别)以下二维码报名:
2、点击报名链接报名:
https://ccf.org.cn/ADL158CCF推荐
【精品文章】
点击“阅读原文”,立即报名。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...