PRCV 2025预告｜合合信息将举办多模态文本智能大模型前沿技术与应用专题论坛

2025年10月15日至18日，由中国图象图形学学会、中国人工智能学会、中国计算机学会和中国自动化学会联合主办，上海交通大学承办的第八届中国模式识别与计算机视觉学术会议（PRCV 2025）在上海国家会展中心举办。大会期间，合合信息将举办“多模态文本智能大模型前沿技术与应用”论坛，汇集相关领域的专家学者，共探AI大模型技术进化路线。

从认知智能到推理智能进而到AI自主决策，从“单模态理解”到“多模态融合”，多模态大模型正在成为AI发展的重要方向。日常生活中，文字、图像、视频等媒介形式均蕴含着丰富的文本信息，如何在复杂场景下实现对文本的综合性理解，是多模态大模型面临的挑战。

本次论坛特邀来自华南理工大学、哈尔滨工业大学、南开大学、华中科技大学、小红书及合合信息技术团队的顶尖专家与学者，聚焦多模态推理技术、多模态文档大模型幻觉治理、多语言文档布局解析工具、文本智能创新技术与前沿应用、文档图像大模型及其在甲骨文考释中的应用等议题，探讨文本智能领域的最新技术突破与场景应用案例。

论坛地点：上海国家会展中心分会场 D2厅

论坛时间：10月16日 15:50 - 17:50

论坛将同步开启线上直播，欢迎大家提前扫码预约。

论坛主席

金连文

中国图象图形学学会（CSIG）常务理事、华南理工大学教授

金连文，华南理工大学二级教授，兼任中国图象图形学学会（CSIG）常务理事、广东省图象图形学会理事长等职。在重要学术期刊及国际会议上发表论文300余篇（其中中科院一区+CCF A类论文100余篇），Google Scholar论文被引用数19000余次，H-Index 73。2006年入选教育部“新世纪优秀人才”计划，近年来入选斯坦福大学&爱思唯尔“全球前2%顶尖科学家榜单”、爱思唯尔“高被引学者”，2024年入选IAPR Fellow。获省部级科技奖5项（其中一等奖2项），获国际学术会议最佳论文奖4次，指导学生获国际国内权威学术竞赛冠军20余次。

郭丰俊

上海合合信息科技股份有限公司

图像算法研发总监

郭丰俊毕业于上海交通大学，系模式识别与智能系统博士，CSIG文档图像分析与识别专委会常务委员，上海市图像图形学学会理事。长期从事文字识别，图像处理、计算机视觉及内容安全方向研究。近年来，郭丰俊带领团队获得过ICDAR19大会表格检测竞赛冠军，中国图象图形学会2021年度科技进步二等奖等奖项，获CSIG2022中英文购物小票信息理解大赛冠军、第三届CSIG图像图形技术挑战赛决赛总冠军、ICDAR2023文档图像篡改检测竞赛冠军、2024全球AI攻防挑战赛篡改检测赛道冠军。现任合合信息图像算法研发总监。

嘉宾及议题介绍

（*嘉宾介绍按演讲顺序排序，以下排名不分先后）

报告人：车万翔

报告题目：《从抽象到具象：大模型中的多模态推理技术演进》

报告简介：近年来，大语言模型（LLMs）在复杂推理任务中表现出卓越的能力，其中“思维链”（Chain-of-Thought, CoT）技术扮演了关键角色。该技术通过引导模型生成一系列中间推理步骤，显著提升了其解决纯文本问题的准确性。然而，现实世界充满了图像、声音、视频等多模态信息，单纯依赖文本的推理范式已无法满足日益复杂的应用需求。为了突破这一局限，多模态思维链（Multimodal Chain-of-Thought, MCoT）应运而生。

MCoT将CoT的逐步推理能力从单一的语言模态，扩展至一个融合了文本、视觉等多种信息类型的感知与推理综合框架。它旨在模仿人类结合多种感官进行深度交互的自然过程，通过将感知复杂多模态问题输入，并将推理逻辑分解为一系列可解释的跨模态推理步骤，最终生成更为精准和可靠的结论。本报告首先将介绍多模态思维链的定义与相关数据基准；随后系统性地梳理现有技术方法的分类与范式，并深入剖析其核心运作机理；最后，将探讨该领域面临的主要挑战，并对未来的研究方向做出展望。

报告人简介：车万翔，哈尔滨工业大学计算学部长聘教授/博士生导师，人工智能研究院副院长，国家级青年人才，斯坦福大学访问学者。主要研究领域为自然语言处理、大语言模型。现任中国中文信息学会理事、计算语言学专业委员会副主任兼秘书长；国际顶级会议ACL 2025程序委员会共同主席。曾任国际计算语言学学会亚太分会（AACL）执委兼秘书长。承担国家自然科学基金重点项目和专项项目、2030“新一代人工智能”重大项目课题等多项科研项目。著有《自然语言处理：基于预训练模型的方法》一书。曾获AAAI 2013最佳论文提名奖。负责研发的语言技术平台（LTP）已授权给百度、腾讯、华为等公司付费使用。2024年获中国人工智能学会吴文俊人工智能科技进步一等奖（排名第1），2020年获黑龙江省青年科技奖，2016年获黑龙江省科技进步一等奖（排名第2）。入选斯坦福大学和爱思唯尔发布的2024-2025年度“全球前2%顶尖科学家”榜单。

报告人：周宇

报告题目：《多模态文档大模型幻觉问题及缓解方法研究》

报告简介：多模态大模型在处理可视文本相关任务时，主流"编码-解码"架构过度依赖语言先验，导致模型频繁出现对可视文本指令的误判或忽略现象，即"OCR幻觉"问题。本报告致力于构建系统化的OCR幻觉缓解方案，提出专用评测基准和两套互补的幻觉抑制方法。在评测体系方面，构建了涵盖九类幻觉场景的HalluText基准和首个语义幻觉专用的TextHalu-Bench基准。在技术方案方面，提出了轻量级OCRAssistor方法，通过融合OCR模型对比解码实现性能提升；以及MLLM自适应幻觉消除框架，包含ZoomText文本定位和Grounded Layer Correction层融合机制。通过多个公开基准验证，所提方法显著改善了主流开源模型的OCR任务表现，为多模态大模型的可视文本感知能力提升提供了有效路径。

报告人简介：周宇，南开大学计算机/密网学院教授、博导，北京中关村学院共建导师；哈尔滨工业大学计算机系本硕博，上海交通大学博士后，2012.04-2024.05于中科院信工所先后任助研、副研、硕导、博导、研究员；中国图象图形学学会文档图像分析与识别专委会常务委员、副秘书长。研究方向为计算机视觉、多模态人工智能、具身智能、自然语言处理、大模型及深度学习等，近期聚焦于可视文本处理/检测/识别/理解/安全（OCR）、多模态大模型（含理解与生成）、多模态智能体、终身学习、自监督学习等主题。研发的场景文本提取系统、GUI Agent、特定目标检测系统、钓鱼网站检测系统等应用于多个国家部委及企业，发挥关键作用。在国内外高水平会议及期刊如CVPR/ICCV/NeurIPS/ICML/ICDAR/IJCV/TMM等发表学术论文近100篇，其中在CCF-A类/SCI一区会议期刊发表论文近50篇，获得CCF-A类会议ACM MM 2021最佳论文提名奖（5/1942篇）、ACCV IWRR 2014最佳论文奖。团队核心技术获得ICDAR 2025复杂版面文档图像端到端机器翻译冠军、CSIG 2022票据识别与分析挑战赛冠军、2020年“中国人工智能·多媒体信息识别技术竞赛”手写&印刷文本OCR两项高校组冠军、ICDAR ReST 2023印章主体文字检测第三名等近10项学术竞赛奖项。主持国家重点研发计划课题&子课题、国家自然科学基金面上&青年基金项目、国家部委重大工程课题、中国博士后科学基金、企业委托等项目/课题多项。

报告人：燕青

报告题目：《dots.ocr: 基于单视觉语言模型的多语言文档布局解析工具》

报告简介：dots.ocr 是一款功能强大、支持多语言的文档解析模型，它在单一的视觉语言模型中统一了布局检测和内容识别，同时能保持良好的阅读顺序。尽管其基础语言模型是一个17亿参数的“小模型”，但它依然实现了业界领先（SOTA）的性能。dots.ocr对多语言识别的良好性能弥补了开源社区的空白，不错的检测、识别能力也为多模态和大模型社区提供了宝贵的基础。

dots.ocr 在开源社区是一个很不一样的工作，它不是一个基于已有VLM进行finetune范式的工作，而是一个包含pretrain、fintune和大规模数据工作的集合体。不论是在vision encoder的训练阶段，专门用于ocr任务的VLM pretrain阶段，还是在doc parsing任务的设计上，我们都进行了一些大胆的创新设计，最终打造出了dots.ocr模型。

dots.ocr开源一个月，github获得4k+ star，在hugginface model trending一度进入前4，收获了不错的评价。我们将在这次报告上分享一些模型设计和训练的细节，希望能更好地和学界、产业界以及开源社区交流。

报告人简介：燕青，小红书hi lab团队算法工程师，主要研究方向是多模态大模型。一手打造dots.ocr，深度参与小红书hi lab的dots.vit、dots.vlm1等模型的研发，拥有丰富的大模型研发、多模态理解与生成方面的经验。

报告人：郭丰俊

报告题目：《文本智能前沿技术与创新应用》

报告简介：本报告介绍合合信息在文本智能与AI安全领域的前沿创新与实践。文本智能方面，将重点介绍两大方向，一是文本图像智能处理，包括图像质量提升和自动翻页拍摄等技术，能够显著提高文档数字化的质量与效率；二是通用文档解析，依托 xParse 系统实现多格式文件的解析与深度结构化输出，支持批量处理与结果溯源，为大模型知识库建设提供高效、可信的数据输入。AI安全方面，本报告介绍了合合信息的AI鉴伪技术，该技术可对人脸图像及视频、AIGC图像及票据证照进行快速伪造检测，已在多行业成功落地应用，为图像及视频内容的可靠性与安全性提供了坚实保障。

报告人简介：郭丰俊毕业于上海交通大学，系模式识别与智能系统博士，CSIG文档图像分析与识别专委会常务委员，上海市图像图形学学会理事。长期从事文字识别，图像处理、计算机视觉及内容安全方向研究。近年来，郭丰俊带领团队获得过ICDAR19大会表格检测竞赛冠军，中国图象图形学会2021年度科技进步二等奖等奖项，获CSIG2022中英文购物小票信息理解大赛冠军、第三届CSIG图像图形技术挑战赛决赛总冠军、ICDAR2023文档图像篡改检测竞赛冠军、2024全球AI攻防挑战赛篡改检测赛道冠军。现任合合信息图像算法研发总监。

报告人：刘禹良

报告题目：《文档图像大模型及其在甲骨文考释中的应用》

报告简介：近年来，文档图像智能大模型在图像理解与文本处理方面展现出前所未有的潜力，为古文字研究提供了新的契机。甲骨文作为中国最早的成熟文字体系之一，长期存在大量字形残缺、语境零散、释读分歧等难题，传统方法依赖专家长期积累，效率有限。报告探讨了首个覆盖甲骨文专家破译全流程的辅助考释框架AlphaOracle：通过对拓片与摹本的自动检测与识别，实现字符级别的精准提取；结合大模型的字形分析与演化建模，生成多候选释读；进一步通过上下文对齐与传世文献检索验证，构建跨越数千年的证据链。实验结果表明，该方法不仅辅助提升了释读的全面性，还显著缩短了专家审读时间，并在部分存在争议的字例上提供了具有参考价值的新见解。文档图像智能大模型能够成为古文字数字化研究的重要工具，为甲骨文考释乃至其他古代文献的智能化解读开辟了新的路径。

报告人简介：刘禹良，华中科技大学人工智能与自动化学院研究员、博导，国家级青年人才，中国科协青托，CSIG优博, AI2000 全球人工智能学者。任《中国科学：信息科学》客座编委、CSIG-DAIR 副秘书长。主要研究方向为视觉与自然语言处理，聚焦文档图像智能及多模态大模型研究。在 TPAMI、IJCV 等顶级期刊发表论文十篇，成果8次获 ACL、CVPR 等人工智能国际顶会最佳论文/Oral/Spotlight/Highlight等会议奖项，部分工作被图灵奖得主及基金委高度评价。主持国家基金面上等多项省部级以上项目，指导学生获全国挑战杯擂主和中国大学生创新大赛金奖。开源模型曾入选抱脸趋势榜单第二，并在检察机关与头部互联网企业应用。