咪咕公司聚焦“技术+场景”打造文体文旅
高质量数据集
推荐单位:中国移动通信集团有限公司
申报单位:咪咕文化科技有限公司、中国移动通信集团湖北有限公司、中旅数智科技(深圳)有限公司、北京航空航天大学
一、背景
在大模型技术浪潮下,行业大模型已成为连接AI技术与产业应用的核心枢纽。本案例聚焦“技术+场景”深度融合,构建了覆盖文体、文旅全场景的高质量数据集。通过攻克数据采集、标注与治理等关键难题,打造出领先的文体文旅大模型,已赋能“智能解说”、“和美乡途”、“云游江西”等十余项创新应用,实现技术突破、场景创新与生态价值的多维协同,领跑AI+新赛道。
数据集构建流程
二、方案和成效
一是通过多模态数据实时处理,铸就极致沉浸体验。针对赛事直播中画面、解说、字幕等数据的同步难题,研发小模型矩阵协同进行数据预处理,将多源异构数据高效对齐、转换为训练文本。结合先进的分布式流计算框架,实现每秒超10万次请求的赛事数据流处理,延迟低于100毫秒,为顶级赛事提供智能观赛体验。
二是引入“专家智慧+AI”,攻克领域深度标注壁垒。引入行业专家智慧,构建精深的体育知识规则库。依托自研的“CV+NLP”多模态事件提取模型,利用CV技术精准识别球员动作,结合NLP技术深度解析解说文本,实现对40种关键事件的自动化、高精度提取与标注。
三是构建动态知识图谱,打造赛事信息“智慧大脑”。通过自研的知识抽取与融合技术,本案例成功构建了全面、准确且实时更新的体育动态知识图谱。它不仅为大模型提供了结构化的赛事信息框架,更为深层次的数据洞察与智能化应用创新奠定了坚实基础。
四是“横向拓面+纵向挖深”,铸造全景式文旅知识库。横向拓展,数据采集覆盖全国约1.5万个A级以上景区与近3600个地级市以上博物馆;纵向深化,针对目的地介绍、旅行规划等细分场景进行精细化标注,深度挖掘当地历史、建筑艺术等信息。
三、创新点
一是自研多模态工具链,构筑数据质量“护城河”。本案例针对文本、语音、视频等多模态内容,自主研发了包含OCR、语音转写、智能标签等功能的核心小模型工具链。高效完成了从原始数据到高质量训练数据的全流程预处理,确保了数据的适用性与高标准。
二是首创“行业外脑”机制,为AI注入“领域灵魂”。本案例深度邀请体育解说专家、资深导游、文化学者等加盟数据集的构建与审核。通过人机协同的方式,确保大模型生成内容的精准性与专业性。
三是打造行业首创应用,树立应用落地新标杆。本案例成功孵化出行业首个“AI智能解说”应用,在咪咕视频全面上线,赋能世界级赛事直播。该应用在“数字中国”活动上获得权威媒体报道,形成了行业影响力。
来 源|国家数据局
编 辑|郝悦
审 核|于寅虎
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...