能看清,更要看懂:MME-VideoOCR全面评估MLLM视频OCR能力 多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。然而,当应用场景从静态图像拓展至动态视频 时,即便是当前最先进的模型也面临着严... admin /新鲜讯息 /2025-12-01 /0 评论 /9 阅读