mllm - 宙飒天下网

能看清，更要看懂：MME-VideoOCR全面评估MLLM视频OCR能力

多模态大模型（MLLM）在静态图像上已经展现出卓越的 OCR 能力，能准确识别和理解图像中的文字内容。然而，当应用场景从静态图像拓展至动态视频时，即便是当前最先进的模型也面临着严...

admin /新鲜讯息 /2025-12-01 /0 评论 /215 阅读