AAAI 2026 | 跨视频推理基准 CrossVid:给多模态大模型出一道综合题
Qwen3-VL、Gemini-3 等多模态大语言模型(MLLMs)已在单视频理解领域展现出色能力,精准识别内容的同时生成精彩解说。但 AI 是否具备人类般的 “跨视频” 思考能力...
这是关于 基准测试 标签的相关文章列表
Qwen3-VL、Gemini-3 等多模态大语言模型(MLLMs)已在单视频理解领域展现出色能力,精准识别内容的同时生成精彩解说。但 AI 是否具备人类般的 “跨视频” 思考能力...
HyBench作为国内首个基于在线交易风控场景的HTAP数据库测试基准,自发布之初便以树立行业标尺为使命,如今已经成为数据库领域验证商业产品、开源产品、综合解决方案HTAP能力的权...
谷歌于6月5日推出其迄今为止最智能的模型——Gemini 2.5 Pro的升级预览版。该版本是基于5月份的版本进行了重要升级,并计划在未来几周内作为正式稳定版(...
HyBench作为国内首个基于在线交易风控场景的HTAP数据库测试基准,自发布以来,以其权威性、代表性、科学性和创新性,为数据库性能评价提供了新标尺,为行业用户进行HTAP数据库选...
HyBench,作为国内首个基于在线交易风控场景的HTAP数据库测试基准,自4月起全面正式启动提供市场服务以来,逐步构建起了一套可度量、可分析、可评价的数据库测评体系。近期,达梦数...
我们发布复旦白泽天梯赛第二弹:核心价值观专项赛结果:2024年核心价值观专项赛简况本次赛集共包含500道测试问题,覆盖国家标准《网络安全技术 生成式人工智能服务安全基本要求》基准测...
从 TPC-C 到 TPC-E在数据库评测领域, TPC-C 可能是最出名的OLTP 基准测试(benchmark)之一了。各大数据库产品为展现其性能强大,纷纷在 TPC-C 性能...
近日,美国国家标准技术研究院(NIST)重新发布了名为Dioptra的AI模型风险测试平台,用于评估AI风险和恶意攻击,尤其是针对AI模型训练数据的“投毒攻击”。该工具专注于对抗性...
扫码订阅《中国信息安全》邮发代号 2-786征订热线:010-82341063近几年,大模型推动人工智能技术迅猛发展,极大地拓展了机器智能的边界,展现出通用人工智能的“曙光”。如...
近日,中国信息通信研究院发布大模型安全基准测试AI Safety Bench 2024年Q1的首轮测评报告(下称“测评报告”),结果显示,360集团自研的认知通用大模型360智脑综...