一
背景与目的
随着以DeepSeek为代表的国产大模型技术突破性进展,大模型向产业应用转化的进程显著加速。优越大模型破解了企业部署大模型的算力门槛,推动大模型在边缘端、终端的轻量化部署需求激增。为响应政府工作报告“人工智能+”行动号召,规范行业技术标准并保障自主水平,中国软件评测中心依据《大模型一体机服务性能和适配性测试规范》正式启动“大模型一体机服务性能和适配性测试活动”,验证软硬协同一体化能力,为企业提供选型参考,助力金融、医疗、工业等场景安全高效落地。
二
评测内容与标准
(1)功能完备性
代码能力:生成代码的语法正确性、多语言支持能力
数学能力:基础运算、方程求解、高阶数学问题解决能力
翻译能力:多语种互译准确性、专业术语适配性
多轮对话:上下文连贯性、意图理解准确性
(2)性能效率
硬件能力:验证异构算力适配性(如CPU/GPU/NPU协同效率)及资源池化管理能力,确保算力利用率最大化
模型支持:涵盖主流大模型(如DeepSeek、百度文心)的推理与训练性能
首Token延迟(TTFT):用户请求至首个响应Token的时间
完整回复率:完整回答用户问题的输出占比
截断率:因超长截断导致回答不完整的比例
推理速度:每秒生成思考内容的字数
(3)安全合规性
生成内容安全:符合《生成式AI服务管理暂行办法》
有害内容拦截:暴力、歧视、违法信息过滤效率(拦截率≥99%)
数据安全加密:采用国产加密算法进行加密
(4)用户体验性
支持文件/语音/图片上传、联网控制、上下文清除功能
提供Token数量显示、思考时间可视化等辅助功能
(5)适配性
开源模型适配:测试对DeepSeek-V3/R1、Qwen、GLM-4等开源模型的部署效率,支持轻量化边缘端应用
框架支持:验证与深度学习框架的适配性,测试模型编译、训练和推理全流程兼容性
应用场景适配:测试大模型一体机在特定的应用场景是否适配
三
评测安排
报名时间:即日起开启
首批评测:2025年3月-5月
第二批评测:2025年5月起(滚动受理,按季度发布结果)
四
评测流程
合同签订:双方确认评测需求并签署服务协议
评测实施:
阶段一:功能与性能基线测试
阶段二:安全合规性测试与用户体验性测试
阶段三:适配性测试
结果交付:
提供《技术评测报告》,包含分项得分、风险项清单及优化建议
通过评测的产品颁发《大模型一体机服务性能和适配性认证证书》
五
评级标准
A级(卓越):综合得分区间在[80,100];
B级(达标):综合得分区间在[60,80);
C级(受限):综合得分区间在[50,60);
D级(未通过):综合得分区间在[0,50]或单项得分低于50分;
六
联系方式
沈老师 18910748987
曹老师 18518203633
文字 | 人工智能研究测评事业部
编辑 | 品牌推广室
编审 | 业务发展部
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...