【新业务】大模型一体机服务性能和适配性评测工作正式启动

一

背景与目的

随着以DeepSeek为代表的国产大模型技术突破性进展，大模型向产业应用转化的进程显著加速。优越大模型破解了企业部署大模型的算力门槛，推动大模型在边缘端、终端的轻量化部署需求激增。为响应政府工作报告“人工智能+”行动号召，规范行业技术标准并保障自主水平，中国软件评测中心依据《大模型一体机服务性能和适配性测试规范》正式启动“大模型一体机服务性能和适配性测试活动”，验证软硬协同一体化能力，为企业提供选型参考，助力金融、医疗、工业等场景安全高效落地。

二

评测内容与标准

（1）功能完备性

代码能力：生成代码的语法正确性、多语言支持能力

数学能力：基础运算、方程求解、高阶数学问题解决能力

翻译能力：多语种互译准确性、专业术语适配性

多轮对话：上下文连贯性、意图理解准确性

（2）性能效率

硬件能力：验证异构算力适配性（如CPU/GPU/NPU协同效率）及资源池化管理能力，确保算力利用率最大化

模型支持：涵盖主流大模型（如DeepSeek、百度文心）的推理与训练性能

首Token延迟（TTFT）：用户请求至首个响应Token的时间

完整回复率：完整回答用户问题的输出占比

截断率：因超长截断导致回答不完整的比例

推理速度：每秒生成思考内容的字数

（3）安全合规性

生成内容安全：符合《生成式AI服务管理暂行办法》

有害内容拦截：暴力、歧视、违法信息过滤效率（拦截率≥99%）

数据安全加密：采用国产加密算法进行加密

（4）用户体验性

支持文件/语音/图片上传、联网控制、上下文清除功能

提供Token数量显示、思考时间可视化等辅助功能

（5）适配性

开源模型适配：测试对DeepSeek-V3/R1、Qwen、GLM-4等开源模型的部署效率，支持轻量化边缘端应用

框架支持：验证与深度学习框架的适配性，测试模型编译、训练和推理全流程兼容性

应用场景适配：测试大模型一体机在特定的应用场景是否适配

三

评测安排

报名时间：即日起开启

首批评测：2025年3月-5月

第二批评测：2025年5月起（滚动受理，按季度发布结果）

四

评测流程

合同签订：双方确认评测需求并签署服务协议

评测实施：

阶段一：功能与性能基线测试

阶段二：安全合规性测试与用户体验性测试

阶段三：适配性测试

结果交付：

提供《技术评测报告》，包含分项得分、风险项清单及优化建议

通过评测的产品颁发《大模型一体机服务性能和适配性认证证书》

五

评级标准

A级（卓越）：综合得分区间在[80,100]；

B级（达标）：综合得分区间在[60,80)；

C级（受限）：综合得分区间在[50,60)；

D级（未通过）：综合得分区间在[0,50]或单项得分低于50分；

六

联系方式

沈老师 18910748987

曹老师 18518203633

文字 | 人工智能研究测评事业部

编辑 | 品牌推广室

编审 | 业务发展部

推荐站内搜索：最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……

宙飒天下网

正文

【新业务】大模型一体机服务性能和适配性评测工作正式启动

相关阅读

大模型倒爷微软：GPT带到东方，DeepSeek卖给西方

那些牛人的高考志愿！Deepseek梁文锋：当年高考状元弃清华择浙大，如今领跑国产AI

deepseek V4 怎么更弱了？

deepseek -v4-flash 免费使用速度登

发表评论取消回复

还没有评论，来说两句吧...

目录[+]