DeepSeek 昨晚正式上线了 V3.2 正式版,不仅补齐了两个月之前 EXP 版本(实验预览版)的能力短板,还重点加强了 代码推理、长上下文、Agent 工具调用 三大能力。且DeepSeek-V3.2 是deepseek推出的首个将思考融入工具使用的模型,同时支持思考模式与非思考模式的工具调用。
这次的更新除了DeepSeek V3.2正式版,还有一个DeepSeek-V3.2-Speciale(极限推理增强版),这个DeepSeek-V3.2-Speciale可了不得,取得的成绩在数学/竞赛/代码推理领域部分超越 GPT-5-High。
不过需要注意的是,DeepSeek-V3.2-Speciale 目前仅支持 API 调用,主要面向研究与高难度推理场景,不支持工具调用,也尚未针对日常对话、写作等通用任务进行优化。
我们本次的实测就将DeepSeek-V3.2正式版接入Claude code,同样的也让GLM4.6模型接入Claude code 来对比一下两个模型在一些实际的代码例子中的能力吧。
我们先使用一个纯前端的待办事项应用来简单测试一下两个模型的前端审美情况,测试的时候我发现GLM 4.6的推理和代码生成速度要远大于DeepSeek V3.2,甚至GLM这边都快生成代码完毕了,deepseek才推理结束开始写代码。
下面是 GLM 4.6生成的结果。整体来说功能实现得中规中矩,逻辑上也没有明显问题。不过界面使用了典型的 AI 风格配色(偏紫色系)和较多的 icon。说白了就是GLM 4.6带有比较强烈的“AI 生成前端”特征。
下面看看在使用相同的提示词语下,deepseek生成的结果是不是“慢工出细活”吧。个人认为deepseek生成的前端的样式比较符合我的审美,但是功能较为单一,不能像GLM生成的那样指定待办的日期和优先级。
第一个测试用例的难度偏低,无法充分拉开两款模型在代码生成能力上的差距。因此,我们准备了一个更复杂的场景,用来更严格地对比它们的真实水平。提示词如下:
GLM生成的效果如下,还是十分不错的,各个行星都要各自的环绕速度,样式颜色也没什么雷点!
苦苦等了很久,deepseek终于生成完成了,但是有一个bug,没有一次性成功显示行星环绕地球的动画效果。
没关系,我们再给它一次机会。我向 DeepSeek 反馈了这个问题后,它很快进行了代码修复,最终生成的效果如下:
接下来考验一下模型的 Python 代码与几何计算能力。我们选择一个在评测 AI 代码生成能力时非常经典的案例:小球在正八边形内的碰撞与反弹模拟。对应的提示词如下:
GLM 4.6生成的结果如下,成功的生成了带有拖尾且可以正确在八边形中反弹的效果。
deepseek生成的效果如下,没有正确的实现八边形边界反弹效果。
最后一个例子,我们考验一下模型的数据分析以及作图能力。我先是让ChatGPT给我生成了一份虚拟数据的csv文件如下:
然后代码的提示词如下:
GLM 4.6生成的学生总分柱状图如下:
平均分柱状图如下:
然后我们来看一下deepseek的学生总分排名图,没有正确显示学生和图片标题:
同样的平均分柱状图也没有显示姓名和图片标题等。
文章篇幅有限,我们就暂且测试到这里,总结来说个人还是觉得GLM4.6的代码能力更胜一筹且速度更快。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...