DeepSeek 发布 DeepSeek-Math-V2 模型，背后隐藏哪些惊人亮点？

DeepSeek终于回来了，再次创造历史(首个IMO金奖级别的开源模型)。

就在刚刚，DeepSeek在HuggingFace开源了全新的数学推理模型DeepSeekMath-V2，685B参数。

你看看这张吓人的成绩单：

普特南数学竞赛Putnam：人类选手的历史最高分是90分，而DeepSeekMath-V2拿了118分，满分是120分。

国际奥数IMO：超越Gemini DeepThink，直接斩获金牌水平。

最妙的是时间点，昨天咱们刚聊完，AI教父Ilya在访谈中提到，现在的AI就是个只会死记硬背的做题机器。Ilya这场罕见访谈，彻底治好了我的AI焦虑

仅仅不到24小时，DeepSeek就把新模型开源了。

像是一次穿越时空的击掌，DeepSeek好像在说，Ilya你别慌，看我的。

用大白话讲一下新模型的三个关键点。

1、答案蒙对了也不行。

以前教AI做题，只要最后结果对了，我们就给它发糖吃（奖励）。

但AI很鸡贼，它会为了骗糖吃去猜答案，哪怕中间逻辑是乱编的，只要运气好蒙对了就行。

DeepSeek在论文里一针见血的提出，正确的答案并不保证正确的推理。

这次他们换了个教法，死磕过程。

结果对了，也必须看解题步骤，过程中只要有一步没整明白，也不给糖吃。

这就逼着AI必须要真懂，不能当混子。

2、使用套娃战术。

给AI的解题步骤打分也很难，必须得有个老师，但老师也是AI，也容易看走眼。

DeepSeek想了个绝招：套娃（Meta-Verification），简单说，就是给判卷老师再配个校长。

AI学生做题，AI老师挑刺儿，AI校长检查老师挑的刺儿合不合理。如果老师瞎扣分，校长直接扣工资。

这一招，直接让评分的靠谱程度从0.85拉到了0.96 。

3、让AI学会三省吾身。

这是最像人类的地方，现在的DeepSeekMath-V2学会了反省。

在做题的时候会像个严谨的数学家一样，写几步之后，停下来自己反思，发现有漏洞就推翻重写，直到自己挑不出毛病为止。

不再只是为了填答案交差，而是真的在进行深思熟虑的推理。

DeepSeek用新模型告诉我们，通往超级智能的捷径，不是一路盲目狂奔。

而是懂得慢下来，懂得回头看。

当AI开始三省吾身。

也许它才真正拥有了智慧。

新模型地址：https://huggingface.co/deepseek

推荐站内搜索：最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……

https://ZhouSa.com

还没有评论，来说两句吧...