DeepSeek终于回来了,再次创造历史(首个IMO金奖级别的开源模型)。
就在刚刚,DeepSeek在HuggingFace开源了全新的数学推理模型DeepSeekMath-V2,685B参数。
你看看这张吓人的成绩单:
普特南数学竞赛Putnam:人类选手的历史最高分是90分,而DeepSeekMath-V2拿了118分,满分是120分。
国际奥数IMO:超越Gemini DeepThink,直接斩获金牌水平 。
最妙的是时间点,昨天咱们刚聊完,AI教父Ilya在访谈中提到,现在的AI就是个只会死记硬背的做题机器。Ilya这场罕见访谈,彻底治好了我的AI焦虑
仅仅不到24小时,DeepSeek就把新模型开源了。
像是一次穿越时空的击掌,DeepSeek好像在说,Ilya你别慌,看我的。
用大白话讲一下新模型的三个关键点。
1、 答案蒙对了也不行。
以前教AI做题,只要最后结果对了,我们就给它发糖吃(奖励)。
但AI很鸡贼,它会为了骗糖吃去猜答案,哪怕中间逻辑是乱编的,只要运气好蒙对了就行 。
DeepSeek在论文里一针见血的提出,正确的答案并不保证正确的推理。
这次他们换了个教法,死磕过程。
结果对了,也必须看解题步骤,过程中只要有一步没整明白,也不给糖吃。
这就逼着AI必须要真懂,不能当混子。
2、使用套娃战术。
给AI的解题步骤打分也很难,必须得有个老师,但老师也是AI,也容易看走眼。
DeepSeek想了个绝招:套娃(Meta-Verification),简单说,就是给判卷老师再配个校长。
AI学生做题,AI老师挑刺儿,AI校长检查老师挑的刺儿合不合理。如果老师瞎扣分,校长直接扣工资。
这一招,直接让评分的靠谱程度从0.85拉到了0.96 。
3、让AI学会三省吾身。
这是最像人类的地方,现在的DeepSeekMath-V2学会了反省。
在做题的时候会像个严谨的数学家一样,写几步之后,停下来自己反思,发现有漏洞就推翻重写,直到自己挑不出毛病为止。
不再只是为了填答案交差,而是真的在进行深思熟虑的推理。
DeepSeek用新模型告诉我们,通往超级智能的捷径,不是一路盲目狂奔。
而是懂得慢下来,懂得回头看。
当AI开始三省吾身。
也许它才真正拥有了智慧。
新模型地址:https://huggingface.co/deepseek
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...