第139章新的SOTA

学霸的征途是星辰大海佚名加入书签错误举报

如遇到章节错误，请关闭浏览器的阅读/畅读/小说模式并且关闭广告屏蔽过滤功能，稍后尝试刷新。

紧隨其后的是openai的gpt-4o (fine-tuned)，经过专门的微调后，在这个任务上也跑出了91.8%的高分。

再往下，是meta的llama-3-70b，得分88.5%。

“最高92.4%……”

徐辰看著这个数字，若有所思。

“看来这两年，工业界也没閒著，確实在逻辑推理上下了不少功夫。能把概率模型逼到这个份上，已经是工程学的奇蹟了。”

隨后，徐辰还搜到openai的灵魂人物伊利亚对於这类问题的感嘆：“缩放定律在逻辑任务上开始显示出边际效应递减。我们投入了10倍的数据和算力，却只换来了0.5%的提升。我们需要一个新的范式，但我们还不知道它是什么。”

看著这段文字，徐辰心中涌起一股奇异的感觉。

其实，站在金字塔顶端的那群人——无论是哈萨比斯、伊利亚，还是杨立昆——他们比谁都清楚，当前的llm已经撞上了一堵看不见的墙。

他们就像是把“炼丹术”发挥到极致的古代方士，虽然能炼出璀璨的琉璃，却始终无法触及化学的本质。他们知道单纯靠堆算力、堆数据，永远无法让概率模型產生真正的、严谨的逻辑闭环。

他们在黑暗中在此徘徊，焦灼地等待著。

……

就在这时，终端窗口发出“叮”的一声轻响。

测试完成。

徐辰深吸一口气，將目光移回终端。

屏幕的最下方，一行白色的字符静静地停在那里。

【测试准確率: 95.3%】

徐辰愣了一下，隨即揉了揉眼睛，凑近屏幕確认了一遍。

95.3%。

比deepmind那个集结了全球顶尖算力与智慧、结构复杂到令人髮指的sota模型，还要高出整整3个百分点！

在机器学习这个卷到极致的领域，通常提升0.5个百分点，就足以让一篇论文登上cvpr或者neurips这样的顶会；提升1个百分点，那就是年度最佳论文的有力竞爭者。

提升3个百分点？

那不叫提升。

那叫代差。

更可怕的是，deepmind那个模型，可是经过了无数工程师日夜调优、用了数千张tpu训练了几个月才得到的“完全体”。

而徐辰眼前这个呢？

这只是一个他花了两天时间手搓出来的、甚至连dropout、layernorm这些基础的神经网络优化技巧都还没来得及加的基础模型。

徐辰靠回椅背，看著屏幕，忍不住感嘆了一句。

“这就是数学的降维打击啊……”

……

徐辰看著那个接近满分的数字，心中虽然高兴，但並没有狂喜。

毕竟这只是离线测试，也就是在自己家门口跑跑，谁知道会不会有过擬合的嫌疑？

他打开了clutrr数据集的官方评测网站。

这是一个全球ai研究者公认的竞技场。你需要下载官方提供的“测试集”，这部分数据是绝对保密的，不仅没见过，而且难度更高，逻辑链条更长。

然后，徐辰將模型预测的结果文件上传到伺服器，由官方进行评分。

由於只上传预测结果，不上传模型，並不会泄露模型，所以徐辰也就放心地提交了。

在註册帐號时，徐辰犹豫了一下。

“起个什么名字好呢？”

他想了想，手指在键盘上敲下了一个字母。

“就用这个吧，xu的首字母，简单好记。”

……

屏幕上出现了一个旋转的加载图標，几秒钟后，页面刷新。

准確率95.12%。

徐辰看著这个数字，满意地点了点头。

线上和线下的成绩几乎一致，说明模型的泛化能力极强，没有过擬合。

“对於一个还没怎么调参、连dropout都没加的『玩具模型』来说，这个成绩，勉强及格吧。”徐辰凡尔赛道。

他伸了个懒腰，看了一眼窗外已经泛白的天空。

“困了，睡觉。”

他隨手关掉了网页，合上了电脑，就像是刚刚打完了一局普通的单机游戏，爬上床，拉过被子，秒睡。

然后徐辰不知道的是，这个测试虽然不会泄露模型，但是测试的分数会即时更新到排行榜……

本章未完，点击下一页继续阅读。

www.74txts.com

第139章新的SOTA

全系召唤师：墮神的逆天小娇妻

每日一卦，我在灾年修长生

上交游戏界，国家给我氪成破解版

狐妖：开局韩天尊，雅雅想刀我？

巫师：我有一座真理天平

傻小子，你大胆一点

第139章 新的SOTA

全系召唤师：墮神的逆天小娇妻

每日一卦，我在灾年修长生

上交游戏界，国家给我氪成破解版

狐妖：开局韩天尊，雅雅想刀我？

巫师：我有一座真理天平

傻小子，你大胆一点

第139章新的SOTA