777me奇米影视 o1 pro挑战好意思邦本科生最难数学竞赛，30分钟交卷却被「大佬」现场打脸！

栏目分类

新金瓶梅什么时候上映

你的位置：寄明月裸舞 > 新金瓶梅什么时候上映 > 777me奇米影视 o1 pro挑战好意思邦本科生最难数学竞赛，30分钟交卷却被「大佬」现场打脸！

777me奇米影视 o1 pro挑战好意思邦本科生最难数学竞赛，30分钟交卷却被「大佬」现场打脸！

发布日期：2024-12-10 06:01 点击次数：97

777me奇米影视 o1 pro挑战好意思邦本科生最难数学竞赛，30分钟交卷却被「大佬」现场打脸！

新智元报说念777me奇米影视

剪辑：剪辑部 HYZ

【新智元导读】好意思邦本科生最难数学竞赛，o1 pro竟然只用半小时就全部作念出来了？要知说念，参赛学生的浮浅答题时长是6小时。不外网友们仔细看它的解题经由后发现，作假率似乎高达100%，12说念题莫得沿路完满正确？

一年一次的北好意思最难本科数学竞赛，刚在MIT沃克悼念堂（Walker Memorial）已矣。

这场普特南数学竞赛（Putnam Exam），每年集聚了来自北好意思数百所高校的3500多名学生前来参赛。

既有个体，也有团体，他们需要在总时长为6小时的时辰内完成作答。

在这场比赛还未运行之前，来自IBM商榷员曾暗意，在公开题目发布后，会有东说念主对大模子（AlphaProof、o1、Gemini）进行题目测试。

赶巧，OpenAI最近发布了满血版o1，以及最强o1 pro，不知它们在这场磨练发扬怎么？

相较于o1-preview，o1数学性能进步27%，o1 pro进步36%

o1 Pro半小时作念出全部赛题

令东说念主吃惊的是，有网友把这次普特南磨练的考题给了OpenAI o1 pro。

6个小时的赛题，它竟然半小时就作念出来了！

用时最长的沿路题花了6分52秒，最短的只用了1分12秒（险峻滑动查抄）

精细看了谜底的网友们表露松了连气儿：o1 pro还远未达到普特南磨练的水平。

比如关于A1这说念题，天然它只用了1分钟58秒就作念了出来，总体念念路亦然正确的，但仍有许多作假。

A2也莫得完满措置。

如若在普特南答卷上写「……等等犀利标明我是对的」，彰着你不会得分。

A3的谜底，是作假的。

网友径直给出了正确的解题念念路：不错哄骗鸽巢旨趣（抽屉旨趣）来诠释在给定敛迹条目下，只存在独逐个个灵验双射函数，并由此不错推导出不存在快活题目要求的a、b、c、d值。

关于B1，谜底在n和k的容貌上是正确的，但通盘诠释次第完满站不住脚。

总之，o1 pro似乎莫得沿路题是正确的。

这个遵循属实有点惊东说念主，因为其中一些问题难度莫得那么高777me奇米影视，比一些AIME竞赛题容易。

天然，如若从作念出题标的数目来说，o1 pro的发扬如故可圈可点。

现在来说，o1 pro作念出的题目皆是作假且不完整的。如若咱们不以数学家的角度评判，不错以为它们很奢睿。

更多评测

CodeSignal独创东说念主Tigran Sloyan开启了两轮大测试，让o1 pro分袂去措置普特南数学竞赛A1题，以及IMO试题。

彰着，在普特南数学竞赛测试中，o1 pro得胜作念对了第一题。

得分+10，就也曾超过了30%的参赛者。

如下，是o1 pro的全部解题经由。

而在IMO测试中，o1 pro圆善措置了2006年测试调理最难的Q3题，只是用了6分48秒。

相较之下，在2006年公共梗概500名19岁以下顶尖数学天才中，只须28东说念主能在4个半小时内完满解出这说念题。而好意思国对的6名成员，却无一东说念主作念到。

这是o1 pro的分析经由，天然很即兴，好像不详了许多诠释设施。

Sloyan尽头要求让其展示第4、5步的具体诠释经由，o1 pro随后彭胀出的念念维经由相似令东说念主印象深远。

况兼，他还测试其他模子（包括o1），尝试作念这说念题目，却皆失败了。

没预见，这个遵循惊动了xAI科学家Hieu Pham。

他表露，o1 pro的谜底完满是瞎掰八说念。如若在IMO竞赛中提交这么的解答，最多也只可给1分（满分7分）。如若碰到宽松的裁判员，最多给2分，不会再多了。

他接着称，磨真金不怕火数据问题是一部分，这个谜底 \\frac{9}{16 \\sqrt{2}}很可疑。IMO的题目妥协答就像是数学CoT的黄金磨真金不怕火数据集，是以这些模子一会被反复磨真金不怕火大皆遍。

另一位商榷员Jason Li测试后惊奇说念，o1似乎也曾措置掉了一半的问题（60分/满分120），这在普特南竞赛的历史排行中梗概能冲进前2%的参赛者之列。

o1挑战23年赛题

本年9月，o1发布不久后，AI评估平台HoneyHive曾让新模子去挑战了23年普特南数学竞赛的题目。

那时，OpenAI公开的测试遵循泄漏，o1的数学性能大幅超过了GPT-4o，飙升43.3%杀青了质的飞升。

在这场比赛中，o1-preview拿下了79分（满分120）位列第9，o1-mini取得了73，排行第19。

2023年普特南数学竞赛问题集，如下所示：

HoneyHive的评估次第是，每个模子访佛运行2次，并让GPT-4o当作圭臬的判断者，以评估模子的谜底，最终再由东说念主类群众进行考据。

底下是让GPT-4o承担「评估者」扮装的提醒示例。

商榷东说念主员发现，第二次运行时，o1-preview得分从51提高到79，o1-mini从54提高到73，GPT-4o也从43提高到57。

在第二轮中，所有的模子皆在奋力给出诠释，具体来说：

o1-preview完满措置了问题A1、A3、B4，部分措置了问题B2，但诠释不及。

o1-mini的遵循，与o1-preview类似。GPT-4o仅是完满措置了A1问题。

兴味兴味的是，这些模子的遵循天然是正确的，但措置决策清寒精细的分步解释，尽头是关于诠释类的问题。

比如，o1-preview和o1-mini在问题B2上皆因凭据不及、不够严谨亏欠了一些分数，尽管最终遵循是正确的。

他们以为，这可能是因为AI模子在抒发或探听其里面「念念维链」时，存在一定的局限性。

不外，IBM商榷员表露，冒失拿下一定的高分，天然也存在了数据泄露的可能性。

比赛先容

普特南数学竞赛（全称William Lowell Putnam Mathematical Competition）专为好意思国和加拿大的本科生设备，每年于12月举办一届，本年是第85届年赛。

每年竞赛一共分为两场磨练，分袂是上昼A试，下昼B试，各三小时。

这场比赛不错回顾到1938年，来源只是各个高校数学系之间的友好较量。如今，它也曾发展成为寰宇上最具巨擘的大学数学竞赛。

每年12月，数百所大学数学尖子生在为期6小时数学中展现我方的数学才华。

尽管考生需要稳重完成试卷，但比赛同期设备了团队的枢纽。

普特南数学竞赛不单是是一场常识的较量，更是一个荣誉的殿堂。排行最高的团队的数学系不错取得现款奖励，学生成员还将被授予「普特南商榷员」的名称。

与此同期，比赛还设备了「The Elizabeth Lowell Putnam Prize」奖项，专为发扬超卓的女性数学家授奖。

前年第84届比赛中，个体获奖者5名全部来自MIT，团体获奖者前五名也分袂来自寰宇高校：MIT、哈佛、杜克、斯坦福、多伦多大学。

参考贵寓：

https://x.com/DanHendrycks/status/1865858756040704335

上一篇：在线av 河南大妈卖小吃，加一包辣条只卖2.5元，宾客叫不出名字却抢着吃

下一篇：男同 av 2024年12月9日寰宇主要批发市集樱桃西红柿价钱行情

友情链接：

Powered by 寄明月裸舞 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024