777me奇米影视 o1 pro挑战好意思邦本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!

栏目分类
新金瓶梅什么时候上映

你的位置:寄明月 裸舞 > 新金瓶梅什么时候上映 > 777me奇米影视 o1 pro挑战好意思邦本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!

777me奇米影视 o1 pro挑战好意思邦本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!

发布日期:2024-12-10 06:01    点击次数:96

777me奇米影视 o1 pro挑战好意思邦本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!

新智元报说念777me奇米影视

剪辑:剪辑部 HYZ

【新智元导读】好意思邦本科生最难数学竞赛,o1 pro竟然只用半小时就全部作念出来了?要知说念,参赛学生的浮浅答题时长是6小时。不外网友们仔细看它的解题经由后发现,作假率似乎高达100%,12说念题莫得沿路完满正确?

一年一次的北好意思最难本科数学竞赛,刚在MIT沃克悼念堂(Walker Memorial)已矣。

这场普特南数学竞赛(Putnam Exam),每年集聚了来自北好意思数百所高校的3500多名学生前来参赛。

既有个体,也有团体,他们需要在总时长为6小时的时辰内完成作答。

在这场比赛还未运行之前,来自IBM商榷员曾暗意,在公开题目发布后,会有东说念主对大模子(AlphaProof、o1、Gemini)进行题目测试。

赶巧,OpenAI最近发布了满血版o1,以及最强o1 pro,不知它们在这场磨练发扬怎么?

相较于o1-preview,o1数学性能进步27%,o1 pro进步36%

o1 Pro半小时作念出全部赛题

令东说念主吃惊的是,有网友把这次普特南磨练的考题给了OpenAI o1 pro。

6个小时的赛题,它竟然半小时就作念出来了!

用时最长的沿路题花了6分52秒,最短的只用了1分12秒(险峻滑动查抄)

精细看了谜底的网友们表露松了连气儿:o1 pro还远未达到普特南磨练的水平。

比如关于A1这说念题,天然它只用了1分钟58秒就作念了出来,总体念念路亦然正确的,但仍有许多作假。

A2也莫得完满措置。

如若在普特南答卷上写「……等等犀利标明我是对的」,彰着你不会得分。

A3的谜底,是作假的。

网友径直给出了正确的解题念念路:不错哄骗鸽巢旨趣(抽屉旨趣)来诠释在给定敛迹条目下,只存在独逐个个灵验双射函数,并由此不错推导出不存在快活题目要求的a、b、c、d值。

关于B1,谜底在n和k的容貌上是正确的,但通盘诠释次第完满站不住脚。

总之,o1 pro似乎莫得沿路题是正确的。

美腿玉足

这个遵循属实有点惊东说念主,因为其中一些问题难度莫得那么高777me奇米影视,比一些AIME竞赛题容易。

天然,如若从作念出题标的数目来说,o1 pro的发扬如故可圈可点。

现在来说,o1 pro作念出的题目皆是作假且不完整的。如若咱们不以数学家的角度评判,不错以为它们很奢睿。

更多评测

CodeSignal独创东说念主Tigran Sloyan开启了两轮大测试,让o1 pro分袂去措置普特南数学竞赛A1题,以及IMO试题。

彰着,在普特南数学竞赛测试中,o1 pro得胜作念对了第一题。

得分+10,就也曾超过了30%的参赛者。

如下,是o1 pro的全部解题经由。

而在IMO测试中,o1 pro圆善措置了2006年测试调理最难的Q3题,只是用了6分48秒。

相较之下,在2006年公共梗概500名19岁以下顶尖数学天才中,只须28东说念主能在4个半小时内完满解出这说念题。而好意思国对的6名成员,却无一东说念主作念到。

这是o1 pro的分析经由,天然很即兴,好像不详了许多诠释设施。

Sloyan尽头要求让其展示第4、5步的具体诠释经由,o1 pro随后彭胀出的念念维经由相似令东说念主印象深远。

况兼,他还测试其他模子(包括o1),尝试作念这说念题目,却皆失败了。

没预见,这个遵循惊动了xAI科学家Hieu Pham。

他表露,o1 pro的谜底完满是瞎掰八说念。如若在IMO竞赛中提交这么的解答,最多也只可给1分(满分7分)。如若碰到宽松的裁判员,最多给2分,不会再多了。

他接着称,磨真金不怕火数据问题是一部分,这个谜底 \\frac{9}{16 \\sqrt{2}}很可疑。IMO的题目妥协答就像是数学CoT的黄金磨真金不怕火数据集,是以这些模子一会被反复磨真金不怕火大皆遍。

另一位商榷员Jason Li测试后惊奇说念,o1似乎也曾措置掉了一半的问题(60分/满分120),这在普特南竞赛的历史排行中梗概能冲进前2%的参赛者之列。

o1挑战23年赛题

本年9月,o1发布不久后,AI评估平台HoneyHive曾让新模子去挑战了23年普特南数学竞赛的题目。

那时,OpenAI公开的测试遵循泄漏,o1的数学性能大幅超过了GPT-4o,飙升43.3%杀青了质的飞升。

在这场比赛中,o1-preview拿下了79分(满分120)位列第9,o1-mini取得了73,排行第19。

2023年普特南数学竞赛问题集,如下所示:

HoneyHive的评估次第是,每个模子访佛运行2次,并让GPT-4o当作圭臬的判断者,以评估模子的谜底,最终再由东说念主类群众进行考据。

底下是让GPT-4o承担「评估者」扮装的提醒示例。

商榷东说念主员发现,第二次运行时,o1-preview得分从51提高到79,o1-mini从54提高到73,GPT-4o也从43提高到57。

在第二轮中,所有的模子皆在奋力给出诠释,具体来说:

o1-preview完满措置了问题A1、A3、B4,部分措置了问题B2,但诠释不及。

o1-mini的遵循,与o1-preview类似。GPT-4o仅是完满措置了A1问题。

兴味兴味的是,这些模子的遵循天然是正确的,但措置决策清寒精细的分步解释,尽头是关于诠释类的问题。

比如,o1-preview和o1-mini在问题B2上皆因凭据不及、不够严谨亏欠了一些分数,尽管最终遵循是正确的。

他们以为,这可能是因为AI模子在抒发或探听其里面「念念维链」时,存在一定的局限性。

不外,IBM商榷员表露,冒失拿下一定的高分,天然也存在了数据泄露的可能性。

比赛先容

普特南数学竞赛(全称William Lowell Putnam Mathematical Competition)专为好意思国和加拿大的本科生设备,每年于12月举办一届,本年是第85届年赛。

每年竞赛一共分为两场磨练,分袂是上昼A试,下昼B试,各三小时。

这场比赛不错回顾到1938年,来源只是各个高校数学系之间的友好较量。如今,它也曾发展成为寰宇上最具巨擘的大学数学竞赛。

每年12月,数百所大学数学尖子生在为期6小时数学中展现我方的数学才华。

尽管考生需要稳重完成试卷,但比赛同期设备了团队的枢纽。

普特南数学竞赛不单是是一场常识的较量,更是一个荣誉的殿堂。排行最高的团队的数学系不错取得现款奖励,学生成员还将被授予「普特南商榷员」的名称。

与此同期,比赛还设备了「The Elizabeth Lowell Putnam Prize」奖项,专为发扬超卓的女性数学家授奖。

前年第84届比赛中,个体获奖者5名全部来自MIT,团体获奖者前五名也分袂来自寰宇高校:MIT、哈佛、杜克、斯坦福、多伦多大学。

参考贵寓:

https://x.com/DanHendrycks/status/1865858756040704335



上一篇:在线av 河南大妈卖小吃,加一包辣条只卖2.5元,宾客叫不出名字却抢着吃

下一篇:男同 av 2024年12月9日寰宇主要批发市集樱桃西红柿价钱行情

Powered by 寄明月 裸舞 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024