“编程作为一个职业在今日终结”OpenAI新模型o1的可怕之处乐鱼体育

2024-09-16

  引发了Sam Altman被罢免、联合创始人Greg Brockman离职、OpenAI内部矛盾不断激化的,是一个名叫Q*(读作Q-Star)的项目。

  据知情人士透露,当时Q*项目取得了重大进展,已经可以解决基本的数学问题。与只能解决有限数量运算的计算器不同,与每次都给同一道题不同答案的GPT-4不同,Q*可能已经有了概括、学习和理解的能力,而这正是迈向AGI关键的一步。OpenAI的研究人员向董事会致信警告,Q*的重大发现可能威胁全人类,而Sam Altman隐瞒了这一点。

  今天,OpenAI突然发布了一个新模型,这个模型目前还是前瞻版,它就是传说中的Q*,后来的代号“Strawberry”,如今的OpenAI o1-preview。

  o,还是“omini”,包罗万象的o,只不过据OpenAI表示,这次的模型“代表了人工智能的新高度”,和之前的大模型在工作方式上大有区别,因此可以单独成立一个新系列,从1开始重新算起(GPT5:我老了!)。

  至于这个模型是不是像Ilya Sutskever和其他反水的OpenAI前核心科学家判断的那样会“威胁人类”、在道德约束不完善的情况下把人类推进AGI(通用人工智能)时代,大家可以看完文章再自己判断。

  每一代大模型横空出世,都会跑出空前绝后的新高度,但这次的o1有本质的不同。

  目前比较流行的大模型大多都以聊天机器人的形式出现,思考路径难以解释,而且发展方向是多模态(能说能看能听),在语气和反应方面越来越像人。o1和它们不一样。

  OpenAI科学家Noam Brown称,目前o1几秒就能给出答案,但未来它要能进行几小时、几天,甚至几周的思考。之后附上了一张图,o1在十几秒的思考后给一个病例做出了诊断。Noam Brown的言下之意,推理时间长,意味着模型能构建更长的思维链,进行更深入的思考。

  AIME,美国数学邀请赛,比奥赛简单点,比SAT难很多,一般用来选拔全美国数学最优秀的高中生。让GPT4-o来写邀请赛的题,只得了12分,但o1一次性答题得了74分。如果采样1000次,再对1000个样本进行评分函数重新排序的话(这样更能反映模型的期望水平),o1得了93分,可以跻身全美前500 名,可以入围美国数学奥赛了。

  让o1去写2024年国际信息学奥林匹克竞赛(IOI)的题,它在10小时内,每题最多允许提交50次的情况下,取得了213分,在人类选手里排前49%。如果把提交次数放开到10000次,o1能得362.14分,可以拿到IOI金牌保送清华。

  在实际测试中,使用的是o1的微调版本,不是我们能用的前瞻版本|OpenAI

  另外还有好多有的没的测试。比如在GPQA(一个综合了理化生的智力测试)里,o1在某些问题上超过了相关领域的博士。

  简而言之,在已经很强的领域内卷早就不是o1的目的,在大语言模型不擅长的复杂逻辑上实现突破才是。

  它会花更多时间思考,然后再做出反应,然后不断完善思维过程,尝试不同策略,并从错误中学习。这一点很可怕。

  而且o1现在不是个多模态的模型,OpenAI用了两年让大模型能看能听,今朝返璞归线只能接受字符输入。

  变慢和变单调,对o1来说,是退一步进两步。已经用上o1的人表示o1是他们用过的最聪明的模型,和它的对话已经超越了之前的小打小闹范畴。

  在一个测试里,用户问了o1一个逻辑悖论问题:“这个问题的答案里有几个字?”

  o1想了十秒钟,并且展示了思考过程。首先它想到,这是一个自指悖论,或者是递归问题,没有确定答案的时候就无法确定答案的字数,“避免不必要的表述对回答的清晰简洁很重要”。下一步是计算字数,需要让句子中出现的数字和句子的字数相匹配。然后它列举了很多句子,在里面找出最合适的匹配选项,它发现“这有五个字”有五个字,于是把句子结构换成完整的答复后,五应该换成七。

  在另一个例子里,o1回答“straberry里有几个r”这个简单的问题,用了5.6秒,631个token。

  从上面的例子,可以看出o1的工作方式已经和ChatGPT有了本质区别。现在的o1加入了推理token,会把一个问题拆分成多个步骤,再分别思考,之后再除去推理token生成答案。

  也许在回答简单问题的时候,是否进行多轮推理的区别并不明显,但如果是用来解决写代码、做数学题,和科学领域的复杂问题,这种思考能力就是必不可少的了。

  OpenAI在论文中说,现。


本文由:乐鱼app官方网站提供