當(dāng)前位置:首頁 > 百科 > 奧特曼還在抱娃 GPT 正文

奧特曼還在抱娃 GPT

來源:千龍網(wǎng)   作者:江蘇   時(shí)間:2025-03-15 07:08:12

自打 DeepSeek 全球爆火以后,奧特 AI 圈里都跟按了快進(jìn)鍵一樣,曼還都好頓加速。抱娃

別的奧特不說,光這一周就有馬斯克的曼還 Grok 3 ,Anthropic的抱娃 Claude 3.7 Sonnet ,阿里的奧特通義 QwQ-Max-Preview ,騰訊的曼還 Turbo S ,月之暗面的抱娃 Kimi-1.6-IoI-High ,谷歌的奧特 Gemini Code Assist 啥的一大堆東西,還有個(gè) DeepSeek 開源周,曼還簡直是抱娃仙之人兮列如麻。

而就在昨晚,奧特回回被拿出來鞭尸,曼還每次都自稱在憋大的抱娃的 OpenAI 終于憋出來了,掏出了 GPT 系列的船新版本, GPT-4.5 。

 按奧特曼的說法,這回這個(gè) GPT-4.5 是一種不同類型的智能,其中有著他從未感受過的奇妙之處,這將是第一個(gè)讓你感覺在和一個(gè)有思想的人說話的模型。

不過,自打兩個(gè)月前哥們連著十幾天,次次半夜兩點(diǎn)追他們無聊發(fā)布會,說實(shí)話奧特曼有點(diǎn)傷了哥們的心了。

 所以咱其實(shí)對這個(gè) GPT-4.5 也沒報(bào)啥期望,甚至發(fā)布會上奧特曼人都沒來,說是回家?guī)Ш⒆尤チ?,對,就他跟他老公倆男的生的那個(gè)娃。

反正整體看下來,我只能說 GPT-4.5 這波算是 “ 唐唐 ” 亮相了。

這倒不是哥們尬黑,其他網(wǎng)友們對這玩意多數(shù)也是這個(gè)看法,外網(wǎng)上甚至有個(gè) GPT-4.5 是不是垃圾的討論,因?yàn)榫瓦B紅脖子們也不看好 GPT ,都投票給了馬斯克的 xAI 。

所以這玩意到底怎么個(gè)拉法呢,不賣關(guān)子,咱直接說結(jié)論,那就是 GPT-4.5 性能不行,而且價(jià)高。

同樣是昨晚發(fā)布,但他跟 su7u 屬于是完全反著來。

先說性能吧,在一個(gè) OpenAI 官方給出的基準(zhǔn)測試?yán)铮?GPT-4.5 在科學(xué),數(shù)學(xué),編碼能力上都比不上自家去年發(fā)的 o3-mini ,基準(zhǔn)測試也只比 4o 好 5% 。

也就是說, GPT-4.5 在 AIME 和 GPQA 等困難的學(xué)術(shù)基準(zhǔn)測試上,相比自家 o3-mini 都是不太夠的,更別說跟 DeepSeek-R1 和 Claude 3.7 Sonnet 這些放一個(gè)怪物房了。

拋開官網(wǎng)的數(shù)據(jù),拿網(wǎng)友們的實(shí)測來看, GPT-4.5 跟同在這周發(fā)布的 Claude 3.7 也相差不小。

 比如在思維理解和導(dǎo)圖生成上, Claude 幾乎可以搬到 ppt 上做插圖了,但 GPT-4.5 畫的圖就跟我小學(xué)微機(jī)課上的作業(yè)一樣。。。

更離譜的是,這玩意的運(yùn)行速度還很慢。。。

但這還不是最離譜的,真正讓它挨噴的,其實(shí)是它的價(jià)格。

按他們官方的數(shù)據(jù), GPT-4.5 每百萬 Tokens 價(jià)格是 75 美元,跟 4o 相比整整漲了 30 倍,更別說跟 DeepSeek 比了,那直接能達(dá)到 280 倍。。。

 要是再算上 DeepSeek 的折扣,甚至能相差 1000 倍以上!

但搞笑的是, OpenAI 的官網(wǎng)文章還說 GPT-4.5 “ 無法完全替代GPT-4o ” 。

不過人家 OpenAI 官方倒是不太在意這個(gè),他們覺得 GPT-4.5 真正厲害之處,在于它的語言能力。

 他們在官網(wǎng)的博客里說, GPT-4.5 可以在對話中分析人類情感需求,提供情緒價(jià)值這方面是現(xiàn)在最牛的。

 “ 它將對世界的深刻理解與更佳的協(xié)作相結(jié)合,可以形成一種模型,該模型可以在更適合人類協(xié)作的熱情而直觀的對話中自然地整合想法。GPT-4.5 能夠更好地理解人類的意思,并以更細(xì)致入微的 “ 情商 ” 來解讀微妙的暗示或隱含的期望。 ” 

就比如說你沒考好,跟他一說他就會先安慰你,但 4o 就很直男的直接給你一堆方案。

可是咋說呢,這看起來確實(shí)有人情味了些,但調(diào)教出一個(gè)有情商的 AI 似乎沒法證明它真的就比別家強(qiáng)。

 拿字節(jié)的豆包來說,你給它發(fā)這句它也回答的挺人性的,甚至還能打電話。

不止咱們,外網(wǎng)網(wǎng)友也對 OpenAI 紛紛發(fā)推,那它跟 DeepSeek r1 和 Grok 做比較,公開表示陰陽。

說實(shí)話這也能理解,勞資花了市場上最貴的錢,結(jié)果它是要算法有情商,要推理有情商,要應(yīng)用有情商。。。

前 OpenAI 員工,國外知名 AI 分析師Andrej Karpathy 發(fā)了個(gè)文章說, GPT-4.5 相比前代的訓(xùn)練成本是提高了整整十倍的,但智商并不如推理模型,而是把重點(diǎn)放在了 AI 的情商上。

雖然 Andrej 對 GPT-4.5 的情商挺滿意的,說這是 GPT-3.5 到 4.0 的進(jìn)步;但他也指出, GPT-4.5 并不是推理模型,而且可能是 OpenAI 最后一代非推理模型了。

 這么一來,等到 OpenAI 在 4.5 的基礎(chǔ)上再搞下一代推理模型,估計(jì)才會有更好的表現(xiàn)。

不過從這一點(diǎn)上說,以后可能大部分 AI 的方向,都將會徹底轉(zhuǎn)向推理。

一方面, GPT-4.5 的這次亮相,其實(shí)某種意義上可以說,傳統(tǒng)只靠大力出奇跡,狂堆算力的 Scaling Law (規(guī)模法則 )已開始減速了。

而另一方面,開源模型陣營這邊,在這個(gè)方向上已經(jīng)上道了。

不說別的, DeepSeek 開源周這幾天,每天都把自家 V3 和 R1 訓(xùn)練推理過程中的核心出裝,都免費(fèi)曬出來給大家用。

比方說第一天的 FlashMLA 架構(gòu),相當(dāng)于把自己調(diào)教英偉達(dá) GPU 的招給教了,手把手教你榨干 H800 的算力資源;

 后面幾天還陸續(xù)開放了 DeepEP 、 DeepGEMM 、 DualPipe 、 EPLB 這一堆數(shù)據(jù)庫和算法;最后還給了個(gè)用來壓榨固態(tài)硬盤性能的 3FS 和 Smallpond 數(shù)據(jù)處理框架。

而在類似 GitHub 的社區(qū), AI 領(lǐng)域的開發(fā)者們這幾天也是高興壞了, DeepSeek 這些開源數(shù)據(jù)幾乎每天都在 GitHub 熱榜上坐莊,這波可以說是新的 “ 源神 ” 了。

 一邊 GPT-4.5 表現(xiàn)平平,一邊 DeepSeek 搞得是人人有槍,這樣一來,以后的 AI 訓(xùn)練估計(jì)很難再看到傳統(tǒng)的算力競賽了,更低本高效的訓(xùn)練估計(jì)會變成王道。

標(biāo)簽:

責(zé)任編輯:四川