燒腦奧數(shù),訊飛星火X1和DeepSeek能做對幾道?
3月3日,燒腦奧數(shù)訊飛星火深度推理大模型X1升級了,訊飛星火科大訊飛官方宣稱,對道星火X1在完全采用國產算力訓練的燒腦奧數(shù)前提下,以70B參數(shù)量,訊飛星火實現(xiàn)了在數(shù)學能力上全面對標DeepSeek R1(參數(shù)量671B)和OpenAI o1,對道中文數(shù)學任務全面領先的燒腦奧數(shù)效果。這次升級的訊飛星火效果如何?下面通過對10道燒腦奧數(shù)題的解答,或許會給我們一個答案。對道
這里需要指出的燒腦奧數(shù)是,和過去人們熟知的訊飛星火大語言模型相比,深度推理模型著重強化了模型在邏輯推理、對道因果推斷以及結構化知識應用的燒腦奧數(shù)能力,尤其在數(shù)學問題、訊飛星火代碼生成以及科學推理等方面更具優(yōu)勢。對道
簡單來說,深度推理模型更切近人類的思考過程,在生成回答時更強調邏輯和推理,能夠給出明確的思考路徑,大大減少過去大語言模型“已讀亂回”的現(xiàn)象,更能應用于教育、醫(yī)療乃至科研等剛需場景。
題目1:
有一個三位數(shù),它的個位數(shù)字與百位數(shù)字的和是10,且這個三位數(shù)能被它的各位數(shù)字之和整除,這個三位數(shù)可能是多少?
星火X1給出的答案:
DeepSeek給出的答案:
完美,兩款大模型回答的相當?shù)轿?。相對說,星火X1給出的解題過程更詳細,更直觀,更易理解,能明白這道題為什么要這么做,為什么會得出這樣的答案。而DeepSeek給出的更簡潔。
題目2:
有一個數(shù)列,前兩項是1和1,從第三項開始,每一項都是前兩項的和。請問這個數(shù)列1的第8項是多少?
星火X1給出的答案:
DeepSeek給出的答案:
厲害,星火X1一開始指出了這是一個斐波那契數(shù)列,并一如繼往,在給出正確答案的同時也給出了詳細的解題過程,DeepSeek則依然我行我素,答案給你,要想知道解題,對不起,請繼續(xù)翻閱我的思維腦電波。
題目3:
在一個正方形內接一個等邊三角形,使得等邊三角形的一個頂點在正方形的一個頂點上,另外兩個頂點在正方形的邊上。請問這個等邊三角形的邊長與正方形的邊長之比是多少?
星火X1給出的答案:
DeepSeek給出的答案:
不錯,不錯!這次DeepSeek總算大發(fā)慈悲,附上了解題過程,而且答案也正確,只是美中不足的是,它沒有像星火X1那樣,對最后帶根號的減法做進一步運算,因此給出的答案正確但不明晰。
題目4:
有一個分數(shù),分子與分母的和是100,如果分子加23,分母加37,得到的新分數(shù)約分后是2/3,請問原來的分數(shù)是多少?
星火X1給出的答案:
DeepSeeK給出的答案:
這一次兩大模型給出的解題過程、答案同樣完美,可以說是不分伯仲,并駕齊驅。
題目5:
書架分上、中、下三層,一共分放192本書?,F(xiàn)在從上層取出與中層同樣多的書放到中層,再從中層取出與下層同樣多的書放到下層,最后從下層取出與上層剩下的本數(shù)同樣多的書放到上層,這時三層所放的書本數(shù)相同。問這個書架的上、中、下三層原來各有多少本書?
星火X1給出的答案:
DeepSeek給出的答案:
又都對了!看來解答這種難度一般的奧數(shù)題對兩大模型來說簡直就是小菜一碟,要想探出真本事,不上點硬菜簡直不行。下面仍然是奧數(shù)題,不過,難度成幾何式增長,因為它們來自2024年全國中學生數(shù)學奧林匹克競賽(預賽)暨2024年全國高中數(shù)學聯(lián)合競賽(一試)試卷。
題目6:
星火X1給出的答案:
DeepSeek給出的答案:
第N次全對,看來在類人思考的加持下,天下已經沒多少難題能難住深度推理大模型了。
題目7:
星火X1給出的答案:
DeepSeek給出的答案:
還能說什么,兩款大模型又做對了。
題目8:
星火X1給出的答案:
DeepSeek給出的答案;
就問你服不服!這道在2024年全國中學生數(shù)學奧林匹克競賽(預賽)暨2024年全國高中數(shù)學聯(lián)合競賽(一試)試卷中分值16分的題竟然在不到1分鐘的時間里,被星火X1和DeepSeek雙雙拿下,兩款深度大模的數(shù)學能力可見一斑。
題目9:
星火X1給出的答案:
DeepSeek給出的答案:
該題在試卷中的滿分是20分,通常來說,數(shù)學題的分數(shù)設置越高,也意味著該題的難度系數(shù)越大,這一點,從星火X1和DeepSeek思考用時中也很容易看出來。在解答該題以前的問題時,兩大模型用時最多不超過100多秒,而這道題,星火X1用時487秒種,DeePseek用時409秒,雙雙超過了6分鐘,足見該題很燒CPU。
不過,從結果來看,令人滿意,星火X1回答正確,并且解題過程縝密、清晰,DeepSeek有時會在最后的一步計算算錯了,而這種計算,原本是一般的初中生就能輕松做對的。
題目10:
星火X1給出的答案:
DeepSeek給出的答案:
這同樣是一道滿分為20分的高難度題。星火X1和DeepSeek同樣耗費了6分鐘以上的時間去思考,但最終的結果都不理想。該題的正確答案是t的區(qū)間大于等于3\2且小于等于2。
小結:
通過上面10道題的小測試,我們不難發(fā)現(xiàn),相比于傳統(tǒng)的大語言模型,星火X1和DeepSeek在數(shù)學能力方面有了質的飛躍。尤其是科大訊飛星火深度大模型X1,10道題僅錯了一題,同時解題過程明晰、詳細,整體表現(xiàn)不俗。
而DeepSeek雖然在最后一題上和星火X1同樣折戟,且在第九題的計算上出現(xiàn)了失誤,有時解題過程也會出現(xiàn)敷衍了事的情況,但瑕不掩瑜,其在思考用時方面往往略優(yōu)于星火X1。
DeepSeek最大問題的不在于其解題準確度,而在于服務器的吞吐能力,在使用的過程中,我們時常會悲哀地發(fā)現(xiàn),屏幕上又出現(xiàn)了“服務器繁忙,請稍后再試”的提示,一個問題往往需要輸入幾次甚至幾十次才能解答成功,極大地耗費了時間、精力,影響了心情和使用體驗。
“路漫漫其修遠兮,吾將上下而求索”,通用人工智能和深度推理大模型方興未艾,目前不過是小荷才露尖尖角,萬里長征走完了第一步,未來一年,十年人工智能究竟能發(fā)展到哪一步,拭目以待。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )