當(dāng)前位置:首頁(yè) > 福建 > 新晉圖靈獎(jiǎng)得主薩頓:AI發(fā)展是場(chǎng)馬拉松 最具影響力的方面尚未到來(lái) 正文

新晉圖靈獎(jiǎng)得主薩頓:AI發(fā)展是場(chǎng)馬拉松 最具影響力的方面尚未到來(lái)

來(lái)源:千龍網(wǎng)   作者:百科   時(shí)間:2025-03-15 13:00:19

3月6日消息,新晉響力當(dāng)?shù)貢r(shí)間3月5日,圖靈美國(guó)計(jì)算機(jī)學(xué)會(huì)宣布,獎(jiǎng)得具影安德魯·巴托和理查德·薩頓獲得 2024 年 ACM A.M. 圖靈獎(jiǎng),主薩展場(chǎng)以表彰他們?cè)趶?qiáng)化學(xué)習(xí)方向的頓A的方研究。

據(jù)了解,馬拉面尚自 20 世紀(jì) 80 年代起,松最巴托和薩頓在一系列論文中提出了強(qiáng)化學(xué)習(xí)的新晉響力核心思想、構(gòu)建了數(shù)學(xué)基礎(chǔ)并開(kāi)發(fā)了重要算法,圖靈使其成為創(chuàng)建智能系統(tǒng)的獎(jiǎng)得具影關(guān)鍵方法之一。

獲獎(jiǎng)后,主薩展場(chǎng)“強(qiáng)化學(xué)習(xí)之父”薩頓在采訪中探討了AI的頓A的方發(fā)展進(jìn)程,同時(shí)給予了青年研究員們一些個(gè)人建議。馬拉面尚

當(dāng)被主持人問(wèn)道AI領(lǐng)域智能愿景,松最在這么多年即將要實(shí)現(xiàn),新晉響力是不是特別激動(dòng)時(shí)。

薩頓坦然表示:沒(méi)錯(cuò),但也不盡然,我并不認(rèn)同“一切都能迅速地大功告成”的觀點(diǎn)。

他繼續(xù)補(bǔ)充道:AI確實(shí)已經(jīng)取得巨大進(jìn)展,但我不認(rèn)可那種急于求成的心態(tài)。

我認(rèn)為這是一場(chǎng)馬拉松,而非短跑沖刺,前面的路還很長(zhǎng),AI最偉大、最具影響力的那些方面尚未到來(lái)。

隨后,主持人又問(wèn)到了其對(duì)于研究者,尤其是年輕的研究者的建議。

薩頓認(rèn)為:“跑馬拉松”挺不容易的,保持動(dòng)力也不簡(jiǎn)單,我的建議是,要志存高遠(yuǎn),但別驕傲自滿!”

說(shuō)到這一點(diǎn),他與主持人相視哈哈大笑。

隨后,他繼續(xù)補(bǔ)充道:我始終敬佩年輕人不盲從權(quán)威的態(tài)度,因?yàn)闆](méi)有人能獨(dú)斷AI的發(fā)展方向,在科學(xué)領(lǐng)域不存在所謂的權(quán)威,這就賦予了任何人的能力和權(quán)力。

同時(shí),薩頓謙遜強(qiáng)調(diào):這也許令人有些失落,因?yàn)槟慊蛟S曾視我為權(quán)威,而我本可利用這一名號(hào),但我必須坦誠(chéng),我不能。

眾所周知,ACM A.M. 圖靈獎(jiǎng)素有 “計(jì)算機(jī)界諾貝爾獎(jiǎng)” 之稱,以英國(guó)數(shù)學(xué)家艾倫·圖靈(Alan Turing)命名,他奠定了計(jì)算的數(shù)學(xué)基礎(chǔ),通常被認(rèn)為是理論計(jì)算機(jī)科學(xué)和人工智能的創(chuàng)始人。

另外,該獎(jiǎng)從1966年開(kāi)始頒發(fā),2014年起獎(jiǎng)金為 100 萬(wàn)美元,由谷歌公司提供。

在這里,特別強(qiáng)調(diào)一下什么是“強(qiáng)化學(xué)習(xí)”?

人工智能(AI)領(lǐng)域關(guān)注構(gòu)建智能體,即能感知與行動(dòng)的實(shí)際存在,而更智能的智能體現(xiàn)在其能選擇更優(yōu)的行動(dòng)方案。因此,“某些行動(dòng)優(yōu)于其他”的概念是 AI 的核心。

獎(jiǎng)勵(lì)(reward,源于心理學(xué)與神經(jīng)科學(xué)的術(shù)語(yǔ))表示提供給智能體與其實(shí)際行為質(zhì)量相關(guān)的信號(hào)。

強(qiáng)化學(xué)習(xí)(RL) 則是通過(guò)獎(jiǎng)勵(lì)信號(hào)學(xué)習(xí)更成功行為的過(guò)程。

20 世紀(jì) 80 年代初,受心理學(xué)啟發(fā),巴托與博士生薩頓開(kāi)始將強(qiáng)化學(xué)習(xí)定義為通用問(wèn)題框架。

在此后的數(shù)十年間,巴托和薩頓與其他研究人員共同開(kāi)發(fā)了強(qiáng)化學(xué)習(xí)的許多基本算法。

比如,他們二人編寫的經(jīng)典教材《強(qiáng)化學(xué)習(xí):導(dǎo)論》(Reinforcement Learning: An Introduction,1998)被引用超 7.5 萬(wàn)次,至今仍是該領(lǐng)域標(biāo)準(zhǔn)參考資料。

在這本書的影響下,成千上萬(wàn)的研究者能夠理解并參與到這個(gè)新興領(lǐng)域,并繼續(xù)激發(fā)今天計(jì)算機(jī)科學(xué)領(lǐng)域的大量重要?jiǎng)?chuàng)新。

盡管巴托和薩頓的算法誕生于數(shù)十年前,但其與深度學(xué)習(xí)算法的結(jié)合(由2018年圖靈獎(jiǎng)獲得者Bengio、Hinton和LeCun開(kāi)創(chuàng)),從而導(dǎo)致了深度強(qiáng)化學(xué)習(xí)的出現(xiàn),并在過(guò)去 15 年取得多項(xiàng)重大突破。

最突出的例子是AlphaGo 程序在 2016 年和 2017 年戰(zhàn)勝了最優(yōu)秀的人類圍棋選手。最近一項(xiàng)重大成就則是聊天機(jī)器人 ChatGPT 的開(kāi)發(fā)

標(biāo)簽:

責(zé)任編輯:社會(huì)

全網(wǎng)熱點(diǎn)