风凌天下,性爱有声小说在线收听

導(dǎo)航

當(dāng)前位置：首頁(yè) > 福建 > 新晉圖靈獎(jiǎng)得主薩頓：AI發(fā)展是場(chǎng)馬拉松最具影響力的方面尚未到來(lái) 正文

新晉圖靈獎(jiǎng)得主薩頓：AI發(fā)展是場(chǎng)馬拉松最具影響力的方面尚未到來(lái)

來(lái)源：千龍網(wǎng) 作者：百科時(shí)間：2025-03-15 13:00:19

3月6日消息，新晉響力當(dāng)?shù)貢r(shí)間3月5日，圖靈美國(guó)計(jì)算機(jī)學(xué)會(huì)宣布，獎(jiǎng)得具影安德魯·巴托和理查德·薩頓獲得 2024 年 ACM A.M. 圖靈獎(jiǎng)，主薩展場(chǎng)以表彰他們?cè)趶?qiáng)化學(xué)習(xí)方向的頓A的方研究。

據(jù)了解，馬拉面尚自 20 世紀(jì) 80 年代起，松最巴托和薩頓在一系列論文中提出了強(qiáng)化學(xué)習(xí)的新晉響力核心思想、構(gòu)建了數(shù)學(xué)基礎(chǔ)并開(kāi)發(fā)了重要算法，圖靈使其成為創(chuàng)建智能系統(tǒng)的獎(jiǎng)得具影關(guān)鍵方法之一。

獲獎(jiǎng)后，主薩展場(chǎng)“強(qiáng)化學(xué)習(xí)之父”薩頓在采訪中探討了AI的頓A的方發(fā)展進(jìn)程，同時(shí)給予了青年研究員們一些個(gè)人建議。馬拉面尚

當(dāng)被主持人問(wèn)道AI領(lǐng)域智能愿景，松最在這么多年即將要實(shí)現(xiàn)，新晉響力是不是特別激動(dòng)時(shí)。

薩頓坦然表示：沒(méi)錯(cuò)，但也不盡然，我并不認(rèn)同“一切都能迅速地大功告成”的觀點(diǎn)。

他繼續(xù)補(bǔ)充道：AI確實(shí)已經(jīng)取得巨大進(jìn)展，但我不認(rèn)可那種急于求成的心態(tài)。

“我認(rèn)為這是一場(chǎng)馬拉松，而非短跑沖刺，前面的路還很長(zhǎng)，AI最偉大、最具影響力的那些方面尚未到來(lái)。”

隨后，主持人又問(wèn)到了其對(duì)于研究者，尤其是年輕的研究者的建議。

薩頓認(rèn)為：“跑馬拉松”挺不容易的，保持動(dòng)力也不簡(jiǎn)單，我的建議是，要志存高遠(yuǎn)，但別驕傲自滿！”

說(shuō)到這一點(diǎn)，他與主持人相視哈哈大笑。

隨后，他繼續(xù)補(bǔ)充道：我始終敬佩年輕人不盲從權(quán)威的態(tài)度，因?yàn)闆](méi)有人能獨(dú)斷AI的發(fā)展方向，在科學(xué)領(lǐng)域不存在所謂的權(quán)威，這就賦予了任何人的能力和權(quán)力。

同時(shí)，薩頓謙遜強(qiáng)調(diào)：這也許令人有些失落，因?yàn)槟慊蛟S曾視我為權(quán)威，而我本可利用這一名號(hào)，但我必須坦誠(chéng)，我不能。

眾所周知，ACM A.M. 圖靈獎(jiǎng)素有 “計(jì)算機(jī)界諾貝爾獎(jiǎng)” 之稱，以英國(guó)數(shù)學(xué)家艾倫·圖靈（Alan Turing）命名，他奠定了計(jì)算的數(shù)學(xué)基礎(chǔ)，通常被認(rèn)為是理論計(jì)算機(jī)科學(xué)和人工智能的創(chuàng)始人。

另外，該獎(jiǎng)從1966年開(kāi)始頒發(fā)，2014年起獎(jiǎng)金為 100 萬(wàn)美元，由谷歌公司提供。

在這里，特別強(qiáng)調(diào)一下什么是“強(qiáng)化學(xué)習(xí)”？

人工智能（AI）領(lǐng)域關(guān)注構(gòu)建智能體，即能感知與行動(dòng)的實(shí)際存在，而更智能的智能體現(xiàn)在其能選擇更優(yōu)的行動(dòng)方案。因此，“某些行動(dòng)優(yōu)于其他”的概念是 AI 的核心。

獎(jiǎng)勵(lì)（reward，源于心理學(xué)與神經(jīng)科學(xué)的術(shù)語(yǔ)）表示提供給智能體與其實(shí)際行為質(zhì)量相關(guān)的信號(hào)。

強(qiáng)化學(xué)習(xí)（RL）則是通過(guò)獎(jiǎng)勵(lì)信號(hào)學(xué)習(xí)更成功行為的過(guò)程。

20 世紀(jì) 80 年代初，受心理學(xué)啟發(fā)，巴托與博士生薩頓開(kāi)始將強(qiáng)化學(xué)習(xí)定義為通用問(wèn)題框架。

在此后的數(shù)十年間，巴托和薩頓與其他研究人員共同開(kāi)發(fā)了強(qiáng)化學(xué)習(xí)的許多基本算法。

比如，他們二人編寫的經(jīng)典教材《強(qiáng)化學(xué)習(xí)：導(dǎo)論》（Reinforcement Learning: An Introduction，1998）被引用超 7.5 萬(wàn)次，至今仍是該領(lǐng)域標(biāo)準(zhǔn)參考資料。

在這本書的影響下，成千上萬(wàn)的研究者能夠理解并參與到這個(gè)新興領(lǐng)域，并繼續(xù)激發(fā)今天計(jì)算機(jī)科學(xué)領(lǐng)域的大量重要?jiǎng)?chuàng)新。

盡管巴托和薩頓的算法誕生于數(shù)十年前，但其與深度學(xué)習(xí)算法的結(jié)合（由2018年圖靈獎(jiǎng)獲得者Bengio、Hinton和LeCun開(kāi)創(chuàng)），從而導(dǎo)致了深度強(qiáng)化學(xué)習(xí)的出現(xiàn)，并在過(guò)去 15 年取得多項(xiàng)重大突破。

最突出的例子是AlphaGo 程序在 2016 年和 2017 年戰(zhàn)勝了最優(yōu)秀的人類圍棋選手。最近一項(xiàng)重大成就則是聊天機(jī)器人 ChatGPT 的開(kāi)發(fā)。

標(biāo)簽：

責(zé)任編輯：社會(huì)