伸向人類(lèi)的“上帝之手”

國(guó)際視野

阿耐9年前

來(lái)源：IPRdaily.cn 中文網(wǎng)

作者：徐方明審協(xié)北京中心材料部 IP創(chuàng)新贏

原標(biāo)題：伸向人類(lèi)的“上帝之手”

小贏說(shuō)：

提到“上帝之手”，大家可能聯(lián)想到的是馬拉多納的那個(gè)傳奇進(jìn)球，然而今天小編帶你討論的卻是關(guān)于人工智能能否統(tǒng)治人類(lèi)的討論。

伸向人類(lèi)的“上帝之手”

相信很多人都知道上圖：

米開(kāi)朗基羅壁畫(huà)《創(chuàng)世紀(jì)》中最著名的一部分

上帝將手指伸向亞當(dāng)

如今，人工智能的快速發(fā)展，

讓很多人對(duì)這幅畫(huà)又有了新的理解：

是上帝創(chuàng)造了人類(lèi)，還是人類(lèi)創(chuàng)造了上帝？

說(shuō)到人工智能，不得不提到近來(lái)霸屏的

AlphaGo

頻頻占據(jù)權(quán)威媒體的頭條，

也再次驚動(dòng)了CCTV的新聞聯(lián)播

伸向人類(lèi)的“上帝之手”

歲末年初短短七天，

一個(gè)名叫 “Master”的神秘棋手

在網(wǎng)上取得了對(duì)中日韓頂級(jí)高手的60連勝，

其中包括世界冠軍

柯潔、古力、樸廷桓、井山裕太……

這個(gè)“Master”最終被證實(shí)為AlphaGo升級(jí)版

棋圣聶衛(wèi)平落敗后不禁感嘆：

“阿法狗也好，Master也罷，

都是‘圍棋上帝’派來(lái)給人類(lèi)引路的”。

伸向人類(lèi)的“上帝之手”

被稱(chēng)為“手談”的古老智力運(yùn)動(dòng)——圍棋，因?yàn)樽兓?，?jì)算復(fù)雜，成為了人類(lèi)智力活動(dòng)最后的堡壘。如今，這最后的堡壘終于被機(jī)器攻破，引起了社會(huì)和科技界的巨大的轟動(dòng)和對(duì)未來(lái)的思考。

簡(jiǎn)單回顧一下“阿爾法狗”的發(fā)展歷程

伸向人類(lèi)的“上帝之手”

2016年1月28日，《Nature》的封面論文介紹了谷歌公司旗下的DeepMind團(tuán)隊(duì)開(kāi)發(fā)的“阿爾法狗”（AlphaGo）的原理；同時(shí)公開(kāi)宣布AlphaGo以5:0完勝歐洲圍棋冠軍樊麾。

但是，當(dāng)日圍棋界該程序比賽結(jié)果紛紛表示不屑。因?yàn)閲逶跉W洲是小眾項(xiàng)目，歐洲的圍棋冠軍僅僅是中日韓職業(yè)四段左右的水平。

然而，兩個(gè)月后，在2016年3月著名的人機(jī)大戰(zhàn)中，AlphaGo以4:1戰(zhàn)勝?lài)迨澜绻谲娎钍朗?，讓人們?jīng)歷了對(duì)人工智能從不屑到驚嘆的巨大轉(zhuǎn)變。

伸向人類(lèi)的“上帝之手”

上圖中，李世石在第4局（2016年3月13日）第78手弈出傳說(shuō)中的“神之一手”，扭轉(zhuǎn)了局勢(shì)，成為唯一戰(zhàn)勝阿爾法狗的一局。當(dāng)時(shí)便有人感嘆：但愿這不是人類(lèi)最后一次戰(zhàn)勝機(jī)器。

不過(guò)，中國(guó)圍棋選手柯潔，職業(yè)九段

19歲時(shí)已經(jīng)拿過(guò)四個(gè)圍棋世界冠軍

保持著世界大賽14連勝

中國(guó)圍棋甲級(jí)聯(lián)賽18連勝的記錄

被譽(yù)為當(dāng)今世界圍棋第一人，

當(dāng)時(shí)在其微博放出豪言：

阿爾法狗能戰(zhàn)勝李世石，但戰(zhàn)勝不了我

伸向人類(lèi)的“上帝之手”

阿爾法狗在閉關(guān)修煉10個(gè)月后，以Master的身份

用60連勝將人類(lèi)高手一一挑落馬下

與“Master”對(duì)戰(zhàn)后

一向年少輕狂的柯潔卻說(shuō)出了這樣的話：

與Master的對(duì)戰(zhàn)刷新了我的認(rèn)知

人類(lèi)一直遵循的圍棋定勢(shì)全是錯(cuò)的！

我們?nèi)祟?lèi)甚至沒(méi)有沾到過(guò)圍棋真理的邊

AlphaGo用實(shí)戰(zhàn)證明，

所謂靠“棋感”、“味道”判斷進(jìn)行的對(duì)局

并不屬于人類(lèi)大腦的“專(zhuān)利”。

事實(shí)上，AlphaGo的原理在《Nature》發(fā)表之前已經(jīng)公開(kāi)：那就是通過(guò)專(zhuān)利的形式。谷歌申請(qǐng)的WO2015/054264A1（中文同族為CN105637540A）的最早優(yōu)先權(quán)日為2013年5月12日，國(guó)際公開(kāi)日為2015年4月16日，都早于論文在《Nature》的發(fā)表時(shí)間。

透過(guò)專(zhuān)利WO2015/054264A1我們來(lái)解密阿爾法狗的深度強(qiáng)化學(xué)習(xí)方法原理：其核心在于搭建了兩個(gè)深度神經(jīng)網(wǎng)絡(luò)，將經(jīng)驗(yàn)數(shù)據(jù)輸入第二神經(jīng)網(wǎng)絡(luò)并進(jìn)行訓(xùn)練，并根據(jù)第二神經(jīng)網(wǎng)絡(luò)生成或更新第一神經(jīng)網(wǎng)絡(luò)，第一神經(jīng)網(wǎng)絡(luò)又生成目標(biāo)動(dòng)作值(action-value)參數(shù)，而第二神經(jīng)網(wǎng)絡(luò)基于第一神經(jīng)網(wǎng)絡(luò)生成的目標(biāo)而被更新。

簡(jiǎn)單的說(shuō)：其算法就是通過(guò)歷史的棋譜模擬下棋，模擬下的棋局又成為歷史棋譜進(jìn)行學(xué)習(xí)，然后不斷的自我學(xué)習(xí)迭代提高。

伸向人類(lèi)的“上帝之手”

什么深度神經(jīng)網(wǎng)絡(luò)？目標(biāo)動(dòng)作值？還是結(jié)合《Nature》的AlphaGo文章進(jìn)行理解。

對(duì)應(yīng)上述專(zhuān)利中提及的兩個(gè)神經(jīng)網(wǎng)絡(luò)，AlphaGo團(tuán)隊(duì)設(shè)計(jì)了策略網(wǎng)絡(luò)（policy network）和價(jià)值網(wǎng)絡(luò)（value network），這兩個(gè)網(wǎng)絡(luò)分別是由13層和15層的卷積神經(jīng)網(wǎng)絡(luò)所構(gòu)成，以棋盤(pán)圖片作為輸入，每層網(wǎng)絡(luò)中應(yīng)用多級(jí)的過(guò)濾器以獲得每種走法的概率分布或獲勝預(yù)測(cè)值，策略網(wǎng)絡(luò)負(fù)責(zé)篩選可能性較大的走子方案，價(jià)值網(wǎng)絡(luò)負(fù)責(zé)評(píng)估盤(pán)面獲勝的可能性。綜合兩個(gè)網(wǎng)絡(luò)得到目標(biāo)動(dòng)作值，如果其低于一個(gè)閾值，則AlphaGo認(rèn)輸，否則通過(guò)蒙特卡洛搜索樹(shù)將以上二者結(jié)合，選擇訪問(wèn)計(jì)數(shù)(visit count)最大值的落點(diǎn)作為下一步行棋點(diǎn)。

伸向人類(lèi)的“上帝之手”

策略網(wǎng)絡(luò)能夠?qū)W習(xí)圍棋高手的對(duì)局，學(xué)習(xí)他們是如何選擇下一步的，其還能通過(guò)類(lèi)似于周伯通“雙手博弈”的方式，自我海量對(duì)弈強(qiáng)化學(xué)習(xí)，不斷優(yōu)化修正習(xí)得的人類(lèi)棋法

（在與李世石對(duì)局前AlphaGo便學(xué)習(xí)了基于16萬(wàn)職業(yè)棋手對(duì)局?jǐn)?shù)據(jù)庫(kù)而掌握了近3000萬(wàn)步大師步法秘笈，還進(jìn)行了3000萬(wàn)局的自我對(duì)弈）

當(dāng)然，更大的網(wǎng)絡(luò)能夠獲得更好的訓(xùn)練準(zhǔn)確度，但在搜索過(guò)程中評(píng)估會(huì)更慢，在用時(shí)更短的非正式對(duì)局中，樊麾便贏過(guò)AlphaGo兩局，此番快棋戰(zhàn)中，Master能取得60連勝，說(shuō)明DeepMind團(tuán)隊(duì)可能在策略網(wǎng)絡(luò)算法優(yōu)化上取得了新的進(jìn)步。

價(jià)值網(wǎng)絡(luò)是個(gè)和策略網(wǎng)絡(luò)結(jié)構(gòu)相似的多層神經(jīng)網(wǎng)絡(luò)，但輸出單一的獲勝預(yù)測(cè)值而不是概率分布，判斷誰(shuí)占優(yōu)。這也是AlphaGo高于人類(lèi)的地方，價(jià)值判斷是人類(lèi)思考中是很難量化的，棋手只能代之以“厚勢(shì)”、“兩分”等可意會(huì)不可言傳的模糊判斷，這也是很多棋手希望AlphaGo能公布的后臺(tái)數(shù)據(jù)。

（例如胡耀宇九段在微博中這樣說(shuō)：）

伸向人類(lèi)的“上帝之手”

當(dāng)然，人工智能的含義遠(yuǎn)不止是挑戰(zhàn)人類(lèi)智力，它還包括機(jī)器人、語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)言處理和專(zhuān)家系統(tǒng)等。谷歌之所以收購(gòu)DeepMind，就是看中了其在反向圖片搜索（reverse image search）領(lǐng)域的兩項(xiàng)專(zhuān)利技術(shù)（US2014/0019431A1和US2014/0019484A1）。

國(guó)際上，人工智能的創(chuàng)新和創(chuàng)業(yè)也日趨活躍，F(xiàn)acebook、IBM、Microsoft等世界科技巨頭也紛紛在人工智能領(lǐng)域加強(qiáng)技術(shù)創(chuàng)新和專(zhuān)利布局。

在我國(guó)，人工智能也得到政策層面的高度支持，2015年7月國(guó)務(wù)院發(fā)布《關(guān)于積極推進(jìn)“互聯(lián)網(wǎng)+”行動(dòng)的指導(dǎo)意見(jiàn)》，將人工智能作為重點(diǎn)布局的11個(gè)領(lǐng)域之一，2016年四部委聯(lián)合印發(fā)了《“互聯(lián)網(wǎng)+”人工智能三年行動(dòng)實(shí)施方案》，為人工智能發(fā)展提出具體的策略方案。根據(jù)烏鎮(zhèn)智庫(kù)2016年度發(fā)布的《烏鎮(zhèn)指數(shù)：全球人工智能發(fā)展報(bào)告2016》，中國(guó)在人工智能企業(yè)數(shù)量、專(zhuān)利申請(qǐng)量、融資規(guī)模上僅次于美國(guó)，發(fā)展?jié)摿薮蟆?/p>

伸向人類(lèi)的“上帝之手”

最后回到圍棋作為結(jié)束，幾千年的歷史變遷中它經(jīng)歷過(guò)幾番塑造，發(fā)源于中國(guó)堯舜時(shí)代，由日本發(fā)揚(yáng)光大，上世紀(jì)80年代起韓國(guó)異軍崛起，本世紀(jì)中國(guó)又重回世界圍棋之巔。此次卻是由人工智能掀起新一次的圍棋革命，讓人類(lèi)既驚奇而又困惑。

“人工智能”被認(rèn)為是未來(lái)十年改變世界的最重要的一項(xiàng)技術(shù)，站在風(fēng)口上，別忘搶占專(zhuān)利的制高點(diǎn)。

來(lái)源：IPRdaily.cn 中文網(wǎng)

作者：徐方明審協(xié)北京中心材料部 IP創(chuàng)新贏

編輯：IPRdaily.cn LoCo

校對(duì)：IPRdaily.cn 縱橫君

伸向人類(lèi)的“上帝之手”

本文來(lái)自IPRdaily.cn中文網(wǎng)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意，并附上出處與作者信息。文章不代表IPRdaily.cn立場(chǎng)，如若轉(zhuǎn)載，請(qǐng)注明出處：“http://m.globalwellnesspartner.com/”