今天凡太百科給各位分享alphago的知識,其中也會對alphago戰(zhàn)勝了人類世界圍棋冠軍是哪一年進行解釋,如果能碰巧解決你現(xiàn)在面臨的問題,別忘了關注本站,現(xiàn)在開始吧!

alphago普及了沒有
普及了。alphago于2020年2月25日正式普及,alphago是第一個擊敗人類職業(yè)圍棋選手、第一個戰(zhàn)勝圍棋世界冠軍的人工智能機器人,深受廣大群眾的喜歡。
第一個戰(zhàn)勝圍棋世界冠軍的人工智能程序是什么?
第一個戰(zhàn)勝圍棋世界冠軍的人工智能程序是阿爾法狗。在韓國首爾舉行的2016圍棋人機大戰(zhàn)中,阿爾法狗戰(zhàn)勝了韓國名手李世石。
AlphaGo程序是美國谷歌公司旗下DeepMind團隊開發(fā)的一款人機對弈的圍棋程序,被中國棋迷們戲稱為阿爾法狗。游戲是人工智能最初開發(fā)的主要陣地之一,比如博弈游戲就要求人工智能更聰明、更靈活,用更接近人類的思考方式解決問題。
擴展資料:
AlphaGo通過蒙特卡洛樹搜索算法和兩個深度神經(jīng)网络合作來完成下棋。在與李世石對陣之前,谷歌首先用人類對弈的近3000萬種走法來訓練“阿爾法狗”的神經(jīng)网络,讓它學會預測人類專業(yè)棋手怎么落子。
然后更進一步,讓AlphaGo自己跟自己下棋,從而又產(chǎn)生規(guī)模龐大的全新的棋譜。谷歌工程師曾宣稱AlphaGo每天可以嘗試百萬量級的走法。
參考資料來源:人民網(wǎng)——“阿爾法狗”為什么厲害
AlphaGo英文怎么讀
綜述
AlphaGo英文怎么讀Alphago,翻譯為阿爾法狗。
阿爾法圍棋(AlphaGo)是第一個擊敗人類職業(yè)圍棋選手、第一個戰(zhàn)勝圍棋世界冠軍的人工智能機器人,由谷歌(Google)旗下DeepMind公司戴密斯·哈薩比斯領銜的團隊開發(fā)。其主要工作原理是"深度學習"。
2016年3月,阿爾法圍棋與圍棋世界冠軍、職業(yè)九段棋手李世石進行圍棋人機大戰(zhàn),以4比1的總比分獲勝;2016年末2017年初,該程序在中國棋類網(wǎng)站上以"大師"(Master)為注冊賬號與中日韓數(shù)十位圍棋高手進行快棋對決,連續(xù)60局無一敗績。
2017年5月,在中國烏鎮(zhèn)圍棋峰會上,它與排名世界第一的世界圍棋冠軍柯潔對戰(zhàn),以3比0的總比分獲勝。圍棋界公認阿爾法圍棋的棋力已經(jīng)超過人類職業(yè)圍棋頂尖水平,在GoRatings網(wǎng)站公布的世界職業(yè)圍棋排名中,其等級分曾超過排名人類第一的棋手柯潔。
2017年5月27日,在柯潔與阿爾法圍棋的人機大戰(zhàn)之后,阿爾法圍棋團隊宣布阿爾法圍棋將不再參加圍棋比賽。2017年10月18日,DeepMind團隊公布了最強版阿爾法圍棋,代號AlphaGo Zero。
alphago是什么語言開發(fā)的
Android以Java為編程語言,使接口到功能,都有層出不窮的變化,其中Activity等同于J2ME的MIDlet,一個 Activity 類(class)負責創(chuàng)建視窗(window),一個活動中的Activity就是在 foreground(前景)模式,背景運行的程序叫做Service。兩者之間.
英語作文human vs alphago
Google's artificial intelligence-driven AlphaGo sofare program will challenge Ke Jie, the world's top professional Go player, at China's Future of Go Summit in May. The prospect of this petition beeen human and artificial intelligence has captured the attention of the Chinese public, where the game was invented more than 2,500 years ago, and driven interest in Google's DeepMind machine learning method that developed AlphaGo.We believe a machine could never replace a person as an adversary in future.It's a cold machine without blood, while we have spiritual power.
怎么看待alphago的這個失誤
谷歌非常有謀略,先讓阿爾法狗連贏三次,奠定勝利的事實,展示人工智能的厲害!讓人恐慌! 然后,谷歌讓阿爾法狗輸棋給李世石,以明白無誤的方式告訴恐慌的人們:不要害怕,我們掌控著人工智能的! 如果人工智能把人逼上絕路,人工智能產(chǎn)業(yè)就會遭到人們的封殺! 谷歌輸一局,緩和局面。
中日韓還有成千上萬圍棋學習者和相關從業(yè)人員,Google是商業(yè)公司,當然不會把事情做絕,肯定會考量這方面的因素。
比賽結束,alphago四比一完勝李世石,僅勝利的一局有很多人認為是谷歌為了讓alphago有世界排名而故意輸?shù)囊痪郑驗槿绻粋€棋手一直連勝,是沒有世界排名的,輸了一局才有排名,按照官方發(fā)布目前alphago排名世界第二,中國小將柯杰世界第一。
如何評價AlphaGo的圍棋水平
AlphaGo能夠戰(zhàn)勝李世石的確證明了他是有職業(yè)頂尖的水平,也就是的職業(yè)九段,其計算能力與局部分析能力超越職業(yè)九段!可是,AlphaGo要想拿到職業(yè)冠軍是基本不可能的,因為它不會自主學習,需要輸入對方的棋譜才能占優(yōu)優(yōu)勢。
此外,在局部與大局的判斷上,AlphaGo是有缺陷的,如果是遇到巔峰時期的李昌鎬或是聶老聶衛(wèi)平先生,折現(xiàn)缺點就會被無限放大。
總而言之,現(xiàn)在它的對局還是太少了,需要更多的對局與研究,看不同的棋風與派別對它的勝率的影響,究竟綜合實力是多少,還需要考究!
人工智能的利與弊作文結尾?
機器人還是不一樣,完全不受外界與情緒的任何干擾,坐下便拼殺起來。
它的芯片經(jīng)歷了十年換代,幾乎對所有圍棋套路了如指掌,面對我的每一步棋,都能識破我的意圖,找到最合適的解決方法,更別提失誤了,而我卻并不急躁,慢慢悠悠,心中早已打好了算盤。
這盤棋下得出奇得慢,半個月,1個月,我也并不著急,AlphaGo作為一個高智商機器人也能準確捕捉到我的所有需求,我們不僅棋下得有條不紊,它更是端茶倒水,冷風熱氣,無微不至。
這棋轉(zhuǎn)眼便下了三個月,我打定主意,心中不急,這AlphaGo作為機器人便更不知著急了,倒是觀眾們耐心早已磨完,他們催促也好,咒罵也罷,我自不動,每日只想一步棋,每日只下一步棋,但我內(nèi)心卻從未平靜。
我等待著機會,更等待著靈感,后來已無人有心再關注這場比賽,我的心中也越發(fā)平靜了。
直到那一天,我依如往常早早起床,一邊誦讀著道德經(jīng),一邊在園中散步。
突然,一個靈感穿過我的頭腦,一個陰陽卦象圖轉(zhuǎn)變?yōu)榱艘环灞P,“我若擊殺這個未曾關注過的棋點,他豈不再無機會?”我哈哈大笑,回到棋盤前,下了這一步我等了許久的棋,不出所料,AlphaGo一籌莫展,投子認輸。
世界轟動,人們重新將關注點拉到了我身上,我也不過多解釋,手放背后:“道可道,非常道……”我先人一盤棋能下幾個月,參悟世間之道,下的是道,而非棋,這豈是一個機器人能理解的?”從此之后,人們不再挑戰(zhàn)AlphaGo,亦不再過度追求棋中勝負,他們好像也沉靜了下來,回歸了這項運動最本質(zhì)的精髓,思考人生,思考自然,思考世界,找到了心中的那片桃花源。
如何評價柯潔與 AlphaGo 的對決
柯潔經(jīng)歷了英雄般的戰(zhàn)斗后,依然第二局輸給AlphaGo。
最有價值的信息可能來自AlphaGo之父薩比斯,中盤階段他評論說:“不可思議,根據(jù)AlphaGo的評估,柯潔現(xiàn)在下得很完美。
”賽后薩比斯則評論:“這是一場驚心動魄的令人驚奇的比賽,柯潔幾乎把AlphaGo逼到了極限。
”柯潔今天的最大收獲是測出阿法狗的真實水平。
期望這次比賽能夠驗證。
當然它有兩個前提條件,一是柯潔把最好水平發(fā)揮出來,二是AlphaGo能夠經(jīng)受真正的考驗,而不是表面看它只贏一兩個子,實際上后臺勝率顯示根本沒有機會。
前天的第一局,AlphaGo贏了1.5目。
這是一個很小的差距,但柯潔下得談不上多出色,因為從頭到尾他基本沒什么機會。
AlphaGo并不是一個賭徒,能贏100目絕不贏99;它是根據(jù)勝率估算來行棋的,如果贏1目而它認為勝率是100%,就沒必要去下贏100目而勝率只有99%的棋。
所以,第一局柯潔遠遠沒有逼出AlphaGo的真正實力。
昨天AlphaGo方面的消息,認為這次雖然只是一個單機版,但棋力已經(jīng)比去年贏李世石的時候提高了三子。
這是一個挺嚇人的消息,因為它會讓人類棋手覺得,目前這個版本至少比人類強三子以上。
老實講這挺絕望的,三子以上,四子。
那等于徹底宣布人類棋手跟AlphaGo已經(jīng)是天壤之別。
知道,面對一個可以讓四子的對手,這是職業(yè)和業(yè)余的差距,比賽已經(jīng)失去意義,準確地說那叫戲耍。
它可以只贏1目甚至半目,但不說明任何問題,就像柯潔也可以讓只輸半目,但那又能說明什么。
難道會跑大街上喊,快看,柯潔只贏了半目。
誰都知道,柯潔想怎么贏就怎么贏,半目和100目沒差別。
今天的比賽,由于“幾乎把AlphaGo逼到了極限”,雖然不是讓子棋,但基本可以猜出,在人類棋手高水平發(fā)揮的前提下,目前AlphaGo讓不到人類三子,可能是二子或者略多。
掛盤講解的李世石也做出這種判斷:AlphaGo并沒有提升三子的實力,估計大概有二子。
至此,本次比賽人類棋手的目標或者說心愿已經(jīng)達到:測試出AlphaGo的真正實力。
否則,AlphaGo就永遠是上帝般的存在。
知道它強,但不知道它到底多強,所以它就是上帝。
知道,沒有上帝。
如果由于無法評測AI(人工智能)的水平,而把它視為上帝一樣的存在,這不是人類進化或者說發(fā)展的方向。
等于把命運交給未知,哪怕這個未知是人類創(chuàng)造出來的,也有理由疑慮甚至恐懼。
所以要感謝柯杰,不愧圍棋第一人,他今天的勇氣和表現(xiàn),至少讓暫時可以從外部角度了解到AlphaGo的真實水平。
這是比勝負更重要的事情。
如何評價AlphaGo
題目:《人工智能》3月15日,舉世矚目的“人機大戰(zhàn)”塵埃落定,人工智能“阿爾法狗圍棋”(AlphaGo)以4:1的比分戰(zhàn)勝人類圍棋頂尖高手李世石九段,為世人留下一個不愿接受又不得不接受的事實。
面對“阿爾法狗圍棋”(AlphaGo),有人不服,如中國的超級圍棋新星柯潔九段,就公開向“阿爾法狗圍棋”(AlphaGo)叫板:“你贏不了我!”有人嘆息:人類智慧最后的尊嚴在一只“小狗”面前丟失。
有人甚至悲觀地認為,機器統(tǒng)治人類的時代即將來臨。
其實,所謂人類尊嚴、所謂機器人的統(tǒng)治時代,只是我們一些人的臆想,“阿爾法狗圍棋”(AlphaGo)的勝利,說到底就是一次技術革命的勝利,是人類對自身的一次超越。
正如西安交通大學副校長、國家重點基礎研究計劃(973)“基于視認知的非結構化信息處理基礎理論與關鍵技術”首席科學家徐宗本說的:“任何人工智能技術的成功一定是當代最新技術綜合運用的成功,片面說成誰戰(zhàn)勝誰是不公平的,也是無意義的,說人類智慧的最后壁壘被攻破,這都是無稽之談。
”“阿爾法狗圍棋”(AlphaGo)的勝利,背后的最大價值在于,它激勵人們持續(xù)不斷地探索過去人工智能領域一直看似難以實現(xiàn)的人類智能級別。
從這一點上看,人工智能的勝利也有非凡的意義,甚至可以說具有劃時代的意義。
是的,翻開人類歷史,哪一次技術革命不帶來人類社會翻天覆地的變化?蒸汽機的發(fā)明、使用,使人類從農(nóng)業(yè)手工業(yè)時代進入了工業(yè)社會;電動機的誕生,使人類從工業(yè)社會跨入了現(xiàn)代化。
而以原子能、電子計算機、空間技術和生物工程的發(fā)明與應用為主要標志的信息技術革命,更讓人類從此進入了自動化、信息化時代。
每一次技術革命,伴隨的都是生產(chǎn)力的發(fā)展和人類自身的解放。
“阿爾法狗圍棋”(AlphaGo)的 勝利,是不是會掀起又一次技術革命,我們還需拭目以待。
然而,人工智能的進步,卻可以讓我們展望到人類美妙無比的前景。
我們似乎可以看到,不久的將來,到 處都是機器人在人們的指令下為人們服務;我們似乎可以看到,那些對于目前醫(yī)術來說幾乎無解的人類大腦和神經(jīng)疾病,如自閉癥、老年癡呆癥這樣的國際醫(yī)學難 題,隨著人工智能的進步,一切都會迎刃而解;我們似乎可以看到,有了人工智能的協(xié)助,人類真正步入了大同的理想社會。
是的,“阿爾法狗圍棋”(AlphaGo)的勝利,是人類的智慧向前邁出的又一步,有了這一步,我們的世界將更加美好。
當然,面對這些進步,我們不能只是圍觀、娛樂和敬仰,我們應該用我們的智慧,去促成人工智能更大的進步!
AlphaGo是什么 谷歌AlphaGo全解讀
AlphaGo一般指阿爾法圍棋阿爾法圍棋(AlphaGo)是第一個擊敗人類職業(yè)圍棋選手、第一個戰(zhàn)勝圍棋世界冠軍的人工智能程序。
其主要工作原理是“深度學習”。
阿爾法圍棋(AlphaGo)是一款圍棋人工智能程序。
其主要工作原理是“深度學習”。
“深度學習”是指多層的人工神經(jīng)网络和訓練它的方法。
一層神經(jīng)网络會把大量矩陣數(shù)字作為輸入,通過非線性激活方法取權重,再產(chǎn)生另一個數(shù)據(jù)集合作為輸出。
這就像生物神經(jīng)大腦的工作機理一樣,通過合適的矩陣數(shù)量,多層組織鏈接一起,形成神經(jīng)网络“大腦”進行精準復雜的處理,就像人們識別物體標注圖片一樣。
對于最強AlphaGo Zero如何煉成的真心話,都在這里
最強AlphaGo Zero怎樣煉成剛剛,Deepmind在Reddit的Machine Learning板塊舉辦了在線答疑活動AMA,Deepmind強化學習組負責人David Silver和其同事熱情地回答了網(wǎng)友們提出的各種問題。
由于在AMA前一天Deepmind剛剛發(fā)表了《Mastering the game of Go without human knowledge》(不使用人類知識掌握圍棋)的論文,相關的提問和討論也異常熱烈。
什么是AMA?AMA(Ask Me Anything)是由Reddit的特色欄目,你也可以將其理解為在線的“真心話大冒險”。
AMA一般會約定一個時間,并提前若干天在Reddit上收集問題,回答者統(tǒng)一解答。
本次Deepmind AMA的回答人是:David Silver:Deepmind強化學習組負責人,AlphaGo首席研究員。
David Silver1997年畢業(yè)于劍橋大學,獲得艾迪生威斯利獎。
David于2004年在阿爾伯塔大學獲得計算機博士學位,2013年加盟DeepMind,是AlphaGo項目的主要技術負責人。
Julian Schritieser:Deepmind高級軟件工程師。
此前有多位機器學習界的大牛/公司在Reddit Machine Learning版塊開設AMA,包括:Google Brain Team、OpenAI Research Team 、Andrew Ng and Adam Coates、Jürgen Schmidhuber、Geoffrey Hinton、Michael Jordan 、Yann LeCun、Yoshua Bengio等。
我們從今天Deepmind的AMA中選取了一些代表性的問題,整理如下:關于論文與技術細節(jié)Q: Deepmind Zero的訓練為什么如此穩(wěn)定?深層次的增強學習是不穩(wěn)定和容易遺忘的,自我對局也是不穩(wěn)定和容易遺忘的,如果沒有一個好的基于模仿的初始化狀態(tài)和歷史檢查點,二者結合在一起應該是一個災難...但Zero從零開始,我沒有看到論文中有這部分的內(nèi)容,你們是怎么做到的呢?David Silver:在深層增強學習上,AlphaGo Zero與典型的無模式算法(如策略梯度或者Q學習)采用的是完全不同的算法。
通過使用AlphaGo搜索,我們可以極大改進策略和自我對局的結果,然后我們會用簡單的、基于梯度的更新來訓練下一個策略及價值网络。
比起基于簡便的基于梯度的策略改進,這樣的做法會更加穩(wěn)定。
Q:我注意到ELO等級分增長的數(shù)據(jù)只與到第40天,是否是因為論文截稿的原因?或者說之后AlphaGo的數(shù)據(jù)不再顯著改善?David Silver:AlphaGo已經(jīng)退役了!這意味著我們將人員和硬件資源轉(zhuǎn)移到其他AI問題中,我們還有很長的路要走吶。
Q:關于論文的兩個問題:Q1:您能解釋為什么AlphaGo的殘差塊輸入尺寸為19x19x17嗎?我不知道為什么每個對局者需要用8個堆疊的二進制特征層來描述?我覺得1、2個層就夠了啊。
雖然我不是100%理解圍棋的規(guī)則,但8個層看起來也多了點吧?Q2:由于整個通道使用自我對局與最近的/最好的模型進行比較,你們覺得這對于采用參數(shù)空間的特定SGD驅(qū)動軌跡對否會有過擬合的風險?David Silver:說起來使用表征可能比現(xiàn)在用的8層堆疊的做法更好!但我們使用堆疊的方式觀察歷史數(shù)據(jù)有三個原因:1)它與其他領域的常見輸入一致;2)我們需要一些歷史狀態(tài)來表示被KO;3)如果有一些歷史數(shù)據(jù),我們可以更好地猜測對手最近下的位置,這可以作為一種關注機制(注:在圍棋中,這叫“敵之要點即我之要點”),而第17層用于標注我們現(xiàn)在究竟是執(zhí)黑子還是白子,因為要考慮貼目的關系。
Q:有了強大的棋類引擎,我們可以給玩家一個評級——例如Elo圍棋等級分就是通過棋手對局的分析逐步得出的,那么AlphaGo是否可以對過去有等級分前的棋手的實力進行分析?這可能為研究人類的認知提供一個平臺。
Julian Schritieser:感謝分享,這個主意很棒!我認為在圍棋中這完全可以做到,或許可以用最佳應對和實際應對的價值差異或者政策网络給每一手位置評估得到的概率來進行?我有空的時候試一下。
Q: 既然AlphaGo已經(jīng)退役了,是否有將其開源的計劃?這將對圍棋社區(qū)和機器學習研究產(chǎn)生巨大的影響。
還有,Hassabis在烏鎮(zhèn)宣稱的圍棋工具將會什么時候發(fā)布?David Silver:現(xiàn)在這個工具正在準備中。
不久后你就能看到新的消息。
Q:AlphaGo開發(fā)過程中,在系統(tǒng)架構上遇到的最大障礙是什么?David Silver:我們遇到的一個重大挑戰(zhàn)是在和李世石比賽的時候,當時我們意識到AlphaGo偶爾會受到我們所謂的“妄想”的影響,也就是說,程序可能會錯誤理解當前盤面局勢,并在錯誤的方向上持續(xù)許多步。
我們嘗試了許多方案,包括引入更多的圍棋知識或人類元知識來解決這個問題。
但最終我們?nèi)〉昧顺晒?,從AlphaGo本身解決了這個問題,更多地依靠強化學習的力量來獲得更高質(zhì)量的解決方案。
圍棋愛好者的問題Q:1846年,在十四世本因坊跡目秀策與十一世井上幻庵因碩的一盤對局中,秀策下的第127手讓幻庵因碩一時驚急兩耳發(fā)赤,該手成為扭轉(zhuǎn)敗局的“耳赤一手”。
如果是AlphaGo,是否也會下出相同的一首棋?Julian Schritieser:我問了樊麾,他的回答是這樣的:當時的圍棋不貼目,而AlphaGo的對局中,黑棋需貼7.5目。
貼目情況不同造成了古今棋局的差異,如果讓AlphaGo穿越到當年下那一手,很有可能下的是不同的另一個地方。
Q:從已發(fā)布的AlphaGo相互對局看,執(zhí)白子的時間更為充裕,因...
AlphaGo這個系統(tǒng)主要由幾個部分組成:走棋网络(Policy Neork),給定當前局面,預測/采樣下一步的走棋。
快速走子(Fast rollout),目標和1一樣,但在適當犧牲走棋質(zhì)量的條件下,速度要比1快1000倍。
估值网络(Value Neork),給定當前局面,估計是白勝還是黑勝。
蒙特卡羅樹搜索(Monte Carlo Tree Search,MCTS),把以上這三個部分連起來,形成一個完整的系統(tǒng)。
我們的DarkForest和AlphaGo同樣是用4搭建的系統(tǒng)。
DarkForest較AlphaGo而言,在訓練時加強了1,而少了2和3,然后以開源軟件Pachi的缺省策略 (default policy)部分替代了2的功能。
以下介紹下各部分。
1、走棋网络走棋网络把當前局面作為輸入,預測/采樣下一步的走棋。
它的預測不只給出最強的一手,而是對棋盤上所有可能的下一著給一個分數(shù)。
棋盤上有361個點,它就給出361個數(shù),好招的分數(shù)比壞招要高。
DarkForest在這部分有創(chuàng)新,通過在訓練時預測三步而非一步,提高了策略輸出的質(zhì)量,和他們在使用增強學習進行自我對局后得到的走棋网络(RL neork)的效果相當。
當然,他們并沒有在最后的系統(tǒng)中使用增強學習后的网络,而是用了直接通過訓練學習到的网络(SL neork),理由是RL neork輸出的走棋缺乏變化,對搜索不利。
有意思的是在AlphaGo為了速度上的考慮,只用了寬度為192的网络,而并沒有使用最好的寬度為384的网络(見圖2(a)),所以要是GPU更快一點(或者更多一點),AlphaGo肯定是會變得更強的。
所謂的0.1秒走一步,就是純粹用這樣的网络,下出有最高置信度的合法著法。
這種做法一點也沒有做搜索,但是大局觀非常強,不會陷入局部戰(zhàn)斗中,說它建模了“棋感”一點也沒有錯。
我們把DarkForest的走棋网络直接放上KGS就有3d的水平,讓所有人都驚嘆了下。
可以說,這一波圍棋AI的突破,主要得益于走棋网络的突破。
這個在以前是不可想像的,以前用的是基于規(guī)則,或者基于局部形狀再加上簡單線性分類器訓練的走子生成法,需要慢慢調(diào)參數(shù)年,才有進步。
當然,只用走棋网络問題也很多,就我們在DarkForest上看到的來說,會不顧大小無謂爭劫,會無謂脫先,不顧局部死活,對殺出錯,等等。
有點像高手不經(jīng)認真思考的隨手棋。
因為走棋网络沒有價值判斷功能,只是憑“直覺”在下棋,只有在加了搜索之后,電腦才有價值判斷的能力。
2、快速走子那有了走棋网络,為什么還要做快速走子呢?有兩個原因,首先走棋网络的運行速度是比較慢的,AlphaGo說是3毫秒,我們這里也差不多,而快速走子能做到幾微秒級別,差了1000倍。
所以在走棋网络沒有返回的時候讓CPU不閑著先搜索起來是很重要的,等到网络返回更好的著法后,再更新對應的著法信息。
其次,快速走子可以用來評估盤面。
由于天文數(shù)字般的可能局面數(shù),圍棋的搜索是毫無希望走到底的,搜索到一定程度就要對現(xiàn)有局面做個估分。
在沒有估值网络的時候,不像國象可以通過算棋子的分數(shù)來對盤面做比較精確的估值,圍棋盤面的估計得要通過模擬走子來進行,從當前盤面一路走到底,不考慮岔路地算出勝負,然后把勝負值作為當前盤面價值的一個估計。
這里有個需要權衡的地方:在同等時間下,模擬走子的質(zhì)量高,單次估值精度高但走子速度慢;模擬走子速度快乃至使用隨機走子,雖然單次估值精度低,但可以多模擬幾次算平均值,效果未必不好。
所以說,如果有一個質(zhì)量高又速度快的走子策略,那對于棋力的提高是非常有幫助的。
為了達到這個目標,神經(jīng)网络的模型就顯得太慢,還是要用傳統(tǒng)的局部特征匹配(local pattern matching)加線性回歸(logistic regression)的方法,這辦法雖然不新但非常好使,幾乎所有的廣告推薦,競價排名,新聞排序,都是用的它。
與更為傳統(tǒng)的基于規(guī)則的方案相比,它在吸納了眾多高手對局之后就具備了用梯度下降法自動調(diào)參的能力,所以性能提高起來會更快更省心。
AlphaGo用這個辦法達到了2微秒的走子速度和24.2%的走子準確率。
24.2%的意思是說它的最好預測和圍棋高手的下子有0.242的概率是重合的,相比之下,走棋网络在GPU上用2毫秒能達到57%的準確率。
這里,我們就看到了走子速度和精度的權衡。
和訓練深度學習模型不同,快速走子用到了局部特征匹配,自然需要一些圍棋的領域知識來選擇局部特征。
對此AlphaGo只提供了局部特征的數(shù)目(見Extended Table 4),而沒有說明特征的具體細節(jié)。
我最近也實驗了他們的辦法,達到了25.1%的準確率和4-5微秒的走子速度,然而全系統(tǒng)整合下來并沒有復現(xiàn)他們的水平。
我感覺上24.2%并不能完全概括他們快速走子的棋力,因為只要走錯關鍵的一步,局面判斷就完全錯誤了;而圖2(b)更能體現(xiàn)他們快速走子對盤面形勢估計的精確度,要能達到他們圖2(b)這樣的水準,比簡單地匹配24.2%要做更多的工作,而他們并未在文章中強調(diào)這一點。
在AlphaGo有了快速走子之后,不需要走棋网络和估值网络,不借助任何深度學習和GPU的幫助,不使用增強學習,在單機上就已經(jīng)達到了3d的水平(見Extended Table 7倒數(shù)第二行),這是相當厲害的了。
任何使用傳統(tǒng)方法在單機上達...
轉(zhuǎn)載請注明出處作文大全網(wǎng) ? alphago是什么語言開發(fā)的










