完全沒有吸取過人類經驗,卻勝過所有向人類學習的舊版程式。
撰文/《科學少年》編輯部
Google團隊開發出的AlphaGo,過去幾個版本的表現屢屢震撼人類的想像:2016年跟韓國棋士李世 對弈的AlphaGo Lee,僅輸了一局,程式還存有某種錯誤;而後升級的AlphaGo Master於今年5月對上中國棋士柯潔,戰績全勝。
這些版本的程式都是從人類經驗中成長,學習優秀的棋譜,再自我訓練數百萬次。
今年10月,科學家公布了一個終極版本AlphaGo Zero,它沒有輸入過人類棋譜,全靠著自我對戰來「強化學習」,學了40天,AlphaGo Zero對戰Master的勝率就將近九成!
圍棋AI使用「人工神經網路」來模仿人腦的思考與直覺,選擇落子位置的是「策略網路」,預測勝率的是「價值網路」,在AlphaGo Zero中,這二個神經網路合而為一,能力更強。
自學的AlphaGO Zero有許多觀念和人類累積數千年的智慧一致,如開局先占領棋盤的角落、基礎布局的攻守定式等;還有在收尾階段劃分黑白方界線時,盡量占領更多地的棋步。
但在中盤階段,因為每人下棋風格不同,就有無窮的變化性,而AlphaGO Zero在每一步總是穩穩掌握優勢,雖然人們不見得能參透它的棋路。
AlphaGO Zero從零開始,自己摸索圍棋的奧義,還發展創新的棋步,狂勝之前打敗人類的舊版AI,讓人驚覺圍棋的境界沒有最高,只有更高啊!
但它已退役了,科學家未來會轉移重心到不同領域的AI目標。
本文出自《科學少年》雜誌2017年12月號。
Let's block ads! (Why?)
留言列表