不滿足於AI對抗人類,Google設計「囚徒困境」讓AI大戰AI!

不滿足於AI對抗人類,Google設計「囚徒困境」讓AI大戰AI!

不滿足於AI對抗人類,Google設計「囚徒困境」讓AI大戰AI!

未來的人工智能(AI)時代對人類究竟會帶來怎樣的影響?當 AI 大幅介入人類生活,例如同時有兩輛 AI 汽車開往同一目的地,又或者兩個機器人控制的企業爭奪同一處資源,發生利益衝突時,他們會相互對抗抑或合作追求雙贏?
繼研發 AlphaGo 打敗各大圍棋棋王後,Google 旗下人工智能公司 DeepMind 最近就試驗了讓 AI 對抗 AI,結果發現,在追求最高勝算的目標下, AI 表現出了足夠靈活度,對抗與合作的情況都有發生。
DeepMind 在新研究中,測試 AI 如何在一系列可能要運用博弈論(game theory)的「社會困境」中,根據所處的環境及情況改變他們的行為模式。而最出名的實驗,就是模仿了知名的「囚徒困境」(prisoner’s dilemma)。

囚徒困境
這是博弈論的非零和博弈中具代表性的例子,反映個人最佳選擇並非團體最佳選擇。在經典的囚徒困境中,兩名共謀的罪犯被分開審問,不得相互溝通。若兩人都不揭發對方,則因證據不足,每人都坐牢半年;若只有某一人認罪並供出同夥,便會立功而獲釋,而同夥則會因不合作警方被判刑10年;若兩人都互相檢舉,則因證據確鑿,皆判刑5年。也因為囚徒無法信任對方,此理論說明為何在合作對雙方都有利時,保持合作也是困難的。

具體而言,DeepMind 團隊設計了兩款遊戲讓兩個 AI 系統競賽。第一款是名為“Gathering”的回合制收集蘋果比賽。玩家能以光束攻擊對方使其暫時消失,從而為自己爭取更多收集蘋果的時間。而第二款捕獵遊戲“Wolfpack”中,玩家則要在障礙物中尋找獵物來得分,但若對手抓到獵物時,另一名玩家剛好在附近,也能得分;而若只有一名玩家抓到獵物,則有被拾荒者搶走獵物的風險。
在 AI 在遊戲中進行了成千上萬次嘗試以學習「理性行事」後,研究人員發現,在同一遊戲中,AI 會根據不同情境相互合作或競爭。
例如在收集蘋果比賽中,若蘋果數量充足,則 AI 彼此相安無事,各自收集愈多蘋果愈好;但隨着蘋果數量減少,彼此攻擊的頻率便逐漸增加。有趣的是,若研究者提高某一 AI 的計算能力,則無論蘋果多寡,該 AI 的攻擊頻率也會大幅增加。
但研究團隊認為,這並不代表能力愈高的 AI 就愈有攻擊性。因為攻擊行為本身相當耗費運算資源,若投入過多,也會影響收集的蘋果數量。也就是說,AI 並非因為更聰明而更「自私」,他們的攻擊慾望其實與之前一樣,只不過計算能力不夠時,攻擊行為實在是得不償失。

同樣的結論也出現在捕獵的“Wolfpack”遊戲中,團隊發現運算能力愈高的 AI 彼此合作的機率也愈高。團隊解釋,在此遊戲中,合作行為需要使用更多運算資源,且由於獵物只有1個,對抗不能增加獲勝機會,因而愈有能力的 AI 愈傾向與對手合作。
DeepMind 團隊指出,這些實驗顯示 AI 會根據不同遊戲規則所影響的情境及風險,來改變自身行為;因此,未來可以透過制定合作共贏的規則,限制AI的行為模式。他們也表示,此實驗表明我們能將現代的 AI 多重人工智能學習技術運用到如「合作如何出現」等古老的社會科學問題中,也因而能讓人們更理解並掌握未來如經濟、交通系統、地球生態系等複雜的多重人工智能系統。