鑒於以上的問題,很多心理學家將行為主
義束之高閣,令人意外的是,在人工智慧盛行
的這個年代,行為主義竟然鹹魚翻生!上世
紀 70 年代和 80 年代,電腦學家參考了行為主
義心理學怎樣強化人類行為的模式,將「強化
學習」(reinforcement learning)應用於簡單的
問題,例如控制機械人和讓電腦玩簡單的遊
戲。踏入 90 年代和兩個世紀之交替期間,
「強化學習」 的電腦程式突飛猛進。強化學
習與其他人工智能的學習演算法有一個很大的
區別:強化學習願意承受短暫的損失,從而取
得長遠的利益,以下棋為例,玩這個遊戲的最終目的是全勝,強化學習的人工智能不會貪
吃眼前的兵卒, 而是推算在幾十步之後怎樣把對方將軍。換句話說,強化學習情願輸掉
戰鬥,也要贏取整場戰爭(lose the battle but win the war ), 2016 年谷歌的人工智能系統
AlphaGo 打敗了世界棋王,正是採用這種戰略。如今,強化學習已經被廣泛應用於解決各
種實際問題,例如自動駕駛、推薦系統、個性化醫療……。
為什麼行為主義在人工智能這領域中會取得如此巨大的成就呢?上面提過行為主義的
缺點在電腦裏面反轉過來,變成了優點! 不錯,行為主義過度簡化了人類複雜的心理,
人類不是機器,人類有個性、情緒、 偏見、自由意志。然而,電腦就是機器!電腦沒有
個性,同樣的輸入會得到同樣的結果;人類並不善於學習,有時候縱使受過無數的獎賞和
懲罰,人類仍然沒有因此而改變行為, 我們有許多詞語和句子來描述這種現象:「江山
易改,品性難移」、「冥頑不靈」、「花崗石腦袋」、「 屎坑石頭, 又硬又臭」、「意
見接受,行動照舊」、「 歷史給予人最大的教訓,就是人類從來沒有從歷史吸取教
訓」……。 但機械 學習卻完全是另一回事, 在大多數情況下,演算法從過去案例的錯誤
中學習了教訓之後,便會不斷地完善自己,不會重複同樣的錯誤。還有,強化學習可以
高瞻遠矚,但人類往往貪圖眼前的利益,因小失大。
一位名叫基思賈爾斯 (Keith Giles ) 的美國牧師在一篇研討人工智能會否威脅宗教的
文章中指出: 「我們不應該害怕人工智能比人類更加聰明……,應該令我們恐懼的是,
我們創造了知道如何克服人類弱點的機械學習。」賈爾斯在他的文章中只是討論一般的人
工智能,而不是強化學習,但這真知灼見 更加適用於強化學習。