一条自学成才的“狗”
10月18日,杭州,中国棋手柯洁在连续5局猜先拿到黑棋的情况下,完成逆转,决赛中最终击败小2岁的许嘉阳,首次夺得利民杯星锐战冠军。
获胜后的柯洁难掩兴奋之情,在微博上表示结局美好,并幽默地向新生代棋手喊话:现在的中日韩新锐一个比一个优秀...但希望你们记住我——你们的前辈是很厉害的。
8个小时后,柯洁又发了一条微博,但这条微博传达的情绪却与刚刚获胜的喜悦格格不入。柯洁感叹:人类实在太多余了。
让柯洁发出这声沉重的叹息是因为AlphaGo又重出江湖了。而这次,是更加强大的“新狗”AlphaGo Zero。
江山代有“新狗”出
2016 年在 AlphaGo 和韩国棋手李世石的对战后,人工智能棋手开始进入大众的视野。今年5月27日,“阿尔法狗”与年轻有为的中国棋手柯洁迎来终局对决,在历经约3个半小时的对弈后,柯洁投子认输,执黑的“AlphaGo”中盘获胜。至此,人机大战2.0结束,柯洁在与AlphaGo的三番棋全部告负。
在赛后的发布会上,柯洁就坦言“感谢这个强大的对手,让我知道我居然会有这么大的差距,希望以后自己能再进步一点,差距再小一点,AlphaGo团队太了不起了,冷静,可怕,完美的对手。”
比赛结束后,AlphaGo宣布不再和人下棋。
但它的创造者并没有因此停下脚步,就在昨天,专注于推进人工智能(AI)研究的谷歌子公司Deepmind又在《自然》期刊上发表了关于 AlphaGo的新论文,并宣布新版AlphaGo——AlphaGo Zero可以在没有人类指导的情况下学习,其水平超过此前所有AlphaGo(阿尔法狗)。
更恐怖的是,Zero经过三天训练就能够击败AlphaGo Lee (即去年战胜李世石的版本),节约了90%+的时间,且胜率是100:0。四十天之后,Zero甚至超越了姐妹版本Master(即今年战胜柯洁的版本),对Master实现90%胜率。Zero达到目前人类的棋力,只花了3天时间,大约70小时,下了490万局。很多人说,阿尔法元3天,超过了人类3000年。
无招胜有招
和以前的 AlphaGo相比,“新狗”比“老狗”具有以下特点:
从零开始学习,不需要任何人类的经验
使用更少的算力得到了更好的结果
发现了新的围棋定式
将策略网络和值网络合并
使用了深度残差网络
特别需要注意的是第一点。据DeepMind的创始人 Demis Hassabis 介绍,它的学习从零开始,且单纯基于与自己的对弈。人类的输入仅限于棋盘和棋子,没有任何人类数据。AlphaGo Zero仅用到一张神经网络,这张网络经过训练,专门预测程序自身的棋步和棋局的赢家,在每次自我对弈中进步。新程序只使用一台机器和4个TPU。
AlphaGo Zero就像人类初学者,需要经历一定时间摸索。不同训练阶段进行的三场自我对弈游戏中的头80步,图中显示的下法来自AlphaGo Zero的一个版本,这个版本的神经网络由20个模块组成。
通俗点来说,AlphaGo Zero是无监督学习的产物,它是自学成才的。
我们知道,旧版AlphaGo接受的训练是,观摩由实力强大的业余或专业棋手对弈的海量棋局。但AlphaGo Zero没有获得这样的帮助,它自我对弈数百万次,并从中学习。一开始,它只是随意把棋子放在棋盘上,但后来它发现了获胜的策略,棋艺就快速提升了。
金庸的武侠小说中,有一境界叫“无招胜有招”。这一境界的最大特点是“忘记”,能将所学的招式忘得越多越好。一切武功招式都只不过是武学的形骸,都要通通忘记,只有记住了其精髓所在,举手投足间,如行云流水。
无论张无忌还是令狐冲,手中无招,心中也无招,出手浑然天成,制人不制于人。这是武学的最高境界,无所不至,无坚不摧。
AlphaGo Zero从一出生就是一张“白纸”,把一切忘记,把一切归零,自己摸索,自己发现规律。人的经验或许能帮助机器掌握智能,但或许人的经验是有缺陷的,不如让机器自己发现新的,更好的规律。
由于在硬件和算法上的进步,AlphaGo变得越来越有效率
人类研究围棋已经上千年,有了无数经验和无数定式。我们自以为洞晓了围棋的全部真谛,参透了围棋的伟大奥义,什么是“妙手”,什么是“臭手”,什么“二连星布局”、“十王走马势”,什么“压强不压弱”、“棋从断处生”,谁知道人工智能以“无招胜有招”的策略和算法技术就把人类几千年的金科玉律轻易击破,很多以前教科书中笃定蠢不可及的败笔,突然成了神来之笔。
刘慈欣在科幻小说《三体Ⅲ:死神永生》里有句名言:“弱小和无知不是生存的障碍,傲慢才是。”
“阿法狗”的不断进化,会让我们窥见科技的力量,也灼以我们深深的挫败感。然而,我们不能把曾经的傲慢情绪急速转化为幻灭感,我们应该一边骄傲,一边谦卑,这种较量更能试出我们的潜能。
人生本有尽,宇宙永无穷。我们看到了人工智能的不可一世,也让我们看到更加崭新的自己。