展会信息港展会大全

360首席科学家评AlphaGo:成功的关键是反应速度快
来源:互联网   发布日期:2016-03-15 12:27:24   浏览:13573次  

导读:今日AlphaGo与李世石将进行最后一场比赛,而此前的四场比赛双方的比分为3:1。360首席科学家颜水成向TechWeb等媒体解析了AlphaGo的 神勇 表现,他指出,AlphaGo的胜利在意料之中,尤其围棋这样特定的问题人工智能战胜可能性比较大,不像人工智能在其他领域应...

今日AlphaGo与李世石将进行最后一场比赛,而此前的四场比赛双方的比分为3:1。360首席科学家颜水成向TechWeb等媒体解析了AlphaGo的 神勇 表现,他指出,AlphaGo的胜利在意料之中,尤其围棋这样特定的问题人工智能战胜可能性比较大,不像人工智能在其他领域应用更困难一些。

360首席科学家评AlphaGo:成功的关键是反应速度快

颜水成指出,AlphaGo成功的关键是搜索策略比以前快很多,快了之后效率就能保证,因为它本身快了,不用损失太大精度情况下满足比赛时的要求。 任何算法刚出来时,大家想的比较多的是算法在精度上能赢,在速度上考虑的不是特别多。当到了实战时,你要考虑娱乐性和实际比赛过程中肯定有时间限制,有会以损失精度的情况下去满足时间的要求,这时候性能就打了一个折扣,实际比赛中效果有会稍微差点。

颜水成还形象的解析了AlphaGo的学习过程:可以模拟成是一种练武的过程,首先是师父先教你武功,教了基本的招式之后你就可以有一些大概的印象,师父一般教武功时教两点,一是在当前某个姿势下应该怎么样动作会具有攻击性;二是还得考虑我出招时对手会拆招,后面再出招,再拆招你的赢面有多大。

具体到围棋,AlphaGo这样学习:

第一步,Policy network告诉你怎么样出招最具有杀伤力,Value network是通盘考虑对手拆招你再出招再拆招再出招是不是有比较大的赢面。

第二步,AlphaGo,相当于两个徒弟,两个版本的AlphaGo模型会根据师父教的内容开始博弈或练习下棋,有时候这个人赢了,有时候那个人赢了。这些数据拿过来重新训练 AlphaGo系统, 经验 就逐步积累起来了。

颜水成指出,AlphaGo的优势是,练武时真的要两个人试错才可以,真的练武才行。AlphaGo就直接在电脑里,或者在一台电脑里运行两个版本的程序,自己对招就可以了。如果机器资源足够多,时间足够长,你会认为它会把各种各样场景下的围棋过程都会涉及到,会有新样例产生出来,帮助训练AlphaGo。而且AlphaGo随着演变过程可能会形成自己的招式。

在颜水成看来,机器的胜算更大一些,水平会越来越高,而且速度会越来越快。 机器是根据历史经验直接算出来的,它信息量某种意义上要比人多很多,人再厉害也能记住的东西,能推算的步骤还是有限的,比如网上也有过一些人的分析,在围棋里,出现棋局的数量相当于10的几百次方,这种东西人的大脑是不可能存下来的,而且这比象棋的难度要大很多,而人不可能记这么多东西,而电脑有这个能力逐步模拟。


赞助本站

相关内容
AiLab云推荐
推荐内容
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港