当前位置:主页 > 引领游戏 >不过半年 AlphaGo 已经像古董了:DeepMind 最 >

不过半年 AlphaGo 已经像古董了:DeepMind 最

   时间: 2020-06-14   来源: 引领游戏 阅读: 366

不过半年 AlphaGo 已经像古董了:DeepMind 最

作者:姜范波、Aileen、Yawei Xia、龙牧雪、魏子敏

在用 AlphaGo 和 AlphaGo Zero 称霸围棋世界后,12 月初,DeepMind 的研究组宣布已经开发出一个更为广泛的 AlphaZero 系统,它可以训练自己在棋盘,将棋和其他规则化游戏中实现「超人」技能,所有这些都在一天之内完成,并且无需其他干预,战绩斐然:

    4 个小时成为了世界级的国际象棋冠军;2 个小时在将棋上达到世界级水平;8 个小时战胜 DeepMind 引以为傲的围棋选手 AlphaGo Zero。

    这不禁让文摘菌想到了落入乾坤一气袋的张无忌瞬间精进的场景:

    在各路高手的真力激蕩之下打通数十处玄关,练成了独步天下的九阳神功,从此化身武林学霸。短短几个时辰内就练成了第七层乾坤大挪移,无论是太极拳剑还是圣火令武功都手到擒来,成为武林的百科全书。

    儘管如此,AlphaZero 距离一个真正的通用目标,独立 AI,还有一定的距离。国际象棋和将棋是比较容易的测试,因为它们比围棋简单。而像「星海争霸 2」这样複杂的视频游戏完全是另一码事,更不用说散步、艺术或抽象思维等模糊的概念了。

    另外还有速度的问题:虽然用来学习棋盘游戏的时间少于 24 小时,但对于 AI 需要现场适应的情况,速度太慢。DeepMind 报告也说,训练该软件使用了 5064 台功能强大的定制机器学习处理器(被称为 TPU)。(简直野蛮暴力)

    但仍然不可否认,这是人工智能迈出的重要一步。

    原本的人工智慧只能专注单一棋类,AlphaZero 则精通多项

    回忆人工智能的历史,很多人的印像都是一堆「各类技能」冠军——井字棋、跳棋和国际象棋。几十年来,研究人员已经研製了一系列超级专业的程序,在越来越高难度的游戏中击败人类。近期在围棋上,Deepmind 的 AlphaGo 也超越了人类。但是, 这些人造冠军们的共同弱点是——都只能玩某一种精心设计的游戏。而人类即使在某些技能上输了,在精通多种技艺这一点上,仍然完爆人工智能 。

    近日,DeepMind 官方宣布了第一个多技能的 AI 棋类游戏冠军程序。当地时间週二晚,Deepmind 发布的一篇论文描述了一款名为 AlphaZero 的软件,它可以在三种具有挑战性的游戏中自学,表现超越人类:国际象棋,围棋或将棋(亦称日本像棋)。

    DeepMind 在文章中描述了 AlphaZero 的学习过程。人类不再是国际象棋,围棋和将棋中最好的选手,所以 AlphaZero 就用最好的专业人工选手 (计算机程序 Stockfish、Elmo、AlphaGo Zero) 进行测试。这个新程序很快就打败了这三个人工棋手:

    只用了 4 个小时成为了世界级的国际象棋冠军;用 2 个小时在将棋上达到世界级水平;只花了 8 小时战胜 DeepMind 引以为傲、也是之前已知最好的围棋选手 AlphaGo Zero 。

    不过半年 AlphaGo 已经像古董了:DeepMind 最

    DeepMind 也表示,新程序 AlphaZero 模仿 AlphaGo Zero,通过同样的自我对练机制学习。AlphaZero 核心的算法是它的升级版本,能够搜索更广泛的可能策略以适应不同的游戏。

    AlphaZero 可以从头开始学习三个游戏中的每一个,儘管它需要按照每个游戏的规则进行编程。该程序通过与自己对练提高技能成为专家,尝试不同的玩法来发现获胜的途径。

    不过半年 AlphaGo 已经像古董了:DeepMind 最

    AlphaZero 还没有办法学会同时参加三场比赛。但是,一个程序学习三种不同的複杂游戏,能达到如此高的水平,还是惊人的,因为 AI 系统——包括那些可以「学习」的——通常是非常专业的,需要经历磨练来解决特定的问题。即使是最好的人工智能係统也不能在两个问题之间进行泛化——因此,许多专家认为机器要取代人还有很长一段路要走。

    AlphaZero 可能是 AI 系统走向非专门化的一小步。纽约大学教授 Julian Togelius 在周二发布的推文中指出,真正泛化的 AI 还道阻且长,但称 DeepMind 的论文「非常出色」。

    AlphaZero 的最大问题:用了太多 TPU,难以普及

    而 DeepMind 的这一研究进展对于业界来说也非常重要 。 更灵活的机器学习软件可以帮助 Google 加速在业务内部扩展人工智能技术。DeepMind 最新发明中的技术也可能帮助团队挑战视频游戏「星海争霸」(StarCraft),后者已经成为它的下一个目标。一个流行的商业视频游戏似乎没有正式而抽象的棋盘游戏那幺令人生畏。但「星海争霸」被认为複杂度更高,因为它各种变量和特徵的安排自由度更大,玩家必须预见对手不可见的行为。

    相比可以学习三个以上的棋盘游戏,并能解决各种空间,常识,逻辑,艺术和社会难题的人脑,AlphaZero 的智力水平仍然有限。

    DeepMind 论文中显示,AlphaZero 在三种游戏中使用了同样的算法设置、神经网络结构和超参数。训练过程包括 70 万步(4096 大小的 mini-batch),从随机生成的参数开始,使用了 5000 台 TPU 生成自对抗的棋局,接着使用 64 台 TPU 训练神经网络。

    一共 5064 台 TPU!文摘菌不得不感慨「何以解忧,唯有暴富」。

    不过半年 AlphaGo 已经像古董了:DeepMind 最

    相较于 AlphaGo Zero 用到的 64 台 GPU 和 19 台 CPU,AlphaZero 的算力可谓得到了指数级提升。算法的训练时间也从 AlphaGo Zero 的「几天」提升到了现在的「8 小时」。

    回头看看战胜了李世石和柯洁的惊天动地的 AlphaGo,已经显得像原始人了。它用到了 1920 台 CPU 和 280 台 GPU,需要训练几个月。

    人工智能的发展,有 3 个驱动力——数据、算法、算力。神经网络的「左右互搏」在数据和算法上做出了突破,而 Google 的 TPU 计算资源支持更是 AlphaZero 致胜的秘诀之一。

    从 10 月底围棋超人 AlphaGo Zero 的诞生,到 12 月进化成三种棋类超人 AlphaZero,不过只用了短短一个多月的时间。

    ——

    关于 AlphaGo,你也许还想看:

    AlphaGo 技术负责人专访:无师自通的 AlphaGo Zero 炼成术是什幺?
    人类对上电脑棋王唯一一胜:《AlphaGo》电影预告热血登场!
    不下围棋改打电动!发明 AlphaGo 的 DeepMind 与暴雪合作,让《星海争霸》变成 AI 实验室

上一篇:
下一篇:
猜你喜欢...
相关信息
图文欣赏
精彩推荐 
搞笑百态 
精彩文章

库博体育主页_大发黄金版客户端下载|服务园区|VR知名科|网站地图 博亿堂b8et98app_竞博app下载地址 九州bt365体育投注_e乐彩APP注册旧版 新时代赌场手机_mg游戏账号中心 新濠娱乐三元_极彩在线app下载 狗万·首页_游戏娱乐平台注册送礼金 申博sunbet代理_环球体育下载ios 万家乐国际app_众盈娱乐下载 2020下载app送38元彩金_星河网上娱乐 金沙电子app_sunbeAPP下载菲律宾 葡京网站大全app_上葡京体育app