为什么自我学习的人工智能在现实世界会遇到问题?

来源:新华网  06-12 09:16

   直到最近,那些能打败冠军的机器才勉强得以从人类的经验中吸取教训获得发展。

  为了在1997年在国际象棋比赛中击败Garry Kasparov,IBM的工程师在他们的深蓝计算机中运用了几百年来国际象棋的智慧。2016年,在数百万人的注视下,Google DeepMind的AlphaGo在古老的棋盘游戏中击败了曾战胜数万人类的冠军李世石。

  但是现在,人工智能研究人员正在重新思考他们的机器人如何融入人类知识的整体。当前的趋势是:不必麻烦。

  去年十月,DeepMind团队发布了一个全新Go-playing系统——AlphaGo Zero的细节,该系统完全不研究人类游戏。 相反,它从游戏的规则开始,并与自己对抗。 它所做的第一个动作完全是随机的。 每场比赛之后,它都会重新获知导致胜利的原因以及失败的原因。 在这些随机的比赛结束时,AlphaGo Zero与曾经击败李世石的超人气AlphaGo进行了正面交锋。 它以100比0赢得比赛。

  该团队继续创造了AlphaGo家族中另一位游戏玩家,它叫做AlphaZero。 在12月份发布在科学预印本网站arxiv.org上的一篇论文中,DeepMind的研究人员透露,从零开始,经过培训的AlphaZero表现好于AlphaGo Zero。 当它获得国际象棋或日本国际象棋的规则时,AlphaZero很快就学会了赢得这些游戏的顶级算法。 专家们对该计划的侵略性和陌生的风格感到惊叹。 “我一直想知道,如果一个更高级的物种降落在地球上并向我们展示他们如何下棋,我们该如何应对”丹麦大师Peter Heine Nielsen告诉BBC采访人员说。 “现在我明白了。”

  在过去的一年里,还有超凡的自学机器人出现在各种场合,如无限制扑克和Dota 2,这是一款非常受欢迎的多人在线电子游戏,在这款游戏中以幻想为主题的英雄为控制外星人世界而战。

  当然,投资这些领域的公司雄心勃勃,他们的目标不仅仅是主宰电子游戏比赛。 像DeepMind这样的研究团队希望将类似的方法应用于现实世界问题,如:建立室温超导体或者理解折叠蛋白质成为有效药物分子的所需。 当然,许多从业人员希望最终能够建立起一般式的人造智能,这样的人工智能目标不明确但足以吸引人,它像人一样思考,具有多种功能来攻破许多不同类型的问题。

  然而,尽管在这些人工智能系统上进行了投资,但目前的技术可以走多远尚不清楚。 华盛顿大学计算机科学家Pedro Domingos说:“我不确定AlphaZero中的想法是否容易推广,游戏是一件非常不寻常的事情。”

  一个不完美世界的完美目标

  许多游戏,包括国际象棋和围棋的共同特点是玩家可以随时看到双方的所有棋子。 每个玩家总是拥有关于游戏状态的所谓“完美信息”。 无论游戏如何复杂,你只需要从目前的情况来思考。

  大量的实际情况并非如此。 想象一下,要求电脑诊断疾病或进行商业谈判。 “大多数现实世界的战略互动涉及隐藏的信息,”卡内基梅隆大学计算机科学博士生Noam Brown说。 “我觉得在AI大多数人都忽视了这一点。”

  Brown擅长的扑克牌提供了一个不同的挑战。 你看不到你对手的牌。 但在这里,通过与自己对抗学习的机器现在已经达到了超人的水平。 2017年1月,Brown及其顾问Tuomas Sandholm创立的名为Libratus的计划,在单挑无限德州扑克比赛中超过了四名职业扑克玩家,在20天的比赛结束前领先对手170万美元。

  另一个涉及不完美信息的令人生畏的游戏是“星际争霸2”,这是另一款多人在线电子游戏,游戏内容复杂。 玩家选择一支队伍,建立一支军队并在科幻地带进行战争。 但这种景观笼罩在战争迷雾中,只让玩家看到他们有士兵或建筑物的地方。 即使是侦察你的对手也充满了不确定性。

  这是AI仍然无法战胜的一场比赛。 成功的障碍包括游戏中的士兵移动的数量,他们往往多达成千上万,以及建筑必须制造的速度。 每个玩家——无论是人还是机器——都必须在每次点击时考虑一大堆可能的未来。

  就目前而言,人工智能在这款游戏上无法战胜人类。 但这成为了一个目标。 2017年8月,DeepMind与制作星际争霸II的公司Blizzard Entertainment合作,发布了他们认为可以帮助AI研究人员开放游戏的工具。

  尽管存在挑战,“星际争霸2”还是有一个简单明了的目标:消灭你的敌人。 这是它与国际象棋,围棋,扑克,Dota 2以及其他任何游戏一样的目标。 在游戏中,你必须获胜。

  从算法的角度来看,问题需要有一个“目标函数”——一个需要解决的目标。 当AlphaZero下棋时,这个目标并不难。 失败计为负1,平局为零,胜利为加1。 AlphaZero的目标功能是使分数最大化。 扑克机器人的目标功能非常简单:赢得大量资金。

  真实情况并非如此简单。 例如,一辆自动驾驶汽车需要更细致的目标功能。 例如:迅速将乘客送到正确的地点,遵守所有法律,并在危险和不确定的情况下恰当地衡量人的生命价值。 Domingos说:“研究人员如何制定目标函数是将机器学习研究人员与普通机器学习研究者区分开来的一个方面。”

  想想微软在2016年3月23日发布的Twitter聊天机器人Tay吧。Tay的目标是让人们参与进来,它做到了。“不幸的是,Tay被发现在最大限度的参与聊天时,它出现了种族主义的侮辱性话语。”Domingos说。在不到一天的时间内,它就被紧急召回。

  你自己最好的敌人

  有些事情不会改变。 当今占主导地位的游戏机器人所运用的理论是数十年前就已经在运用的。 多伦多大学的计算机科学家David Duvenaud说:“这几乎是过去的一次技术大爆炸,许多计算策略在那时产生。

  这些策略通常依赖于强化学习,并不干涉技术。 工程师不是通过对具有详细说明的算法进行微操作,而是让机器探索一个环境并通过反复试验来实现目标。 在AlphaGo及其后代发布之前,DeepMind团队在2013年实现了其首个能上大型头条新闻的目标,当时他们使用强化学习来制作一款可以玩7个Atari 2600游戏的机器人,其中三个是专家级游戏。

  这一进展继续下去。 2月5日,DeepMind发布了可以学习57个Atari 2600游戏的AI系统——IMPALA,以及DeepMind三维构建的30个关卡。 在这些关卡中,玩家在不同的环境中漫游,实现打开门或收获蘑菇的目标。 IMPALA似乎在任务之间传递知识,这意味着花在玩一款游戏上的时间也有助于提高玩其他游戏的时间。

  但是在更强大的强化学习类别中,棋盘游戏和多人游戏允许采用更具体的方法。 在这里,探索可以采用自我对抗的形式,其中一种算法通过反复地与自己的密切副本进行搏斗而获得战略优势。

  这个想法可追溯到几十年。 在二十世纪五十年代,IBM工程师Arthur Samuel创建了一个跳棋游戏程序,该程序在一定程度上通过匹配alpha和beta进行对抗来学习。 而在20世纪90年代,同样来自IBM的Gerald Tesauro构建了一个步步高计划,将算法与自己对抗。 该计划达到了人类专家级别,制定了非正统但有效的战略。

  在一个一个游戏之后,自我对抗系统中的算法面临同等匹配的敌人。 这意味着策略的变化会导致不同的结果,算法需要提供即时的反馈。 OpenAI研究总监Ilya Sutskever说:“无论何时,当你发现一件事情时,你的对手都会立刻用它来攻击你。”OpenAI是一家非营利组织,Elon Musk参与共同创立,致力于开发和共享AI技术并将其引向安全应用。 2017年8月,该组织发布了一款Dota 2机器人控制角色影魔——亡灵巫师,该角色在一对一的战斗中击败世界上最厉害的玩家。 另一个OpenAI项目在相扑比赛中模拟人类相互对抗,在那里他们最终教会自己如何进攻和佯攻。 在自我对抗系统,“你永远不能休息,你必须永远改善。”Sutskever说。

  但是如果机器的最终目标是尽可能做到人类能够做到的事情,那么即使是像AlphaZero这样自学成才,多面手的棋盘游戏冠军也可能还有一段很长的路要走。“至少在我看来,真正的思维活动,想法的创造性探索以及我们目前在AI中看到的东西之间确实存在巨大差距,”麻省理工学院认知科学家Josh Tenenbaum说。“人工智能就在眼前,但它主要的部分还在伟大的人工智能研究人员的脑海里。”

  许多其他研究人员,意识到围绕他们领域的炒作,便给出了他们自己的限定词。 “我会小心不要高估AI玩这些游戏的意义。 人类对游戏并不擅长。“Google的深度学习研究员FrançoisChollet说。

  “但请记住,非常简单的专用工具实际上可以实现很多,”他说。

  本文编译自quantamagazine,原文标题为Why Self-Taught Artificial Intelligence Has Trouble With the Real World,作者Joshua Sokol,编译邢天航,编辑杜雪。