新算法让人工智能从错误中吸取教训,向成为“人”又跃近一步

来源:新华网  06-13 09:42

   简介

  OpenAI持续在用于训练人工智能系统的强化学习算法上取得进展。他们于今年二月份发布的最新平台允许人工智能系统从错误中吸取教训,将错误作为改进目标而非失败结果。

  会“自我审视”的人工智能系统

  近几个月来,OpenAI的研究人员一直致力于开发能够更善于学习的人工智能系统。该系统使用的机器学习算法能够进行自我训练,也就是说,利用OpenAI Baselines中的强化学习方法,机器学习算法可以自主学习。新算法让人工智能系统几乎能像人类一样从错误中吸取教训。

  这一进展源于OpenAI的研究人员于本周公布的名为“后见经验复现”(Hindsight Experience Reply, HER)的开源算法。正如名字所示,该算法在帮助人工智能系统完成一项任务后具有自我回顾的能力。OpenAI的博客中特别提到,该算法下的人工智能系统将失败视为成功之母。

  研究人员写到:“构建HER算法的关键是利用人类的本能。尽管我们没有达到某一特定目标,但我们至少达到了另一项目的,所以为何不假装我们想要将这一目的视为我们的初始目标,而不将初始目标定为那个原本我们设定要完成的目标?”

  简而言之,这意味着每一次失败的尝试都完成了另一项计划之外的“虚拟”目标。

  回想一下你学骑自行车的情景,最初的几次尝试中,你无法保持平衡。尽管如此,这些尝试教会你怎样骑是不正确的,想要保持平衡应该避免那些误区。每一次失败让你距离成功更进一步,这就是人类学习的过程。

  奖励每一次失败

  通过HER算法的应用,OpenAI希望他们的人工智能系统能以同样的方法进行学习。与此同时,这种算法也被作为增强学习模型中的奖励机制的替代算法。为了训练人工智能系统进行自我学习,必须嵌入一个奖励机制:每当人工智能系统完成一项目标,它会得到奖励,就像小孩得到一块曲奇饼。还有的模型根据人工智能系统距离完成目标有多近来给出奖励。

  但这两种方式都不够完美。第一种会阻碍学习,因为人工智能系统在训练中不论是否有进步,只有得到奖励和没得到奖励两个结果。而第二种算法根据IEEE Spectrum的报道,衡量与目标之间的距离实现难度非常大。如果将每一次尝试都当作后见之明的目标,即使人工智能系统没有完成某项任务,HER算法仍会给予其一个奖励,从而促使人工智能系统快速高质量学习。

  OpenAI的博客中提到:“通过对奖励机制进行替换,强化学习算法在达到某个目标后会获得一个学习信号,即使其并非初始希望达到的目标。如果重复这一过程,系统将会习得如何实现任意目标,包括一开始希望达到的目标。”

  这一方法并不意味着HER算法可以完全简化人工智能系统学习某个任务的过程。“在机器人上实际使用HER算法仍较有难度,还需大量实验验证。”OpenAI的研究人员Matthias Plappert这样告诉IEEE Spectrum。

  无论如何,按照OpenAI的模型所展示,HER算法能够有效“激励”人工智能系统像我们人类一样从错误中吸取教训。最大的不同是,人工智能系统不会像一些脆弱的人类一样遭遇挫折就心情沮丧。

  本文编译自Futurism,原标题为New Algorithm Lets AI Learn From Mistakes, Become a Little More Human,作者Dom Galeon ,编译曹语乔杜雪。