可回溯过去、能解决复杂任务,AI向实现真正“智能学习体”迈出重要一步

2021-02-25 01:33:00 来源: 科技日报 作者: 张梦然

科技日报记者 张梦然

英国《自然》杂志24日发表一项人工智能研究成果:美国团队报告了一类增强学习,可回溯过去、解决复杂任务,真正改善了对复杂环境的探索方式,有望应用于机器人、语言理解和药物设计领域。这类算法被统称为“Go-Explore”,其已经在一款经典游戏的算法挑战中得分超过了人类玩家和先进的人工智能系统。该成果被认为正朝着实现真正“智能学习体”迈出了重要一步。

增强学习,可让人工智能系统通过探索和理解复杂环境来进行决策,并学习如何以最优的方式获得奖励。奖励可以包括机器人抵达特定位置或是在电脑游戏中达到一定的等级。然而,当遇到很少给予反馈的复杂环境时,现阶段的加强学习算法就很容易碰壁,这让人工智能专家们非常苦恼。

美国“OpenAI”是由诸多硅谷巨头联合建立的人工智能非营利组织,推动者包括美国创业孵化器Y Combinator总裁萨姆·阿尔特曼、美国太空技术探索公司(SpaceX)创始人埃隆·马斯克等,其目标是希望能够预防人工智能的灾难性影响,并推动人工智能发挥积极作用。此次,“OpenAI”的科学家艾德兰·艾克菲特、朱斯特·赫伊津哈及团队,提出了有效探索面临的两个主要障碍,并设计了一类算法来解决这些障碍。

研究人员表示,“Go-Explore”可以对环境进行全面探索,同时构建一个档案库来记住它去过的地方,确保自己不会忘记通往有望成功的期中阶段或是最终胜利(奖励)的路线。其在雅达利经典游戏中的得分,超过了人类玩家和先进的人工智能系统,研究人员用这类算法,解决了之前未能解决的2600个雅达利游戏,验证了这类算法的潜力。“Go-Explore”在算法挑战《蒙特祖马的复仇》中的得分是之前的4倍,在另一个算法挑战《玛雅人的冒险》中的得分也超过了人类玩家的平均水平。而相对的,此前的算法一分都拿不到。

“Go-Explore”算法还能完成一个模拟机器人任务,在这项任务中,它必须用机械臂把东西捡起来并放到4个架子中的一个架子上,其中两个架子被关在两扇门的后面。

研究人员指出,记住并回到有望成功的探索区域的简单原则是一种强大、通用的探索方法。他们认为最新的算法有望应用于机器人、语言理解和药物设计。

加载更多>>
责任编辑:左常睿
网站地图 永利注册送22元 永利在线开户 新葡京上搜博网
申博娱乐平台 申博会员登陆 太阳城官方 沙龙游戏登入
新葡京捕鱼达人 葡京彩票网东京1.5分彩 云顶彩票江苏快三 足球术语中英文对照
永利娱乐网 永利宝官网 永利注册送38体验金 永利娱乐场开户
新葡京娱乐场线路检测 澳门新葡京开户网址 永利娱乐官方网址 澳门网上新葡京开户
586sunbet.com 56jbs.com S618U.COM S618K.COM 729sun.com
199TGP.COM 1113886.COM 68XTD.COM 157ib.com 586sunbet.com
587sj.com 538sj.com XSB358.COM 198jbs.com DC398.COM
1112997.COM S618K.COM XSB298.COM 97XTD.COM 885jbs.com