捉迷藏也能学习?OpenAI用其教会AI团队合作!

图1:OpenAI的AI自己学会了如何玩捉迷藏游戏
 
捉迷藏的游戏自古已有之,它给无数孩子带来了无穷的童年乐趣。然而,现在这种古老游戏又在人工智能(AI)领域被赋予了新生,它不仅可以揭示很多关于AI如何权衡其所面临的决策问题,甚至展现了AI与其影响范围内的其他AI(或称近邻)互动的方式。
 
总部位于美国旧金山的AI研究公司OpenAI的研究人员日前发表论文,对捉迷藏游戏在AI中发挥的重要作用进行了阐述。OpenAI由特斯拉首席执行官埃隆·马斯克(Elon Musk)等硅谷大亨联合建立的,并得到了职业社交网站LinkedIn联合创始人里德·霍夫曼(Reid Hoffman)等名人的支持。
 
在最新发表的论文中,研究人员描述了大量由AI控制的代理如何在虚拟环境中捉迷藏的场景,并在此过程中学习利用越来越复杂的方法来躲避和寻找对方。测试结果表明,竞争中的双人AI代理团队的自我提高速度比任何单个代理都快。论文的共同作者说,这表明正在发挥作用的力量可以被利用,并适应其他AI领域,以提高效率。
 
今天开源的捉迷藏AI培训环境,加入了无数其他OpenAI、DeepMind和谷歌等公司为应对AI难题而提供的众源解决方案。去年12月,OpenAI发布了CoinRun,旨在测试强化学习代理的适应性。最近,该机构推出了Neural MMO,即大型强化学习模拟器,可以在类似角色扮演游戏(RPG)的世界中训练AI代理。在6月份,谷歌旗下Google Brain部门开源了Research Football Environment,这是用于训练AI掌握足球的3D强化学习模拟器。DeepMind上个月揭开了OpenSpiel的面纱,这是个视频游戏AI培训平台。
 
两位共同作者在这篇最新的论文中写道:创造能够解决各种复杂的、与人类相关任务的智能人工代理,一直是AI社区中的一个长期挑战。与人类特别相关的AI代理将是能够感知物理世界中的物体、并与之互动的代理。
训练和玩耍 
 
捉迷藏代理依赖于强化学习,这是一种利用奖励来推动软件政策朝着目标方向发展的技术,可以在反复试验中自我学习。近年来,与海量计算匹配的强化学习取得了巨大的成功,但也有其局限性。指定奖励函数或收集演示来监督任务可能既耗时又昂贵。最先进的方法要求对专家演示数据进行监督性学习,并使用奖励进一步提高绩效。此外,单个代理在强化任务中学习的技能受到任务描述的限制;一旦代理学会了解决任务,就没有太多改进空间了。
 
相反,研究人员追求的是一种他们称之为无方向探索的政策。在这种政策下,代理在他们对游戏世界的理解中自由进化,以设计出创造性的制胜策略。这类似于DeepMind科学家去年倡导的多智能体学习方法,在一项研究中,多个AI系统被训练为在游戏《雷神之锤III竞技场》(Quake III Arena)上玩夺旗游戏(Capture The Flag)。与这项研究一样,AI代理事先没有被教授游戏规则,但他们随着时间的推移学会了基本策略,并最终在技能上超过了大多数人类玩家。
 
微软的Suphx AI、OpenAI的OpenAI Five、DeepMind的AlphaStar以及Facebook的Pluribus,分别采用了类似的策略来掌握麻将、《刀塔2》(Dota 2)、《星际争霸》(StarCraft II)以及德州扑克。
 
图2:OpenAI的AI在游戏中横穿地图
 
在捉迷藏游戏中,几个代理(隐藏者)必须在短时间内避开竞争对手的视线。在此期间,这些竞争对手被固定住,而搜索者被指示密切关注隐藏者的动向。(在这里,视线是指各个代理面前的135度圆锥形范围。)如果代理冒险离开游戏区太远,并被迫在随机生成的房间和墙壁中游荡,并会因此受到惩罚。它们可以拾取分散在环境中的目标(主要是箱子),这些箱子会无限期地锁定在适当的位置。
 
代理们在训练过程中发现了多达六种独特的策略,每一种都能帮助它们进入下一个游戏阶段。起初,隐藏者和搜索者只是逃跑并相互追逐,但经过大约2500万场捉迷藏游戏之后,隐藏者学会了通过将箱子一起移动并靠墙来构建隐藏庇护所的策略。在进行另外7500万场比赛后,搜索者学会了移动并利用坡道跳过箱子进入避难所的方法。
 
再进行1000万场比赛后,隐藏者开始将箱子构建的坡道带到游乐区的边缘并将其锁定,以防止搜索者使用它们。最后,在总共3.8亿场比赛后,搜索者自学将箱子带到游戏区的边缘,并有效地利用它们冲进隐藏者的避难所中,这利用了游戏空间允许他们在不接触地面的情况下可与箱子一起移动的优势。
 
受过训练的代理学会了协作,例如分别将他们自己的箱子带到一个未建造好的避难所地点。此外,他们作为一个团队相互保护,试图通过在准备阶段锁定箱子来防御搜索者的箱子冲浪。
 
图3:OpenAI的AI代理随着时间的推移而自我完善
 
研究人员表示,规模在这方面起到了关键作用。默认模型需要在34小时的培训中出现1.23亿次才能达到将技能提升到懂得斜坡防御的阶段,并且批量越大,培训时间越快。例如,将参数(从历史训练数据中学习的模型部分)的数量从50万增加到580万,样本效率就提高了2.2倍。
基准稳健性
 
为了评估代理的稳健性,研究人员设计了一套五项基准智力测试,分为两个领域:认知和记忆。所有测试都使用与捉迷藏环境相同的动作空间、观察空间和对象类型:
 
1)对象计数任务(Object Counting)衡量的是代理是否具有对象持久性的感觉,即理解事物即使在无法察觉情况下仍然存在的能力。
 
2)锁定和返回任务(Lock and Return),衡量代理在执行新任务时是否可以记住其原始位置。
 
3)在顺序锁定任务(Sequential Lock)中,四个箱子位于三个没有门但每个房间都有坡道的随机房间中,代理必须按照它们以前没有观察到的特定顺序锁定所有箱子的位置。
 
4)在蓝图构建任务(Construction From Blueprint)中,代理必须将箱子(开放房间中的八个)放置在多达四个目标位置的顶部。
 
5)在避难所构建任务(Shelter Construction)中,代理必须在圆柱体周围建造由箱子组成的避难所。
 
在五个任务的其中3个里,在捉迷藏环境中接受预培训的代理学习速度更快,并获得了比两个基线更高的最终回报。他们在锁定和返回任务、顺序锁定任务以及蓝图构建任务任务方面做得稍好些,但在对象计数和避难所构建方面表现较差。
 
图4:这个代理在使用坡道入侵堡垒
 
研究人员将好坏参半的结果归咎于既纠缠又难以微调的技能表征。他们写道:我们推测,捉迷藏预培训优于基线的任务是由于重复使用学习到的特征所致,而在其余任务上优于基线的转移将需要重用学习的技能,而这要困难得多。这种评估指标强调了开发技术的必要性,以便将在一个环境中培训的策略有效低应用到另一个环境中。
未来工作 
 
那么,我们能从这样的研究中得到什么?简单的游戏规则、多代理竞争和大规模的标准强化学习算法可以刺激代理在没有监督的情况下学习复杂的策略和技能。
 
研究人员写道:这些设置的成功激发了人们的信心,认为这些环境最终可以使代理获得无限数量的技能。这会促使它们形成以人类相关技能为中心的行为,而不是通过其他自我监督的强化学习方法生成的技能。
 
这些进步不仅仅会推动游戏设计前进。研究人员断言,他们的工作是朝着可能产生物理基础和人类相关行为的技术迈出的重要一步,并且可能支持诊断疾病、预测复杂蛋白质结构和分段CT扫描的系统。
 
Alphabet旗下AI公司DeepMind联合创始人德米斯·哈萨比斯(Demis Hassabis) 曾表示:我们的游戏AI是我们通向通用人工智能的垫脚石。我们进行自我测试和所有这些游戏测试的原因是,它们是我们所开发算法的便利试验场。最终,我们正在开发可以转化到现实世界中的算法,以便处理真正具有挑战性的问题,并帮助这些领域的专家。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

热门产品

美容院销售技巧|美容院销售技巧,美容院,销售,技巧
美容院销售技巧
贡茶柜台培训手册|柜台培训手册,贡茶柜台培训,贡茶柜台培训手册,贡茶,柜台,培训,手册
贡茶柜台培训手册
贡茶店长培训手册|店长培训手册,贡茶店长培训手册,茶店,培训,手册
贡茶店长培训手册
前台咨询手册|前台咨询手册,咨询手册,前台,咨询,手册
前台咨询手册
中小学生辅导培训机构的前台咨询手册|辅导机构咨询师手册,培训机构咨询手册,中小学生,辅导,培训机构,前台,咨询,手册
中小学生辅导培训机构的前台咨询手册
美业人你可以用这份宝典来借鉴(美容资料合辑)|美业资料合集,美容资料合辑,美业培训资料,美业资料大全,美业培训资料大全,美业人你,可以,这份,宝典,借鉴,美容,资料,合辑
美业人你可以用这份宝典来借鉴(美容资料合辑)
整形医院顾客来院接待流程图|整形医院接待流程,整形医院顾客接待流程,顾客来院接待流程图,整形,医院,顾客,来院,接待,流程图
整形医院顾客来院接待流程图
销售技巧话术培训PPT模板|销售技巧话术培训,销售技巧,销售话术,销售,技巧,话术,培训,ppt,模板
销售技巧话术培训PPT模板

历史上的今天:04月29日

神策发布丨企业微信数字化营销解决方案!

当当当!神策数据企业微信数字化营销解决方案来袭!随着企业微信能力的不断延展,越来越多的企业开始选择企业微信来沉淀流量、营销触达以及复购拉新,作为专注数字化经营的大数据分析与营销科技服务提供商,神策数据推出企业微信数字化营销解决方案,利用全域标签“客情卡”赋能商业闭环,为企业私域流量精准营销再添筹码,有效提升企业运营效率、用户全生命周期价值等多重指标。✎✎✎点开下方视频号,一分钟了解方案详情!神策数

美容院拓客方法;鞋店如何免费模式

美容院拓客方法;鞋店如何免费模式这个美女是做美容美发生意的,在她所在的城市她开了大概4、5家店,同在存在一个问题,就是每一家店都被竞争对手盯上了,她在什么地方开店,竞争对手就在什么地方开店,而且技术、服务都比她好,关键是价格还比她低,这明摆着是恶意竞争。为什么竞争对手这么针对她呢,原因很简单,就是她跟竞争对手的一位理发师谈起了恋爱,还把这位理发师挖到她的店里,这样造成的结果就是,这位理发师技术很好

网络营销活动怎么策划指南

网络营销活动怎么策划指南营销活动如何从0到1?在规划营销企划流程时,营销人员需要注意什么营销活动企划细节,从活动内容规划、推广策略,到活动结束后的效益评估及数据追踪,如何一次掌握。此篇文章将与你分享营销活动企划的4大核心要素,解密网络营销人如何通过常见的营销手法,进行线上推广策略,提升营销活动可以创造的品牌价值,并优化营销活动整体效益。一、确认营销目标许多营销人在规划营销企划流程时,由于缺乏营销目

渠道销售怎样才能做出高利润?

渠道销售一直有比较顽强的生命力,尽管很多厂商倡导渠道扁平化,但也只限于压缩渠道层级,而并不能抛开渠道。事实上,越来越多的设备都通过渠道来销售,而厂家直对用户的情况,虽然有,但毕竟还是少。很多销售员感叹,渠道销售的利润越来越薄,似乎要做高利润已经越来越难。这是有渠道销售的客观原因造成的。价格对渠道来说越来越透明渠道采购员对产品价格越来越了解,如果只是卖过一单两单,变换不同型号或者功能,产品价格还可以

谈谈产品与运营之 - 什么是用户感知

谈谈产品与运营之 - 什么是用户感知先推荐自己的旧文谈谈产品和运营之 - 什么是用户预期差不多一年前的文章,非常值得推荐给新朋友看看,本文可以认为是这篇文章的引申。其实以前周鸿祎讲过很多次关于用户感知的话题。一个产品,不管你用了怎样的技术,怎样的实现架构,怎样的流程逻辑,最终体现给用户的,其实是用户感知,也许你做的很简单,但用户感知很饱满;也许你做的很复杂,但用户感知不足,这些都是产品运营中需要面

让人灵魂抖振的零成本营销方案

听财经新闻,解市场之谜,大家晚上好,我是叮当!我们《冷启动零成本做营销》这本书的主要内容已经跟大家分享完了,相信大家对零成本做营销相关的概念,也有了全新的认识,希望这次的分享,能然我们都对这方面的内容有一个全新的认识,以更好的状态迎接全新的生活。今天我把《冷启动零成本做营销》这本书的合集给大家整理一下,方便大家收藏阅读;一共读了4期,带大家一起来回顾一下,分别如下:1、巴菲特12年豪赚近20倍 ,

热门专题

大理科技管理学校|大理科技管理中等职业技术学校,大理市科技管理中等职业技术学校
大理科技管理学校
中源管业|中源管业,中源管业公司,中源管业有限公司,中源管业电话,中源管业地址,中源管业电力管,中源管业mpp电力管,中源管业cpvc电力管,中源管业pe穿线管
中源管业
昆明综合高中|昆明综合高中
昆明综合高中
综合高中|云南综合高中,昆明综合高中,综合高中能考本一吗,综合高中和普通高中的区别,综合高中是什么意思,综合高中能参加全国统一高考吗,综合高中可以考哪些大学,综合高中的学籍是什么
综合高中
云南开放大学|云南开放大学报名,云南开放大学报考,云南开放大学,什么是云南开放大学,云南开放大学学历,云南开放大学学费,云南开放大学报名条件,云南开放大学报名时间,云南开放大学学历,云南开放大学专业
云南开放大学
一年制中专|中专学历,中专是什么学历,中专是什么,中专有什么专业,中专升大专,一年制中专
一年制中专
外贸网站建设|外贸网站建设,英文网站制作,英文网站设计,美国主机空间,外贸建站平台,多语言网站制作
外贸网站建设
大理科技管理学校|大理科技管理学校,大理科技,大理科技中等职业技术学校,大理科技管理中等职业技术学校,大理科技学校
大理科技管理学校

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部