,通过不断的试错找到让自己胜率最大的游戏方式。
而通过自我对弈和强化学习,构成了开放端学习算法的基本范式,学习人的策略,并确保娜芙的智能体在整个游戏过程中不断探索这些策略,从而让“她”获得更大的升级与进步。
此外,由于星际争霸这款游戏具有巨大的动作空间,会让许多先前强化学习方法变得无效。
罗晟因此还为娜芙开发了一种全新的算法进行非策略强化学习,使得“她”能从旧有的历史决策的游戏中有效的更新决策。
而罗晟的终极目的可不是让娜芙成为一个“iba”的星际争霸ai玩家,而是以此为起点,让“她”能够胜任复杂多变的其它应用场景。
如果“她”只是在星际争霸的比赛中成为超级高手,换个场景,例如在围棋、语言或其它领域就不行了,那依然是个纯粹的人工智障,和真正的人工智能有着巨大的差距。
……
时间一分一秒的流逝,罗晟猫在他的办公室不知不觉就耗费了三个多小时,为娜芙完成了第二次的优化升级才下班,时间已经不早了。
罗晟在离开办公室之前,又把娜芙放进了暴雪星际战网的天梯中,让“她”与人类玩家不停的对抗。
搞定这一切就没有在管了,下午还要去蔚蓝海岸公司处理一些工作,还有一场会议什么。
而被放养的娜芙就在做一件事情,不断与人类玩家对战。
娜芙的背后支撑“她”的几乎是整个苏城数据中心,消耗的是算力资源,是电费。
事实上如果没有钱,是不可能养得起一个人工智能的,就更别说是开发阶段了。
如果是像ib公司这样的人工智能研发机构,制约其发展的可能是开发者本身,但见证过人工智能的罗晟,对于开发而言反而是最轻松的。
但仍然有问题制约着他。
那就是硬件,娜芙的成长被现在的硬件水平限制了,如果有更好的硬件基础,会迎来一次质的飞跃。
深度网络需要高端gpu在大量数据的合理时间内进行训练,这些硬件非常昂贵,当然在罗晟这里没有贵这个说法。
可问题是现在没有符合他要求的硬件,有钱都没得买,今后只能自己起炉灶搞硬件了,
如果没有先进硬件基础来训练深层网络以实现高性能是不可行的。
不仅仅要使用高端gpu,还需要快速的cpu、存储以及快速和超大容量的ra。
……
随着时间的推移,娜芙通过不断的对战,胜率从“她”赛事生涯第一局开始的惨不忍睹,逐渐出现了反转,胜率正在快速的提高。
在操作层面,娜芙毫无疑问是世界第一,没有人类玩家能够在这个层面与“她”抗衡,哪怕是被限制了ap和ep。
但这不是重点,重点是娜芙在游戏中所表现出来的“意识”、“行为”与“决策”,这是才是智能化的体现。
……
不知不觉,娜芙已经在天梯上对抗了场,胜率已经攀升到了0左右,这是非常高的胜率了。
罗晟为了提高娜芙“进化”的效率,让“她”在对战的同时,进入了蓝星科技集团的海量数据库以及星际争霸的一些网站去访问一些顶尖选手的“战报”视频,通过对人类玩家的游戏回放视频并行训练,然后与其他对手对抗训练。
后台运行中的一个脚本会让“她”每隔一段时间就迭代升级,通过强化学习进行更新,然后再进行新的对抗。
而每次迭代就匹配新的对手,同时冻结原来打败过的对手,匹配对手的概率决定了智能体采用的学习目标函数,如此一来保留了多样性的同时增加难度。
随着自我博弈的进行,娜芙逐渐开发出了越来越成熟的战术,或者说相对最优解,这一过程和人类玩家发现战术的过程类似,新的战术体系不断击败旧的战术体系,然后取代旧的战术体系。
……
到了第局对抗,如同攀登天梯一样,娜芙不断的击败对手,不断的自我迭代,变得越来越强,碰到的人类玩家也越来越强,但0都已经成为了“她”的手下败将。
此时此刻,又一轮对抗开始了,而娜芙匹配到的选手
第229章【一夜爆红的神秘高手(二合一)】