10月5日,英国《自然》杂志以“矩阵游戏”(Matrix Games)为题,将DeepMind团队通过游戏训练AI发现矩阵乘法算法问题作为了封面报道。
DeepMind 的最新研究探讨了现代 AI 技术如何推动新矩阵乘法算法的自动发现,通过名为“AlphaTensor” 的AI在游戏中的反复演算解决了50 年来在数学领域一个悬而未决的问题,找到两个矩阵相乘最快方法。
以此延申,对于更大更复杂的矩阵来说,AI发现算法比许多 SOTA 方法更有效。该研究表明 AI 设计的算法优于人类设计的算法,这是算法发现领域向前迈出的重要一步。DeepMind 同时提出了 AlphaTensor是第一个可用于为矩阵乘法等基本任务发现新颖、高效且可证明正确的算法的人工智能系统。
从围棋、纸牌到更复杂的策略类游戏,“AI+游戏”的研究逐步深化,AlphaTensor其实也是我们熟知的阿尔法狗到AlphaZero的升级版。DeepMind依靠AI与游戏的结合,多次公布研究成果和登上《自然》杂志,比如2015年《通过深度强化学习达到人类水平的控制》,提出了著名的深度Q网络(DQN);2019年AlphaZero从0自学完虐前辈阿尔法狗等。
事实上,矩阵游戏更大的意义在于,AI与游戏的结合突破了以往简单利用、大数据环境训练学习的传统模式,从通过预先人为程序和算法设计,转向利用AI的自主学习和演化能力,突破和带动数学算法以及其他科学研究进步的可能性。
游戏发展离不开AI,也可以成为AI进步、科学探索竞争力的重要一环。
游戏对AI的利用
即使从游戏娱乐的基础属性来看,AI都是行业发展重要的一部分。
无论是单机还是网游,玩家热衷于PVE还是PVP,AI提供的内容交互能力都成为影响当下发展的关键部分。随着行业竞争白热化,玩家对于游戏内容和质量的要求不断提高,对于内容的消耗速度也在不断加速,这对开发团队的持续内容生产能力提出了更高的要求,如肉鸽在内的可重复玩法被广泛采用,这样类似的设计程度提高游戏可重复性的同时,变相降低了生产压力。
而AI对于当下游戏的帮助既体现在游戏设计,也存在于游戏体验。越来越多开发者将之作为生产工具助力,来提升产出效率和节约成本,比如最近越来越多讨论的AI制图,AI根据用户输入的关键词进行搜索、学习、拼接融合成符合要求的内容。另一方面在游戏质量的比拼中,AI也被视作提升游戏沉浸感和代入感关键技术,拟真交互并以此自动演化新的内容和体验是长期存在于畅想中的理想环节,包括元宇宙在内的虚拟世界都离不开AI的添砖加瓦。
AI利用游戏学习训练
算法、数据、算力、场景是AI研究的四大要素。然而,面对算法测试困难、场景及数据稀缺、算力昂贵等问题,并非所有环境都适宜研究AI自我学习。然而游戏行业的快速发展,便捷虚拟环境的提供、大数据的优势,成为当下AI实验的良好土壤。
在过去的“AI+游戏”发展中,最广为人知的是通过人与机(AI)的不断博弈,探索AI进化的可能性。
1997年,IBM的Deep Blue深蓝以4:2战胜了国际象棋世界冠军卡斯帕罗夫。2016年和2017年,AlphaGo先后战胜李世石与柯杰世界闻名。
棋类游戏之外,牌类游戏也是游戏AI关注的一个焦点。作为一款非完美信息游戏,纸牌游戏不仅涉及策略合作,队友/对手水平等复杂因素,其牌型组合更高,极大地限制了如 CFR 等搜索类算法的使用,也对算法模型的创新探索提出了更高的要求。
前不久网易互娱 AI Lab 联合上海交通大学和 CMU开源基于完美信息蒸馏(PTIE)的斗地主 AI“PerfectDou”。相关研究成果还登上了AI顶级学术会议NeurIPS 2022,受到国际学术界的高度认可。
在此基础上,更复杂的即时对战和策略游戏也成为研究AI的重要方向,考察AI能否综合对多种单位、多种要素等的分析,设计复杂的计划,并随时根据情况灵活调整计划。DeepMind此前宣布和暴雪合作,将《星际争霸2》作为新一代AI测试环境,发布SC2LE平台。
对于国内,《王者荣耀》这款国民产品成为腾讯AI研究的基点。2020年,腾讯AI Lab携手《王者荣耀》联合建设“开悟”训练平台。平台为科研人员提供技术与资源支持,保证学界在人工智能研究训练时所需要的大规模运算。同时通过腾讯开悟多智能体强化学习系列大赛,邀请来自清华北大等20余所国内外顶尖高校的师生团队借助《王者荣耀》开展AI研究的竞争。
发现、验证算法的新台阶
虽然AI+游戏的落地可应用场景,学术界还在不断研究如何落地,但广泛的共识是,在交通、医疗、航天等重点领域AI都大有可为。而AlphaTensor此次的实验成果,表明“AI+游戏”突破以往人为设计然后训练学习的限制,可以运用于基础数学算法以及其他科学探究的可能性。
矩阵计算广泛地运用于当下的计算环境,对于矩阵乘法的提升也将产生广泛的社会影响。DeepMind从游戏系统设计中寻找灵感,通过树形搜索的方式,将矩阵乘法高效算法的问题转换为在单人游戏中寻求数学结果效率最高。
当然,这个游戏的复杂性在于,要考虑的可能算法的数量远远大于宇宙中原子的数量。研究人员通过重新设计神经结构,利用AlphaTensor 来玩这个游戏,且AI在开始时没有任何现有矩阵乘法算法的知识,在反复的游戏过程中重新演化对于矩阵乘法的算法探索,甚至首次在一个有限域中改进了 Strassen (历史最快算法)的二阶算法。
由于矩阵乘法是计算机图形学、数字通信、神经网络训练和科学计算等很多计算任务的核心组成部分,AlphaTensor 发现的算法可以显著提升这些领域的计算效率。
在论文中,DeepMind 希望基于他们的研究,更多地将人工智能用来帮助社会解决数学和科学领域的一些最重要的挑战。
不可否认的是,“AI+游戏”已经成为腾讯、网易等国内头部游戏企业发力的核心方向,三七、盛趣、完美、B站等也都在AI+游戏的相关应用探索报道。利用企业在游戏领域的优势,充分发挥游戏帮助AI训练和学习的可行性。
而AI+游戏在基础算法突破上的案例也会激发更多高校和头部机构加强这方面的研究投入和合作交流,相较于传统学术研究中AI单一、定向的特点,游戏多输入、多场景和多任务下的复杂问题的场景构建能力、庞大数据的支撑、算法突破的可行性都会成为助力“AI+游戏”发展的强动力,将AI游戏策略研究探索转化成更多领域的产业价值。