我们对更多算力的需求,有多大?
在本系列读本的硬件和网络两篇中,我总结了一部分为实现 Metaverse 而要额外制造、发送和接收的数据,例如触觉、面部扫描和实时环境扫描。要完整实现 Metaverse,所需的算力和数据量,要再大几个数量级。
例如,Nvidia的创始人CEO 黄仁勋,认为沉浸式模拟的未来会比“更真实的爆炸”或“街头赛车”要更伟大。老黄的原话是:它将是 “粒子物理定律、重力定律、电磁定律、电磁波定律、光和无线电波……压力和声音定律” 的整体组合应用。
正如虚拟世界是被数字增强的,真实世界也将如此。每一年都有更多的传感器、摄像机和物联网芯片融入我们周围的现实世界中,这些设备很多都将实时连接到一个可交互的虚拟投影。
与此同时,我们的个人设备将成为我们进入这些体验的身份证。简言之,我们周围世界的大部分都将永久在线,互相联网。包括你我。
总体估计,Metaverse 将产生人类历史上最大的算力需求。
计算机的算力,过去、现在、未来,都是稀缺资源。
引用美元资本 A16z 合伙人 Chris Dixon 的话,“纵观历史,世界上每一种优秀的计算资源都供不应求……CPU算力总是不够用;GPU算力也永远不够用。”
因此,算力的供给和发展将制约和定义 Metaverse。无论你能捕捉和接收到多少数据,如果算力不够,都是白搭。
直到2015年左右,消费者设备才能实时运算一场包含了100名真实玩家的游戏;也是直到2015年,服务端硬件来实时运算和同步这些信息的算力才足够充沛和廉价。一旦这一技术壁垒被打破,传统单机游戏很快就被丰富UGC和高并发的游戏所取代。这些游戏随后迅速扩展到了以前只能线下体验的媒介。
“看起来吃鸡类产品合计达到了3.5~4亿 DAU,大于整个主机3A和PC市场之和了;这还只是一个游戏品类 - 很震撼。感觉像是一个新长出来的文化发端”
然而,即使在吃鸡的游戏流派出现四年后,仍然需要一系列奇技淫巧来确保它的体验。例如,大多数玩家从未真正在一起过。相反,它们分散在一张大地图上。这意味着,虽然服务器需要跟踪每个玩家正在做什么,但每个玩家的设备不需要渲染他们或跟踪/处理其他所有人的动作。
而当Fortnite将玩家聚集到一个更为封闭的空间中进行社交活动时,参与者的上限减少到了50人,并限制了用户的动作。
对于处理器功能较弱的用户,系统需要做出更多的妥协。几年前的设备将无法加载其他玩家定制装备的效果,而只是将它们展示为普通外观。值得注意的是,主要服务低端安卓机的 Garena Free Fire,其吃鸡模式的玩家上限为50人。
Epic CEO Tim Sweeney 在2019年接受 Wired 杂志采访的时候说:“我有时候会疑惑,这些多人类型游戏未来的发展将走向何方?在Fortnite中,我们的峰值是1070万同时在线,但这是由十万个小的百人session组成的。我们最终能把它们放在一个共同的世界里吗?这种场景会是什么样子?由于技术的限制,有一些全新的游戏玩法和流派至今还无法被发明出来。”
当然,这个问题会慢慢解决。使命召唤:战区在2019年提供了150人上限的比赛。Roblox 还允许 200名玩家进入其低保真的场景,在beta测试中最多可以有 700 名玩家同服。Improbable 公司已经对 4000 名用户同服进行了开放测试。
但“更多并发用户”并不是我们对算力的唯一需求。我们希望自己 Fortnite 中的角色拥有更多可定制的物品,而不仅仅是一套服装和一个背包;我们希望能够进入虚拟音乐会,而不仅仅是在绳子围起来的外面参加音乐会?
回到前面的例子,只有不到1%的电脑或主机可以在最低画质下玩《微软飞行模拟器》。即使是微软的下一代Xbox游戏机,S系列和X系列,也还暂不支持这款游戏。
这并不意味着所有以 Metaverse 为中心的体验都有必要提供丰富、即时的运算。我们也不必奢求随时随地访问:沉浸式体验的保真度更高,但能够从更多的设备访问显然比只能从顶级的设备接入要好。
但人类历史表明,额外的计算能力总是带来进步——这正是为什么对计算的需求总是超过其供应。为此,黄仁勋想模仿上帝的神圣设计的愿望可能显得过分和不切实际,我们谁也猜不到这个过程中会产生什么样的创新。谁想得到,每场比赛中有100人的吃鸡游戏模式能改变世界?
云还是端:我们应该把算力放在哪?
算力非常稀缺 ——解决方案在行业里有两派。
一派是尽可能多地将模拟计算集中在云端,而不是在客户端运算。例如,Google Stadia 和 Amazon Luna 在云端做所有游戏的运算,然后将整个渲染体验作为视频流推送到用户的设备上。客户端设备只需播放此视频并发送 IO 信息就可以实现操作。这个流派的人喜欢强调电网和工业发电厂供电会优于家家户户都买个发电机的逻辑。
基于云的模式允许用户将消费级、不经常升级的计算机替换为企业级的“荒谬算力”计算机,这些计算机单位处理能力成本更低,更容易更换。这意味着,无论你是用一部售价1500美元的 iPhone,还是一台带屏幕的老式WiFi 冰箱,理论上讲,你都可以用最高画质玩《赛博朋克2077》。
另一派认为,我们最好把赌注押在客户端算力的进步上,而不是必须与不可靠网络斗争的远程超级计算机上。云端渲染和视频流是一个引人入胜的思路,但它也大大增加了需要低延迟传输的数据量。
如第三篇的前文所述,游戏最低要求每秒至少60帧,甚至90-120帧,并且最好是 2K 到 4K 的清晰度。实时在线的以低延迟、高可靠的向所有 Metaverse 中的人传递这一信息……真的很难。这就是发电厂 vs. 发电机比喻不成立的地方:我们不需要费力挣扎才能发出足够的电力,也没有对电力的低延迟要求。
在AR场景下更是这样,即使在超低延迟下,对于相机移动的速度和接收新输入数据所需的速度,传输AR数据太慢了。对于AR的密集计算需求,我们必须且有可能在端上做到足够好。
Tim Sweeney:将实时处理放在延迟墙的错误一边的举措总是注定要失败的,因为即使带宽和延迟在改善,本地计算性能也在更快地改善。
到目前为止,云计算在渲染方面也没有被证明更有效。这是因为基于云的GPU没有通用的渲染能力。每个实例在使用时要被锁定。单个GPU仅支持单个用户的渲染。目前还没有人知道如何基于当前用户对分辨率和帧率的期望,高效、经济地在多个用户之间分配一个GPU的渲染能力。电网在多个家庭之间分配电力要简单得多。
因此,由于需要针对峰值需求进行规划,云渲染服务器通常会面临利用率的问题。周日晚上8点,克里夫兰地区可能需要 75000台专用服务器才能提供云游戏服务,但周一凌晨4点仅需 4000台。作为消费者,你可以购买一个400美元的GPU,并让它离线,但数据中心的经济目标主要是进行需求的优化。
这就是为什么如果客户提前从Amazon租用服务器,AWS会降低费率的原因。因为这样可以保证客户一年之中需要时的访问,因为他们已经为服务器付费,而亚马逊则将其成本与客户价格之间的差额收入囊中。如果客户希望按需访问服务器,他们可能会发现没有GPU,或者只有低端GPU可用,或者只有另一个地区的GPU可用 —— 这意味着更大的延迟。
如果云渲染模式成功铺开,价格将有所降低,但租这种利用率低的高端GPU总是成本高昂。数据中心也会产生相当大的热量,这需要不少成本来降温。而从云数据流到高分辨率、高帧速率内容的转变也意味着更高的带宽成本。这两种费用和本地计算相比都会叠加。
最重要的是,消费级处理器的改进速度远远快于网络,因为它们的更换频率要高得多,而且云计算的对手是光速,端计算可不是。端算力的提升并不能缓解所有的网络所带来的挑战,但它表明我们最好让客户端设备执行更多的运算,而不是发送大量视频流。这一点可能会随着时间的推移而改变,但 Sweeney 的延迟墙理论在可预见的未来很可能会持续成立。
边缘计算通常被称为 Metaverse 的关键基建战略。具体而言,这种模式是在C端用户和更远的中央服务器之间的关键网络节点部署超级计算机。边缘计算与上述两种流派兼容并相互补充,因为它可以帮助C端用户补充本地计算,同时最大限度地减少基于网络的延迟和网络拥塞风险。
这种方法的实际落地效果仍不确定。例如,微软的 xCloud 选择在标准的 Azure 数据中心而不是边缘节点上运行。这可能是由于前面提到的云服务利用率问题——运营的边缘中心越多,利用率问题就越严重。大多数使用边缘计算的消费者服务,如Netflix,实际上只是将其用作边缘硬盘CDN,存储更接近用户的文件。
Cloudflare 的创始人兼CEO 马修·普林斯认为边缘计算的机会在于合规性。由于政府法规要求对用户数据进行本地处理,互联网变得越来越分散,公司将别无选择,只能将数据的存储和处理放在离用户更近的地方。这在元宇宙中可能是相同的;随着时间的推移,政府的要求只会变得更加繁重。
虽然谷歌非常相信边缘计算,但苹果相信未来真正的“边缘”计算模式将是我们口袋里功能越来越强大的手机,因为它们将为我们周围的其他设备,如手表和智能眼镜,承担大部分运算。
但是,即使我们提高消费级设备的算力,让更多的企业算力更接近C端用户,并构建更集中的基础设施,我们仍有可能达不到目标。
这是今年早些时候让我震惊的一个例子。2020年12月到2021年3月,Genvid 在 Facebook Watch 上运营了其第一个大型“MILE”。这个互动直播 Rival Peak 是一种虚拟化的 American Idolx LOST x Big Brother,一个为期13周、13名AI选手被24小时困在虚构的太平洋西北部的虚拟直播节目。
这个节目里没有一个角色是被单独控制的,没有一个观察者是单独的角色,但数以万计的同时观看的观众能够实时影响模拟 —— 观看者可以解谜帮助参赛者、投票选择他们能做什么,甚至影响谁幸存下来和谁会被踢出比赛。
Rival Peak不可能在消费型设备上运行。事实上,它几乎不在AWS上运行。有八个环境,每个环境都有十几个GPU和数百个其他CPU支持,Rival Peak某一刻居然耗尽了 AWS 上的 GPU服务器,并且在测试期间,经常耗尽可用的spot服务器。
Rival Peak的系统架构
因为没有特定的玩家,Rival Peak不符合 Metaverse 的直觉定义。然而,这个支持无限交互的持久的、无休止的虚拟世界,每一个副本都会产生持久的后果 —— Rival Peak与任何其他虚拟世界一样接近于最终态的 Metaverse。
即使是这个产品这么初级的阶段,它已经把能用的算力耗尽了!
想象一下 Nvidia 对一个相互关联的镜像世界的愿景需要何等的算力啊。或者是那种需要给一个城市整体几何结构图来做建模,然后调整从交通灯到5G无线电波的一切,以便实时优化人流和信息流的业务 —— 算力根本跟不上!仅为了明年的“MILE”互动直播,Genvid又要需要三倍的 GPU 和 CPU 算力。
去中心化计算
对算力的永不满足的需求 —— 而且尽可能离用户近的那种 —— 必然的激发了去中心化计算的概念。由于家庭和消费者手中有这么多功能强大且经常处于闲置状态的设备,我们觉得开发有效利用这些设备的系统是不可避免的。
至少在文化上,这一观点已经得到了很好的理解。任何在家中安装太阳能电池板的人都可以向当地电网出售多余的电力。马斯克兜售的未来是,你的特斯拉可以在不用时作为一辆自动驾驶汽车出租,而不仅仅是99% 的时间在你的车库里停着。
“1998年,当我们推出第一款虚拟游戏时,我的 to-do 清单上有一个有趣的项目。这就是让游戏服务器间能够进行交流,这样我们就可以在一场游戏中拥有无限多的玩家 —— 二十年过去了,这似乎仍然在我们的愿望清单上。你能否在一个共享的世界里打造一款数百万玩家都能在一起玩的游戏,这在今天对游戏行业来说仍是一个非常有趣的挑战。”——Epic CEO Tim Sweeney
事实上,早在20世纪90年代,就出现了使用日常消费级硬件的去中心化计算程序。例如伯克利大学的SETI@HOME,用户自愿使用他们的家庭电脑来为寻找外星生命提供动力。
但最近的区块链概念,包括智能合约和代币,为这种共享提供了另一种经济模式。在这个概念中,未充分利用的CPU和GPU的所有者将因使用其处理能力而获得某种加密货币的支付,可能是由网络拓扑中靠近它们的用户支付。甚至可能会有一场现场拍卖来获取这些资源,要么是那些有“工作”竞价获取的资源,要么是那些有能力竞价获取工作的资源。
SETI@HOME项目
这种机制的一个例子是OTOY的渲染网络。作为第一个完全利用GPU的无偏光线跟踪器,Octane Render开创了周转时间的方法,使实时修改场景成为可能。但对于包括特效工作室、艺术家、动画师、设计师、建筑师和工程师在内的用户来说,要利用这些突破性的功能,他们需要调用强大的实时算力。
OTOY想到了通过创建基于以太坊的RNDR网络和令牌来利用空闲GPU网络的想法。作为昂贵云提供商的替代方案,客户将渲染任务发送到计算机网络,并使用令牌向其所有者支付费用。双方之间的所有谈判和合同都在几秒钟内由协议处理,任何一方都不知道所执行任务的人的身份或任务的细节。
“你会意识到区块链实际上是运行程序、存储数据和可验证地执行交易的通用机制。它是计算科学中存在的所有事物的超集。我们最终会把它看作是一台分布式的计算机,它的运行速度比我们桌面上的计算机快10亿倍,因为它是每个人的计算机的组合。” - Tim Sweeny
这样的算力交易市场能否提供Metaverse所需的大量算力?
想象一下,当你在沉浸式空间中漫游时,你的帐户不断地向你身边的人持有但未使用的移动设备发送必要的计算任务,以便渲染或驱动你的设备体验。当然了,一段时间后,当你不使用自己的设备时,你将反过来获得代币作为回报。这种加密交换概念的支持者将其视为未来所有微芯片的必然特征。每台计算机,不管有多小,都会被设计为总是在拍卖任何空闲运算周期。数十亿个动态阵列处理器将为即使是最大的工业客户的深层计算周期提供动力,并提供支持Metaverse的终极无限计算网格。
“区块链不会消失,它将成为一种新的、基础的计算形式。”-Nvidia CEO 黄仁勋