在过去的数年,见证了机器学习和计算机科学领域的许多变化。按照这种长弧形的进步模式,人们或许将在接下来的几年中看到许多令人兴奋的进展,这些进步最终将造福数十亿人的生活,并产生比以往更深远的影响。
在一篇总结文章中,谷歌 AI 负责人、知名学者 Jeff Dean 重点介绍了 2021 年之后机器学习最具潜力的五个领域:
趋势 1:能力、通用性更强的机器学习模型
趋势 2:机器学习持续的效率提升
趋势 3:机器学习变得更个性化,对社区也更有益
趋势 4:机器学习对科学、健康和可持续发展的影响越来越大
趋势 5:对机器学习更深入和更广泛的理解
趋势 1:能力、通用性更强的机器学习模型
研究人员正在训练比以往任何时候规模更大、能力更强的机器学习模型。过去几年,语言领域已经从数百亿 token 数据上训练的数十亿参数模型,发展到了在数万亿 token 数据上训练的数千亿或万亿参数模型。数据集和模型规模的增长带来了多种语言任务上准确率的显著提升,并通过标准 NLP 基准任务上的全面改进证明了这一点。
这些先进的模型中有很多都聚焦于单一但重要的书面语言形态上,并在语言理解基准和开放式会话能力中展现出了 SOTA 结果,即使跨同一领域多个任务也是如此。同时,这些模型在训练数据相对较少时也有能力泛化至新的语言任务,在某些情况下,对于新任务需要极少甚至不需要训练样本。
与谷歌对话应用语言模型 LaMDA 模拟威德尔氏海豹(weddell seal)时的对话。
Transformer 模型也对图像、视频和语音模型产生了重大影响,所有这些都从规模中获益颇多。用于图像识别和视频分类的 Transformer 模型在很多基准上实现了 SOTA,我们也证明了在图像和视频数据上协同训练模型可以获得较单独在视频数据上训练模型更高的性能。
我们开发了用于图像和视频 Transformer 的稀疏、轴性注意力机制,为视觉 Transformer 模型找到了更好的标记化图像方法,并通过检查视觉 Transformer 方法相较于 CNN 的操作原理来提升对它们的理解。卷积操作与 Transformer 模型的结合也在视觉和语音识别任务中大有裨益。
生成模型的输出也大幅提升。这在图像生成模型中最为明显,并在过去几年取得了显著进步。例如,最近的模型有能力在仅给出一个类别的情况下创建真实图像,可以填充一个低分辨率图像以创建看起来自然的高分辨率对应物,甚至还可以创建任意长度的空中自然景观。
基于给定类生成全新图像的 cascade 扩散模型示意图。
除了先进的单模态模型之外,大规模多模态模型也在发展中。其中一些最先进的多模态模型可以接受语言、图像、语言和视频等多种不同的输入模态,产生不同的输出模态。这是一个令人兴奋的方向,就像真实世界一样,有些东西在多模态数据中更容易学习。
同样地,图像和文本配对有助于多语种检索任务,并且更好地理解如何配对文本和图像输入可以提升图像描述任务。视觉和文本数据上的协同训练有助于提升视觉分类任务的准确率和稳健性,同时图像、视频和语音任务上的联合训练能够提升所有模态的泛化性能。
谷歌机器人团队(Robotics at Google)基于视觉的机器人操作系统的示意图,该系统可以泛化至全新任务。
所有这些趋势都指向了训练能力更强的通用性模型,这些模型可以处理多种数据模态并解决数千甚至数万个任务。在接下来的几年,我们将通过下一代架构 Pathways 来追求这一愿景,并期望在该领域看到实质性进展。
Pathways 我们正在努力构建能够在数百万个任务中实现泛化的单一模型。
趋势 2:机器学习持续的效率提升
效率的提升源自计算机硬件设计和机器学习算法、元学习研究的进步,并正在推动机器学习模型更强大的功能。机器学习 pipeline 的很多方面,从训练和执行模型的硬件到机器学习架构的各个组件,这些都可以进行效率优化,同时保持或提升整体性能。更高的效率促成了大量关键性进步,这些进步将继续显著提升机器学习的效率,使更大、更高质量的机器学习模型能够在保持成本效益的前提下开发,并进一步促进大众化。
一是机器学习加速性能的持续提升。每一代机器学习加速器都较前代更强,实现了更快的每芯片性能,并常常增加整体系统的规模。2021 年,我们推出了谷歌第四代张量处理器 TPUv4,在 MLPerf 基准上显示出较 TPUv3 2.7 倍的提升。移动设备上的机器学习能力也在显著提升。Pixel 6 手机配有全新的谷歌张量处理器,该处理器集成了一个强大的机器学习加速器,以支持重要的设备上功能。
左:TPUv4 板;中:TPUv4 舱;右:Pixel 6 手机采用的谷歌张量芯片。
二是机器学习编译和机器学习工作负载优化的持续提升。即使当硬件无法改变时,编译器的改进以及机器学习加速器的其他系统软件优化也可以实现效率的显著提升。
在 150 个机器学习模型上使用基于 ML 的编译器进行自动调优,可以实现端到端模型加速。
三是人类创造力驱动的更高效模型架构的发现。模型架构的持续改进大幅度减少了在很多问题上实现一定准确率水平所需的计算量。例如,在使用计算量比 CNN 少 4 至 10 倍的情况下,Vision Transformer 能够在大量不同的图像分类任务上提升 SOTA 结果。
四是机器驱动的更高效模型架构的发现。神经架构搜索可以自动发现新的机器学习架构,这些架构对于给定的问题域更加高效。神经架构搜索的主要优势是可以显著减少算法开发所需的努力,这是因为它对每个搜索空间和问题域组合只需要一次努力。
此外,虽然执行神经架构搜索的初始努力需要很高的计算成本,但生成的模型可以极大地减少下游研究和生产设置中的计算量,从而减少整体资源需求。
神经架构搜索发现的 Primer 架构,效率是 plain Transformer 模型的 4 倍。
五是稀疏性的使用。所谓稀疏性,即模型具有非常大的容量,但只有一部分针对给定的任务、示例或 token 而被激活。稀疏性是另一个重大的算法进步,可以极大地提升效率。
2017 年,我们提出了稀疏门混合专家层,使用计算量比当时 SOTA 密集 LSTM 模型少 10 倍时在多个翻译基准上实现更好结果。还有最近的 Swin Transformer,将混合专家风格的架构与 Transformer 模型架构结合,结果显示训练时间和效率均实现了较密集 T5-Base Transformer 模型 7 倍的加速。稀疏性概念还可以用来降低核心 Transformer 架构中注意力机制的成本。
谷歌研究院提出的 BigBird 稀疏注意力模型由处理输入序列所有部分的全局 token、局部 token 和一系列随机 token 组成。
趋势 3:机器学习变得更个性化,对社区也更有益
随着机器学习和硅硬件的创新,许多新体验成为了可能,使移动设备更有能力持续有效地感知周围的背景和环境。这些进步提升了可访问性和易用性,同时也增强了计算能力,对于移动摄影、实时翻译等功能至关重要。值得注意的是,最近的技术进步还为用户提供了更加个性化的体验,同时加强了隐私保护。
可以看到,更多的人比以往任何时候都要依靠手机摄像头来记录他们的日常生活并进行艺术表达。机器学习在计算摄影中的巧妙应用不断提升了手机摄像头的功能,使其更易于使用、性能更强并生成更高质量的图像。
例如,改进的 HDR+、在极低光下拍照的能力、更好地人像处理能力、以及适用于所有肤色的更具包容性的相机,所有这些进步都使用户可以拍摄出更好的照片。使用 Google Photos 中现在提供的基于 ML 的强大工具,如电影照片等,进一步提高了照片拍摄效果。
HDR + 从一组全分辨率的原始图像开始,每张都有相同的曝光度(图左);合并后的图像减少了噪声,增加了动态范围,从而得到更高质量的最终图像(图右)。
除了使用手机进行创意表达外,许多人还依靠手机来与他人实时沟通,使用消息应用中的 Live Translate 和 Live Caption 进行电话通话。
得益于自监督学习和嘈杂学生训练等技术,语音识别的准确性继续提升,在重音、嘈杂条件或重叠语音的环境以及多语言任务中都有显著改善。基于文本到语音合成的进步,人们可以在越来越多的平台上使用谷歌 Read Aloud 服务收听网页和文章,从而使信息更容易跨越形态和语言的障碍。
最近一项研究表明,注视识别能力是精神疲劳的一个重要生物标记。(https://www.nature.com/articles/s41746-021-00415-6)
鉴于这些新功能背后的数据具有潜在的敏感性,因此必须将它们默认设计为私有的。它们中的许多都在安卓私有计算核心内运行,这是一个与操作系统其余部分隔离的开源安全环境。安卓确保私有计算核心中处理的数据不会在用户未采取操作的情况下共享给任何应用。
安卓还阻止私有计算核心内的任何功能直接访问网络。相反,功能通过一小组开源 API 与私有计算服务进行通信,后者消除识别信息并利用联邦学习、联邦分析和私有信息检索等隐私技术,在确保隐私的同时实现学习。
联邦重构是一种全新的局部联邦学习技术,它将模型划分为全局和局部参数。
趋势 4:机器学习对科学、健康和可持续发展的影响越来越大
近年来,从物理学到生物学,机器学习在基础科学中的影响越来越大,并在相关领域实现了许多优秀的实际应用。例如,计算机视觉模型正在被用来解决个人和全球范围内的问题,它们可以协助医生展开日常工作,扩展人们对神经生理学的理解,还可以提供更精准的天气预报,可以简化救灾工作。通过发现减少排放和提高替代能源输出的方法,其他类型的机器学习模型被证明在应对气候变化方面至关重要。随着 机器学习变得更加稳健、成熟且可广泛使用,这样的模型甚至可以用作艺术家的创作工具。
计算机视觉的大规模应用以获得新的洞察力
过去十年计算机视觉的进步使计算机能够用于不同科学领域的各种任务。在神经科学中,自动重建技术可以从脑组织薄片的高分辨率电子显微镜图像中恢复脑组织的神经结缔结构。
前几年,谷歌合作为果蝇、小鼠和鸣禽的大脑创建了此类资源;去年,谷歌与哈佛大学的 Lichtman 实验室合作,分析了重建的最大脑组织样本,以及任何物种中的这种细致程度成像,并生成了跨越皮层所有层的多种细胞类型的人类皮层突触连接的第一次大规模研究。这项工作的目标是生成一种新的资源,帮助神经科学家研究人类大脑的惊人复杂性。例如,下图显示了成人大脑中约 860 亿个神经元中的 6 个神经元。
来自谷歌人类皮层重建的单个人类枝形吊灯神经元,以及与该细胞连接的一些锥体神经元。
计算机视觉技术还提供了强大的工具来应对更大甚至全球范围内的挑战。一种基于深度学习的天气预报方法使用卫星和雷达图像作为输入,并结合其他大气数据,在长达 12 小时的预测时间内产生比传统的基于物理的模型更准确的天气和降水预测。与传统方法相比,它们还可以更快地生成更新的预测,这在极端天气出现时非常重要。
这些案例的一个共同主题是,机器学习模型能够基于对可用视觉数据的分析,高效、准确地执行专门的任务,支持下游任务。
自动化设计空间探索
另一种在许多领域产生出色结果的方法是允许机器学习算法以自动化方式探索和评估问题的设计空间,以寻找可能的解决方案。在一个应用程序中,基于 Transformer 的变分自动编码器学习能够创建美观且有用的文档布局,并且可以扩展相同的方法来探索可能的空间布局。
另一种机器学习驱动的方法能够自动探索计算机游戏规则调整的设计空间,提高游戏的可玩性和其他属性,使人类游戏设计师能够更快地创建更好的游戏。
VTN 模型的可视化。它能够提取布局元素(段落、表格、图像等)之间的有意义的联系,以生成逼真的合成文档(例如,具有更好的对齐和边距)。
还有其他机器学习算法已被用于评估机器学习加速器芯片本身的计算机架构决策的设计空间。机器学习可用于为 ASIC 设计快速创建芯片布局,这些布局优于人类专家生成的布局,并且可以在几小时而不是几周内生成。这降低了芯片的固定工程成本,并减少了为不同应用快速创建专用硬件的阻碍。谷歌在即将推出的 TPU-v5 芯片的设计中成功地使用了这种方法。
这种探索性的机器学习方法也已应用于材料发现。在谷歌研究院和加州理工学院的合作中,几个机器学习模型与改进后的喷墨打印机和定制显微镜相结合,能够快速搜索数十万种可能的材料。
这些自动化设计空间探索方法可以帮助加速许多科学领域,特别是当生成实验和评估结果的整个实验循环都能以自动化或大部分自动化的方式完成时。这种方法也许会在未来几年在更多领域中发挥良好的效果。
健康应用
除了推进基础科学,机器学习还可以更广泛地推动医学和人类健康的进步。利用计算机科学在健康方面的进步并不是什么新鲜事,但是机器学习打开了新的大门,带来了新的机会,也带来了新的挑战。
以基因组学领域为例。自基因组学问世以来,计算一直很重要,但机器学习增加了新功能并破坏了旧范式。当谷歌的研究人员开始在这一领域工作时,许多专家认为使用深度学习帮助从测序仪输出推断遗传变异的想法是牵强附会的。而在今天,这种机器学习方法被认为是最先进的。
未来机器学习将扮演更重要的角色,基因组学公司正在开发更准确、更快的新测序仪器,但也带来了新的推理挑战。谷歌发布了开源软件 DeepConsensus,并与 UCSC 、PEPPER-DeepVariant 合作,支持这些前沿信息学的新仪器,希望更快速的测序能够带来对患者产生影响的适用性。
除了处理测序仪数据之外,还有其他机会使用机器学习来加速将基因组信息用于个性化健康的过程。广泛表型和测序个体的大型生物库可以彻底改变人类理解和管理疾病遗传易感性的方式。谷歌基于机器学习的表型分析方法提高了将大型成像和文本数据集转换为可用于遗传关联研究的表型的可扩展性,DeepNull 方法更好地利用大型表型数据进行遗传发现。这两种方法均已开源。
生成解剖和疾病特征的大规模量化以与生物库中的基因组数据相结合的过程。
正如机器学习帮助我们看到基因组数据的隐藏特征一样,它也可以帮助我们发现新信息并从其他健康数据类型中收集新见解。疾病诊断通常是关于识别模式、量化相关性或识别更大类别的新实例,这些都是机器学习擅长的任务。
谷歌研究人员已经使用机器学习解决了广泛的此类问题,但机器学习在医学成像中的应用更进一步:谷歌 2016 年介绍深度学习在糖尿病性视网膜病变筛查中应用的论文,被美国医学会杂志的编辑选为十年来最具影响力的 10 篇论文之一。
另一个雄心勃勃的医疗保健计划 Care Studio 使用最先进的 ML 和先进的 NLP 技术来分析结构化数据和医疗记录,在正确的时间向临床医生提供最相关的信息——最终帮助他们提供更积极、更准确的护理。
尽管机器学习可能对扩大临床环境的可及性和提高准确性很重要,但一个同样重要的新趋势正在出现:机器学习应用于帮助人们提高日常健康和福祉。人们日常设备逐渐拥有强大的传感器,帮助健康指标和信息民主化,人们可以就自己的健康做出更明智的决定。我们已经看到了智能手机摄像头已经能评估心率和呼吸频率以帮助用户,甚至无需额外硬件,以及支持非接触式睡眠感应的 Nest Hub 设备让用户更好地了解他们的夜间健康状况。
我们已经看到,一方面,我们在自己的 ASR 系统中可以显著提高无序语音的语音识别质量,另一方面,使用 ML 帮助重建有语言障碍的人的声音,使他们能够用自己的声音进行交流。支持机器学习的智能手机,将帮助人们更好地研究新出现的皮肤状况或帮助视力有限的人慢跑。这些机会提供了一个光明的未来,不容忽视。
用于非接触式睡眠感应的自定义 ML 模型有效地处理连续的 3D 雷达张量流(总结一系列距离、频率和时间的活动),以自动计算用户存在和清醒(清醒或睡着)的可能性的概率。
气候危机的机器学习应用
另一个最重要的领域是气候变化,这对人类来说是一个极其紧迫的威胁。我们需要共同努力,扭转有害排放的曲线,确保一个安全和繁荣的未来。关于不同选择对气候影响的信息,可以帮助我们以多种不同方式应对这一挑战。
借助环保路线,Google 地图将显示最快的路线和最省油的路线,用户可以选择最适合的路线。
Google 地图中的野火层可在紧急情况下为人们提供重要的最新信息。
趋势 5:对机器学习更深入和更广泛的理解
随着 ML 在技术产品和社会中更广泛地使用,我们必须继续开发新技术以确保公平公正地应用它,造福于所有人,而不只是其中一部分。
一个重点领域是基于在线产品中用户活动的推荐系统。由于这些推荐系统通常由多个不同的组件组成,因此了解它们的公平性通常需要深入了解各个组件以及各个组件组合在一起时的行为方式。
与推荐系统一样,上下文在机器翻译中很重要。由于大多数机器翻译系统都是孤立地翻译单个句子,没有额外的上下文,它们通常会加强与性别、年龄或其他领域相关的偏见。为了解决其中一些问题,谷歌在减少翻译系统中的性别偏见方面进行了长期的研究。
部署机器学习模型的另一个常见问题是分布偏移:如果用于训练模型的数据的统计分布与作为输入的模型的数据的统计分布不同,则模型的行为有时可能是不可预测的。
数据收集和数据集管理也是一个重要的领域,因为用于训练机器学习模型的数据可能是下游应用程序中偏见和公平问题的潜在来源。分析机器学习中的此类数据级联有助于识别机器学习项目生命周期中可能对结果产生重大影响的许多地方。这项关于数据级联的研究在针对机器学习开发人员和设计人员的修订版 PAIR Guidebook 中为数据收集和评估提供了证据支持的指南。
不同颜色的箭头表示各种类型的数据级联,每个级联通常起源于上游,在机器学习开发过程中复合,并在下游表现出来。
创建更具包容性和更少偏见的公共数据集是帮助改善每个人的机器学习领域的重要方法。
2016 年,谷歌发布了 Open Images 数据集,该数据集包含约 900 万张图像,标注了涵盖数千个对象类别的图像标签和 600 个类别的边界框注释。去年,谷歌在 Open Images Extended 集合中引入了更具包容性的人物注释数据集。该集合包含更完整的针对人类层次结构的边界框注释,并且每个注释都标有与公平相关的属性,包括感知的性别表示和感知的年龄范围。
此外,随着机器学习模型变得更有能力并在许多领域产生影响,保护机器学习中使用的私人信息仍然是研究的重点。沿着这些思路,我们最近的一些工作解决了大型模型中的隐私问题,既能从大型模型中提取训练数据,又指出如何在大型模型中包含隐私。除了联邦学习和分析方面的工作之外,谷歌还一直在使用其他有原则和实用的机器学习技术来强化工具箱。