热搜:
编辑导语:随着移动生态的进一步成熟,车联网的数据安全一事也被提上了日程,而未来若想在数据安全方面有所保证,隐私计算也许会成为移动生态发展的一个重要突破口。本篇文章里,作者就隐私计算一事做了分析,不妨来看一下。

韩愈《早春呈水部张十八员外》中“天街小雨润如酥,草色遥看近却无”一语道尽早春草色。小草一株怎能代表早春生机,绿意一片方显春意盎然。恰如数据科学家维克托·迈尔·舍恩伯格所言,“大数据让我们更清楚地看到了样本无法揭示的细节信息”,从IT(信息科技)时代进入DT(数据技术)时代,数据石油价值日益凸显。

移动互联网十年黄金时代已过,下一个移动生态很可能来自“四个轮子”,去年4月特斯拉宣称其自动驾驶数据累计超过30亿英里(约48.2亿公里),远远超过微博创立10年的数据累积量。车联网日渐成为车企竞争焦点,数据频繁跨境、跨系统、跨生态圈交互,然而数据泄露,隐私不“隐”,数据孤岛广泛存在,衍生问题也横亘在前。

如何保证车轮上这台电脑能在疯狂的数据世界保持思考、判断并作出正确决定?

10月份发布的车联网数据安全规范,极大地约束了车联网数据的使用和保护方式。特斯拉的跨境、滴滴事件等同样鞭打着车企数据合规问题。实现车企从“孤军奋战”走向“合作共赢”,确保“数据不出车、数据不出国”同时实现数据共享、安全和隐私?应该说隐私计算是目前助力新能源汽车“安全起飞”的“救命稻草”。

一、区块链隐私保护两大领域四大象限,各类隐私计算技术均有其更加适用的场景

隐私保护技术是区块链一个重要的发展方向。在技术层面,既有利用加密存储、去标识化、身份认证等“老办法”严防数据泄露、篡改和不当使用,也有应用多方安全计算、联邦学习、联盟链等“新方法”实现数据可用不可见(可对数据计算,不知道原始数据)、可算不可识(可用数据计算,不能反推个人身份)。

隐私计算(Privacy Computing)并不是区块链之后才有的,而是一个计算机领域,密码学的一个重要分支,在不暴露原始数据的情况下完成虚拟的联合计算。

隐私计算体系架构

​投资观察第15期:隐私计算,新能源汽车“安全上路”的“救命稻草”?

资料来源:《腾讯隐私计算白皮书 2021》

隐私计算可分为四个象限:数据流出、集中计算(数据脱敏、差分隐私、同态加密);数据流出、协同计算(安全多方计算);数据不流出、协同计算(联邦学习平台)和数据不流出、集中计算(可信执行环境)。

四大象限又可归为密码学(软件和算法)和可信执行环境(硬件)两大领域。密码学技术以安全多方计算(Secure Multi-Party Computation, SMPC)为代表;可信硬件领域则主要指可信执行环境(Trusted Execution Environment)。

上世纪80年代,我国第一位图灵奖获得者姚期智等人提出安全多方计算,包括隐私集合求交(Private Set Intersection, PSI)、隐私信息检索(Privacy Preserving Information Retrieval, PIR)及隐私统计分析等。

核心思想是设计特殊的加密算法和协议,在无可信第三方的情况下,互不信任参与方在保护各自隐私信息前提下协同建模的机器学习框架,不能得到其他参与方的任何输入信息,只能得到计算结果。有秘密共享(Secret Sharing, SS,秘密分割成多片由不同参与方管理)、混淆电路(Garbled Circuit, GC,姚氏电路,明文转化成布尔电路后对每个门输出的真值加密)、不经意传输(Oblivious Transfer, OT,发送方同时发送多个消息但接收方仅获取其中之一)等一些强大技术。

可信执行环境通过硬件技术对数据进行隔离保护。核心思想是借助硬件CPU芯片,构建独立于操作系统的可信的、隔离的机密空间。通用性、易用性和性能比纯软件方案高。缺点是需要引入英特尔、AMD等芯片可信方。此外由于CPU相关实现属于TCB,侧信道攻击也是不可忽视的攻击向量。常用两种方案:Intel 的 SGX、ARM 的 TrustZone,以及与两者相关的商业化实现方案,如百度MesaTEE、华为 iTrustee 等。

以上两种隐私计算路径还衍生出后起之秀——联邦学习(Federated Learning,FL)等技术。联邦学习本质是分布式的机器学习,可以从技术上解决数据孤岛问题,数据拥有方不出本地构建共有模型,包括联邦学习、共享学习、知识联邦、联邦智能等。根据数据集的不同类型,联邦学习分为横向联邦学习(特征重合较多样本重合较少的数据集)、纵向联邦学习(样本重合较多特征重合较少的数据集)与联邦迁移学习(样本和特征重合均较少的数据集)。

2012年就有学者发表了相关研究成果,2016年谷歌率先商用,2018年微众银行引入国内,很快得到互联网大厂、科技巨头、人工智能公司的重视。

零知识证明(交易匿名和金额隐藏)、差分隐私(Differential Privacy, DP,添加噪音去除个体特征以保护用户隐私)等辅助性技术或应用也非常有用。

由于技术路径不同,各类隐私计算技术均有其更加适用的场景:多方安全计算不依赖硬件且安全性更高,但是仅支持相对简单的运算逻辑,比如简单的统计、查询计算和简单的逻辑回归等机器学习模型。可信执行环境性能和算法适用性更好,但是需要依赖硬件;联邦学习适合数据挖掘,可以解决复杂的算法建模问题,但是性能存在一定瓶颈。

二、四小龙领跑政策驱动、市场需求催生的新赛道,八大类参与方中初创中立平台型企业或大有可为

区块链、金融科技等风口逐渐落下,数据经济似乎成了为数不多充满想象力的创投赛道,数据隐私保护是解放数据经济,实现大规模商业化变现的关键一环。

隐私计算成为2021年重点深挖的9项技术之一。据 Gartner 预测,2025年一半的大型机构会使用隐私计算在不受信任的环境和多方数据分析中处理数据。KPMG 预计 2023 年国内数据安全技术服务有望达100-200亿人民币,随着 IT 架构走向云化,将撬动千亿级的数据安全 SaaS 运营收入。常春藤资本创始合伙人翁吉义直言隐私计算行业蕴含大机会,全球都是增量市场,有成长出多家独角兽的可能。

隐私计算往往涉及四种参与角色,数据供应方、数据需求方、监管方、技术服务商。通常四种角色分离,但某些场景下机构可能兼两种角色。

国外隐私计算创新活跃,但商业化进展稍缓,各国际企业相对更关注基于可信执行环境的隐私计算,谷歌(联邦学习的引路人)、Intel(Intel的SGX和ARM的TrustZone垄断TEE硬件)、微软(多方安全计算)等国际领军企业开创了隐私计算产业的时代潮流;Facebook、Zama、Enigma、Sharemind、Privitar等国外互联网、AI、区块链企业也加快布局。

隐私计算在我国是非常新的行业,相比国外早在2008年便有企业布局,国内直到2016年才出现独立的隐私计算商业项目。2018年阿里、腾讯、百度等巨头才相继入局。2020年,公司数量才从最初的五家变成今天的上百家,形成互联网大厂、云计算、人工智能、区块链、大数据网络安全公司、三大电信运营商、金融机构和金融科技企业、隐私计算初创企业为代表的八大类市场主要参与者。

​投资观察第15期:隐私计算,新能源汽车“安全上路”的“救命稻草”?

华控清交、蚂蚁金服、微众银行、翼方健数被誉为领跑隐私计算赛道的“四小龙”,撑起“四超多强”的竞争格局。

从技术路线上看,多方安全计算复杂度高、开发难度大,以华控清交、富数科技、矩阵元等为代表的隐私计算初创企业和大数据区块链企业为主;可信执行环境较强依赖硬件及国外芯片,国内产品相对较少,集中于百度、阿里巴巴等互联网大厂和冲量在线、隔镜科技等初创企业;联邦学习,由于机器学习类应用需求突出,且有较成熟的开源社区为基础(PySyft、TF-Federated和FATE等),开发难度相对轻松,主要集中在运营商、微众银行等金融科技公司。

随着我国第一部数据安全的专门法律——《中华人民共和国数据安全法》和第一家国际数据交易所(简称“北数所”)相继宣布成立,隐私计算或迎互联网大厂、垂直初创企业和相关安全领域企业硝烟四起的“三国大战”。这场“大战”不是“烧钱”的营销竞争,而是技术创新的真正比拼,更离不开与商业模式的结合。

政策驱动、市场需求催生的新赛道,初创中立平台型企业或大有可为

与社区团购、生物医药等大厂占据绝对优势的赛道不同,隐私计算初创企业的市场份额更大。由于技术复杂常常呈现“黑盒化”现象,且处理对象常涉及敏感数据资产,隐私计算众多技术仍处于前期验证阶段,提供方须首先建立信任,行业较长时间内定制化需求较高,相较于传统大厂,初创专精型企业天然带有信任优势,中立厂商大有可为。

隐私计算厂商落地情况由此可见一斑,根据中国信通院,目前超过81%的隐私计算产品进入到试点部署或实施阶段,但是华为等知名企业均尚未公开落地案例,字节跳动等仅仅在集团内部落地。

初创企业技术落地明显优于传统大厂,除洞见科技外,星云Clustar、华控清交、翼方健数等大部分均已实现案例落地。专利数方面初创企业同样表现不俗,专利数超过20个的10家中分别为蚂蚁科技(429)、微众银行(316)、平安科技(62)、华控清交(49)、百度(33)、矩阵元(33)、腾讯(32)、华为(32)、星云Clustar(25)、趣链(24)。

富数科技、同盾科技、星环科技等大数据和网络安全公司也缺乏落地项目。上市公司2019年靠区块链概念在二级市场寻求回报增长,此次也难逃因为生存压力炒作新热点、新风口之嫌,8家区块链公司表示正在或即将开展隐私计算相关业务,但大部分还处于初期阶段。不过Real AI、医渡科技等AI企业确有明确的落地场景,缺乏数据训练的AI注定只能停留在理论层面,隐私计算也被称为“AI落地的最后一公里”。

隐私计算研究跨度门槛高,“隐形冠军”价值更加凸显。不可否认是隐私计算在挑选公司,而不是公司在挑选隐私计算,需要掌握数学、加密学、建模、工程化和业务场景等综合能力,以及前期论文研究、底层算法、原型实现和工具化等高投入,国内具有完全自主研发能力的公司屈指可数。软件产品门槛低卖不动,硬件门槛高玩不起,隐私计算的商业模式仍需探索。

据KPMG《隐私计算行业研究报告》,技术服务商有销售模式(一次性技术系统搭建每单数十万数百万不等)、服务模式(隐私计算年度系统维护和服务比一般软件更新更快),调用模式(单次数据使用几分到几角不等,亦可先试用后收费)、分润模式(与客户联合运营分润)。

我们预计隐私计算商业路径分“三步走”:初期以医疗、金融、政务等数据合规关键领域的软件销售模式为主,中期拓展到中小企业和科技公司的按量付费模式,未来平台型的调用和分润模式将解决不同厂家技术不同的问题,相比单纯售卖软硬件的方案,平台不仅边际成本更低,还将打开更大的隐私计算生态网络。

平台型机会往往诞生于双边主体分散、需求多元的行业,网罗上游数据源和下游数据需求,方显超大规模的隐私计算平台价值。

华控清交首席科学家徐葳说过,应用跑向数据会形成天然的“数据垄断”。中立平台型隐私计算公司像大禹治水一样“开渠引水”,连接“河系、网道”,建立国家数据网,让数据跑向应用,真正化解“数据垄断”。

从投资机构布局来看,红杉中国、IDG资本、基石资本等不少VC、PE已入局。据天眼查,2020年至今,至少已有8家隐私计算企业获得融资,大多集中在B轮及之前。榜首是B轮专攻政务的“清华姚班”华控清交,融资额高达5亿人民币,其次是专攻医疗B轮的翼方健数和专攻金融A+轮的星云Clustar。

冲量在线在2020年末完成IDG资本的天使轮投资,锘崴科技、数牍科技等也深受资本青睐。赛道玩家估值多在1~3亿元区间,明星公司估值半年前已超6亿元。公司成立时间都较短,除华控清交、翼方健数、星云Clustar成立超3年外,其他公司成立时间均不到两年。

愿意高价入场的投资者多半相信“平台的传说”,但杠杆的另一半是隐私计算技术需要彼此结合使用才能满足客户的综合需求,方案同质化意味着市场发展到下一阶段—企业价格战。

而且,由于难以在二级市场找到直接对标的公司,很难预判是百亿级的投资机会。隐私计算要突破商业化的规模瓶颈,仍需完善技术的成熟度与安全性,提供同质化产品之外的附加价值,在一个或多个领域提供更深入的解决方案,搭建产业推广的多方协同合作模式。

三、车联网时代,隐私计算如何成为下一代移动生态的“基石”

隐私计算应用场景不断扩展,可以帮助机构在不输出原始数据的基础上,共享整合多机构间、多维度的数据,构建更立体的用户画像,比如,医疗、金融、电信运营商、互联网企业获客提升用户体验和政务领域社会福利最大化。

智能联网汽车有望成为继医疗、金融和政务之后另一大重点领域,隐私计算将作为数据经济的底座,开启下一代移动互联网红利,为新能源汽车实现车内、车与云平台、车与车、车与路、车与人等全方位网络链接与智能管理的车联网技术体系保驾护航。

过去5年,黑客攻击智能汽车的次数增长了20倍。一辆汽车每天至少收集10TB的数据,一旦遭受侵害会泄露车上用户甚至车外行人的信息。在行驶过程中涉及周围交通情况等大量地理信息,事关国家重大安全。

智能网联汽车“明星”品牌特斯拉就曾被找出大量安全漏洞,控制者利用Model S的漏洞远程控制开锁、鸣笛等操作。

车联网信息安全分四个层面:系统安全、应用安全、网络安全,最大问题就是数据安全,也就是数据隐私保护和数据可靠性这对矛盾问题。

车联网的隐私比移动互联网的隐私问题更突出,很容易跟踪车的行踪、位置和用户ID等。但是隐私保护下无法了解真实身份,就可能发布虚假信息,带来数据可靠性问题。

隐私计算结合AI、区块链、云计算、分布式存储等技术为解决隐私和数据可靠性这个车联网数据安全最大的矛盾问题提供了方向:

车联网不可篡改的信息,比如交通事故、违章等信息通过区块链实现证据固化,这是区块链的不可篡改性。

云计算解决车联网使用区块链时的资源受限传输延迟等一系列挑战,极大提高算力资源利用率,租用计算资源避免重复购买的浪费,规模效应降低单位成本。

分布式计算是云计算的高级形态,车辆等设备通过分布式计算网络重新被有效利用,防止云计算寡头垄断计算资源,提高价格获取高额垄断利润,P2P下载可以节省近60%的带宽。

AI是自动驾驶的首选技术,汽车不仅仅是交通工具,更是智能设备。而缺乏数据训练的AI注定只能停留在理论层面上,隐私计算的出现为这一问题提供了解决的方向。

车联网入网注册需要保护隐私,隐私计算可以让数据在分布式计算中保持加密状态,提高数据安全,也使隐私数据上链成为可能,同时通过区块链确保可验证性。

四、结束语:螺旋上升的飞轮迎来下一代移动生态

分布式计算为车联网提供存储的土壤,数据直接从需求节点发送到不受信任的提供节点相比云计算面临更大的数据安全挑战。

隐私计算为无限扩容的分布式高性能算力互联网提供信息安全保证,区块链通过数据目录、数据湖构建数据流转,成为隐私计算的底座和枢纽。数据存储在数据库里不能直接产生价值,通过AI海量数据训练才能达到理想性能。隐私计算使数据“不出库”就能实现身份认证、可追溯性、隐匿查询、模型构建等能力,将极大的丰富下一代移动生态的应用天地。