数据安全探索者之路

2021-07-05 16:50:22 admin

作者:狂奔的奶牛 

数据安全探索者任奎:数据是新时代的生产要素;保护数据原生价值,实现数据的所有权保护、交换与管理;完善数据在收集、使用、存储等阶段的全生命周期安全;研究分析复杂物理数据交互场景中的数据安全攻防机理;在保护数据所有权的前提下实现高价值数据的安全交易;安全技术标准的推广与法律法规的完善。

01 数据安全防护是重大战略需求

当前的行业共识认为数据是驱动数字经济发展的核心动力。以数据为基础的云计算、物联网、区块链、人工智能等经济生态及相关产业链在智慧城市升级、国家重大基建产业发展等方面发挥着积极的作用。《中国数字经济发展白皮书》显示,2020年我国数字经济规模已达39.2万亿元,较上年增加3.3万亿元,占GDP比重为38.6%。

显而易见,数据正在加速驱动众多国民经济产业强势腾飞。考虑到数据作为核心生产要素的重要地位,数据的安全和隐私保护不容忽视。随着数据科学与工业生产的深度融合,数据安全的影响正在逐步蔓延到军事、金融、医疗、教育等各个领域,并关乎国家安全。

事实上,学界和工业界都已经开始大力推动大数据安全战略布局,各国政府也都相继出台各项法律法规以规范保障数据的安全使用和生产,如我国的《网络安全法》、《密码法》等。数据驱动的应用场景正在不断地推陈出新,因此对数据安全防护的要求也在不断提高。从一个数据安全技术研究与探索者的角度,我认为只有从真实场景的实际安全需求出发,才能寻找到最具价值的前沿研究领域。

鉴于此,我们团队也一直在为揭示数据安全防护面临的安全与性能间的冲突与挑战进行多方面的探索。力求达到能够抵御来自多方面潜在攻击威胁的数据纵深安防保护,尊重并保障数据所有者的权限和利益,并同时尽最大可能的保留数据作为生产要素的原生价值。这也是当今整个数据安全行业正在追逐的共同目标。

02 全生命周期安全防护志在必行

以刚刚过去的2020年为例,据IBM安全机构发布,仅在这一年里,全球由于数据泄漏事件造成的平均经济损失高达386万美元,遍及医疗、金融、交通运输等各个行业。

众多实例表明,数据隐私泄露可能发生在存储、传输、运行、处理等任何一个环节。因此,为了最大程度防止数据隐私泄漏,保障数据在整个生命周期内的安全性成为迫切需要解决的问题。在过去的数十年里,国内外的数据安全研究者与从业人员们已经建立起了诸多技术安全标准与规范,诸如AES、国密及TLS等,在数据存储和传输层面的安防保障提供了强有力的支撑。

但是在数据运行时的安防保护措施,仍然有相当大的局限性。具体而言,不论数据存储和传输时的安防措施做得如何,一旦到了数据运行及处理环节,数据一般情况下都是以明文形式呈现出来的,这就给攻击者们(它们既可以来自外部亦或者来自内部)带来可乘之机。

不同于其他自然界的生产资料,数据作为核心生产要素,一旦以明文呈现,是可以被攻击者轻易拷贝、复制或窃取的,从而损害数据所有者的权限与利益。因此,如何保护数据运行时的安全,力求做到全生命周期的数据安全防护,是当下数据安全行业公认的一个痛点,也是我们正在着手研究的热点问题之一。

数据运行时安全的技术方向和发展趋势日新月异,包括诸如同态加密、安全多方计算、可搜索加密、可信硬件在内的技术点,虽然侧重点不同,但共同的目的都是要做到数据“可用”而“不可见”。即在数据全生命周期保护(尤其是运行时保护)的前提下,最大可能地保留数据作为生产要素的原生价值,从而为达到数据的纵深安防保护提供强有力的技术支撑。这些技术的难点攻关和标准规范推动进程,正在学界和工业界的共同推进下飞速发展。

我们研究组也在这些领域深耕多年,有幸见证了业界对保护数据在整个生命周期内的安全性所做出的共同努力。从我职业生涯伊始,我和我的合作者们便一直致力于云数据安全(包括数据运行时的安全)方面的技术研究工作。

上邦-加密软件|文档管理

回顾起初,数据上云的趋势才刚刚兴起。云平台固然带来了诸多优势,包括按需弹性服务、可扩展性和较低的入门成本等。但随着数据和计算任务不断迁移外包到云平台,这个计算服务模式的转变,也引发了许多新的数据安全和隐私问题,这些思考激发了我们的研究兴趣。

在诸多我们开展过的研究课题里,一个比较代表性的主要挑战就是如何维持密文数据的可搜索性,在不泄漏查询或数据内容的前提下,实现密文检索技术。这项研究的出发点,来源于实际生活中,数据搜索功能是无处不在的,数据搜索可以方便的让我们在大量的数据集中,快速索取到我们感兴趣的数据。

当时,只有少数密码原语可以满足相关安全性设计的要求,并且其功能仍然十分有限。鉴于此,我们开始了对加密数据的通用搜索的系统研究,并正式确定了许多新的搜索概念和基于密文数据的安全搜索设计,例如安全排序搜索,加密模糊搜索,多关键字搜索,图形搜索和相似性搜索。

令人欣慰的是,我们的许多早期成果都得到了学术界和行内从业者的认可,这些认可也激励了我们进一步探索更卓越的密文检索相关密码学原语设计。

与此同时,我们也关注到了这些密码设计在实际部署时所遇到的安全与性能方面的挑战,以及相关使用场景的局限性。尤其是从功能性角度和实际部署场景需求出发,仅仅实现上述密文数据的安全搜索设计是不够的。

这也让我们近期的研究焦点,逐步聚焦在如何构建一套功能完备的加密数据库管理系统这一前沿领域。数据库管理系统是当今各类应用场景的核心计算架构支柱之一,为不同规模与类型的数据提供了组织管理、存储、查询、分析计算等丰富的功能。加密搜索的安全设计,只能为复杂的数据库系统提供某些原始操作,却难以满足工业界日益增长的性能和功能多样性方面的需求。

幸运的是,基于硬件实现可信执行环境(TEE)技术的发展,例如ARM TrustZone和Intel SGX等,给数据运行时安全的相关设计带来了新的契机。

相比于传统复杂且功能受限的密码学方案设计,TEE内部数据天然地具有私密性和完整性的保护,能提供更丰富的功能和更好的性能。如何利用好TEE技术,并与加密数据库系统的构建,进行深度融合,仍然有相当多的重难点问题有待解决。

我们同时也要认识到,TEE技术也不是无懈可击的。首先,TEE本身存在安全性隐患。一方面是因为硬件上可能存在漏洞,另一方面是可信硬件在设计时没有考虑侧信道攻击,比如Intel SGX明确表明不防御侧信道攻击。虽然这些攻击需要的条件较为苛刻,但也一定程度的影响了TEE的安全性。

其次,如果运行在TEE内的代码本身存在漏洞,则仍可以被攻击者利用,破坏相关系统设计的安全性(比如前述的加密数据库系统)。运行在TEE内的代码越多,其存在漏洞的可能性越大。

最后,可信硬件的使用不可避免会引入额外的开销,例如程序进出Enclave以及数据的页交换等。目前,我们已经在尝试解决这些问题,虽然有不少挑战,但我相信我们从该领域过去的项目中积累的经验必定会为将来的研究提供诸多帮助。

我们不仅需要使用上述基于安全软硬件的数据保护方案来保证数据运行中的安全隐私,在数据运行后的发布等阶段,隐私泄露的风险依然存在。通过结合用户在互联网上的公开信息(如微博等社交平台上发布的个人资料),攻击者依然可以通过推断攻击(Reference Attack)从经过数据脱敏的匿名数据库中准确定位大部分用户的个人身份。

为解决这一问题,差分隐私(Differential Privacy)这一敏感数据保护技术被提出。其通过在原始数据中引入受控随机性,提供了一个严格的数学工具来量化潜在的数据泄漏,并支持隐私保护数据的收集和发布。在真实场景中部署差分隐私机制的挑战在于如何在实现差分隐私量化保护的同时保障各种实际场景中数据的效用。

现有的解决方案大多依赖于随机值扰动,要求每个用户按照差分隐私架构下预定义的隐私参数扰动其拥有的数据。我们团队近期的一项工作提出了一种新的机制,引入伪造数据并与经过扰动后的原始数据相结合,在增强数据隐私可量化保护的同时,避免了数据可用性的大幅下降。

在常用业务场景的模拟环境中,实验结果显示这一方法在维持同等隐私保护强度的条件下,将数据效用提高了70%以上。目前,这一技术已经被整合到阿里巴巴集团的数据安全产品Datatrust等应用中,帮助保护数百万用户的隐私。

03 万户智联下的数据安防新挑战

在过去的二十年里,我们的社会见证了多种多样的智能设备和系统的快速发展。异构硬件与软件平台种类的多样性不可避免地导致系统的可攻击面变得巨大(包括硬件层、系统层、网络层、应用层、传感器层等)。在物联网技术快速发展并广泛部署的今天,数据安防形势也更为复杂,导致数据安全和隐私问题面临更严峻的技术挑战。

在复杂场景如自动驾驶、智能制造、智慧医疗中,用户的数据安全和隐私保护面临着更为严重与复杂的威胁与挑战。在数月前发生的特斯拉车主维权事件中,特斯拉在公布了事故发生的行车数据后陷入了公布数据是否侵犯车主隐私的争议之中。

在此前发生的多起特斯拉行车事故中,车辆运行数据均是确定事故责任划分的重要依据,而数据不透明成为特斯拉被诟病最多的地方。根据我国法律法规,用户有权查阅自己的行车数据,为此特斯拉开发了线上信息系统平台,供车主查询获取车机交互数据。

然而,这也带来了数据泄露等安全隐患问题:

第一,车主需要将身份认证信息传输给数据共享平台,此通信过程存在身份信息泄露的安全隐患;

第二,为了让车主能够实时访问车机数据,车机与服务端的通信量和频次可能会大幅提升,这在客观上会增加通信链路被窃听或遭受中间人攻击的风险;

第三,数据共享平台的公开性对行车数据的可访问性提出了要求,这容易混淆车主在境外访问数据与境外势力窃取数据的行为,将会对违规跨国数据传输行为的监测带来更大挑战。

再以随身智能设备为例,我们团队发现了多种新形态的用户隐私攻击技术,其中一项成果表明:智能手机上可以不用任何授权,仅利用加速度计就可以窃听、还原用户通话的声音,且准确率高达90%。

我们中的许多人可能收到过与关键词相关的未经请求的广告,这些广告就是由设备上的麦克风或者嵌入式传感器无意或秘密捕获的。这显然是不可接受的隐私侵犯。

无论是利用内置传感器对手机外部环境中的震动与声音进行侦听窃取,亦或是利用社交软件中附近陌生用户的搜索功能定位追踪某个特定用户,都利用了智能设备与用户人机信息交互界面前所未有的丰富性与多样性,从而绕过传统的数据安全防护机制,获取用户隐私信息。

随着智能传感设备的日益普及,通过传感器的数据、深度学习的模型等交互应用,敌手可以实现各种各样的攻击,摆在我们面前的研究挑战既有理论上的,也有实践上的。我希望能与社会各界一道,为保护数据隐私、维护数据安全而努力。

04 打造保护所有权的数据交易平台

在现有的技术方案下,数据的安全性与其可利用性往往存在矛盾,二者不可兼得。例如,机器学习在各种类型的任务中取得了巨大的成功,并被广泛应用于各行各业(如高频交易市场、医学诊断分析等)。然而,模型的训练依赖于大量高质量的训练数据。这表明数据作为基础性战略资源的地位日益凸显,数据安全与数据变现的问题亟待解决。

如何在安全和效用这两者间寻找一个平衡,既能保障数据生产者的权益,同时尽可能挖掘数据蕴含着的巨大的价值,需要我们提出一种全新的处理和对待数据的方法。

我们认为,建立一个有效且可信的数据市场是解决数据安全和隐私问题的可行方案之一。这一方案可以充分激发数据价值并满足市场多元化需求,促进建立模型数据市场,为机器学习模型交易提供渠道。我们研究团队近期的一项工作致力于研究机器学习模型的生产与交易情境下数据价值的挖掘。其首次明确了数据市场中数据所有者、中间商及模型购买者三方各自的期望及能力与他们所受到的限制,开发了一个全新的名为“中间商”(Dealer)的数据市场框架。

在此框架下,数据所有者和模型购买者之间的补偿问题与中间商的利润问题都得到了有效解决。在数据市场中,合理的补偿分配将极大地激发了数据所有者参与市场交易的积极性,这对于进一步完善和优化数据市场治理具有重要意义。

同时,目前的“中间商”框架存在一个限制较强的假设,即中间商必须是绝对可信的,而这一点在现实世界中往往很难得到保证。为解决这个问题,我们一直与来自西蒙菲莎大学的裴健教授紧密合作,并尝试利用多种安全技术,例如联邦学习技术与差分隐私技术,来构建一个安全可信的数据市场框架。

05 构建数据安防技术标准与完善相关法律监管

在数据安全与隐私保护中,不存在毕其功于一役的技术与手段。即使有不断加强的研究和新技术手段,在技术层面上也很难根本解决数据泄露、侵犯隐私的问题。比如,智能汽车数据规范使用单纯从技术上很难解决,需要国家从标准和相关法律法规的制定方面定义责任边界,相关审计部门对事故各个环节进行责任认定。

在这方面,浙大网安研究团队领衔推动了ISO/IEC PWI 7748 “基于零知识证明的隐私保护指导与实践” 国际标准的制定,并参与了国内首个SDK国家标准《移动互联网应用程序(APP)SDK安全指南》、IEEE标准P2866.1《Standard for Device Trusted Extension: Software Architecture》、国内首个数字消费券团体标准《数字消费券服务规范》等国际国内相关安全标准的制定。通过构建数据安全和隐私保护的评估体系,制定安全技术标准和测评标准,建立数据平台及服务安全评估体系,将成为保障数据安全和隐私的有效举措,切实促进数据安全和隐私保护保障能力的全面提升。

更重要的是,通过行之有效的监管手段,为互联网企业在追逐经济效益的诉求时套上法律与监管的缰绳,在寻求经济效益与社会效益间、在为公众提供便利与保护公众隐私间找到微妙的平衡。

目前,我国《数据安全法》《个人信息保护法》正在加紧制定出台,从而在法律层面为数据安全和个人隐私保护提供法律保障。”通过加紧构建数据安防技术标准与相关法律法规的综合治理体系,建立数据资源的确权、开放、流通以及交易的相关制度,从而在运行机制上进一步完善数据产权保护制度,为数据安全和个人隐私、个人信息保护提供制度保障。


免费试用