张文宏说健康码(吴超关于健康码)

张文宏说健康码(吴超关于健康码)(1)

简介:吴超,浙江大学研究员、博士生导师,计算社会科学中心主任,教育部人工智能协同创新中心成员,主要研究方向为分布式机器学习

为什么关注健康码?健康码刚出来的时候,中央电视台白岩松在采访杭州负责健康码的官员时,谈及健康码技术及其应用情况。我开始关注健康码的机制和问题时,当时想到可能会有三个问题,到现在为止能够证明确实会存在这些问题,但现在实证的数据不够,健康码还在应用过程当中,这仅仅是我的设想。今天就这些想法跟各位交流。

首先,我先把健康码做一个简单的描述,y=f(x)。x是个人数据,现在还是以个人轨迹数据为主,f就是一种数据的建模,这种建模现在看起来还不是机器学习的模型,基本上还是一些规则系统,可能是类似于像树模型的模型,判断轨迹,去过什么地方或跟什么人接触过就归于某一类,结果就是红黄绿的码。这是一个很典型的分类问题,把x的数据转化成y分类。这是对于健康码问题简单的形式化描述。

健康码我认为会存在三个方面的问题,一个是互通、一个是假阴性、一个是隐私保护。

首先是互通性。全国有很多地方开始推行健康码,各个企业、各个地方政府都有样学样的建立类似健康码的程序。但是各地的情况会存在区别,各个企业也很难形成完全统一的平台。这些健康码如果要合在一起,最简单或者最现实的方法就是互认。

现在为止,在实际过程中,我发现也是以互认的思路为主。比如在上海是绿码,到杭州也能得到承认。但是互认会存在很大的问题,互认只是相信彼此的分类结果y,但是不一定会相信彼此的分类规则,各主体的f即规则和标准是不一样的。譬如在浙江产生绿码的规则,可能跟黑龙江产生绿码的规则不一样。

而且很重要的是,各个地方信息化的基础不一样。比如在浙江,人们使用支付宝较多,后台支付宝采集的频率较高,位置轨迹数据精度较高。但是其他地方可能这方面数据采集较少,只能使用手机基站的数据,空间分布率较低。所以信息化的基础不同、规则不同,会造成生成红、绿、黄码的标准不一样。如果某些地方标准比较低就会成为全国的缺口和短板。

健康码为什么在我们国家没有出现问题?因为我们国家整个疫情是向好的,在大部分人没有疾病可能的情况下,如果判定100%的人是绿码都不会出现问题。但如果把健康码的形式应用到美国、欧洲,互通的问题就会暴露得更加明显。

并且各省处理疫情的能力差异较大。我们最近做了一个研究,也是y=f(x)的问题,这个y是各省疫情的严重程度,不是完全以病例数来衡量,我们把病例数跟流动人口、输入型的病例进行标准化处理,算出疫情控制的结果。

x是用会议、调研、政策工具、公共服务可及性、对政府信任度、社会资本等特征做的一个模型,发现我们可以用这几个指标预测不同省份疫情控制的能力。我们候选指标非常多,但是算出来这几个是相关性最强的,再增加特征准确度会更高,但是就会出现过拟合的问题。

简单来说,除了像黑龙江、江西等少数几个省份,我们预测的不太准确以外,其他的省我们预测的都是比较准确的。但是研究发现,各省在处理疫情的政策工具和最后结果存在较大差别。如果推行健康码等全国统一标准的政策,就会出现因基础差异带来的问题。

如果要真正在更加恶劣的公共卫生危机中,发挥健康码的统一作用,应该首先要做到数据互通或者数据的标准和规则能够互通,数据互通比较难,但是标准应该是统一的。

第二是假阴性。这是关于y分类错误的问题。我们现在的f基本上是基于规则的算法,因此精度有限,只能考虑很普遍的情况,但是对于一些精细化的情况很难处理,特别是难以应对模糊性。规则是靠人制定的,是靠观察发现的,但是有很多边界的条件、异常的情况、需要语意理解的情况,这些在y里面都是很难去计算的。

我们认为在绿码当中有很多情况是不应该是绿码,但是被标识了绿码的。比如在患者被确诊之前打开健康码都是绿码,这些是很典型的假阴性,除了这些之外,是不是有更多假阴性的存在?如果在疫情早期就出现了健康码,那时候假阴性比例会不会更高?

我们为了验证上述想法做了模型,这个模型基础是传统的SIR的模型。SIR是疫情传染的经典模型,假设感染的过程是马尔可夫过程。传统SIR模型传染因子是预先设定的值,但我们觉得这个值应该是随着疫情不同的阶段会变化,所以我们用机器学习对这个因子进行拟合。

以意大利为例,因为意大利现在数据比较完整,而且已经经历从疫情爆发到高峰到现在还未完全结束的过程,有利于模型预测。红色的这条线是实际每天被确诊的感染病人的数量。蓝色这条线是当没有假阴性的情况下,根据现有的数据,并且假设核酸检测都是准确的,进行预测。

可以发现,实际确诊病例与没有假阴性的情况预测差别很大。我们改变假阴性的比率,假阴性的比率在0.4%的时候,就会拟合的非常好。也就是说,人群中假阴性数量不需要特别高,1000个人有4个人是假阴性,就会出现比较大的差距。如果假阴性概率提高到0.8%,差距就会更大一些,疫情延伸期间也会更长,右边总的感染人数也会增加非常多。

这个实验告诉我们,假阴性不需要有太多人,但是在传播过程中会造成很大的影响。假阴性是因为我们检测的方法造成的。检测方法中,健康码是一种方式,核酸检测也是一种方式。在国内除了核酸检测之外,健康码就会变成假阴性得重要来源,虽然现在疫情是向好的,问题不太明显,如果我们把健康码这个概念应用到其他国家,假阴性的影响会非常明显。

第三是隐私保护。最近在浙江,特别是杭州,健康码存在较大争议。杭州现在把健康码加码升级,希望变成一个常态化的管理工具。除了健康码之外,现在还有企业码等有各种各样新的码。健康码的范围也在扩大。我听过杭州的畅想,健康码在疫情之后,可用于看病、买药等常态化的应用,会把人们的运动、饮酒、吸烟这些情况都加入健康码,引起了大家的反感,这个就是对于隐私保护一个很直接的侵害。

健康码涉及两个隐私保护的问题。首先,健康码收集的数据是非常敏感的,我们个人的健康数据和轨迹数据都是很敏感的数据。隐私保护当中,轨迹数据是核心保护的数据。而且这些数据现在是以一种中心化的方式进行处理,比如收集到大数据局、阿里、电信部门做中心化的处理。

如果还有一些其他的数据源,比如支付宝的消费记录、个人身份的信息,这些数据库如果联合,可以挖掘更多的隐私数据。另一个问题是保存期限。这两方面都会造成隐私泄露的问题。

很多人说疫情是紧急情况,这时候效用是最重要的,隐私可以被牺牲掉,甚至是在常态情况下,我们经常也会说为了便利,会牺牲一部分隐私。比如导航软件,一定要获取位置数据。我们总认为效用跟隐私之间是对立的。

但我认为,这是借口,很多时候我们没有把专注度放在提升技术,能够让技术在不侵害隐私的情况下,也能够发挥效用。比如手机的摄像头,以前手机拍照便捷性和质量是对立的。现在手机镜头有很大的进步,特别是算法能够弥补镜头不足,这时候手机拍照便捷性和质量就不是对立的了。

对于隐私和效用的问题也是同样的做法。比如,这次疫情位置数据的采集,MITT提了一个算法,本地不停产生随机数,通过蓝牙跟其他的手机交换随机数,其他手机有一个数据库,保存跟它距离相近且一定长时间的这些设备所有生成的随机数,该交换是蓝牙交换,不需要通过中心服务器,这是P2P的方式。

当发现某个人是确诊的时候,手机数据库就把自己生成的历史随机数发到中心服务器上,每个用户本地数据再跟中心服务器数据比较。这是获取中心服务器的数据进行比较,不需要把自己的随机数上传,如果发现周围经过的这些人的随机数与中心服务器感染的随机数匹配,就是有可能被感染的。除了最后比对数据的传输是中心化之外,其他都是P2P的,不需要收集位置数据,而且是匿名化的,这是一个很好的思路。

另外一个思路是我现在做的研究,分布式机器学习建模的算法。这个算法基础是联邦学习的算法,它的核心概念是把建模分散到用户的本地去做。原来的建模都是把数据收集到中心,像健康码需要把每个人的个人数据信息收集到支付宝,然后它再给出相应的健康码。能不能把支付宝或运营商的算法,放到手机上,由我们自己在本地生成健康码,这就是联邦学习的思路,我们就在联邦学习的基础上,来进一步优化,实现隐私保护。

我们做的几方面工作,第一个是进一步去中心化。联邦学习有中心服务器,这个中心服务器的作用是分发初始模型,把各个本地的模型更新,比如机器学习,就把这个更新传递到中心服务器,做聚合,这时候中心服务器还是有隐私泄露的风险。如果更新频率比较频繁,我们可以反向估算出每个节点的数据。

我们考虑是否能够进一步的去中心化,现在做法是拿区块链的智能合约做,用智能合约来运行原来中心服务器模型分发和聚合的操作,用加密算法产生一些随机数,让一些用户加上随机数,一些用户减去随机数,做聚合的时候总数不变,每个用户梯度都是受到保护的。

第二个是我们也在做模型聚合的算法,各个节点都有一个判断自己的健康状况或者是不是绿码的算法,有各自的模型。各模型之间聚合起来会得到更好的模型。这时候如果用传统的算法,是把参数做加权平均,这会出现一些问题,比如模型同构。如果有一个节点数据量非常大,就会拉低整个模型的性能。所以我们现在用的是蒸馏的方法,现在实验也取得了比较好的效果。

接下来的工作就是做数据定价,把模型聚合起来之后,我们要判断每个节点、每个用户、每个个体、每个手机上的数据对于整体建模做了多少贡献。核心的思路就是用多方合作博弈计算,这个计算复杂度非常高,所以我们现在采用的是树状的模式,用交叉的方法构成几棵树的结构。总而言之,我们的目标就是希望在健康码这类出现隐私保护的缺口上,能够用这些技术的方法解决隐私保护问题。

我们在浙江大学成立了计算社会科学研究中心,这个研究中心为计算机社会科学的问题,比如交通问题、疫情传播、社会治理问题提供模型、算法和数据。另外一个方向,也是我们更加重视的方向,就是社会科学如何向计算科学和数据科学提出新的科学问题。找出一些问题,是我们原来算法没有办法解决的,以驱动新的科学研究,比如像分布式建模就是一个例子。

比如我们做机器学习的图像问题,很难遇到数据分散又保护数据节点的隐私,但是放到社会科学的场景、放到疫情的场景、智慧城市的场景,这个问题很快就会凸显出来。我们这时候就需要向计算科学提出新的需求,能不能在分散数据的情况下,还能够做出一个很好的模型,而且这个模型能够在隐私保护的情况下处理治理问题。

编辑:李碧莹

投稿、合作、联系我们:futurecity@xjbsmartcity.com

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页