大数据是怎么知道你去过新发地的?-冯金伟博客园

  “经过全市大数据分析,您可能在 5 月 30 日(含)以后去过新发地批发市场……”随着新发地市场新冠源头被锁定,近日来,大数据筛查,成为不少北京市民在朋友圈中热议的话题一组数据显示,截止 6 月 17 日,在行动轨迹一致的情况下,利用大数据分析相关风险人群位置和路径,北京用了短短几天时间,就“找”出了 30 多万人进行核酸检测。

  与年初武汉疫情爆发初期大数据分析人口流动相比,此次北京的“大数据筛查”,无疑体现了更高的技术含量,和更好的时效性,对疫情处置发挥了不可小觑的作用。

大数据是怎么知道你去过新发地的?-冯金伟博客园

  图片显示了 5 月 29 到 6 月 12 日到访过新发地的人群,发现 2430 人到访新发地市场并离开北京,其中有 91 人到访上海。图表还详细列出了这 2000 多人到访过的其他城市,包括廊坊、保定、天津等。(图片来自网络)

  精准查找

  三种手段锁定新发地接触者

  从 6 月 15 日以来,不少路过或者去过新发地的北京市民,都接到了短息或者是社区电话,表示通过大数据筛查,确认被调查者近期去过或者路过新发地市场,要求如实填报信息,并尽快进行核酸检测。

大数据是怎么知道你去过新发地的?-冯金伟博客园

  那么,什么是“大数据筛查”?大数据又是怎样找到新发地的路过者呢?大数据在此次疫情防控中起到了什么作用?

  大数据,顾名思义其实就是海量、大量的资料,这些资料来源于随时产生的数据;而大数据又分为狭义和广义两种;狭义的大数据包括个人私人信息、购物习惯、阅读习惯等个人画像;而广义的大数据则是针对社会或者企业的,例如电商利用大数据分析顾客购物习惯,做好需求预测,提前布局好仓库存储等等。

  显而易见的是,此次新发地的“大数据筛查”,就是广义大数据与狭义大数据的一次有机融合,也是海量存储和快速检索技术的一次良好利用。

  尽管官方并未公布大数据筛查的具体方法,但中科曙光大数据总工程师首席科学家、存储产品事业部副总经理宋怀明博士分析认为,北京之所以能够实现利用大数据快速排查筛选新发地到访者,有三种技术路径可以实现。

  首先是基于手机移动数据确定位置信息,也叫基源定位方法,这是最常用的方法,也是此次新发地大数据筛查当中,效率最高的手段:不过基源并不是 GPS,而是通过手机基站,与 GPS 使用时才打开不同,手机会自动连接到距离最近的信号发射塔,手机的所有活动,都能通过包含基站信息的信令数据信号发射塔筛查回溯,这为追踪使用者的位置定位及路径追踪,提供了真实准确的第一手数据。

大数据是怎么知道你去过新发地的?-冯金伟博客园

  其次是通过社会交往信息分析,这并不是指通过社交软件信息判断,而是结合已有数据,通过电话调查、摸排走访等方式,最终形成相对可靠的数据信息,也可以在短时间内筛选出哪些人在新发地工作、哪些人曾经去过新发地、他们这几天密切接触了什么人等等。

  第三种方法是可以通过物品信息确认,此次新发地筛查过程中,除了对经过者、密切接触者的筛查,也排查了不少物品和货品,在这个过程当中,通过对特定携带病毒物品的路径和接触者追踪,同样可以作为排查查找到新发地密切接触者的依据之一。但宋怀明强调,这种筛查方法的数据可能并不完全,而新发地是否真的利用查物的方法寻找接触者,目前也不能完全确定。

  在官方正式回应以外,此前网上还流传着一种是说法“支付宝和微信提供数据,锁定 35 万人,帮助病毒筛查”但这则消息很快就被两方进行了官方辟谣。

  对此,宋怀明认为,通过二维码获取交易记录,可以确定交易用户位置。但对于交易用户的行动路径追踪,无论是支付宝和微信都无法实现。此外,新发地作为农产品大宗批发市场,还有很多其他交易方式是通过线上转账或者现金的方式进行,因此支付宝微信数据,最多只能在大数据筛查当中起到一定的辅助作用。

  技术革新

  大数据助力流行病精准防控

  除了筛查接触到访者,此次新发地疫情当中,大数据还起到了怎样的作用?中国疾控中心首席专家吴尊友告诉北京科技报记者,在他看来,此次北京新发地新冠疫情过程中,大数据至少发挥了两方面作用:一是将早期病例精准锁定到新发地市场,及时发现传染源,为疾病控制赢得了宝贵的时间。

  二是对发现疫情以后,在去过高风险地区向外流动的人员的了解“包括暴露于环境,和接触的人员,和密切接触者,在北京的分布,以及留出北京的情况,对于发现潜在感染者,阻断传播,起到了非常大的作用。”

  实际上,不仅是北京新发地,在此次新冠肺炎疫情过程中,尤其是年初武汉疫情爆发之时,大数据筛查和分析,就对于疾病防控起到了相当重要的作用。

大数据是怎么知道你去过新发地的?-冯金伟博客园

  北京此次做到了精准分级,没有‘一刀切封城’,而以街道为单位划分风险等级,进行分级管控,大数据起到了关键的作用

  疫情爆发之后,数家科技互联网公司陆续通过数据和技术能力,给全社会提供了大量数据支撑;例如百度的迁徙数据,精准计算出离开武汉和滞留武汉的人数,为政府防控提供了决策参考;再比如 12306 票务平台,利用实名制售票的大数据优势,及时配合地方政府及各级防控机构,第一时间提供了确诊病人车上密切接触者信息。

  此外,利用大数据技术实现信息共享、快速查询,很多媒体平台和互联网平台纷纷开辟了新冠肺炎动态更新、疫情展示和辟谣功能,使用者在鱼龙混杂的信息当中回归理性,让权威信息“跑”在谣言前面,及时安抚了公众情绪,从另一个层面“抑制”了病毒蔓延。

  在预防层面,针对人员聚集可以进行预警;在扩散源头方面,把数学模型和人员社交特征结合,可以很好分析扩散路径与速度,制定更有针对性的对策与措施“北京此次做到了精准分级,没有‘一刀切封城’,而以街道为单位划分风险等级,进行分级管控。”宋怀明认为,这都是大数据起到了重要的作用。

  与国内相比,在大数据预测分析流行病方面,国外已经有了比较成熟的探索和实践,早在 2008 年,谷歌便发布了“Google Flu Trends”(谷歌流感趋势),利用关键词追踪技术搜集数据,如果在某一地区的某一时间段内,有大量关于流感、发热、感冒等关键词的搜索,就表明此地存在潜在的感染人群,需要引起相关部门的重视。

大数据是怎么知道你去过新发地的?-冯金伟博客园

  谷歌曾经开发了软件,利用大数据分析流感趋势,但最终以失败告终(图片来自网络)

  2009 年,墨西哥爆发的猪流感,研究人员也曾利用通信数据监测,从而获取公众对于政府发布的健康预警信息的反应,以指导有关部门更好调整政策;2014 年埃博拉疫情在西非爆发,研究人员同样基于手机通信数据建模,对传染病的流行进行了判断与分析。

  不难发现,有了大数据+人工智能加持的公共卫生领域:一方面在行动效率上更高更快,有效减缓了传染病的传播与扩散;另一方面,同样可以起到,提供预测与分析的重要作用。

  未雨绸缪

  大数据应用如何“更高、更快、更强”?

  新冠疫情情暴发后,大数据在疫情排查等方面得到迅速应用,国内各领域、行业、机构、部门纷纷利用大数据技术,加强互联互通,加速了整个社会力量的整合,对疫情处置发挥了不可小觑的作用。

  但大数据应用并非完美体,随着疫情应对的深入,它也暴露出了不少短板,和仍需提高完善的之处。

  首先是准确性问题,从目前的技术水平来看,大部分城市的大数据应用,聚焦在城市日常生活管理场景、基础保障场景,例如在金融领域、安防领域、交通规划领域等等;但在疫情期间,需要寻求解决方案的“突发公共卫生事件场景”,不可控的因素较多,很容易让一些常规算法暴露短板,甚至出现数据不准确的问题。

大数据是怎么知道你去过新发地的?-冯金伟博客园

  例如此次新发地防疫过程当中,由于大数据信息无法准确分辨“去过”和“路过”新发地市场的区别,加上可操作时间较短,最终出现了“一刀切”的情况,有些乘坐公共交通工具途径新发地的市民,也收到了要求进行核酸检测的短信或通知,让人颇感意外。

  对此吴尊友认为,大数据筛查过程当中,由于时间较短,精力有限,的确存在一些错误判断的情况,有些没有危险暴露的市民,也被要求填写信息检测核酸“但数量只是一小部分,目前首要任务还是控制疫情,未来还有改进提高的空间。”

  宋怀明也认为,除了发短信以外,排筛查的手段也包括打电话、上门走访和自我填报等等,目的就是为了最大程度减少在突发公卫事件当中,大数据应用的不准确性和不确定因素。

  其次是大数据决策问题,宋怀明表示,从实际效果来看,大数据目前的作用,更多地依然停留在分析和辅助决策方面,只有很少一部分能够进行自动决策“从数据角度来看,这样的做法是更科学的,但从时间和效率来看,这样的手段依然有较大待提升提高空间。”

大数据是怎么知道你去过新发地的?-冯金伟博客园

  出于防控需要,很多人的个人信息被“暴露”在 APP、小程序或是登记单、记录本当中,哪些是合理采集,哪些又属于过度采集,如果个人信息泄露了怎么办?目前依然有待商榷(图片来自网络)

  在数据立法、数据安全方面,相关法律法规也不够健全:记者了解到,国家层面目前还没有出台针对公共数据管理的法律法规,省市层面也基本处于各自为战的局面,一些地方出台了法律条例,一些地方仅仅出台了规章办法,还有一些地方并未就此立法。

  这在无形中给数据安全和个人隐私性,带来了不确定因素——疫情期间,多地出现了个人隐私泄露事件,引发了公众的担忧;出于防控需要,很多人的个人信息被“暴露”在 APP、小程序或是登记单、记录本当中,哪些是合理采集,哪些又属于过度采集,如果个人信息泄露了怎么办?目前依然有待商榷,

  实际上,加强信息共享,消除信息孤岛,同时做好个人隐私和数据安全的保护,不仅对当下抗击疫情至关重要,对实现政府决策科学化、社会治理精准化、公共服务高效化也有巨大的推动作用。

  “未来要着力规范数据的所有权、使用权和使用规范,要保护好公众的隐私和数据安全。”宋怀明强调,有关部门既要把握好公众知情权,与保护公众隐私之间的关系“也要尽可能的把公众关心的数据全面、及时、准确地发布出来,并充分调动社会力量积极参与,形成大数据共享的合力”。