原创 服老思和同学们 P线 年春节,国内新冠疫情刚刚爆发,我们整理了部分疫情初期的数据项目[1]以及 使用Tableau做的可视化作品[2],希望从数据的角度切入看看这场疫情。一年过去,全球新冠疫情尚未稳定,我们再次以疫情为主题整理近百个作品,按图表类别逐一探讨,给各位数据可视化工作者提供参考。
由于折线图擅长描述数据随时间变化的趋势,它成为新冠疫情可视化中最常见的一种图表。但即使是这样一种最简单的图表,在疫情期间的变化也很多样。最基础版的折线图通常以时间发展为 x,累计确诊人数绝对数值或每日新增确诊人数为 y,展现确诊人数或每日新增人数随时间的变化情况。
基于基础版,疫情相关的折线图发展出不少变种,其中最常见的为改变 y 轴的尺度,即将 y 轴改为对数尺度,在 y 值范围变化很大时,这样的对数坐标更有利于比较变化。另一种常见的变种则是对 y 本身进行处理变化,譬如展现每日确诊新增个案的7日移动平均线,相比展现绝对数值,移动平均线更有利于分析展现当前新增确诊的趋势。折线图在疫情期间使用极为广泛,其中金融时报制作的疫情追踪器颇为经典:Coronavirus tracked: see how your country compares[4]。该作品在可视化上主要使用了折线图,读者可以选择不同测量尺度的 x 轴或 y 轴查看图表。
另一常见的折线图变种是在图中增加参考线,使预测和比较更加直观。依然是来自金融时报的例子,其在新冠肺炎各国死亡人数统计[6]的图表中绘制各国过去几年的死亡人数参照线,着重突出了新冠下的超额死亡人数。除了以上变种,动态图当然也是折线图常见变化类型, 战疫总动员:8亿中国人如何做到居家隔离?[7] 中在动态折线]的使用中配上节奏感的音乐,很适合轻量型的视频传播。
想必关注疫情可视化的朋友一定见过下面这种可视化形式 —— 拉平曲线(“Flatten the curve” Viz)。虽然它们看上去像是折线图或曲线面积图,但本质是直方图(histogram:表达一种分布),曲线所包围的面积代表疫情期间需要治疗的总人数。因为该变种使用非常广泛,我们将在这节专门探讨“拉平曲线可视化”。—— 它看似简单,却简明有力地展现了缓慢的感染如何减少医疗系统的压力,从而改善结果。
首先,什么是“拉平曲线]”?拉平曲线不是一条“线”,本意指一种减缓病毒传播的公共卫生策略,目的是延缓感染高峰,减少医疗机构的压力,防止崩溃。
那什么是“拉平曲线]”呢?拉平曲线可视化包含一组两条不同颜色的曲线,图表的 x 轴代表第一例感染出现后的时间变化,y 轴代表需要治疗的人数。图中红色的陡峭曲线代表在不采取任何干预措施情况下的的疫情流行的结果仪表,病毒会快速传播并在较短时间内达到峰值; 另一个更平坦的蓝色曲线则描述在一定减缓病毒传播的公共卫生策略下的疫情流行结果,虽然持续时间更长,但医疗系统的压力会一直保持在平稳可控的范围内。
拉平曲线可视化的第一个版本出现在 2007 年的一份 CDC MMWR(Morbidity and Mortality Weekly Report)[12],而将这一可视化运用到本次新冠疫情中第一人是 Dew A. Harris[13],一位美国宾夕法尼亚州费城的人口健康和卫生政策从业者,相比 CDC[14] 中的图表,Harris 新加上了一条代表医疗系统承载力(最大负荷量)的虚线,强调了减缓病毒传播的公共卫生策略对于防止医疗系统崩溃的重要意义。
地图同样是新冠疫情可视化中的常见可视化形式,优势在于可以一目了然地展现地理信息。最经典的地图可视化当属 John Hopkins Tracker Dashboard 中的 bubble map[20]。读者可以选择累计总数、发病率、死亡率、检测率等查看不同统计数据在地图形式上的展示。
除了实时追踪疫情相关信息的地图外,不少媒体也以地图的形式呈现了不少有趣的交互报道。其中 2020 年 3 月发布的数据新闻报道 “[22]How the Virus Got Out[23]”[24]备受好评,文章可视化以交互地图为基础,解释新冠疫情如何蔓延全球。由巴西查证机构 Agencia Lupa 制作的 What if all Covid‑19 deaths in Brazil happened in your neighborhood? - Agencia Lupa & Google News Initiative[25]则以地图可视化为基础进行了新冠肺炎后果模拟,用户可以输入一个具体的巴西地址,作品以巴西的总死亡人数为基础,假定所有的死亡事件都发生在同一社区将产生何种影响,将抽象的可怕代价具体化。以上推荐的两篇报道都被评为 2020 年最具影响力的十大数据新闻。另外,路透社的交互报道 How coronavirus hitched a ride through China[26] 也以地图为基础,融合多形式的可视化,展现疫情如何穿越中国。
和地图相关的可视化还有很多,创意作品也不少,譬如法国可视化爱好者创作的 A SPARKLINE MAP OF COVID-19 (OR ANY NAME YOU’LL PREFER[27],作品结合线D地图上描绘曲线的动态;还有数可视在数说战“疫”系列作品中使用的动态地图:数说战“疫”:除整体向好的趋势外 还有些数字也值得被看见[28]。除可视化报道之外,在国内疫情初期,也涌现了不少以地图可视化为基础的案例查询工具,譬如 CBNDATA 的周边资讯汇总[29],通过定位可以快速了解周边的确诊情况。在譬如香港开源社区做的“武漢肺炎民間諮詢”[30] ……
柱状图通常用于比较各组数据在某一维度的差异性。在新冠可视化的案例中,大多数柱状图在使用方法上,和对应的折线图一样,但更容易测量数值。柱状图的应用十分广泛,最基础的譬如 Tableau 制作的作品Novel Coronavirus 2019-nCoV [32],以不同国家作为横轴的变量,总感染人数作为纵轴的变量;在左上角“感染人数最多的十个国家”的条形图中, 作者在对中国的图示进行了截断的处理,这样可以更清楚展示其他地区的疫情。还有世卫组织的每周疫情更新报告[33]中使用了的堆积图,在柱状图的基础增加展示比例分布。来源:Tableau 制作的作品 Coronavirus 2019-nCoV[34]
除了显示两个变量间的相关性(模式)外,散点图也适合展示非相关性(异常/ 错配),多见于新闻报道中。譬如澎湃美数课[39]在探讨重点疫区的医疗资源问题时,就以“每十万人确诊病例数”为 x,“每千人平均床位”为 y,展示不同重点疫区之间的人均医疗资源差距。RUC 工作坊[40]在探讨疫情初期不同地区微博求助者数量和当地定点医院个数的关系时,也使用了散点图。
饼状图则适合展现数据的分布,用面积来代表数值。因为扇叶的半径相等,饼图的面积关系又可以转化为弧度/ 角度的关系。饼图非常常见,比如这张关于爱尔兰case分布[42]的图,展示了治愈、死亡、在院三种情况的分布。
这类图表往往在案例统计的报道中使用较多,用于比较某一特征人群在总人群中所占比例。另外,部分论文中也有使用,譬如清华大学团队发表在 Cell 上的论文 Molecular Architecture of the SARS-CoV-2 Virus[45],在成分比较研究的可视化上也使用了饼图,
矩形树图(Treemap),本质上和饼状图相同,均是用面积来代表数值。在矩形树图中,读者则直接识别面积关系。路透社在作品 A deluge of death in northern Italy[46] 利用矩形树图展现 3 月底意大利 Lombardy 地区新冠死亡人数占全球总死亡人数的比例,树图和象形的结合很有视觉冲击力。数可视在红会捐款分配的相关报道[47]中也有使用,医疗物资如何分配、不同区域分配到的物资所占比例...... 矩形树图各部分会自动按照占比大小的顺序排列,很适合这样的场景使用。
之前我们特别探讨过的象形统计图(Pictograph)[48]在这次疫情期间也很常见。2020 年 5 月美国新冠死亡人数达到10万时,《》制作交互报道作品 An Incalculable Loss[49],用每一个灰色背影代表在这场大流行中逝去的生命,很有视觉冲击力。的 Your questions about coronavirus vaccines, answered[50] 也使用象形统计图展示了辉瑞新冠疫苗临床试验结果,和饼状图类似,用面积来代表数值,使读者对于结果分布感受更加直观。象形图在疫情类作品中的使用还有很多,有关 “1854 年伦敦霍乱”[51] 的 Tableau 可视分析就是一个经典的案例。
涉及到传播和关系,关系网络图自然也是绕不开的可视化类型。其中一个典型的应用是新型冠状病毒传播基因组分析,Nextstrain 团队通过 GISAID/ Nextstrain[52] 的数据,使用系统发生树的方法,来研究病毒变异的过程和推断首次爆发的时间。路透社也在去年年初的作品 Genetics of the new virus[53] 基于此数据绘制所有冠状病毒关系谱系。
疫情相关的人口迁徙也是适合使用关系网络图的场景,服老思就在去年 2 月份利用百度迁徙公开的人流量原始数据制作了2020 春节前人口实际流动网络图[56]。在感染者传播路径可视化方面,的作品 How the Virus Won[57] 分析美国的疫情如何传播、爆发到失控;路透社作品 The Korean clusters [58]讲述了新型冠状病毒如何在韩国爆发,利用关系网络图追踪新冠肺炎的传播路径;the UW Network Modeling Group 制作的 Visualizing social distancing networks in the era of COVID-19[59] 就利用社交网络图可视化不同社交距离下的感染传播情况。澎湃新闻则更别出心裁,在基于H5的交互作品:我们该如何记住2020和这场疫情[60]中,用每一个点代表一名在中国确诊的新冠患者,每一条线代表一位新冠肺炎感染者,将传播途径可视化成立体的树状结构,点击每一个点,可以看到关于这位患者的流调详情。但由于可追踪记录的流调信息有限,树状结构整体看起来较为分散,但本质依然是一个大型的 3D 社交网络可视化。
流向图(Flowchart)算是关系网络可视化的一种特殊形式,不过更着重展示数据流向,适合表达一种“多对多”的分配关系(allocation)。南华早报的 How the coronavirus spread in Hong Kong[61],以树状流程图展现香港新冠疫情在香港的传播情况;数可视[62]使用桑基图(Sankey Chart)可视化武汉红会首次公布支出明细。在新冠疫情早期,数可视整合分析官方公布的 40 例死亡病例详细信息[63],利用流向图展示患者的既往病史。
3D 可视化由于制作成本较高、制作周期长,在日常报道中并不多见,但过去一年, 新冠相关的3D 可视化却频频出现。譬如,西班牙国家报制作的 A Room, a Bar, and a Classroom: how the coronavirus is spread through the air[65],通过对不同密闭空间的模拟,可视化说明病毒如何在室内空间传播;的病毒颗粒在地铁上如何移动[66],科普分析地铁的构造和通风系统的设置,用3D建模的方式模拟乘客戴口罩和不戴口罩打喷嚏情况下,口沫在地铁中移动的情况。同样来自的作品:口罩如何减少感染风险[67]则通过动画模拟不同类型口罩如何阻止空气中小型颗粒、中型颗粒和大型颗粒的穿行。相比文字或其他类型的可视化,3D模拟给读者带来更强的视觉冲击力,在解释原理方面也优势明显。着眼于中文媒体作品,财新网的新冠逝者可视化[68]基于 Three.js 库,以花瓣代表新冠逝者,也是一种特别的形式。
模拟类型可视化(Visual Simulations)适合用来对假定的情况做出推衍,类似战争中的沙盘游戏。大到公共决策,小到个人偏好,我们的选择无法进行重复试验。这就是计算机模拟可以帮助我们更好地理解问题,作出判断的地方。What Happens Next? [72]和 People of the Pandemic [73]两个作品采用交互游戏的形式来模拟疫情传播,前者层层递进模拟不同条件下疫情发展情况,后者更像多人游戏打怪升级,你的每一个“保持社交距离”的选择都影响着团队和社区。
在社交网络分析可视化部分提到过的 Visualizing social distancing networks in the era of COVID-19[76] 中,虽然用户无法自定义输入查看不同社交距离下的感染传播情况,但作者结合社交网络可视化几种初始参数条件下疫情的演变。
说完单一图表类型,我们接下来看一些组合类型。首先要提的必然是实时仪表盘可视化(Dashboard),它们以提供最新信息为目的。整合多种类型图表,以及图表间的相互关联(cross filter),给用户带来灵活的视觉信息体验。
其中,Johns Hopkins 的实时仪表盘[77]是流传最为广泛的仪表盘可视化,原始数据整合自 WHO、欧洲疾病预防控制中心等权威信源,响应式设计不仅开发了适配大屏的桌面版,还有适配手机的移动端版本。
除了像 JHU 这样丰富的仪表盘外,也有一些简易的作品。为了方便朋友们及时掌握出入境情况,服老思最近制作了一个简易的香港的出入境数据仪表盘[78]。[79]通过 Google Cloud Functions 爬取入境处数据并每日自动更新,Big Query 作为云数据仓库,再利用Data studio实现可视化。该仪表盘可谓“麻雀虽小,五脏俱全”。
疫情期间,实时更新的信息对普通民众而言是最重要需求之一,因此追踪器可视化也很常见。追踪器的优势在于及时的信息发布,也许没有炫酷的效果,但其最重要的功能是为读者提供最新和最权威的信息源。根据追踪数据的类别,追踪器可以进一步细分。其中最大的一类当属新冠确诊人数追踪器, WHO Coronavirus Disease (COVID-19) Dashboard[80] 由WHO 整合发布,来源可靠。另外,Our World in data 的 Coronavirus Pandemic (COVID-19) – Statistics and Research[81] 也是不错的信息源,亮点在于其在原始数据的基础上对数据进行多维度分析。当然,John Hopkins 出品的 COVID-19 Map [82] 作为最早收集全球数据并制作dashboard的权威机构,更新及时、来源权威、提供多维度的数据、可视化形式多样都是它的亮点。聚焦中国内地, 丁香园[83] 是中国最早发布疫情追踪数据的机构之一,因此出圈。另一个比较特殊的 1Point3Acres[84](“一亩三分地”)制作的 Global COVID-19 Tracker & Interactive Charts[85],这个全由志愿者更新参与的项目从疫情初期爆发便开始实时更新美国疫情,且汇集了诸多各州的重要新闻、视频分享、华人生活资讯等信息,它代表的疫情期间,不可忽视的民间力量。
信息追踪方面,超过 7 万人订阅的 Telegram 频道2019-nCoV疫情实时播报[94]是很好的信息整合平台,而国内疫情爆发早期,志愿者搭建的确诊患者相同行程查询[95]、新型肺炎小区速查[96]等都在当时发挥了重要作用。而专注香港各区疫情情况的97] 和最近由 @jxeeno 制作发布的澳大利亚的临近案例查询网站 COVID-19 Near Me[98] 也属于追踪器可视化,后者以 Mapbox 地图为底,备受好评。
信息图是包含数据图表和补充说明文字/插画的可视化形式,尤其适合解释性报道。如的作品 Your questions about coronavirus vaccines, answered[99] ,报道中使用信息图解释疫苗原理,相比单纯的文字更清楚。
•[28] 数说战“疫”:除整体向好的趋势外 还有些数字也值得被看见:
•[101] 从首例到“封城”,这763份确诊详情还原了新冠病毒向全国扩散的路径:
•[102] “每一个名字都值得铭记:新冠疫情全国殉职医护人员名单”:
地址:广东省广州市天河区88号
电话:400-123-4567
邮箱:admin@flowofthings.com