数据可视化

什么是数据可视化,我们为何需要使用它

那么,什么是数据可视化?

数据可视化是指通过可视化表示来传达数据见解的技术。其主要目标是将大型数据集提取为可视化图形,以便轻松了解数据中的复杂关系。它经常与信息图形、统计图形和信息可视化等术语互换使用。

它是 Joe Blitzstein 制定的数据科学流程中的一个步骤,该流程是一个用于处理数据科学任务的框架。在完成数据收集、处理和建模后,我们需要对关系进行可视化处理,以便得出结论。

数据可视化技术也是更广泛的数据表示架构 (Data Presentation Architecture, DPA) 的组成部分,数据表示架构旨在以最有效的方式识别、定位、处理、格式化和呈现数据。

为何如此重要?

世界经济论坛称,世界每天会产生 2.5 万兆字节的数据,并且目前 90% 的数据是在过去两年中产生的。数据如此庞大,管理和理解变得愈发困难。任何人都不可能通过逐行浏览数据来了解不同的模式和得出观察结果。数据增长可以作为数据科学流程的一部分进行管理,而数据可视化正是该流程的一部分。


改善见解

数据可视化技术可为我们提供传统的描述性统计所无法提供的见解。一个完美示例是 Francis Anscombe 于 1973 年创建的安斯库姆四重奏 (Anscombe’s Quartet)。该图例包含四个不同的数据集,具有几乎相同的方差、平均值、X 和 Y 坐标之间的相关性,以及线性回归线。但是,在图表上绘制时,图案明显不同。在以下图例中,大家可以看到,线性回归模型适用于图 1 和图 3,但多项式回归模型是图 2 的理想选择。该图例强调了对数据进行可视化表示的重要性,仅仅依赖描述性统计数据远远不够。

anscombe’s quartet

更快制定决策

能够收集并快速处理其数据的公司在市场中更具竞争力,因为与竞争对手相比,他们可以更快做出明智的决策。速度是关键,而数据可视化可通过对数据应用可视化表示来帮助理解大量数据。该可视化层通常位于数据仓库或数据湖的顶部,并允许用户以自助方式发现和探索数据。这不仅激发了创造力,而且还减少了 IT 部门分配资源以不断构建新模型的需求。

举个例子,假设一名需要处理 20 个不同广告平台和内部系统的营销分析师需要快速了解营销活动的有效性。手动方法是前往每个系统提取报告、整合数据,然后在 Excel 中进行数据可视化分析。之后,分析师需要查看一堆指标和属性,而且难以形成结论。但是,现代商业智能 (BI) 平台可自动连接数据源和数据可视化层,这样分析师就可以轻松地对数据进行深入分析,并快速得出有关营销表现的结论。


基本示例

假设您是一名零售商,您希望比较去年夹克和袜子的销售情况。您可以通过多种方式呈现数据,而表格是最常见的方法之一。以下是使用表格呈现的数据:

以上表格非常出色,可以准确显示所需信息。但是,我们很难即时了解趋势和数据所反映的情况。

下面我们看看以线形图可视化呈现的数据:

2 line graphs

通过可视化图形,我们可以很明显地看到,袜子的销售量非常稳定,在 12 月和 6 月出现小幅上涨。而与之不同,夹克的销售更具季节性,在 7 月份的销量最低。然后逐渐上升,并在 12 月达到峰值,之后逐月降低,并于秋天之前达到最低点。您可以从图表中获取同样的信息,但花费的时间更长。您可以想象一下,如果图表包含成千上万个数据点,会是什么情况。

数据可视化背后的科学

信息处理

要了解数据可视化背后的科学,我们首先必须讨论人类如何收集和处理信息。Daniel Kahn 与 Amos Tversky 合作对我们的思维构成方式进行了广泛研究,而结论是我们会使用以下两种方法之一:


系统 I

描述快速、自动和无意识的思维处理。我们在日常生活中经常使用这种方法,可以完成以下任务:

  • 阅读标牌上的文字
  • 确定声源的位置
  • 计算 1+1
  • 识别不同颜色的差异
  • 骑自行车

系统 II

描述缓慢的、逻辑的、不常见的和计算思维,包括:

  • 区分多个并列标牌背后的意义差异
  • 熟记手机号码
  • 理解复杂的社会线索
  • 计算 23x21

通过定义这两种思维体系,Kahn 解释了为何人类难以以统计数据的形式进行思考。他认为,系统 I 思维基于直观推断和偏见来处理我们每天接触的大量刺激。举个例子,如果法官只根据历史案例判断案件,而不管新案件特有的细微差别和差异,那么法官使用的就是直观推断。此外,他还定义了以下偏见:

  • 锚点

  • 这是一种被无关数字左右的倾向。例如,熟练的谈判者会使用这种偏见,他们首先会提出低于自己预期的价格(锚点),然后再提出稍高于锚点的价格。

  • 可得性

  • 在我们脑海中,事件发生的频率并不是对实际概率的准确反映。这是一种心理捷径:假设可以记住的事件更有可能发生。

  • 替代

  • 这是指我们倾向于用简单的问题替代困难的问题。这种偏见也经常被称为合取谬误或“Linda 问题”。以下示例提出了问题:

    Linda 今年31岁,单身、直言不讳、非常聪明。她主修哲学。作为一名学生,她非常关注歧视和社会正义问题,并参与了反核示威活动。

    以下哪项更有可能?

    1) Linda 是一名银行出纳

    2) Linda 是一名银行出纳,活跃于女权主义运动

    大部分研究参与者选择了第二个选项,即使该选项违反了概率定律。在他们看来,选项二更能代表 Linda,因此他们使用了替代原则来回答问题。

  • 乐观和损失厌恶

  • Kahn 认为这可能是我们最重要的偏见。乐观和损失厌恶为我们提供了控制错觉,因为我们倾向于只处理那些已经观察到的已知结果的可能性。我们通常不会考虑已知的未知因素或完全不可预见的结果。我们对这种复杂性的忽视,解释了为什么我们会使用较小的样本量对未来结果做出强有力的假设。

  • 框架

  • 框架是指提供选择的上下文。例如,如果以 90% 的存活率而不是 10% 的死亡率作为框架,则更多受试者倾向于选择手术。

  • 沉没成本

  • 这种偏见常常出现在投资领域,人们愿意继续投资于表现欠佳、前景堪忧的资产,而不是退出投资,转向前景更为乐观的资产。

考虑到系统 I 和 II,以及偏见和直观推断,我们应该设法采用合适的数据呈现方式,确保将数据正确地传达给我们的系统 I 思维过程。这样,我们的系统 II 思维过程才能准确地分析数据。我们的无意识系统 I 每秒能够处理大约1,100万条信息,而我们的意识每秒只能处理 40 条信息。

此外,我们还必须考虑每种系统如何利用我们的感官来获取信息。根据 Tor Norretanders 的《用户错觉》(The User Illusion),在两种系统中,大部分信息都由视觉处理:

visual processing bandwidth

由于我们的潜意识系统会通过视觉处理更多信息,因此数据可视化是传达数据集模式和见解的完美解决方案。当人们看到可视化数据时,眼睛和大脑只需要不到 500 毫秒的时间即可处理图像中所谓的前注意视觉属性。Colin Ware 在其《信息可视化:设计的感知》(Information Visualization: Perception for Design) 中定义了前注意视觉属性:

  1. 颜色
  2. 形式
  3. 运动
  4. 空间位置

每个数据可视化均由这四个组成部分构成,在展示时应谨慎考虑。

简史

常见的数据可视化类型


时间序列

  • 线形图
  • 这是最基本和最常用的可视化方法之一。可显示一个或多个变量随时间的变化情况。

    line graph example

    何时使用: 需要显示变量随时间的变化情况时。

  • 面积图
  • 面积图是线形图的变体,可显示某时间序列中的多个值。

    area chart example

    何时使用: 需要显示多个变量在一段时间内的累积变化时。


排序

  • 条形图
  • 该图与线形图类似,只是使用条形来表示每个数据点。

    bar chart example

    何时使用:当您需要比较某个时间范围内的多个变量或者单个变量在时间序列中的情况时,使用条形图最为合适。

  • 人口金字塔
  • 人口金字塔是堆叠的条形图,用于描绘人口的复杂社会叙事。

    population pyramid example

    何时使用: 希望以百分比形式了解各部分在整体中的情况时。然而,很多专家建议使用其他形式,因为由于处理时间增加,人眼理解这种形式的数据会更加困难。很多人认为条形图或线形图更有意义。


部分与整体

  • 饼图
  • 该图以饼状形式显示各部分在整体中的情况。

    pie chart example

    何时使用:希望以百分比形式了解各部分在整体中的情况时。然而,很多专家建议使用其他形式,因为由于处理时间增加,人眼理解这种形式的数据会更加困难。很多人认为条形图或线形图更有意义。

  • 树形图
  • 树形图是一种以嵌套形式显示层次数据的方法。矩形的大小与每个类别在整体中的百分比成正比。

    tree map example

    何时使用:如果存在多个类别,并且您希望比较各部分在整体中的情况时,这种图形最为合适。


偏差

  • 条形图(实际与预期)
  • 该图可以比较指定变量的预期值与实际值。

    bar chart expected vs unexpected  example

    何时使用:需要比较单个变量的预期值和实际值时。以上示例显示了每个类别销售的商品数量与预期数量。您可以很容易地看到,与其他所有类别相比,毛衣的销售表现与预期的差距最大,但连衣裙和短裤的销售表现都高于预期。

相关性

  • 散点
  • 散点图以 X 轴和 Y 轴的形式以及代表数据点的各点显示两个变量之间的相关性。

    scatter plot example

    何时使用:希望了解两个变量之间的相关性时。


频率分布

  • 直方图
  • 直方图可绘制给定数据集中事件发生的次数,并以条形图形式显示。

    histogram example

    何时使用:想要了解指定数据集的频率分布情况时。例如,您希望了解考虑到历史表现,每天销售 300 件商品的相对可能性。

  • 箱形图
  • 这是一种非参数可视化方法,可显示分散度量。箱子表示数据点的第二和第三四分位数 (50%),箱内的直线则代表中位数。向箱外延伸的两条直线称为须状线,代表第一和第四四分位数,以及最小值和最大值。

    box plot example

    何时使用:希望了解一个或多个数据集的分布情况时。需要最小化空间时,可使用该图代替直方图。


名义比较

  • 气泡图
  • 气泡图与散点图类似,但增加了更多功能,因为每个气泡的大小和/或颜色都可以表示其他数据。

    bubble chart example

    何时使用:需要比较三个变量时。

  • 热图
  • 热图是数据的图形表示,其中每个矩阵都表示一个独立值。色度表示图例定义的数量。

    heatmap example

    何时使用:当您希望跨数据矩阵分析变量(例如由天和小时组成的时间框架)时,该图非常实用。不同的色度可让您快速辨别极端情况。以上示例显示了一周中每天各时段的网站访客量。


地理比较

  • 等值域图
  • 等值域可视化是热图的变体,只是色度将应用于地图。

    chloropleth example

    何时使用:需要按地理区域比较数据集时。

流程

  • 桑基图
  • 桑基图是一种流程图,其中箭头的宽度与流量成比例显示。

    sankey diagram  example

    何时使用:需要将数量流可视化显示时。以上示例非常有名,显示了拿破仑军队在寒冷的冬天入侵俄罗斯时情况。该军队的军人数量起初非常庞大,但随着军队向莫斯科移动和撤退而不断减少。


关系

  • 网络图
  • 该图可表示实体之间的复杂关系。它显示了每个实体与其他实体的联系,最终形成网络。

    network diagram  example

    何时使用:需要比较网络中的关系时。该图尤其适用于大型网络。上图显示了西南航空公司的航线网络。

使用案例

数据可视化可用于众多学科,并影响着我们每天了解世界的方式。在商业和公共服务业中,快速响应和快速决策能力的重要性日益提升。以下是我们编制的一些示例,可反映数据可视化的常见用途。

销售和营销

根据媒体机构 Magna 的 研究,到 2020 年,全球一半的广告资金都将用于线上。因此,营销人员需要了解其网络属性如何创造收益、其网络流量的来源为何。而通过可视化,营销人员可以轻松了解其营销工作所创造的流量随时间变化的趋势。

marketing data visualization

财务

财务专业人员需要跟踪其投资选择的表现,从而决定买入或卖出特定资产。蜡杆可视化图表可显示价格随时间的变化情况,财务专业人员可以使用它来了解趋势。每个蜡杆的顶部代表一段时间内的最高价格,底部则代表最低价格。在此示例中,绿色蜡杆显示价格何时上涨,红色蜡杆显示价格何时下跌。可视化比数据点网格更容易传达价格变化情况。

candlestick chart

政治

政治领域最著名的可视化图形是地域图,可显示每个区或每个州投票支持的政党情况。

data visualization in politics

物流业

航运公司使用可视化软件来了解全球航运路线。

logistics data visualiztion

医疗

医疗专业人员可使用等值域可视化来了解重要的健康数据。下图显示了美国各郡的心脏病死亡率。

heart disease mortality rate

数据可视化工具

D3.js

D3.js 是指数据驱动文档 (Data-Driven-Documents),是一种 JavaScript 库,用于在网络浏览器中实现动态和交互式数据可视化。该工具创建于 2011 年,适用于众多网站。它非常出色地为网络开发人员提供了工具集,可利用应用程序接口 (Application Programming Interface, API) 和 SVG 图形在网上上创建可视化。

Excel

Microsoft Excel 是最常用的数据可视化工具之一,大部分办公室计算机均带有该软件,这是实现数据可视化的标准方法。用户可以非常轻松地使用该软件创建快速可视化图形,但通常不会考虑将其用于数据聚合、治理和高级报告。

Microstrategy

MicroStrategy 是企业分析解决方案的领导者,可为组织的每个成员提供受到管理的个性化数据。它可以快速自动化处理大数据,并提供开箱即用的自定义数据可视化功能。

常见问题

使用数据可视化的目的是什么?
数据可视化有哪些优势?
什么是数据分析和可视化?
使用仪表盘实现数据可视化的目的是什么?
为何数据可视化如此重要?
什么是数据展示?