众包数据的两种方法

待定

我每天花大部分时间可视化人们与我共享的数据。但我们身处在瞬息万变的世界。有时候,大量原始数据会在我们毫无准备的情况下涌入,我们需要快速理解这些数据。或者,我们知道存在一个数据故事,但没有一个数据集能将其串联在一起。如果在浏览和可视化开始前,需要收集数百(或数千、数百万)个数据点,您如何单独应对这种情况?当然是通过众包数据集。

众包数据集表示与他人合作构建数据集。每个人都提供自己的数据点来创建一个数据集,供他人使用。

在全球“女性游行”盛行的背景下,我尝试了众包数据集。我想知道:促使人们游行示威的核心问题是什么?为了找到答案,我创建了一份调查,这是众包数据的两种方法之一。

方法 1:调查

调查是用于收集个人数据的工具,每个人提供的数据可汇总成一个较大的故事。科学家和学者们数百年来一直在使用调查数据,John Snow 是最早通过在伦敦展开实地调查提供较清晰霍乱疫情概况的人之一。他亲自采访了疫区居民,收集了他们分享的数据:家中有多少人患病,患病时间...这些数据简单直接。

严谨的科学研究需要仔细审查调查结果以消除偏见,但这并不意味着非正式的快速调查没有价值。毕竟,投票数据也是一种调查。尽管调查是概括性数据,但这些概括也能提供见解。

借助 Google Forms 和 SurveyMonkey 等在线工具,能够以较低成本快速创建和分发问卷调查,但这也会带来一些问题。上周末,我在 Google Forms 上创建了一个由 6 个问题组成的快速调查。我希望构建一个出现答复后立即更新的可视化,因此我保持问题简短、答案简洁。我本以为构建的问卷调查能够生成简洁、易可视化的数据集。但我错了。

失败原因在于问题结构以及我使用的调查选项。我对全球“女性游行”活动的参与者提出了以下六个问题:

  1. 请选择促使您参与游行的三个主要问题。(从列表中选择不超过三个选项,“其他”也算作一个选项)
  2. 自选举以来,您是否联系过国会议员?(是/否)
  3. 如果联系过国会议员,您使用了哪些联系方式?(从列表中选择任意多个项,“其他”也算作一个选项)
  4. 在选举之前,您是否联系过国会议员?(是/否)
  5. 您出生于哪个年代?(从选项列表中选择一项)
  6. 您的邮政编码是多少?

当我打开包含结果的电子表格时,我有点意外。

我需要清理大量数据。为什么?问题 1 和 3 是问题所在,它们也与我最感兴趣的答案相关。我哪里做错了?

  • 多选题(全选、多选等)会创建一个用逗号或分号分隔的答案列。这意味着,必须先将答案分成不同的列,才能对这两个问题进行可视化,因此这些问题的可视化不会自动更新。(但是,回答“是/否”的问题,以及有关邮政编码和出生年份的问题没有出现差错。)
  • 将答案分成多列也会带来问题。将答案分成多列意味着所选内容存在先后顺序(即首选项、其次项和最后项)。也就是说,每个调查对象的路径是唯一的(A、B、C 不同于 B、C、A),因此我无法将其分组为所有调查对象中的最常见选项。
  • 我希望尽量减少人们填写我的调查问卷时遇到的障碍,因此将“其他”也设置为自然选项。但是,从数据处理角度看,“其他”是一个糟糕的想法。将“其他”作为一个写入选项意味着我需要调和此数据。

多选题的解决方案是什么?我必须对数据进行透视。这意味着,我需要垂直排列数据并将“相似”数据置于同一列中,而不是横向排列数据,在单列中显示每个答案。

应避免以下做法:

需要采用以下做法:

Steve Wexler 发布了一篇有关在 Tableau 中透视数据的优秀文章,值得一读。

根据我创建问卷调查的方式,我尝试在进行透视和分析的过程中使用 Google Forms 收集实时数据。最终,我在静态文件中捕获了用于可视化的数据,但结果并不理想。

项目进行很久之后,我收到了针对这份调查的 456 个答复(尽管有所增加,但不尽如人意)。我筛除了单选答案(这些答案往往是“其他”选项),我发现环境策略占比最大,它是调查对象们认为最亟待解决的问题,这有点出乎我的意料。这可能是因为绝大部分调查回复来自我的家乡,太平洋西北地区。

现在,我的可视化内容已完全脱离调查,尽管调查仍在收集数据。虽然我对此不满意,但是我从中吸取了一大教训,知道以后应如何在调查中设定问题结构。以后我将进一步精简问题,或者使用另一种方法。

方法 2:共享电子表格

众包数据集的第二种方法涉及电子表格共享。自互联网发展之初,我们便开始采用这种方法,但直到最近几年才真正取得成功。在我收集调查数据的同时,Erica Chenoweth (@EricaChenoweth) 和 Jeremy Pressman (@djpressman) 借助一些非常简单的说明创建了一个共享 Google 表格。他们希望获得 2017 年 1 月 21 日参加游行的人数估值。基于以下简单说明:包括人数以及相关城市、州(若适用)、国家/地区和可验证的数据源。他们通过社交媒体发布了此电子表格,这种方式取得了成功。世界各地的人在电子表格中添加数据,他们在 24 小时内构建了一个可供每个人使用的数据集。

能否通过这样的数据集实现完美的可视化?不能,但它快速且原始,可满足即时需求。不到 24 小时,我就发现有人通过 Tableau Public 清理了足够多的数据并实现了可视化,其中包含选举结果。我从未见过媒体获取数据的速度有这么快,但数据达人做到了。

敬请期待

众包数据的最大优势之一是兴趣激发 - 每个人都是数据提供者。主题专家、开放数据组织和数据科学家们共同协作,帮助我这样的人深入探索数据。

您看到哪些类型的数据和项目通过众包联系在一起?此类数据有哪些优点和缺点?我已经开始着手我的下一个众包数据集,敬请期待!