データのクラウドソーシングを行うための 2 つの手法

未定

私は、人々が私と共有してくれるデータの視覚化に大半の時間を費やしています。しかし、思いがけないことは起こるものです。時に、前触れもなく生データの山が押し寄せ、短時間でそれを読み解かなければならなくなります。また、データのストーリーがそこにあることはわかっていても、単一のデータセットからはまとめてそれを引き出せないこともあります。収集するデータポイントが数百 (さらに数千、数百万) もある場合、分析や視覚化を始める前に、個人としてそのような状況にどう対処すればいいのでしょうか。それはもちろん、データセットのクラウドソーシングです。

データセットのクラウドソーシングとは、他の人々とともにデータセットを構築することを意味します。他の人が使えるデータセットを作成するために、誰もが自分のデータポイントを提供するのです。

世界各地で行われている「ウィメンズ・マーチ」が大きな話題になっていることから、私はデータセットのクラウドソーシングを試してみました。私は、人々の行進の動機となった中心的な問題を知りたいと思ったためです。答えを見つけるためにアンケートを作成しましたが、それがデータのクラウドソーシングを行う 2 つの方法のうちの 1 つです。

手法 1: アンケート

考えてみると、アンケートは個人からデータを収集するために使われる手段であり、各人が大きなストーリーの断片を提供しています。科学者や研究者は、数百年にわたってアンケート調査データを使ってきました。たとえばジョン・スノー医師は、ロンドンの現地調査を通じてコレラ流行のより明確な実態を明らかにした、先達の 1 人です。スノー医師は、感染地域の住民から自ら話を聞き、得られたデータを収集しました。住居内の病人数、全体の病人数、その期間など、まさに純粋なデータでした。

厳密な科学研究では、先入観を排除するためにアンケートを注意深く吟味する必要がありますが、だからといって、短時間の形式張らないアンケートに価値がないということではありません。世論調査データも、結局のところ調査結果には違いないのです。また、アンケート結果は一般化されたデータではありますが、一般化によりインサイトが得られる可能性があります。

Google フォームや SurveyMonkey などのオンラインツールを使うと、アンケートを無料ですぐに作成して配布することができますが、気づいた点がいくつかあります。先週末のことですが、私は Google フォームで 6 問の簡単なアンケートを作成しました。回答が来るとともに更新される Viz を作成したかったので、質問は短く回答も簡潔にしました。クリーンで視覚化しやすいデータセットが得られるアンケートを作成したと思っていたのですが、それは間違いでした。

質問の構成も、自分で選んだアンケートのオプションも失敗でした。世界各地で行われた「ウィメンズ・マーチ」で米国内の参加者に尋ねたのは、次の 6 問です。

  1. デモ行進の目的にしていた問題で最も重要なものを 3 つ挙げてください。(リストの項目を 3 つまで選択、「その他」も 1 つと数えます)
  2. 選挙後、連邦議会議員に連絡を取りましたか? (はい/いいえ)
  3. 連邦議会議員に連絡を取った場合、その連絡手段は何ですか? (リストの項目をいくつでも選択、「その他」も 1 つと数えます)
  4. 選挙前、連邦議会議員に連絡を取りましたか? (はい/いいえ)
  5. 生まれた年代を選択してください。(リストの項目を 1 つ選択)
  6. 郵便番号を入力してください。

結果のスプレッドシートを開いたとき、少し驚きました。

データに対してかなりクリーニングを行う必要があったからです。なぜでしょうか。質問 1 と 3 に問題がありました。もちろん、私が最も知りたかった回答をカバーしてはいましたが、何を間違ったのでしょう。

  • 複数選択の質問 (当てはまるものをすべて選択、指定された数の項目を選択など) では、回答がコンマまたはセミコロンで区切られて 1 つの列にまとめられます。これはつまり、その 2 つの質問を視覚化するには、まず回答を異なる列に分割しなければならないということであり、その質問の Viz は自動的に更新されないということでもあります。(一方で、はい/いいえの質問は問題なく視覚化でき、郵便番号や生年も同様です。)
  • 回答を複数の列に分割する際にも問題が起こります。選択された順序があるからです (この項目が 1 番目、これが 2 番目、そしてこれが 3 番目に選択されたと示されているということです)。つまり、各回答者が選んだ順序 (たとえば A → B → C と B → C → A) はそれぞれ異なっているということであり、したがって全回答者に最も多く選ばれた項目という形にまとめることはできませんでした。
  • アンケートに回答する人々にとってのハードルをできるだけ低くしたかったので、「その他」も当然の選択肢でした。しかし、データをまとめる側にとって、「その他」は扱いにくいものです。「その他」で回答を記入できるようにすると、そのデータも照合しなければならないからです。

複数選択の質問の解決策として、データのピボットを作成する必要がありました。つまり、各回答が 1 列になった横長のデータの代わりに、そのデータを縦長にして「関連する」データを同じ列にまとめなければならなかったということです。

これが元の形式です。

このような形式にする必要がありました。

Steve Wexler 氏は、Tableau で行うデータのピボットについて素晴らしい記事 (英語) を書いており、一読することをお勧めします。

私はアンケートの作成法の利点を生かそうと、ピボットと分析を行いながら Google フォームでライブデータを収集しようとしました。最終的には、データの視覚化のためにデータを静的なファイルに収集しましたが、理想的ではありませんでした。

このプロジェクトのかなり後になって、アンケートに 456 件の回答が得られました (その後さらに増えています)。単一回答の問題は除外し (たいていは「その他」だけが選ばれたものです)、少し驚いたのは、回答者の中で最も差し迫った問題として環境政策が挙げられていることでした。これは、回答者が最も多いのは、私の住む太平洋岸北西部だということに大きく関係しているのかもしれません。

これで Viz が、まだデータを収集しているアンケートから完全に切り離されました。残念な結果に終わりましたが、アンケートの質問の作り方について貴重な教訓を得ることができました。次回はもっとシンプルにするか、以下の手法を使うつもりです。

手法 2: スプレッドシートの共有

データセットのクラウドソーシングを行う 2 つ目の手法は、スプレッドシートの共有です。インターネット黎明期から行われている手法ですが、広く利用されるようになったのはここ最近のことです。私がアンケートでデータを収集しているのと同時期に、Erica Chenoweth 氏 (@EricaChenoweth) と Jeremy Pressman 氏 (@djpressman) は、非常にシンプルな説明を付けて、Google スプレッドシートを共有しました。2017 年 1 月 21 日のデモ行進で、推定参加者数を入力するように求めるためです。人数とともに国、州 (該当する場合)、都市、そして確認できるデータ情報源を入力してください、という簡単な指示がありました。そして、ソーシャルメディアを通じてこのスプレッドシートのことを知らせると、大勢の人が入力し始めました。世界各地の人々がデータを追加し、24 時間も経たないうちに誰もが使えるデータセットが得られました。

視覚化に最適なスプレッドシートだったかと言えば、そうではありません。すばやく差し迫ったニーズを満たすものでした。24 時間足らずのうちに、選挙結果の上に視覚化できるほど、そのデータをクリーニングした Tableau Public ユーザーがすでにいました。メディアがデータをそれほど早く取り上げるのを見たことはありませんが、データ好きの人々がそれをやってのけたのです。

ご意見をお寄せください

データのクラウドソーシングが持つ最大のメリットの 1 つとして、関心を生み出すという点が挙げられます。誰でも貢献することができるのです。協力することによって、その分野の専門家、オープンデータ組織、データサイエンティストが集まり、私のような人々はデータを掘り下げて分析できるようになります。

クラウドソーシングを通じて、どのようなデータやプロジェクトが形になるのを見たことがありますか? そうした類のデータには、どのようなメリットとデメリットがありますか? 私はすでに、クラウドソーシングによる次のデータセットに取り組んでいます。皆さんのご意見もお聞かせください。