無料の公開データセットを取得するための最良のソースを見つける方法

Jacob Olsufka 氏が、次のデータビジュアライゼーションプロジェクトに最適なデータセットを見つける方法についてヒントを共有します。

仕事以外のデータを分析することは、自分のスキルを磨き、ビジネスデータの繰り返しから創造力の限界を解き放つ優れた方法になり得ます。

データビジュアライゼーションのプロジェクトを始めたいとは思うものの、「どこでデータを見つけるのか?」と考えたことはありますか? それは、決して珍しいことではありません。幸いにも、世界にはオンラインの公開リソースが豊富にあります。Tableau Public は、リソースページ でサンプルデータを提供しています。また、こちらの記事では、無料の公開データを入手できる場所をいくつかリストアップしています。これらに加え、この記事では、おもしろい、クリーンなデータセットを探し始める際に私が利用するお気に入りの場所をいくつかご紹介します。

ソース 1: ニュースサイトや報道機関からデータを見つける

幅広いトピックを探しているなら、ニュースサイトからのデータがお勧めです。これらのデータは、通常、Tableau のようなソフトウェアに接続可能な CSV ファイルとしてダウンロードすることができます。

  • FiveThirtyEight - スポーツと政治に関するデータセットが 100 以上ある宝庫です。例: マーチマッドネスの予想、政治に関する世論調査、テレビ番組「バチェロレッテ」など。

    Visualization using March Madness data sets from Five ThirtyEight

    これは Chris DeMartini 氏が、FiveThirtyEight からマーチマッドネスに関するデータセットを使用して作成したダッシュボードの好例です。

  • The Pudding - このデータジャーナリズム Web サイトの目的は、オリジナルのデータセットや一次調査をソースとするビジュアルエッセイを使用して、議論が盛んなカルチャーイベントを解説することです。このサイトの GitHub は、ポップカルチャーに関するデータのハブです。例: 女性と男性のパンツのポケットの比較、火星の気象条件など
  • Buzzfeed - Buzzfeed をご存じなら、そのニュースサイトが政治、スポーツ、時事問題に関するさまざまなトピックを取り上げていることをご存じでしょう。このサイトも、GitHub で豊富なデータセットのリストを提供しています。例: トランプ大統領のツイート、すべての一般教書演説の内容など
  • ワシントン・ポスト - ワシントン・ポストは評判の高いニュースソースであり、その公開データセットのリストには、NCAA の会計報告や輸送機関のデータといったトピックが含まれています。例: 学校での銃乱射事件、警官の発砲、NFL 選手の逮捕など

ソース 2: コミュニティがリードするプロジェクトを確認する

Tableau コミュニティ は、情熱と分析能力において他に並ぶものがありません。したがって、すぐに分析可能なクリーンなデータソースを見つけるには自然な出発点です。

  • Viz for Social Good - コミュニティを非営利組織とつなぐハッカソンスタイルのプロジェクトです。例: アフリカの父親のいない少年の擁護、難民の子供への意識向上、黒人男性の起業支援。
  • Makeover Monday - データビジュアライゼーションの改良を中心としたディスカッションを生むための週 1 回のソーシャルデータプロジェクトです。このチームが毎週日曜日に、ビジュアライゼーションおよびデータセットへのリンクを投稿します。あなたの課題は、独自の創造的な方法でビジュアライゼーションの改良バージョンを作成することです。週 1 回提供されるデータセットは多様で、再利用できるようにサイト上に残されているため、クリーンなデータ探しを始めるのに最適な場所となっています。例: 州別の風力エネルギー、最低賃金、NHL の入場者数。
  • Sports Viz Sunday - スポーツ界からのビジュアライゼーションを作成、共有、推進するための、コミュニティがリードするプロジェクトです。Sports Viz Sunday では、スポーツの時事テーマに基づく課題が月 1 回出題されます。また、スポーツ界のビジュアライゼーションからの最新情報を定期的に共有したり、さまざまなスポーツに関する豊富なデータセットを提供したりしています。例: ワールドカップ、マスターズ、F1 レース。
  • Iron Quest - Iron Viz の予選に向けて準備を整えるためのプロジェクトで、参加者が自分のデータセットを見つけるための練習機会を提供しています。

ソース 3: 自分に関する個人的な定量データを使用する

インターネットを探し回っても、興味を引くものが何も見つからなかった場合は、自分自身についてのデータを収集するという選択肢が常にあります。たとえば、ある人は、自分の娘の睡眠パターンに関するデータを誕生から 4 ヶ月間にわたって収集し、ビジュアル化しました。

  • Twitter のデータ - Twitter では、API を通じてユーザーがハッシュタグ、キーワードまたはアカウントについてのデータを取得できるようにしています。Tableau で Twitter のデータに直接接続する方法については、こちらのガイドをご覧ください。API で作業するほうがやりやすい場合は、クエリを実行して、Tableau のサポート対象データタイプである JSON データを取得することができます。完全なAPIドキュメンテーションはこちらに掲載されています。ビジュアライゼーションの例: 第 53 回スーパーボウルに関する動向

    Visualization of Super Bowl LIII Peaks.

  • Netflix のデータ - netflix.com/viewingactivity にアクセスして自分の視聴データをダウンロードします。ビジュアライゼーションの例: 私は Netflix ユーザーの動画のイッキ見を比較して、一定期間における視聴活動をビジュアル化するダッシュボードを作成しました。

    Netflix binge analysis.

  • Spotify のストリーミングデータ - Spotify に 自分のリスニングデータを 要求できることを知っていましたか? API での作業に詳しければ、 Spotify Web API を使用して、ミュージシャン、アルバム、トラックに関するデータを、Spotify Data Catalogue から直接取得することができます。

    Visualization using Spotify's API.

    Robert Janezic 氏は Spotify API を使用して、この オルタナティブトラックの分析を作成しました。

ソース 4: Web から自分でデータをスクレイピングする

私は時々 Web サイト上で見つけたデータを、Tableau に取り込んで詳細に掘り下げたいと思うことがありますが、手動でコピペしなければならないのは好ましくありません。そこで Web スクレイピングの出番です。Google スプレッドシートには、HTML ページ内の表やリストからデータをインポートするための機能 (IMPORTHTML) が組み込まれています。Corey Jones 氏が書いたブログ記事では、この機能の使用方法に加え、このプロセスを自動化して毎日実行する方法まで説明されています。Skyler Johnson 氏は、この Viz で同様の方法を使用して一定期間における Instagram のフォロワー数を追跡しています。公開データを利用できるその他の Web サイトには、以下のものがあります。

お気に入りの公開データソースを集めるための一般的なヒント

以上は、皆さんがデータを取得できる数多くの場所のうち、ごく一部を紹介したものですが、自分にとって「完璧」なデータセットとはどんなものでしょうか? 私が考えるに、データセットを見つけて準備するプロセスは、データプロジェクトの醍醐味の 1 つです。以下にその私の考え方と助言をいくつかご紹介します。

  1. あるトピックについて強い関心がある場合は、データ Viz を通してそれを探究する。あなたは、おそらく、そのトピックの詳細な分析に多くの時間を費やす可能性が高く、隠れたストーリーを明らかにできるニュアンスを理解することになるでしょう。たとえば、私の第 53 回スーパーボウルに関する動向プロジェクトでは、詳細なプレイデータから各プレイ中の勝率を引き出すために、nflscrapR パッケージを使用して基本的な R コードを作成する方法を学びました。スター・ウォーズ - スクリーンタイム分析プロジェクトでは、スクリーンタイムのデータを取得するために、JSON フォーマットで始まるデータを、分析に必要な状態にパースするために、Python スクリプトを使用しました。私は、分析を担当する現在の職務で Python を使用しているので、これは特に有益でした。迷いがあるときは、情熱を追いかけてください。
  2. 乱雑なデータは、新しいツールを探究するための機会として受け入れる。乱雑なデータを障害物と見なす必要はありません。むしろ機会と考えてください。コーディングやデータスクレイピング、データ準備やタスク自動化の能力を向上させるのは楽しいことですが、職務経歴書の技能の欄が充実するというボーナスもついてきます。
  3. 独自のデータセットを作成する。すぐに利用できるデータは便利なこともありますが、あるアイデアが適切なデータセットの追求や作成につながることもあります。データセットを作成することは、すばらしい学習体験となり、独自のストーリーを提供するビジュアライゼーションを生み出すことができます。
  4. アイデアとプロジェクトのリストを手元に置く私の携帯電話には、頭に浮かんだアイデアを書き留めた膨大なリストが保存されています。すべてが実現するわけではないかもしれませんが、頭に浮かんだアイデアが多ければ多いほど、データセットを見つける意欲が高まりやすいことに気づきました。

世界はデータであふれています! この記事が、意欲を掻き立てられるデータを見つけるのに苦労している皆さんの有益な出発点となることを願っています。データを取得したら、Tableau Public プロフィールを作成し、ビジュアライゼーションを開始して、作品を共有しましょう。今すぐ Tableau Online で