データはどこにでもあります。もちろん、すでにご存じでしょう。頻繁に話題になり成長業界でもあるうえ、データスキルの価値がどの求人市場でもますます高まっている以上、気づかないことはまずないからです。しかし、データは大企業のためだけのものではなく、分析するのに自分でデータを収集する必要もありません。公開データセットはあちこちに数多くあります。

データ分析方法の学習、データビジュアライゼーションの作成、データリテラシーのスキル向上には、公開データセットが出発点として最適です。そこで、すぐに無料で分析できる優れた公開データセットをご紹介します。分析結果を形にするのに困った場合は、次にデータビジュアライゼーションのブログ記事や、インスピレーションを得られる優れたデータビジュアライゼーション例を Tableau サイトでご覧ください。

1.Google トレンド

管理者: Google
データセット例: 「カップケーキ」の検索結果

分析できる公開データセットの中でも、最も幅広く興味深いものの 1 つです。Google の巨大な検索エンジンは検索用語データを追跡し、人々が何をいつ検索しているかを見せてくれます。2004 年以降のほぼあらゆる検索用語で、検索回数の統計を調べることができます。検索用語を 1 つでも複数でも入力して、ダウンロードのボタンをクリックすると、Google トレンドの Web サイトの外でデータを分析できます。

いろいろなフィルターもあり、場所 (世界または指定した国)、さまざまな期間、カテゴリー、特定の検索タイプ (Web、画像、YouTube の検索結果) に従ってトレンドを絞り込めます。いま人気のトピックは何か、Google トレンドのホームページで現在トレンドになっているものは何かを簡単に調べることができます。また、Google トレンドのホームページでは、興味深いトレンドの例がデータビジュアライゼーション付きでいくつか紹介されています。

Google の他のデータに興味がある場合は、Google ファイナンスGoogle Public DataGoogle Scholar もご覧ください。

2.米国気候データセンター

管理者: 米国環境情報センター (以前は NOAA)
データセット例: 地域気候データ (LCD) (英語)

気象学や気候学なら、米国気候データセンターほど詳しいデータを得られる場所はなかなかありません。若干の組織改編が行われ、米国海洋大気庁 (NOAA) のデータセンターは統合されて米国環境情報センター (NCEI) になりました。

ここにある米国全土の気候や気象のデータセットのアーカイブは、世界でも最大の環境データアーカイブです。天気や海洋、気候、大気、地球物理のデータなど、あらゆる種類の気象データの巨大な情報源です。

3.国際健康観測所データ

管理者: 世界保健機関 (WHO)
データセット例: リプロダクティブヘルスへのユニバーサルアクセス (英語)

より良い保健衛生情報を世界にという中心的な目標の一環として、世界保健機関は国際健康観測所 (GHO) を通じ、世界の保健衛生に関するデータを公開しています。国際健康観測所はポータルの役割を持っており、保健衛生の状況や重要なテーマに関するデータを入手して分析することができます。

さまざまなデータセットは、死亡率、医療制度、感染症と非感染症、薬とワクチン、健康上のリスクなどのテーマに沿って整理されています。世界保健機関の保健衛生統計は世界の保健衛生情報源の定番であり、米国疾病管理予防センターの業務でも用いられています。

4.Data.gov.sg

管理者: シンガポール政府
データセット例: シンガポール住民の年齢層、民族集団、性別: 6 月末、年間 (2017 年)
実際にインターネットには、政府が運営する素晴らしいデータ Web サイトが数多くあります。そのほとんどはデータと情報の宝庫です。米国には最も有名なものの 1 つである data.gov (英語) があり、イギリス (英語) とオーストラリア (英語) にも同様の優れたサイトがあります。そうしたサイトと大きな母集団サンプルにより、私たちが利用できるデータは膨大な量に上ります。では、なぜシンガポールを取り上げているのでしょうか?

率直に言えば、シンガポール政府のデータ Web サイトはとにかくビジュアルが優れているからです。各データセットのストーリーを伝える、小さなビジュアライゼーションがどこにでもあります。データビジュアライゼーションの部分は、正確かつ適切な形式で情報を示すだけではなく興味をつかむ魅力も持っています。政府のデータサイトの大半は実用本位でシンプルに作られており、わかりやすい方法でデータを入手できるという点では合格です。しかしシンガポールは、カラフルなビジュアライゼーション、色とりどりのグラフ、そして各データセットの下に設けた、ユーザーがさらに調べられるようにする「Similar Datasets」 (類似したデータセット) のセクションで、データサイトをワンランク上に引き上げています。

5.Earthdata

管理者: NASA
データセット例: 大気電気 (雷) (英語)

Earthdata は、NASA の地球科学データシステムプログラムの一環 (具体的には地球観測システムデータ情報システム (EOSDIS)) です。EOSDIS は、地球観測衛星、航空機、現地測量から得られた地球科学データを処理し配布する手段という役割を担っています。

Earthdata では、一般の人々が NASA のデータやニュース、イベント情報を入手できます。用意されているのは、地球の大気、太陽輝度、寒冷圏 (北極地方/凍土地帯)、海洋、地表 (重力、地磁気、テクトニクス)、人間環境に関するデータです。

6.アマゾン ウェブ サービス Open Data Registry

管理者: Amazon
データセット例: 1000 人ゲノムプロジェクト (英語)

所有データを公開する組織が増えるのに伴い、Amazon はレジストリ (登録所) を設けて、さまざまなデータセットを検索して共有できるようにしました。Amazon のレジストリには 50 以上の公開データセットが登録されており、米国内国歳入庁の税申告、NASA の衛星画像、DNA シークエンシング、Web クローリングなど多岐にわたります。データセットには、他の組織や団体がデータをどのように利用したかを示す使用例も用意されています。

7.Pew Internet

管理者: Pew Research Center
データセット例: 2018 年の 10 代、ソーシャルメディア、テクノロジー (英語)

Pew Research Center のミッションは、世界中からデータを収集して分析することです。政治やソーシャルメディア、ジャーナリズム、経済、オンラインプライバシー、宗教、人口統計学的傾向など幅広いトピックを取り上げています。Pew Research Center は政治的偏向や政策提言のない調査分析を自ら行っていますが、生データも公開しています。利用するにはサイトで簡単な登録を行って、データのとして Pew Research Center のクレジットを表記し、データから得られる別の結論に対して Pew Research Center は責任を負わないという権利放棄が必要です。

見方によっては、データの公開は Pew Research Center にとってもう 1 つの調査プロジェクトでもあると言えるでしょう。Pew Research Center はすでに、自らの組織が調査でデータをどう利用すべきかを熟知していますが、他者のデータの使い方を知ることにも関心を持っています。なお Pew Research Center は、データを取得した結果として何かを公開する場合はメールで連絡するようにお願いしています。