Tableau を使うための最初のステップは、データへの接続です。これをしないと、疑問をすばやく解決したり、分析機能を使いこなしたり、他のユーザーと Web やモバイルで分析結果の詳細を共有したりすることはできません。

ご存知のとおり、分析するデータがいつも整理されたものであるとは限りません。そのため皆さんの多くは、特殊なツールやスクリプトを使ってデータを Tableau 用に整理する作業や、データの問題を解決する複雑な計算式の作成に手間暇をかけていらっしゃることでしょう。

Tableau 9.0 は、特に Excel スプレッドシートなどの乱雑なデータのクリーンアップといった手間のかかる作業を、ほぼ自動で行います。このバージョンの新機能には、Excel ファイルのデータ構造を自動識別する Tableau スマートデータ読み取り機能 (Data Interpreter)、データのピボットおよび分割ツール、メタデータに変更を簡単に加えられるメタデータグリッドなどが含まれています。8.2 で導入した自動データモデリングとこれらの新機能を併用することで、分析するデータをすばやく準備できるようになりました。

Tableau はデータの準備において、常に誰もがデータ接続に基本的な変更を加えられるようにすることを理念としています。これを実現するには、次の4つのポイントが重要となります。

  • スマート – さまざまなデータを自動的に識別し適当な処理を行う
  • 高速 – ビッグデータを扱うときでも、リアルタイムに近い動作
  • 反復性 – 列の新規追加などの変更を、データソースに繰り返し入れることが可能
  • 柔軟性 – 作業内容を保存しながら、いつでも大きな変更が可能

Tableau 9.0 では、この理念を可能にする新しい機能を多数搭載する予定です。新機能を少しご紹介します。

Tableau スマートデータ読み取り機能 (Data Interpreter): このような状態の Excel ファイルをお持ちですか?

Tableau は、データの場所 (「データ値はセル B8 から開始」など) やデータの構造 (「シート全体に複合ヘッダーがある」など) を自動で検知し、分析に適したデータに変換します。

ピボット: テキストファイルや Excel ファイルでは、列名もデータとして扱える場合がよくあります。たとえば、このデータは年や月をフィールド名に使用しています。

このデータの分析を最適な状態で行うには、年月の数値を列名とするのではなく、「日付」という名前の列と、データ値を含む列をもう1つ別に作る必要があります。つまり、データセットの一部をピボットする必要があります。この操作を行うには、目的の列を選んで [ピボット] を選択するだけです。

分割: 電話番号 (市外局番)、メールアドレス、 URL など、複数の構成要素によって成り立つ複合情報をデータとして持つ列が多くあります。 [分割] を使用すると、Tableau は自動でデータをサンプリングし、複数の区切り文字を検出し、新しい列を作成します。 ここに、郵便番号と位置情報が一緒になった列があります。データ値は、 「90001 (33.973271508000494, -118.24896959899968)」のようになっています。この文字列を3つに分割するには、どんなに複雑な文字列計算を行わなければならないかを想像してみてください。

Tableau でも使えるようになった正規表現を使えば、少しはラクにできるかもしれませんが、 多くのユーザーにとって正規表現を使用することはいまだ厚い壁です。そんな難しいことをする代わりに右クリックで [分割] を選択してみてください。

整理された3つの列が現れます。プロンプトが表示されることも、何かを選択する必要もありません。自動分割機能がフィールドの構造を認識できない場合は、区切り文字 (一般的にはカンマやスペースなど) を指定するよう求められます。その結果得られる計算は、 Tableau の簡単な SPLIT() 関数でいつでも編集できます。以上の方法で、列を分割して必要な部分だけを簡単に得ることができます。

メタデータグリッド: データを分析用に準備する際、データのプレビューよりもフィールドの一覧のほうが役に立つことがあります。そこで、接続に [メタデータ] ビューを追加しました。

このビューでは、フィールド情報が一覧表示され、フィールド名の変更や選択した複数のフィールドに対する一括操作が簡単に行えます。複数のフィールドを非表示にする場合も、 実に簡単で、 目的のフィールドを選んで [非表示] を選択するだけです。

これらの機能の一番のメリットは、変更を加えるタイミングが特定されていないことです。実際に、分析の最中でも、[データソース] タブをクリックして、データ接続に変更を加えることができます。テーブルの追加、結合の変更、フィールド名の変更など、どんな操作でも良いので、[データソース] タブで行ってみてください。分析に戻ると、加えた変更がすでに反映されています。分析の流れを止めないで、データソースに変更を加えることができます。これは、かつてない機能です。

このデータ準備を行うからこそ、美しく有益な視覚分析を作成できるということを忘れないでください。データのクリーンアップに手間をかけるのはあなただけでも、完成した Viz (ビジュアライゼーション) に触れる人はみな、その恩恵にあずかれるのです。

こちらもご覧ください

新規コメントの追加 

ブログの更新情報を受け取る