乱雑なデータによるコスト増加: データ準備の一般的な問題の解決方法

データの分析をしたことがあれば、データを掘り下げた結果、データが「乱雑」、つまり構造が不適切である、多くの不正確なデータがある、またはデータが不完全であることが判明した苦い経験があるでしょう。簡単な疑問の答えを確認するだけでも、Excel でデータを修正したり複雑な計算を記述したりと手間がかかります。データ準備とは、データを分析できる状態にするためのプロセスで、データディスカバリ、変換、クリーニングなどの作業が含まれます。これは、分析のワークフローに不可欠な部分です。

データ準備のタスクを直接行っていないユーザーにも、乱雑なデータの影響はあります。つながりのないデータから実用的なインサイトを引き出すために必要な時間と労力があまりに大きいと、不十分なアドホック分析が行われ、組織のデータに対する信頼が損なわれる結果となります。このようなプロセスに時間がかかれば、機会損失や収益低下にもつながりかねません。実際に、ガートナー社の調査によると、「データの品質が低いことによる組織への経済的な影響は平均で年間 970 万ドル」となっています。¹

乱雑なデータが発生する原因

企業では、データカタログやデータグロッサリーを構築することで、乱雑なデータの問題の克服に取り組んでいます。このような取り組みがあっても、日常の業務を行う間に乱雑なデータが紛れ込む可能性があります。乱雑なデータが発生する一般的な原因には、次のようなものがあります。

1.ヒューマンエラー

Experian 社によれば、乱雑なデータ発生の最も一般的な原因です。データ入力の仕方にばらつきがある、スプレッドシートに手作業で値を入力する、さらには単なるスペルミスなどの理由でも、データを分析する段階になって問題が発生することがあります。

2.種類が異なるシステム

別々のいくつかのシステムにデータが保存されていることは少なくありません。それぞれ、データ構造や要件、集計方法が異なっている場合があります。このようなデータを統合する際には、フィールドの重複や不足、ラベルの不一致に悩まされることになります。同じ意味を持つフィールドや値であっても、システムによって名前や値が異なっている場合もあります。

3.データ要件の変更

ビジネスが進化するにつれ、データ管理者やエンジニアがデータに変更を加える必要が生じます。粒度の変更やフィールドの廃止、必要になった新しいフィールドの導入などです。アナリストが、セルフサービス BI やデータ準備のツールにデータを取り込んだときに、初めてそのような変更を知ることもよくあります。

データ準備に関する 4 つの一般的な問題とその解決方法

問題: 時間がかかり融通の利かないプロセスで、需要に追い付けない

アナリストレポートによると、アナリストの仕事の大半は分析ではなく、データのクリーニングとデータ形式の変換です。この作業は、データ準備のプロセスや、セルフサービス型のデータ準備ツール、または、Microsoft Excel などのスプレッドシートツールで行われます。アナリストは新しいデータを受け取るたびに、データ準備を手作業で繰り返して、分析できるように構造の調整とデータクリーニングを行う必要があります。そのためリソースが浪費され、ヒューマンエラーが発生するリスクも高まります。

乱雑なデータの処理に手を焼くだけでなく、アナリストもビジネスユーザーも必要なデータへのアクセスにも苦労します。従来の方法では、データ準備は IT 部門の担当です。データ準備を行い、一元管理されたデータウェアハウスデータウェアハウスに新しいデータソースを追加できるのは特定のチームに限られます。それ以外のユーザーは、Excel などのプログラムで自分でデータ準備を行うか、担当チームに処理してもらうのを待つしかありません。
問題 1 の画像 (時計と書類)

解決策: ユーザーのニーズに応じた最適なツールでアジャイルなプロセスを構築

セルフサービスのデータ準備の導入: 多くの組織では、データの探索やプロトタイピングにセルフサービス型のデータ準備ソリューションを導入しています。データについてよくわかっているユーザーにセルフサービスのデータ準備ツールを提供すれば、大きなメリットがあります。データ準備のプロセスを誰でも行えるようになり、IT 部門の負担が軽減されます。

セルフサービスのデータ準備ツールには、長時間待たなくても、アナリスト自身がアドホックのデータクリーニング作業を行えるという付加価値があります。

Venkatesh Shivanna 氏、有名ゲーム企業のシニアデータ分析マネージャー兼アーキテクト

反復可能でアジャイルなアプローチに向けたプロセスの進化: 組織によってニーズは異なり、たった 1 つですべてのニーズを満たすようなデータ準備の方法は存在しません。しかし、セルフサービスのデータ準備ツールを選択する際には、新たな障壁を作り出すことなく、繰り返し利用可能で、迅速な対応が可能なアプローチの実現に向けてプロセスを展開できるようなツールかどうかを検討する必要があります。データ準備ステップの影響がどれほど大きいかがわかれば、データ準備とデータの理解に対する関心が増大するでしょう。Nationwide Insurance 社のコンサルタント、Jason Harmer 氏は、「ビジュアルデータ準備では、エンドツーエンドのプロセス全体を確認でき、データ内のスペルミスや余分なスペース、誤った結合句など、問題の可能性がある箇所を早期に発見できます。それにより、最終的な分析結果の信頼度も高くなります」と語ります。

問題: データ準備には組織のデータに関する詳細な知識が必要

データ準備の前に、データの場所や構造、構成だけでなく、フィールド定義などの細かな詳細情報についても把握しておくことが不可欠です。このプロセスは「データディスカバリ」とも呼ばれ、データ準備の基本的な要素の 1 つです。どこに向かうのかという基本的なことを把握せずに長旅に出発することはありません。同じことがデータ準備にも当てはまります。

セルフサービス BI の登場によって、ビジネスユーザーでも簡単にデータディスカバリができるようになり、データセットの既存の構造や内容について深い知識が得られるようになっています。しかし、情報がサイロ化されているため、ユーザーは多くの場合、どのようなデータがどこにあり、どのように定義されているのかという、組織全体のデータの状況をあまり把握していません。データ定義の理解が十分でないことが分析の妨げになることもあります。ひどい場合には、会社全体の分析結果が不正確になることもあります。
問題 2 の画像 (カレンダーと拡大鏡)

解決策: 会社の標準となるデータ定義の作成

セルフサービス型のビジュアルデータ準備ツールを使用することで、アナリストはデータを深く掘り下げて、構造を理解し、複数の表の間のリレーションシップを確認できます。データの概要を理解できれば、クリーニングが必要な想定外の値も簡単に特定できます。このテクノロジーによってデータが明確になりますが、それでも、フィールド定義などの詳細を理解するには、社内の他の人のサポートが必要になります。

データディクショナリーの作成: 全社的にデータ定義を標準化する 1 つの方法は、データディクショナリーを作成することです。データディクショナリーは、それぞれのビジネスアプリケーションで用語がどのように使用されているのかをアナリストが理解するのに役立ち、分析に関連しているフィールドと完全にシステム用のフィールドを区別できます。エネルギー企業でプロジェクトエンジニアをしている Brian Davis 氏は、データディクショナリーは「かけがえのないもの」だと言います。

継続的な反復とイノベーション: データディクショナリーの作成は簡単な作業ではありません。データスチュワードや特定分野の専門家は、作業を継続的に繰り返し、要件の変更に応じて確認し直す必要があります。² ディクショナリーの内容が古くなると、組織のデータ戦略を阻害するおそれがあります。連絡方法や責任者を最初からプロセスに組み込み、グロッサリーの保管場所、および更新や改善を行う頻度を決めておく必要があります。

詳細情報

データ準備の 5 つのベストプラクティス

データのスコープを理解して、データ準備プロセスを加速させましょう。

ガイドを読む

Tableau Data Management

規模に応じたセルフサービス分析に対する信頼性、可視性、ガバナンスについて解説します。

ホワイトペーパーを読む

問題: 何が「クリーンなデータ」であるかは、見方によって異なる

「最適な構造のデータ」とは何かについては、チームごとに要件や優先事項が異なります。たとえば、データベース管理者やデータエンジニアはデータの保存方法やアクセス方法を優先し、列を追加する場合は人間による使いやすさではなくデータベースのみでの利用を重視します。エンジニアが分析のためのデータウェアハウスを構築する場合は、多くの質問の答えが得られる重要なビジネス指標を優先します。データアナリストが必要とする情報がデータセットに含まれていない場合、集計を調整するか外部のソースを取り込む必要があります。それにより、サイロ化や不正確なデータが生じる可能性があります。

SCAN Health Plan 社の Tableau 開発担当である Cathy Bridges 氏は、他のチームが既にクリーニングを行ったデータセットでも、アナリストが改めて更新する必要に迫られることが多いと言います。「列を追加するのは、時間と手間のかかる面倒なプロセスです。たとえば、合計と内訳の比較が必要な場合、データソースを複製する必要がありますが、これはかなり面倒な処理になることがあります」

解決策: データのエキスパートの手に委ねる

セルフサービスのデータ準備が可能になれば、アナリストは自分で分析に適した形にデータセットを変換できます。それにより、アドホック分析を迅速に行えるようになり、質問が浮かんだらすぐ答えを見つけることができます。また、IT 部門にとっても、予期しない質問が発生するたびにデータを再構築しなければならないという負担が軽減されます。さらに、作成されたモデルを他のアナリストも再利用できるので、二度手間を減らすためにも役立ちます。広い範囲で有益なデータセットであれば、将来的に標準のセットに組み込むことができます。

データ準備ツールには、アナリストからの単発の質問に答えることと、同じ処理の繰り返しも容易にできることが求められます。

Gordon Strodel 氏、 Slalom 社情報管理および分析コンサルタント

問題: データ準備のサイロ化という隠れた現実

高度なデータ準備ツールは複雑なことがあるため、多くの場合使用できるのは一部のパワーユーザーに限られます。しかし、アナリストやビジネスユーザーがデータ準備ツールを使用できないとしても、このようなタスクを他のアプリケーションで実行していないとは限りません。セルフサービス BI ツールによって、あらゆるレベルのユーザーがデータ分析の機能を利用できるようになりましたが、データからインサイトを引き出すには、IT 部門にデータ構造を変更してもらう必要があります。

何日も、場合によっては何か月もデータの準備ができるのを待つ代わりに、ユーザーはシステムからデータを抽出して、スプレッドシートでデータ準備を行います。その結果、特定の課題にのみ役に立つ新しい構造のデータセットが出来上がります。さまざまな部門が、お互いに知らずに同じ作業を重複して行っていることも少なくありません。このようなプロセスではデータサイロが大量に発生します。非効率で、スケーラビリティがなく、管理の行き届かない状況です。

データのサイロ化が進むほど、データの解釈の仕方もさまざまになっていき、そのため不信感も高まります。

Jason Harmer 氏、 Nationwide Insurance 社 IT プロセス管理部門

解決策: データ準備プロセスにおける一貫性とコラボレーション

コラボレーションによるサイロ化打破: Business Application Research Center (BARC) 社の行った調査によると、自社のデータ準備プロセスへの満足度が高いのは「データ準備を IT 部門とビジネス部門の共通のタスクにしている」企業でした。

アナリストがデータの細かな点を学べるようにする: 組織にセルフサービスのデータ準備を導入するには、ユーザーにデータのさまざまな側面を学んでもらう必要があります。従来は、このような知識は IT 担当者やデータエンジニアだけのものでしたが、アナリストも粒度やデータセットに適用される変換など、データの細かな点について時間を取って学ぶことが非常に重要になります。定期的にチェックインを行うスケジュールを設定するか、質問のワークフローを標準化することにより、エンジニアはクエリを実行して有効なデータで作業するための最新の方法を共有することができます。同時に、アナリストは迅速にデータ準備を行い、高い信頼性を実現できます。

PDF をダウンロード

1.Gartner 社、Smarter with Gartner、「How to Create a Business Case for Data Quality Improvement　(英語)」(2017 年 1 月 9 日) https://www.gartner.com/smarterwithgartner/how-to-create-a-business-cas…

2.TDWI 社、TDWI Upside、「Five Key Elements Your Data Governance Business Glossary May Be Missing　(英語)」(2016 年 2 月 16 日) https://tdwi.org/articles/2016/02/16/data-governance-glossary-missing-e…

データ準備に関する悩みを解決

Tableau Prep を試す