乱雑なデータによるコスト増加: データ準備に関する一般的な問題を解決する 4 つの方法

データの分析をしたことがあれば、データを掘り下げた結果、データの構造が不適切である、多くの不正確なデータがある、またはデータが不完全であることが判明した苦い経験があるでしょう。簡単な疑問の答えを確認するだけでも、Excel でデータを修正したり複雑な計算を記述したりと手間がかかります。

データ準備とは、データを分析できる状態にするためのプロセスで、データディスカバリ、変換、クリーニングなどの作業が含まれます。これは、分析のワークフローに不可欠な部分です。最近発表された Harvard Business Review の記事によると、作業時間の 80% はデータ準備に費やされており、分析に費やされる時間は 20% のみということです。この統計値は、データスチュワードの役割に限られるものではありません。データ準備のタスクは分析の作業と密接に関係し、テクノロジーが専門でないビジネスユーザーにとっても必要なものです。

データ準備のタスクを直接行っていないユーザーにも、乱雑なデータの影響はあります。つながりのないデータから実用的なインサイトを引き出すために必要な時間と労力があまりに大きいと、不十分なアドホック分析が行われ、組織のデータに対する信頼が損なわれる結果となります。このようなプロセスに時間がかかれば、機会損失や収益低下にもつながりかねません。実際に、Gartner 社の調査によると、「データの品質が低いことによる組織への経済的な影響は平均で年間 970 万ドル」となっています。1

乱雑なデータが発生する原因

企業では、データカタログやデータグロッサリーを構築することで、乱雑なデータの問題の克服に取り組んでいます。このような取り組みがあっても、日常の業務を行う間に乱雑なデータが紛れ込む可能性があります。乱雑なデータが発生する一般的な原因には、次のようなものがあります。

ヒューマンエラーの画像

1.ヒューマンエラー

Experian 社によれば、乱雑なデータ発生の最も一般的な原因です。データの入力の仕方にばらつきがある、スプレッドシートに手作業で値を入力する場合があるなど、さまざまな方法でエラーが発生する可能性があります。単なるスペルミスであっても、将来、データを分析する際に問題となることがあります。

種類が異なるシステムの画像

2.種類が異なるシステム

別々のいくつかのシステムにデータが保存されていることは少なくありません。それぞれ、データ構造や要件、集計方法が異なっている場合があります。このようなデータを統合する際には、フィールドの重複や不足、ラベルの不一致に悩まされることになります。同じ意味を持つデータフィールドや値であっても、システムによって名前や値が異なっている場合もあります。

データ要件の変更の画像

3.データ要件の変更

ビジネスが進化するにつれ、データ管理者やエンジニアがデータに変更を加える必要が生じます。粒度の変更や、使用しなくなったフィールドの廃止、必要になった新しいフィールドの導入などです。こうした変更が組織内全体にわたって周知されるとは限らず、アナリストがセルフサービス BI やデータ準備のツールにデータを取り込んだ時に初めてこのような変更がわかる場合もあります。

データ準備に関する 4 つの一般的な問題とその解決方法

01

問題: 時間がかかり融通の利かないプロセスで、需要に追い付けない

問題 1 の画像 (時計と資料)

アナリストレポートによると、アナリストの仕事の大半は分析ではなく、データのクリーニングとデータ形式の変換です。この作業は、データ準備のプロセスや、セルフサービス型のデータ準備ツール、または、Microsoft Excel などのスプレッドシートツールで行われます。アナリストは、新しいデータを受け取るたびに、手作業でデータ準備のタスクを実行して、分析ができるようにデータ構造の調整とクリーニングを行う必要があります。そのため、リソースが浪費され、ヒューマンエラーが発生するリスクも高まります。

乱雑なデータの処理に手を焼くだけでなく、アナリストもビジネスユーザーも必要なデータへのアクセスにも苦労します。従来の方法では、データ準備は IT 部門の担当です。データ準備を行い、一元管理されたデータウェアハウスデータウェアハウスに新しいデータソースを追加できるのは特定のチームに限られます。それ以外のユーザーは、Excel などのプログラムで自分でデータ準備を行うか、担当チームに処理してもらうのを待つしかありません。SCAN Health Plan 社で Tableau の開発を担当する Cathy Bridges 氏は「データセットに変更を加える必要がある場合、少なくとも数週間、多くの場合数か月かかる可能性があります」と言います。


解決策: ユーザーのニーズに応じた最適なツールでアジャイルなプロセスを構築

多くの組織では、データの探索やプロトタイピングにセルフサービス型のデータ準備ソリューションを導入しています。データについてよくわかっているユーザーにセルフサービスのデータ準備ツールを提供すれば、大きなメリットがあります。データ準備のプロセスを誰でも行えるようになり、IT 部門の負担が軽減されます。「セルフサービスのデータ準備ツールには、誰でも自由にデータを操作できるというメリットがあります」と有名なゲーム制作会社で上級データアナリストマネージャー兼アーキテクトを務める Venkatesh Shivanna 氏は言います。「長時間待たなくても、アナリスト自身がアドホックにデータクレンジングのタスクを実行できます」

ユーザー自身にデータ準備のプロセスを理解してもらわなければ、すべてのユーザーが自由にデータを使えるようになりません。

組織によってニーズは異なり、たった 1 つですべてのニーズを満たすようなデータ準備の方法は存在しません。しかし、セルフサービスのデータ準備ツールを選択する際には、新たな障壁を作り出すことなく、繰り返し利用可能で、迅速な対応が可能なアプローチの実現に向けてプロセスを展開できるようなツールかどうかを検討する必要があります。データ準備ステップの影響がどれほど大きいかがわかれば、データ準備とデータの理解に対する関心が増大するでしょう。Nationwide Insurance 社のコンサルタント、Jason Harmer 氏は、「ビジュアルデータ準備では、エンドツーエンドのプロセス全体を確認でき、データ内のスペルミスや余分なスペース、誤った結合句など、問題の可能性がある箇所を早期に発見できます。それにより、最終的な分析結果の信頼度も高くなります」と語ります。

02

問題: データ準備には組織のデータに関する詳細な知識が必要

問題 2 の画像 (カレンダーと拡大鏡)

データ準備の前に、データの場所や構造、構成だけでなく、フィールド定義などの細かな詳細情報についても把握しておくことが不可欠です。このプロセスは「データディスカバリ」とも呼ばれ、データ準備の基本的な要素の 1 つです。どこに向かうのかという基本的なことを把握せずに長旅に出発することはありません。同じことがデータ準備にも当てはまります。

セルフサービス BI の登場とドラッグ & ドロップ操作が可能になったことで、ビジネスユーザーでも簡単にデータディスカバリができるようになり、データセットの既存の構造や内容について深い知識が得られるようになっています。しかし、情報がサイロ化されているため、ユーザーは多くの場合、どのようなデータがどこにあり、どのように定義されているのかという、組織全体のデータの状況をあまり把握していません。データ定義の理解が十分でないことが分析の妨げになることもあります。ひどい場合には、会社全体の分析結果が不正確になることもあります。たとえば、顧客データの分析を行う際に、マーケティングチームのいう「顧客」と財務部門でいう「顧客」では定義が異なる場合があります。


解決策: 会社の標準となるデータ定義の作成

セルフサービス型のビジュアルデータ準備ツールを使用することで、アナリストはデータを深く掘り下げて、構造を理解し、複数の表の間のリレーションシップを確認できます。データの概要を理解できれば、クリーニングが必要な想定外の値も簡単に特定できます。このテクノロジーによってデータが明確になりますが、それでも、フィールド定義などの詳細を理解するには、社内の他の人のサポートが必要になります。

全社的にデータ定義を標準化する 1 つの方法は、データディクショナリーを作成することです。データディクショナリーは、それぞれのビジネスアプリケーションで用語がどのように使用されているのかをアナリストが理解するのに役立ち、分析に関連しているフィールドと完全にシステム用のフィールドを区別できます。エネルギー企業でプロジェクトエンジニアをしている Brian Davis 氏は、データディクショナリーは「かけがえのないもの」だと言います。

会計部門のデータと現場技術者のデータの結合を定期的に行っています。初期データを計算フィールドとともに定義することで、分析の正確性が高くなり、使用するフィールドやテーブルを判定するのにかかる時間を短縮できます。

データディクショナリーの作成は簡単な作業ではありません。データスチュワードや特定分野の専門家は、作業を継続的に繰り返し、要件の変更に応じて確認し直す必要があります。2 ディクショナリーの内容が古くなると、組織のデータ戦略を阻害するおそれがあります。連絡方法や責任者を最初からプロセスに組み込み、グロッサリーの保管場所、および更新や改善を行う頻度を決めておく必要があります。

03

問題: 何が「クリーンなデータ」であるかは、見方によって異なる

問題 3 の画像 (9 と言う人と 6 と言う人)

「最適な構造のデータ」とは何かについては、チームごとに要件や優先事項が異なります。たとえば、データベース管理者やデータエンジニアはデータの保存方法やアクセス方法を優先し、列を追加する場合は人間による使いやすさではなくデータベースのみでの利用を重視します。エンジニアが分析のためのデータウェアハウスを構築する場合は、多くの質問の答えが得られる重要なビジネス指標を優先します。データアナリストが必要とする情報がデータセットに含まれていない場合、集計を調整するか外部のソースを取り込む必要があります。それにより、サイロ化や不正確なデータが生じる可能性があります。

SCAN Health Plan 社の Tableau 開発担当である Cathy Bridges 氏は、他のチームが既にクリーニングを行ったデータセットでも、アナリストが改めて更新する必要に迫られることが多いと言います。「列を追加するのは、時間と手間のかかる面倒なプロセスです。たとえば、合計と内訳の比較が必要な場合、データソースを複製する必要がありますが、これはかなり面倒な処理になることがあります」


解決策: データのエキスパートの手に委ねる

セルフサービスのデータ準備が可能になれば、アナリストは自分で分析に適した形にデータセットを変換できます。それにより、アドホック分析を迅速に行えるようになり、質問が浮かんだらすぐ答えを見つけることができます。また、IT 部門にとっても、予期しない質問が発生するたびにデータを再構築しなければならないという負担が軽減されます。さらに、作成されたモデルを他のアナリストも再利用できるので、二度手間を減らすためにも役立ちます。広い範囲で有益なデータセットであれば、将来的に標準のセットに組み込むことができます。

データ準備ツールには、アナリストからの単発の質問に答えることと、同じ処理の繰り返しも容易にできることが求められます。ロジックを構築したら、その内容がファイルに保存され、次回、また同じファイルを開いたときには、同じデータソースに接続して、ワークフローの前回の続きから始められるのです。

04

問題: データ準備のサイロ化という隠れた現実

問題 4 の画像 (グループの人々)

高度なデータ準備ツールは複雑なことがあるため、多くの場合使用できるのは一部のパワーユーザーに限られます。しかし、アナリストやビジネスユーザーがデータ準備ツールを使用できないとしても、このようなタスクを他のアプリケーションで実行していないとは限りません。セルフサービス BI ツールによって、あらゆるレベルのユーザーがデータ分析の機能を利用できるようになりましたが、データからインサイトを引き出すには、IT 部門にデータ構造を変更してもらう必要があります。何日も、場合によっては何か月もデータの準備ができるのを待つ代わりに、ユーザーはシステムからデータを抽出して、スプレッドシートでデータ準備を行います。その結果、特定の課題にのみ役に立つ新しい構造のデータセットが出来上がります。さまざまな部門が、お互いに知らずに同じ作業を重複して行っていることも少なくありません。このようなプロセスではデータサイロが大量に発生します。非効率で、スケーラビリティがなく、管理の行き届かない状況です。

「データ準備」という言葉を知らないユーザーでも、Excel などのプログラムでデータ準備の作業を行っています。データのサイロ化が進むほど、データの解釈の仕方もさまざまになっていきます。そうなれば、データの信用度が低下します。


解決策: データ準備プロセスにおける一貫性とコラボレーション

サイロ化に立ち向かうにはまず、コラボレーションが重要です。Business Application Research Center (BARC) の行った調査によると、自社のデータ準備プロセスへの満足度が高い企業は「データ準備を IT 部門とビジネス部門の共通のタスクにしている」企業でした。

組織にセルフサービスのデータ準備を導入するには、ユーザーにデータのさまざまな側面を学んでもらう必要があります。 従来は、このような知識は IT 担当者やデータエンジニアだけのものでしたが、アナリストも粒度やデータセットに適用される変換など、データの細かな点について時間を取って学ぶことが非常に重要になります。定期的にチェックインを行うスケジュールを設定するか、質問のワークフローを標準化することにより、エンジニアはクエリを実行して有効なデータで作業するための最新の方法を共有することができます。同時に、アナリストは迅速にデータ準備を行い、高い信頼性を実現できます。



データ準備に関する悩みを解決

Tableau Prep を試す

1.Gartner 社、Smarter with Gartner、「How to Create a Business Case for Data Quality Improvement (英語)」(2017 年 1 月 9 日) https://www.gartner.com/smarterwithgartner/how-to-create-a-business-case...

2.TDWI 社、TDWI Upside、「Five Key Elements Your Data Governance Business Glossary May Be Missing (英語)」(2016 年 2 月 16 日) https://tdwi.org/articles/2016/02/16/data-governance-glossary-missing-el...

こちらもご覧ください