企業が蓄積するデータやビッグデータの活用について調べていると、よく「データサイエンス」という言葉が目に飛び込んできます。なぜ今、データサイエンスが注目されているのでしょうか。 ここでは、データサイエンスの概要と利用分野について解説します。そして、代表的な BI プラットフォームである Tableau が拓こうとしている、新しいデータサイエンスの活用法などについてもご紹介します。
データを可視化してビジネスを加速!
データサイエンスとは?
データサイエンスとは、統計学、数学、情報学、機械学習アルゴリズムなどの手法を用いて、データから何らかのインサイト(知見や洞察、気づき)を引き出すための研究分野です。 データサイエンスは、統計学をはじめとした多くの学問による研究結果、IT 分野における新しい技術、ビジネス分野におけるノウハウなどを基盤として成り立っています。近年、下記のような条件がそろってきたことで、このデータサイエンスという領域が新たなステージに入ったとされています。
<データサイエンスが注目される要因>
- コンピューターの処理速度の向上
- 企業内で大量のデータが作成され、蓄積されるという状況が常態化
- BI ツールなどによるデータビジュアライゼーションの技術が発展
- インターネットや IoT の発達により、ビッグデータが扱えるようになった
- AI、機械学習、ディープラーニングなどの新技術が、データの分析・解析に使えるようになった
データサイエンスと関連技術の発展により、データにもとづく意思決定や課題解決を行うための環境は着実に整備されてきています。 企業においても、データサイエンスを積極的にビジネスに組み込むことが競争力を高める重要なポイントになっています。
■データサイエンスを取り巻く技術やノウハウ
データを可視化してビジネスを加速!
こちらの記事を見た方は、下記のページにも興味をお持ちです。
データサイエンスの活用分野
具体的にデータサイエンスは、どのような分野で活用されているのでしょうか。現在、取り組みが始まっているさまざまな業界の例を見てみましょう。
小売・流通業界
小売・流通の分野では、売上予測を含む在庫管理領域でのデータサイエンスの活用が始まっています。店舗の売上、来店データ、市場の動きはもちろん、カレンダーや天候によって変化する需要を機械学習などによって予測し、在庫管理の最適化を行っていきます。
POS レジを使ったデータ収集、ハンディターミナルやタグを使ったバックヤードの入出荷管理などはすでに運用されていますが、今後は IoT デバイスなども駆使し、ビッグデータに対応した自動小売在庫管理システムなどが主流となっていくと考えられます。
製造業界
製造の現場では、IoT デバイスやセンサーを用いて製造データを収集し、統計解析や機械学習といったデータサイエンスを用いて、製造機械の故障や製造ラインの歩留まりを改善する仕組みの導入が進んでいます。例えば、製造データをリアルタイムにモニタリングすることによって、何か問題が発生した後に対処をするのではなく、問題発生を AI で予測して担当者に知らせる予兆検知サービスなどです。
この AI による予兆検知は、製造業以外の IT システムの保守運用にも活用され始めています。システム全体を監視する AI が、トラブルが発生しそうな予兆や変調を察知すると、即座に必要な処理手順を実行して、インシデントの発生件数を減少させるといったソリューションです。
金融業界
金融業界では、金融(Finance)と技術(Technology)を組み合わせた FinTech(フィンテック)という言葉が注目されています。FinTech は、金融サービスと情報技術が結びつくことにより、さまざまな革新的なサービスが可能になることを意味しているのです。
銀行などの金融機関は、取引のある顧客について年齢、性別、職業、年収、家族構成、信用情報などの属性データ、過去の取引データを蓄積しています。保有資産についてのデータを把握しているケースもあるでしょう。こうしたデータを、データサイエンスを使って総合的に分析すれば、顧客一人ひとりに適合した金融商品やライフプランの提案をすることができます。また、融資の審査や与信管理にも AI 技術が活用され始めました。
保険業界
保険業界にも、データサイエンスは大きなインパクトを与えています。 特に、引受査定業務で進んでいるのは、これまで専門家が培ってきたノウハウや知見に加えて、機械学習を用いた予測モデルの活用です。 AI が顧客の死亡、通院、罹患リスク、不正請求リスク、解約リスクなどをより正確かつ迅速に判定し、引受業務のサポートをするといったソリューションが利用され始めています。
医療業界
医療業界では、導入が進みつつある電子カルテのデータ、あるいは検査データや画像診断データ、レセプトデータなどをビッグデータとして扱い、エビデンスにもとづいた医療・治療を行っていくための試みが推進されています。
まだ実用段階に達しているとはいえませんが、今後、AI がビッグデータや医学論文、医療ガイドラインを参照して、目の前の患者に最適な治療の選択肢を示して医師にアドバイスするようなシステムが作られていくと予測されます。
データを可視化してビジネスを加速!
データサイエンスの実施方法
データサイエンスの実施方法
データサイエンスは具体的にどのようにして実施していくのでしょうか。機械学習を用いる場合を想定した一般的な流れを説明します。
データの取得
まず、目的に適合するデータを収集します。通常は企業内のデータベース、Web サーバーのログ、POS データ、CRM など使用しているツールのデータ、IoT データなどが対象になるでしょう。SNS などインターネットから得られるデータや他社が保有するデータが必要になる場合もあります。
また、取得したデータの量が十分に足りているか、偏り(バイアス)や信憑性などの点で問題がないかを精査します。
データの前処理
所定の方法に従ってデータの前処理をします。前処理とは、取得した生データに対し、重複、欠損、外れ値の有無などをチェックし、必要に応じて整形することです。また、データのスケールを一般化する標準化、正規化などの処理も行います。複数のソースから得たデータの場合は、一貫性あるデータに統合し、最終的に分析モデルに適合したフォーマットへの変換も行います。
このデータの前処理を適切に行わなければ、正しい情報をデータから得ることはできません。
モデリング
モデリングとは、機械学習において入力したデータに対し、機械学習プログラムによる処理によって結果を導き出す仕組みを作ることです。データの種類や目的によって最適なモデルが異なるため、さまざまなオープンソースライブラリやデータベース内ツールを使用してモデルを構築します。
評価
構築したモデルが、目的に適った高い精度の結果を出力できるか、実際の業務に適用可能かどうかの評価を行います。
取得後に前処理を施したデータを分割して評価用のデータセットとし、さまざまな指標を用いてテストを繰り返します。評価を通じて微調整を重ね、最適解を見つけて実用的なモデルにする作業です。
業務への適用
評価までのプロセスを経て完成させた機械学習モデルを、実際の業務に適用します。方法としては、社内の既存のシステムに組み込むなどして、継続的な運用ができるようにするのが一般的です。運用を始めてからも継続的な効果検証をし、最初に設定した目的を達成する結果が得られるか、精度に問題がないかなどをチェックします。
問題解決ができるよう、適用したモデルについて検証をしながら必要に応じて改善をするというのはデータサイエンスではよくあることです。さらにいえば、ある程度の期間運用を続けていると精度が落ちてくることもあり、その場合はモデルの再構築を行うこともあります。
データを可視化してビジネスを加速!
自分のデータから価値ある情報を引き出そう!
データ分析を簡単にする Tableau でデータの価値を最大化しましょう! Tableau の無料トライアルを今すぐお試しください。
Tableau 無料トライアルをダウンロードデータの分析・解析を行うデータサイエンティスト
データサイエンスの手法や技術を使って、データの分析・解析を行う専門家のことをデータサイエンティストといいます。データを分析して何らかの問題点を抽出したり、気づきや示唆を得たりして、意思決定や課題解決に役立つ有益な情報や知見を提供するのが主な役割です。データサイエンティストが扱うデータの種類はさまざまですが、近年はビッグデータを扱うケースが格段に増えています。 続いては、データサイエンティストの役割や、似た名前のデータアナリストとの違いについて見てみましょう。
データドリブンを実践する役割を担う
データから得られた情報や知見にもとづいて意思決定をし、課題解決に結びつける、あるいは企画立案するというプロセスをデータドリブンといいます。従来の勘や経験に頼った判断と対比して使われることの多い用語です。データサイエンティストは、多くのデータがあふれている現代に、それらのデータから有益な何かを引き出す専門家としての役割を担っています。
多くのデータサイエンティストは、企業の IT 部門やマーケティング部門に所属し、その企業が扱うデータの分析と結果のレポーティングなどを行います。顧客向けの分析に携わるデータサイエンティストもいれば、社内向けの分析に携わるデータサイエンティストもいるでしょう。 今後、ビッグデータをはじめとするデータの活用がさらに進み、分析のための手法が多様化すれば、さらにその役割は重要なものになっていくと考えられています。
データアナリストとの違い
データサイエンティストと似た名前の仕事に、データアナリストがあります。データアナリストは、収集したデータを分析する専門家で、データサイエンティストと領域が重なる部分が多くあります。
両者の違いは、データサイエンティストは機械学習などを含むデータサイエンスをベースとして、データ分析をするという点です。ビッグデータを多く扱うのもデータサイエンティストです。 一方のデータアナリストは、SQL などのデータベース言語を操作するための知識、統計学、解析学、代数学などを主な基盤としてデータ分析を行います。
データを可視化してビジネスを加速!
データサイエンスと Tableau でできること
Tableau は、国内外の多くの企業で利用されている BI プラットフォームです。続いては、データサイエンスと Tableau を組みわせることでできることを見ていきましょう。
分析拡張機能 API による統合
データサイエンティストは、さまざまなツールを利用してデータ分析を行っていますが、それらのツールに Tableau を加える、あるいはそれらのツールを Tableau に統合することが可能です。 Tableau が用意している分析拡張機能 API を利用すると、R、Python、MATLAB などによって記述された統計モデルのデータを Tableau に取り込んで統合し、ビジュアル化することができます。このことにより、データサイエンティスト以外の社内のユーザーが、データサイエンスのプロセスに関われるようになります。
予測モデルをビジュアルで表示
Tableau では、予測モデルを簡単に構築でき、ビジュアライゼーションでわかりやすく確認できます。 最新のデータを使ったリアルタイム予測、柔軟性の高いシナリオテスト、大きすぎて事前に計算できないようなフィルタリング済みデータセットにもとづいた予測を、社内の誰もが Tableau を使って、ブラウザ上で確認することが可能です。エンドユーザーにとっては、Tableau を操作して、機械学習などによる高度な予測モデルを利用しているような環境が手に入ります。
Tableau に追加できる機械学習機能
Tableau には、機械学習を活用した Einstein Discovery という機能を追加することができます。有料オプションになりますが、Einstein Discovery を追加することで、データサイエンティストでも、一般のビジネスユーザーでも、Tableau を使ってコードを記述することなく、機械学習アルゴリズムによる予測モデルを作成できます。
こうした Tableau の機能により、分析に関する専門的な知識やスキルの有無を問わず社員が現場レベルで、データサイエンスをベースとしたデータ分析を行うことが可能です。
データを可視化してビジネスを加速!
データサイエンスをもっと身近に
企業にとってデータサイエンスは、今後ますます大きな意味を持つ研究分野・技術となっていくでしょう。それに伴って、データサイエンティストの役割も重要度を増していくと考えられます。それと同時に、データサイエンティスト以外の社員や経営者にとっても、データサイエンスは身近なものになっていく可能性が高まります。 すでに現在、専門的なスキルがなくても、BI プラットフォームである Tableau を使えば、高度なデータ分析を行うことが可能です。
Tableau には、機械学習アルゴリズムなどを使った、データサイエンス関連の機能も搭載されています。まず、無料トライアルからスタートしたい方は、こちらより詳細をご確認ください。
データを可視化してビジネスを加速!