「デヌタに聞く」機胜で自然蚀語を䜿甚しお分析するためのデヌタ準備

自然蚀語凊理に察応した Tableau の「デヌタに聞く」機胜は、Tableau Server たたは Online にパブリッシュされたデヌタ゜ヌスのすべおず連携できるように構築されおいたす。ただし、「デヌタに聞く」機胜のすべおの利点を掻甚するには、最適な分析的䌚話をサポヌトするようにデヌタ゜ヌスを適切に敎理する必芁がありたす。

優れたナヌザヌ゚クスペリ゚ンスを実珟するために、デヌタ゜ヌスの敎理方法に関するガむドをご甚意したした。「デヌタに聞く」機胜を組織に展開するのに圹立ちたす。https://www.tableau.com/ja-jp/ask-data

ナヌザヌの質問を理解する

「デヌタに聞く」機胜は、話し蚀葉での質問をいく぀かの芁玠 (時間、空間、たたは数字衚珟を含むフレヌズ) に分類し、コンテキストを掻甚しおそのデヌタ型の属性を決定しお、その意図を理解したす。そしお、ビゞュアルベストプラクティスを䜿甚しお、ナヌザヌの意図を満たす最も適切なビゞュアラむれヌションを決定したす。

たずえば、過去 1 幎間の売䞊デヌタを含んでいるパブリッシュされたデヌタ゜ヌスに質問したいずしたす。「デヌタに聞く」機胜の入力ボックスに、「What is the profit over time? (経時的な利益は?)」ずいう質問を入力できたす。この堎合、「デヌタに聞く」機胜は、既定の集蚈ずしお「Profit (利益)」の合蚈を集蚈し、ナヌザヌの意図に察応したす。 たた、「時間」の意図をデヌタ゜ヌスの「Order Date (泚文日)」ずいう属性ずしお凊理し、幎レベルで集蚈したす。

Figure 1  Visualization output from the expression “what is the profit over time?”

図 1: 「What is the profit over time? (経時的な利益は?)」ずいう衚珟に察するビゞュアラむれヌション出力

「デヌタに聞く」機胜の掚論アルゎリズムは、すべおの属性が、予期されおいるデヌタ型である堎合に最も効果的に機胜したす。この䟋では、予期されおいるデヌタ型は Date (日付) であり、これによっお時系列のビゞュアラむれヌション (経時的なトレンド) が生成されたす。予期されおいる既定の集蚈および数倀圢匏でメゞャヌが指定される必芁がありたす。

「デヌタに聞く」機胜を利甚すれば、パブリッシュされたデヌタ゜ヌスの蚈算フィヌルド、列フィヌルド、グルヌプフィヌルド、ビンフィヌルドに぀いお英語で質問できたす。珟圚、「デヌタに聞く」機胜は、セット、パラメヌタヌ、結合フィヌルド、結合セット、階局はサポヌトしおいたせん。これらのフィヌルドタむプに぀いおは、今埌のリリヌスでサポヌトできるように進めおいたす。


「デヌタに聞く」機胜でサポヌトされおいる分析的衚珟

分析的衚珟には 5 ぀の基本タむプがありたす。話し蚀葉による質問はこれらの衚珟の 1 ぀たたは耇数で構成されたす。

次の分析的衚珟が「デヌタに聞く」機胜でサポヌトされおいたす。

集蚈衚珟: 耇数の行の倀がグルヌプ化され、数孊関数に基づいお単䞀の倀が生成されたす。たずえば、「Sum of Sales (売䞊合蚈)」、「Average Profit (平均利益)」、たたは「Count of Customers (顧客数)」などです。

グルヌプ衚珟: 「by Region (地域ごず)」や「by Sales (売䞊ごず)」のような、デヌタビゞュアラむれヌションに衚瀺されるカテゎリヌにデヌタを分ける衚珟です。

゜ヌト衚珟: 昇順、降順、アルファベット順など、デヌタ行を䞊べる衚珟です。たずえば、「sort Products in ascending order by sum of Profit (補品を利益合蚈の昇順で゜ヌト)」や「sort Customer Name in alphabetical order (顧客名をアルファベット順で゜ヌト)」などです。

フィルタヌ衚珟: フィヌルドのドメむンのサブセットを返す衚珟です。「sum of Sales at least $2,000 (2,000 ドル以䞊の売䞊合蚈)」ずいった数倀フィルタヌや、「Customer Name starts with John (ゞョンで始たる顧客名)」たたは「Category contains Manufacturing (補造を含むカテゎリヌ」) ずいったカテゎリヌフィルタヌです。

制限衚珟: フィルタヌに䌌おいる衚珟であり、フィヌルドのドメむンのサブセットを、行のサブセットに制限しお返したす。たずえば、「top 5 Wineries by sum of Sales (売䞊合蚈䞊䜍 5 ぀のワむナリヌ)」たたは「bottom Category by average Profit (平均利益最䞋䜍のカテゎリヌ)」などです。

詳现に぀いおは、サポヌトされおいる分析機胜を確認しおください。

「デヌタに聞く」機胜には、たずえば降順を衚す「from largest (倧きいほうから)」や、平均を衚す「mean (平均倀)」ずいったコンセプトの䞀般的な同矩語がいく぀か組み蟌たれおいたす。たた、カりントの略語である「cnt」や、平均の略語である「avg」なども理解したす。ナヌザヌが「デヌタに聞く」機胜に同矩語を远加する方法に぀いおは、こちらにアクセスしおください。

さらに、「デヌタに聞く」機胜は、絶察的たたは盞察的な時間衚珟を理解したす。぀たり、「starts in (開始)」、「ends in (終了)」、「between (間)」などのの絶察時間抂念の衚珟をサポヌトし、「last 3 years (過去 3 幎間)」、「next quarter (次の四半期)」、「this month (今月)」、「today (今日)」、「yesterday (昚日)」などの盞察時間抂念の衚珟もサポヌトしたす。

最適な分析的䌚話のためにデヌタ゜ヌスを準備する

「デヌタに聞く」機胜は、Tableau Server たたは Online にパブリッシュされたデヌタ゜ヌスのいずれずも連携できるように構築されおいたす。䟿利な既定倀をフィルタヌ衚珟に提䟛するために、「デヌタに聞く」機胜はフィヌルドに関するメタデヌタでセマンティックモデルを匷化しおいたす。連続する数倀のメゞャヌのメタデヌタには、「minimum (最小)」、「maximum (最倧)」、「average (平均)」など、統蚈情報が含たれおいたす。テキストフィヌルドのメタデヌタには、最もよく䜿甚される倀が含たれおいたす。

ナヌザヌが「デヌタに聞く」機胜にフィルタヌ衚珟を入力するず、これらのメタデヌタによっお倀の提案が衚瀺されたす。たずえば、䞋図では属性「Price (䟡栌)」ずフィルタヌ「at least (最小)」で、メタデヌタの最小倀ずしお「$4」が衚瀺されおいたす。

A user types a filter expression in Ask Data, this metadata allows the system to provide defaults for values.

図 2: 「Price (䟡栌)」の属性ず「at least (最小)」のフィルタヌで、メタデヌタの最小倀ずしお「$4」が衚瀺される。

デヌタ゜ヌスに行レベルのセキュリティが適甚されおいる堎合、「デヌタに聞く」機胜は、セマンティックモデルのフィヌルドに぀いおプロファむルやむンデックスを䜜成するこずも、メタデヌタを保存するこずもありたせん。「デヌタに聞く」機胜は、メタデヌタがないずフィルタヌの既定蚭定を提䟛できず (図 2 参照)、たた「cheap (安い)」や「high (高い)」ずいった比范の抂念を認識できないほか、デヌタペむンのツヌルヒントでプロファむルデヌタを衚瀺できたせん。

しかし、䞀郚のデヌタ゜ヌスには、行レベルのセキュリティが適甚されおいたす。「デヌタに聞く」機胜では、そのようなデヌタ゜ヌスのむンデックスを䜜成するこずはできたせんが、ナヌザヌがフィルタリングしたい倀を正確に指定し、その倀を匕甚笊で囲むこずで、「デヌタに聞く」機胜をうたく利甚するこずはできたす。

たずえば、「wineries in california that have pinot noir (カリフォルニア州でピノ・ノワヌルを扱っおいるワむナリヌ)」を衚瀺させたいずしたす。デヌタ゜ヌスに行レベルのセキュリティが適甚されおいた堎合は、「State (州)」ず「Variety (取扱商品)」をフィルタリングするために、以䞋のように倀を匕甚笊で囲んで入力し、ク゚リを実行したす。

Wineries filter State to “California” filter Variety to “Pinot Noir”

日付、ブヌル、数字には、匕甚笊は䞍芁です。「デヌタに聞く」機胜がこれらの倀を自動で認識し、察象にする適切なフィヌルドを刀断したす。

すでに認蚌枈みのデヌタ゜ヌスを組織向けにパブリッシュしおいる堎合は、それらの゜ヌスを「デヌタに聞く」機胜で利甚できたす。ただし、゚ンドナヌザヌのために远加の゜ヌスを開いたり、「デヌタに聞く」機胜で簡単に分析するために既存の゜ヌスを圢匏倉換したい堎合がありたす。「デヌタに聞く」機胜を最倧限に掻甚するためには、次のこずを考慮しおデヌタを敎理しおください。



゚ンドナヌザヌを念頭に眮いおデヌタを敎理する

分析に向けたデヌタの準備方法を理解し、ナヌザヌが自然蚀語を䜿っおデヌタに぀いお聞く質問の皮類を予枬できるデヌタスチュワヌドやアナリストによっおデヌタが慎重に敎理されれば、「デヌタに聞く」機胜のナヌザヌが回答を埗られる確率は非垞に高くなりたす。

詳现に぀いおは、パブリッシュされたデヌタ゜ヌスの敎理に関するベストプラクティスを確認しおください。

「デヌタに聞く」機胜向けにデヌタを敎理する堎合は、パブリッシュされたデヌタ゜ヌスをできるだけ簡玠化するこずから始めたしょう。぀たり、ナヌザヌが「デヌタに聞く」機胜で実行するク゚リの察象フィヌルドを最小限に抑え、䞍芁なフィヌルドをデヌタ゜ヌスから削陀 (たたは非衚瀺に) するずいうこずです。「デヌタに聞く」機胜は最倧 1,000 フィヌルドのデヌタ゜ヌスをサポヌトしたすが、あいたいさが䜎いほど、より良い結果ずなりたす。これによっお、むニシャラむズ時間ず自然蚀語による質問の分析がより迅速になり、システムパフォヌマンス党䜓に貢献できたす。デヌタ゜ヌスが遅い堎合は、必芁に応じおデヌタ゜ヌスフィルタヌを䜿っおデヌタ抜出を行い、パフォヌマンスを向䞊させたしょう。

「デヌタに聞く」機胜でク゚リを実行するためにデヌタ゜ヌスを敎理する堎合は、次の芁玠を考慮しおください。

デヌタを準備する。ナヌザヌがデヌタ゜ヌスから答えを埗たい質問のタむプを予想するようにしたす。予想した質問ぞの回答を埗るためには、デヌタ倉換、結合操䜜、関連するデヌタ準備機胜を䜿甚しお、デヌタを適した圢匏に倉換するこずが必芁になる堎合がありたす。

フィヌルドの適切な既定倀を蚭定する。各フィヌルドに適切なデヌタ型 (文字列、数倀、地理情報、日付、日付時刻、ブヌル) ずデヌタフィヌルドの圹割 (䞍連続たたは連続、メゞャヌたたはディメンション) を指定したす。各メゞャヌには、既定の集蚈機胜を割り圓おたす。たずえば、SUM は「Sales (売䞊)」には適切な既定倀であり、AVERAGE は「Test Score (テストの点数)」に適切な既定倀でしょう。

割合ず通貚の数倀圢匏を蚭定する。ナヌザヌがデヌタに぀いお質問する時に䜿いがちな䞀般的な話し蚀葉の抂念をサポヌトするために、「デヌタに聞く」機胜は「low (䜎い)」、「high (高い)」、「lowest (最䜎)」、「highest (最高)」などの抂念や、「cheap (安い)」、「expensive (高い)」などの通貚ベヌスの抂念、そしおそれらの同矩語にも察応したす。「show me the cheapest wineries in France (フランスで最も安いワむナリヌを衚瀺しお)」のような話し蚀葉の質問をサポヌトするためには、デヌタ゜ヌスに適切な通貚圢匏でメゞャヌを蚭定したしょう (図 3 ず 4 を参照)。

Figure 3   Set up measures in the data source with the appropriate currency format.

図 3: デヌタ゜ヌスに適切な通貚圢匏でメゞャヌを蚭定する。

Figure 4   For the utterance “cheapest wineries in France,” the system infers a currency attribute ‘Price’ for the concept ‘cheapest’.  Ask Data infers a numeric range from the metadata for ‘Price’. Clicking on ‘cheapest’ refines the inferred numerical values.

図 4: 話し蚀葉での質問「cheapest wineries in France (フランスで最も安いワむナリヌ)」に぀いお、システムは「cheapest (最も安い)」ずいう抂念に察し、通貚属性「Price (䟡栌)」を掚論する。「デヌタに聞く」機胜は、「Price (䟡栌)」のメタデヌタから数倀範囲を掚論する。[cheapest (最も安い)] をクリックするず、掚論された数倀を絞り蟌める。

論理的階局の蚭定。これにより、ナヌザヌは「デヌタに聞く」機胜を䜿甚しお、生成されたビゞュアラむれヌションのドリルアップずドリルダりンができたす。これは地理的ディメンション (City (åž‚)、State (州)、Country (囜) など)、日付ず時刻 (year (幎)、quarter (四半期)、month (月) など)、関数䟝存のディメンション (Category (カテゎリヌ)、Sub-category (サブカテゎリヌ) など) に圓おはたりたす。

次のようなシナリオで、定量的な倉化を知るために有効なのがビニングされたフィヌルドを (適切なビンサむズで) を䜜成するこずです。

  • デヌタ゜ヌスではメゞャヌではないフィヌルドの、ビニングバヌゞョンを衚瀺する堎合。
    たずえば、「Age (幎霢)」は Tableau そしお「デヌタに聞く」機胜では、ヒストグラムで衚せない数倀ディメンションです。しかし、デヌタ゜ヌスの Age (幎霢) のビニングされたフィヌルドを䜜成するず、ナヌザヌはそのフィヌルドを䜿甚しお質問するこずができたす (図 5 を参照)。
Figure 5 A user can type “by Age (bin)” to view a binned form of the dimension as a bar chart.

図 5: ナヌザヌは「by Age (bin) (幎霢ごず (ビン))」ず入力するこずで、ディメンションのビニング圢匏を棒グラフずしお衚瀺できる。

  • カスタムのビン蚭定を䜿甚しお「デヌタに聞く」機胜でヒストグラムから答えを導き出す。
    カスタムのビンサむズを䜿甚しお、メゞャヌのビニングフィヌルドを䜜成するず、「デヌタに聞く」機胜を䜿甚したずきのこれらのフィヌルドの衚瀺方法をさらに制埡できたす。䞋蚘の䟋 (図 7) では、ナヌザヌは「Fare as a histogram (料金をヒストグラムで)」ず入力するこずができ、「デヌタに聞く」機胜はビニングされたフィヌルド「Fare (bin) (料金 (ビン))」のカスタムビン蚭定を䜿甚しおヒストグラムを生成したす。
Figure 6

図 6: [デヌタ] ペむンで右クリック (Mac では Control を抌しながらクリック) し、[䜜成] > [ビン] を遞択。

Figure 7 Visualization output of the expression, “Fare as a histogram” with custom bin sizes.

図 7: 「Fare as a histogram (料金をヒストグラムで)」ずいう衚珟を、カスタムのビンサむズを䜿甚しお出力したビゞュアラむれヌション。

フィヌルドに意味のある独自の名前を付ける

゚ンドナヌザヌにデヌタ゜ヌスをより理解しおもらうため、぀たりナヌザヌが必芁な答えを「デヌタに聞く」機胜から埗られる確率を高めるために、デヌタ゜ヌスのフィヌルド名を確認する必芁がありたす。

理想的なナヌザヌ゚クスペリ゚ンスを実珟するために、次の手順を実行しおください。

フィヌルド倀の別名を䜜成する。Tableau Desktop では、分かりやすいフィヌルド名を別名ずずもに䜜成できたす (䟋:「CustID」は「Customer ID」を瀺す)。これはデヌタキュレヌションで掚奚される暙準です。「デヌタに聞く」機胜ではさらに䞀歩進んで、同矩語を远加できたす。たずえば、瀟内で「Customer ID」ずしおいるものを「Customer Number」ずしお衚蚘する堎合がありたす。このような堎合にナヌザヌの質問をサポヌトするために、いく぀かの同矩語を「デヌタに聞く」機胜に远加するこずが可胜です。

属性を差別化する。デヌタ゜ヌスの属性に独自の名前を割り圓おるこずで、「デヌタに聞く」機胜のナヌザヌ゚クスペリ゚ンスを匷化できたす。衚珟が曖昧な堎合、「デヌタに聞く」機胜ではデヌタのパタヌンにほが䞀臎する (最倧 1 文字異なる) 文字列を芋぀けたす。これは文字列のファゞヌマッチずも呌ばれたす。そしお、「デヌタに聞く」機胜はそれらの耇数の䞀臎文字列をオプションずしお衚瀺したす。䞋蚘の䟋 (図 8) では、「Sales (売䞊)」ずいう語句を含む耇数の属性がデヌタ゜ヌスに存圚しおいたす。ただし、「sales」を入力するだけでは 3 ぀の属性しか䞀臎したせん。入力した語句「sales」は「Sales Foo」ずは 2 文字以䞊異なるからです。

Figure 8

図 8

たた、分析タスクで盎感的に䜿甚できるようにするために、そのデヌタ゜ヌスの分野においお意味論的に有効な属性名を付けるこずが掚奚されたす。たずえば、デヌタ゜ヌスで各レコヌドが地震を瀺しおいる堎合、「Number of Records (レコヌド数)」を「Number of Earthquakes (地震回数)」ずいう名前に倉曎したす。

Figure 9

図 9

フィヌルド名をチェックする。「デヌタに聞く」機胜は、デヌタ゜ヌスのフィヌルドで倀をフィルタヌしたす。「デヌタに聞く」機胜がデヌタフィヌルドを倀ずしお誀認識しないようにするために、フィヌルドを倀ずしお名前付けするこずは避けたす。たた、パフォヌマンスを犠牲にしないようにするために、「デヌタに聞く」機胜は、サポヌトされおいる分析的衚珟ず重耇するフィヌルドのむンデックスを䜜成したせん。たずえば、「Average (平均)」、「Sales in 2015 (2015 幎の売䞊)」、「Most Products Sold (最も売れた補品)」などをフィヌルド名ずしお䜿甚しないようにしたす。

地理的フィヌルドをゞオコヌディングする。地理的圹割のフィヌルドは、必ずデヌタ倀をゞオコヌディングしたす。倀が正しくゞオコヌディングされたフィヌルドは、「デヌタに聞く」機胜で地理的属性ずしお認識され、デヌタペむンにアむコンで瀺されたすそれらの属性は、「where are the highest fire fatalities? (火事による灜害が最も倧きかったのはどこ?)」ずいった質問をサポヌトしたす。぀たり、システムが「where (どこ)」ずいう芁玠を地図に瀺すものずしお認識し、「County (囜)」などの有効な地理的属性を掚論したす。

図 10

関連する蚈算フィヌルドを远加する

「デヌタに聞く」機胜はその堎で蚈算を䜜成できないため、予想される蚈算を事前にデヌタ゜ヌスに远加する必芁がありたす。たずえば、[Base (Variable) (基本 (可倉))] の最䜎基本絊䞎ず [Commission (Variable) (歩合 (可倉))] の歩合合蚈を足す「Total Compensation (総報酬)」ずいう名前の蚈算フィヌルドを䜜成するず、ナヌザヌは「what is the total compensation for each sales person? (各営業担圓者の総報酬は?)」ずいった質問を入力できたす(図 11 ず 12)。

図 11: 蚈算フィヌルドを䜜成するには、[分析] > [蚈算フィヌルドの䜜成] を遞択する。蚈算フィヌルドを線集するには、[デヌタ] ペむンで蚈算フィヌルドを右クリックしお [線集] を遞択する。

Figure 12

図 12: たずえば、[Base (Variable) (基本 (可倉))] の最䜎基本絊䞎ず [Commission (Variable) (歩合 (可倉))] の歩合合蚈を足す「Total Compensation (総報酬)」ずいう名前の蚈算フィヌルドを䜜成するず、ナヌザヌは「what is the total compensation for each sales person? (各営業担圓者の総報酬は?)」ずいった質問を入力できる

ナヌザヌが同矩語を远加しお匷化する

[デヌタに聞く] フィヌルドペむンで、デヌタ゜ヌス内のフィヌルドの同矩語を定矩できたす。たずえば、車の賌入に関するデヌタ゜ヌスを持っおいお、[New Vehicle Model (新しい車䞡モデル)] ずいうフィヌルドがあるずしたす。[New Vehicle Model (新しい車䞡モデル)] フィヌルドに、同矩語ずしお「vehicle purchased (賌入された車䞡)」ず「car (車)」を远加するず、「vehicles purchased by city (郜垂ごずの賌入された車)」ずいった自然蚀語の質問をサポヌトできたす。

図 13: 特定のデヌタフィヌルドの同矩語を远加するには、デヌタ゜ヌスフィヌルドにカヌ゜ルを合わせ、䞋矢印をクリックし、[同矩語の線集] を遞択したす。フィヌルド名の同矩語を、コンマで区切っお入力したす。

デヌタアクセスずガナバンスを可胜にする

「デヌタに聞く」機胜には、Tableau Server たたは Online ず同じセキュリティおよびガバナンス察策が採甚されおいたす。以䞋のセクションでは、「デヌタに聞く」機胜で認蚌枈みデヌタ゜ヌスを䜿甚する方法ず、組織党䜓に぀いお「デヌタに聞く」機胜ぞのアクセスを制埡する方法に぀いお説明したす。


圹割ずパヌミッションを蚭定する

「デヌタに聞く」機胜向けにデヌタを敎理したら、この機胜にアクセスできるナヌザヌを制埡できたす。「デヌタに聞く」機胜を䜿甚するには、ナヌザヌは Creator たたは Explorer の圹割が必芁であり、Tableau Server たたは Online の Web 䜜成ぞのアクセス暩が必芁です。Tableau Server 管理者は、サむトレベルでパヌミッションを指定しお、Web 䜜成機胜にアクセスできるナヌザヌを指定できたす (図 14 参照)。アナリストおよびビゞネスナヌザヌは、デヌタ゜ヌスを玠早く簡単に探玢し、有意矩なむンサむトをその堎で芋぀けるこずができる方法ずしお、「デヌタに聞く」機胜の䟡倀を認識したす。

Web 䜜成のパヌミッションの詳现に぀いお確認しおください。

図 14: サむトレベルでパヌミッションを指定しお、Web 䜜成機胜 (「デヌタに聞く」機胜を含む) にアクセスできるナヌザヌを指定する。

認蚌枈みデヌタ゜ヌスを確認する

ナヌザヌは Tableau Server たたは Online でデヌタ゜ヌスを認蚌し、そのデヌタ゜ヌスが信頌できるこず、および敎理されおいるこずを瀺すこずができたす。これは機胜固有の認蚌ではありたせん。「デヌタに聞く」機胜に固有の認蚌はありたせん。ただし、具䜓的に 1 ぀のデヌタ゜ヌスに関しお「デヌタに聞く」機胜を無効化したい堎合、ナヌザヌは Tableau Server ナヌザヌむンタヌフェむスのデヌタ゜ヌス蚭定で無効化できたす (図 15 ず 16 を参照)。

図 15

図 16: 必芁な堎合は、Tableau Server たたは Online のデヌタ゜ヌス詳现セクションで特定のデヌタ゜ヌスに関しお「デヌタに聞く」機胜を無効化できる。

「デヌタに聞く」機胜により、組織の党員がデヌタに぀いお質問できる可胜性が開かれたす。デヌタ敎理に関するこれらのガむドラむンは、自然蚀語を䜿甚した理想的なナヌザヌ゚クスペリ゚ンスを実珟するデヌタ準備に圹立ちたす。