Whitepaper

Vorbereiten von Daten für Interaktionen in natürlicher Sprache mit Ask Data

Ask Data, die Tableau-Funktion zur Verarbeitung natürlicher Sprache (NLP), wurde so gestaltet, dass sie mit allen auf Tableau Server oder in Tableau Online veröffentlichten Datenquellen funktioniert. Doch damit Sie alle Vorteile von Ask Data nutzen können, müssen Ihre Datenquellen mit Blick auf eine optimale analytische Konversation kuratiert werden.

Daher haben wir dieses Handbuch zusammengestellt, das Ihnen beim Bereitstellen von Ask Data in Ihrer Organisation sowie beim Kuratieren von Datenquellen für eine gute Benutzererfahrung helfen soll.

Verstehen der Fragen, die die Menschen beschäftigen

Ask Data ermittelt anhand von Kontextinformationen die Attribute des jeweiligen Datentyps und gliedert sprachliche Formulierungen in Token – Ausdrücke mit Zeit-, Orts- oder Zahlenangaben –, um die Benutzerabsicht dahinter zu erkennen. Anschließend bestimmt die Funktion mithilfe visueller Best Practices, welche Visualisierung dieser Absicht am ehesten entgegenkommt.

Angenommen, ein Benutzer möchte Fragen zu einer veröffentlichten Datenquelle stellen, die aktuelle Umsatzzahlen seit Jahresbeginn enthält. Dazu könnte er beispielsweise in englischer Sprache „What is the profit over time?“ (Wie hoch ist der Gewinn im Zeitverlauf?) in das Eingabefeld von Ask Data eingeben. In diesem Fall löst die Funktion die Benutzerabsicht auf, indem sie „profit“ (Gewinn) zu einer Summe addiert – dies ist die Standardaggregation. Außerdem ordnet sie das Wort „time“ (Zeit) dem Attribut „Order Date“ (Auftragsdatum) in der Datenquelle zu, aggregiert nach Jahreszeiträumen (Abbildung 1).

Abbildung 1: Visualisierung zur Frage „What is the profit over time?“ (Wie hoch ist der Gewinn im Zeitverlauf?)

Der Inferenzalgorithmus von Ask Data ist am effektivsten, wenn alle Attribute dem zu erwartenden Datentyp entsprechen. In diesem Fall wäre der zu erwartende Datentyp „Date“ (Datum), die Visualisierung würde folglich als Zeitreihe (Trend im Zeitverlauf) erfolgen. Kennzahlen sollten mit der zu erwartenden Standardaggregation und numerischen Formatierung angegeben werden.

Mit der Funktion Ask Data können Sie in englischer Sprache Fragen zu berechneten Feldern, Spaltenfeldern, Gruppenfeldern und Partitionsfeldern in veröffentlichten Datenquellen stellen. Ask Data unterstützt derzeit noch keine Sätze, Parameter, kombinierten Felder oder Hierarchien. Tableau arbeitet aber daran, dass in späteren Versionen auch diese Feldtypen unterstützt werden.


Unterstützte analytische Ausdrücke in Ask Data

Es gibt fünf verschiedene Arten analytischer Ausdrücke. Eine sprachliche Äußerung besteht aus mindestens einem solchen Ausdruck.

In Ask Data werden folgende analytische Ausdrücke unterstützt:

Aggregationsausdrücke: Die Werte mehrerer Zeilen werden so gruppiert, dass sie einen einzelnen Wert auf der Basis einer mathematischen Funktion bilden. Beispiele wären „Sum of Sales“ (Umsatzsumme), „Average Profit“ (Mittlerer Gewinn) oder „Count of Customers“ (Anzahl der Kunden).

Gruppenausdrücke: Hierbei handelt es sich um Ausdrücke, die Daten in Datenvisualisierungskategorien unterteilen, etwa „by Region“ (nach Region) oder „by Sales“ (nach Umsatz).

Sortierausdrücke: Dies sind Ausdrücke, die Datenzeilen in einer bestimmten Reihenfolge anordnen, etwa aufsteigend, absteigend oder alphabetisch. Beispiele hierfür wären „sort Products in ascending order by sum of Profit“ (Produkte in aufsteigender Reihenfolge nach Gewinnsumme sortieren) oder „sort Customer Name in alphabetical order“ (Kundennamen in alphabetischer Reihenfolge sortieren).

Filterausdrücke: Ausdrücke, die einen Teildatensatz der Domäne eines Feldes wiedergeben, heißen Filterausdrücke. Dies können numerische Filter wie „sum of Sales at least $2,000“ (Umsatzsumme mindestens 2.000 USD) oder kategorische Filter wie „Customer Name starts with John“ (Kundenname beginnt mit John) oder „Category contains Manufacturing“ (Kategorie enthält Fertigung) sein.

Limitausdrücke: Diese Ausdrücke ähneln Filterausdrücken. Auch sie geben einen Teildatensatz der Domäne eines Feldes wieder, begrenzen diesen aber auf eine Teilmenge an Zeilen. Beispiel: „top 5 Wineries by sum of Sales“ (die 5 besten Weingüter nach Umsatzsumme) oder „bottom Category by average Profit“ (unterste Kategorie nach mittlerem Gewinn).

Weitere Informationen über unterstützte analytische Funktionen finden Sie hier.

Ask Data bietet für diese Konzepte einige gängige Synonyme an, etwa „from largest“ (größter Wert zuerst) für die absteigende Reihenfolge und „mean“ (Durchschnitt) für den Mittelwert. Auch einige Abkürzungen wie „cnt“ für „count“ (Anzahl), „avg“ für „average“ (Mittelwert) usw. sind enthalten. Weiter unten erfahren Sie, wie Sie in Ask Data benutzerspezifische Synonyme hinzufügen können.

Darüber hinaus erkennt Ask Data Ausdrücke mit Zeitbezug entweder als absolut oder als relativ. Unterstützt werden absolute Zeitbezüge mit Ausdrücken wie beispielsweise „starts in“ (beginnt), „ends in“ (endet) und „between“ (zwischen). Daneben werden auch relative Zeitbezüge unterstützt; dazu dienen Ausdrücke wie „last 3 years“ (letzte 3 Jahre), „next quarter“ (nächstes Quartal), „this month“ (diesen Monat), „today“ (heute) und „yesterday“ (gestern).

Aufbereiten von Datenquellen für eine optimale analytische Konversation

Ask Data ist auf Kompatibilität mit allen Datenquellen ausgelegt, die auf Tableau Server oder in Tableau Online veröffentlicht werden. Damit leicht handhabbare Standardwerte für Filterausdrücke zur Verfügung stehen, reichert Ask Data das semantische Modell mit Metadaten zu den Feldern an. Für kontinuierliche nummerische Messungen beinhalten diese Metadaten statistische Informationen, wie „Minimum“, „Maximum“ und „Average“ (Durchschnitt). Für Textfelder beinhalten die Metadaten die am häufigsten vorkommenden Werte.

Gibt ein Benutzer in Ask Data einen Filterausdruck ein, ermöglichen diese Metadaten dem System die Bereitstellung von Wertvorschlägen. In der Abbildung unten wird zum Beispiel in den Metadaten „$4“ als minimaler Wert für das Attribut „Price“ (Preis) und den Filter „at least“ (mindestens) angegeben.

Abbildung 2: In den Metadaten wird „$4“ als minimaler Wert für das Attribut „Price“ (Preis) und den Filter „at least“ (mindestens) angegeben.

Für Datenquellen mit einer Sicherheit auf Zeilenebene legt Ask Data kein Profil der Metadaten für die Felder im Semantikmodell an und indiziert oder speichert diese auch nicht. Ohne Metadaten kann die Funktion keine Filter-Standardwerte bereitstellen (siehe Abbildung 2), keine vergleichenden Konzepte wie „cheap“ (billig) oder „high“ (hoch) erkennen und keine Profildaten in QuickInfos im Datenbereich anzeigen.

Wir verstehen jedoch, dass für einige Datenquellen Anforderungen für die Sicherheit auf Zeilenebene existieren. Unter diesen Umständen kann Ask Data Ihre Datenquellen nicht indizieren, Sie können jedoch weiterhin von den Vorteilen von Ask Data profitieren, indem Sie die genauen Werte angeben, nach denen Sie filtern möchten, und indem Sie diese Werte dann in Anführungszeichen setzen.

Angenommen, Sie möchten beispielsweise „Weingüter mit Pinot Noir in Kalifornien“ angezeigt bekommen. Wenn die Datenquelle über eine Sicherheit auf Zeilenebene verfügte, müssten Sie Ihre Anfrage folgendermaßen eingeben:

Weingüter Filter Bundesstaat „Kalifornien“ Filter Sorte „Pinot Noir“

Datumsangaben, Bool‘sche Werte oder Zahlen müssen nicht in Anführungszeichen gesetzt werden, da Ask Data diese Art von Werten automatisch interpretieren und mit den entsprechenden Feldern abgleichen kann.

Wenn Sie für Ihre Organisation bereits zertifizierte Datenquellen veröffentlichen, können Teams diese Quellen in Ask Data nutzen. Allerdings ist es dann möglicherweise sinnvoll, zusätzliche Quellen für Endbenutzer bereitzustellen oder schon vorhandene Quellen für die leichtere Analyse mit Ask Data umzuformatieren. Damit Sie Ask Data optimal nutzen können, empfiehlt es sich, Daten zu kuratieren und dabei die unten stehenden Gesichtspunkte im Hinterkopf zu behalten.



Kuratieren von Daten unter Berücksichtigung des Endbenutzers

Benutzer von Ask Data können viel leichter Antworten auf ihre Fragen finden, wenn die Daten sorgfältig von einem Dateneigentümer oder Analysten kuratiert werden, der weiß, wie man Daten für Analysezwecke vorbereitet und welche Fragen Benutzer voraussichtlich zu ihren Daten in natürlicher Sprache stellen werden.

Weitere Informationen über Best Practices für das Kuratieren veröffentlichter Datenquellen finden Sie hier.

Der erste Schritt beim Kuratieren für Ask Data besteht darin, die veröffentlichten Datenquellen so weit wie möglich zu vereinfachen. Mit anderen Worten: Begrenzen Sie die Anzahl der Felder, zu denen Benutzer in Ask Data Fragen stellen, auf ein Minimum und entfernen (oder verbergen) Sie nicht benötigte Felder aus der Datenquelle. Ask Data unterstützt Datenquellen mit bis zu 1.000 Feldern, doch je eindeutiger eine Datenquelle ist, desto besser. Dies kommt der allgemeinen Systemleistung zugute und ermöglicht eine kürze Initialisierungszeit und ein schnelleres Parsen der Formulierungen in natürlicher Sprache. Falls die Datenquelle langsam ist, empfiehlt sich die Verwendung eines Datenextrakts mit Datenquellenfiltern (falls erforderlich), um die Leistung zu verbessern.

Bedenken Sie beim Kuratieren von Datenquellen für Abfragen mit Ask Data folgende Aspekte:

Bereiten Sie die Daten vor. Überlegen Sie sich dabei, welche Arten von Fragen Endbenutzer voraussichtlich zur Datenquelle stellen werden. Damit die Daten auch wirklich für die Bearbeitung der zu erwartenden Fragen geeignet sind, müssen möglicherweise Daten formatiert, Verknüpfungen angelegt und ähnliche Aufgaben erledigt werden.

Richten Sie geeignete Standardwerte für Felder ein. Ordnen Sie jedem Feld den korrekten Datentyp (z. B. Zeichenfolge, Zahl, geografisch, Datum, Datum/Uhrzeit, Boolescher Wert) und eine passende Datenfeldrolle (z. B. diskret oder kontinuierlich, Kennzahl oder Dimension) zu. Weisen Sie jeder Kennzahl Standardaggregationsfunktionen zu. Beispielsweise mag SUM (Summe) zwar ein geeigneter Standardwert für „Sales“ (Umsatz) sein, aber für „Test Score“ (Testergebnis) ist AVERAGE (Mittelwert) unter Umständen besser geeignet.

Richten Sie Zahlenformate für Prozentwerte und Währungsangaben ein. Zur Unterstützung umgangssprachlich gängiger Konzepte, mit denen viele Benutzer ihre Daten abfragen, umfasst Ask Data Ausdrücke wie „low“ (niedrig), „high“ (hoch), „lowest“ (niedrigste), „highest“ (höchste) und währungsbasierte Konzepte wie „cheap“ (billig) und „expensive“ (teuer) mit den entsprechenden Synonymen. Damit auch Abfragen wie „show me the cheapest wineries in France“ (die billigsten Weingüter in Frankreich anzeigen) leicht möglich sind, sollten Sie Kennzahlen in der Datenquelle mit dem richtigen Währungsformat einrichten (siehe Abbildungen 3 und 4).

Abbildung 3: Richten Sie Kennzahlen in der Datenquelle mit dem richtigen Währungsformat ein.

Abbildung 4: Für die Abfrage „cheapest wineries in France“ (die billigsten Weingüter in Frankreich) schlussfolgert das System auf ein Währungsattribut „Price“ (Preis) für das Konzept „cheapest“ (billigste). Aus den Metadaten schließt Ask Data auf eine numerische Spanne für „Price“. Durch Klicken auf „cheapest“ können die gefolgerten numerischen Werte genauer definiert werden.

Richten Sie logische Hierarchien ein. Dadurch können Benutzer in den mit Ask Data erstellten Visualisierungen den Detailgrad erhöhen oder reduzieren. Dies gilt für geografische Dimensionen (z. B. Stadt, Bundesland/Kanton, Land), Daten und Uhrzeiten (z. B. Jahr, Quartal, Monat) sowie funktional abhängige Dimensionen (z. B. Kategorie und Unterkategorie).

Erstellen Sie aussagekräftige, zusammengefasste Felder mit geeigneter Partitionsgröße für quantitative Variablen in den folgenden Szenarien:

  • Ansicht einer zusammengefassten Version eines Feldes in der Datenquelle, bei dem es sich nicht um eine Kennzahl handelt.
    „Age“ (Alter) zum Beispiel ist eine numerische Dimension, die sich in Tableau und damit auch in Ask Data nicht als Histogramm darstellen lässt. Allerdings ist es möglich, in der Datenquelle ein in einer Partition zusammengefasstes Feld für „Age“ zu erstellen, sodass Benutzer mithilfe der zusammengefassten Version Fragen stellen können (siehe Abbildung 5).

Abbildung 5: Ein Benutzer kann „by Age (bin)“ (nach Alter [Partition]) eingeben, um sich eine in einer Partition zusammengefasste Variante der Dimension als Balkendiagramm anzeigen zu lassen.

  • Abruf von Histogrammantworten in Ask Data mit benutzerdefinierten Partitionseinstellungen.
    Durch die Erstellung zusammengefasster Felder mit Kennzahlen und benutzerdefinierten Partitionsgrößen lässt sich leichter steuern, wie diese Felder in Ask Data dargestellt werden. Im unten stehenden Beispiel (Abbildung 7) kann der Benutzer „Fare as a histogram“ (Fahrtkosten als Histogramm) eingeben, woraufhin Ask Data anhand der benutzerdefinierten Einstellungen aus dem zusammengefassten Feld „Fare (bin)“ (Fahrtkosten [Partition]) ein Histogramm erstellt.

Abbildung 6: Klicken Sie im Datenbereich mit der rechten Maustaste (Mac: bei gedrückter Control-Taste) und wählen Sie „Erstellen > Partitionen“ aus.

Abbildung 7: Visualisierung des Ausdrucks „Fare as a histogram“ (Fahrtkosten als Histogramm) mit benutzerdefinierten Partitionsgrößen.

Vergeben einmaliger, aussagekräftiger Feldnamen

Damit Ihre Datenquelle für Endbenutzer leichter nachvollziehbar ist – und Ask Data mit größerer Wahrscheinlichkeit die richtigen Antworten liefert –, sollten Sie die Feldnamen in der Datenquelle prüfen.

Mit Blick auf eine ideale Benutzererfahrung ist Folgendes zu berücksichtigen:

Erstellen Sie aussagekräftige Aliasse für Feldwerte. In Tableau Desktop können Sie benutzerfreundliche Feldnamen mit Aliassen (z. B. „CustID“ für „Customer ID“ bzw. „Kunden-ID“) erstellen. Dies empfiehlt sich generell, wenn Sie Ihre Daten kuratieren. In Ask Data können Sie noch einen Schritt weitergehen, indem Sie Synonyme hinzufügen. Zum Beispiel verwenden manche Benutzer intern vielleicht auch „Customer Number“ (Kundennummer) anstelle von „Customer ID“. In solchen Fällen haben Sie die Möglichkeit, in Ask Data diese zusätzlichen Synonyme hinzuzufügen, damit Benutzer entsprechende Fragen stellen können.

Geben Sie Attributen eindeutige Namen. Die Benutzererfahrung in Ask Data lässt sich verbessern, wenn Sie Attributen in der Datenquelle eindeutige Namen geben. Bei mehrdeutigen Ausdrücken findet Ask Data Zeichenfolgen, die bis auf maximal ein abweichendes Zeichen mit einem Muster in Ihren Daten übereinstimmen; solche annähernden Übereinstimmungen werden als „Fuzzy Matches“ bezeichnet. Ask Data zeigt diese Fuzzy Matches dann als Optionen an. Im Beispiel unten (Abbildung 8) gibt es in der Datenquelle mehrere Attribute, die das Wort „Sales“ (Umsatz) enthalten. Gibt ein Benutzer jedoch nur „sales“ ein, dann stimmen lediglich drei Attribute überein, da sich die Eingabe „sales“ und das Attribut „Sales Foo“ um mehr als ein Zeichen unterscheiden.

Abbildung 8

Es empfiehlt sich auch, Attributen solche Namen zu geben, die einen semantischen Zusammenhang zur Domäne der Datenquelle herstellen, sodass die in Ask Data gestellten Fragen für die Analyseaufgabe intuitiv nachvollziehbar sind. So wäre es etwa sinnvoll, „Number of Records“ (Anzahl der Einträge) in „Number of Earthquakes“ (Anzahl der Erdbeben) umzubenennen, sofern jeder Eintrag in der Datenquelle einem Erdbeben entspricht (Abbildung 9).

Abbildung 9

Überprüfen Sie Feldnamen. Ask Data filtert Werte anhand der Felder in der Datenquelle. Daher sollten Sie es vermeiden, Feldern denselben Namen zu geben wie Werten, da Ask Data sonst Datenfelder als Werte (z. B. Zahlen, Werte oder Boolesche Werte wie „wahr“ oder „falsch“) fehlinterpretieren könnte. Aus Leistungsgründen indexiert Ask Data zudem keine Felder, die mit den unterstützten analytischen Ausdrücken überlappen. Folglich sind beispielsweise Feldnamen wie „Average“ (Mittelwert), „Sales in 2015“ (Umsatz 2015) oder „Most Products Sold“ (Meistverkaufte Produkte) zu vermeiden.

Geokodieren Sie geografische Felder. Bei Feldern mit geografischen Rollen kommt es darauf an, dass die Datenwerte korrekt geokodiert sind. Ist dies der Fall, werden die entsprechenden Felder als geografische Attribute in Ask Data erkannt, abzulesen an einem Symbol im Datenbereich (siehe Abbildung 10). Solche Attribute unterstützen Formulierungen wie „where are the highest fire fatalities?“ (Wo gibt es die meisten Todesfälle durch Brände?), da das System das Token „where“ (wo) als Verweis auf eine Karte erkennt. So kann es auf ein gültiges geografisches Attribut wie „County“ (Bezirk) schließen.

Abbildung 10

Hinzufügen relevanter berechneter Felder

Da Ask Data keine Ad-hoc-Berechnungen erstellen kann, müssen Sie der Datenquelle voraussichtliche Berechnungen vorab hinzufügen. Beispiel: Wenn Sie ein berechnetes Feld mit der Bezeichnung „Total Compensation“ (Gesamtvergütung) erstellen, das das Grundgehalt aus „Base (Variable)“ (Grundgehalt [Variable]) mit der Gesamtprovision aus „Commission (Variable)“ (Provision [Variable]) addiert, können Benutzer Fragen wie „What is the total compensation for each sales person?“ (Wie hoch ist die Gesamtvergütung der einzelnen Vertriebsmitarbeiter?) eingeben (Abbildungen 11 und 12).

Abbildung 11: Um ein neues berechnetes Feld zu erstellen, klicken Sie auf „Analyse > Berechnetes Feld erstellen“. Wenn Sie ein bereits vorhandenes berechnetes Feld bearbeiten möchten, klicken Sie im Datenbereich mit der rechten Maustaste auf das berechnete Feld und wählen Sie „Bearbeiten“ aus.

Abbildung 12: Wenn Sie ein berechnetes Feld mit der Bezeichnung „Total Compensation“ (Gesamtvergütung) erstellen, das das Grundgehalt aus „Base (Variable)“ (Grundgehalt [Variable]) mit der Gesamtprovision aus „Commission (Variable)“ (Provision [Variable]) addiert, können Benutzer Fragen wie „what is the total compensation for each sales person?“ (Wie hoch ist die Gesamtvergütung der einzelnen Vertriebsmitarbeiter?) eingeben.

Anreichern von Daten mit benutzerspezifischen Synonymen

Im Feldbereich von Ask Data können Sie für Felder einer Datenquelle Synonyme festlegen. Nehmen wir an, Sie haben eine Datenquelle zu Autokäufen mit einem Feld, das „New Vehicle Model“ (Neues Fahrzeugmodell) heißt. Wenn Sie nun als Synonyme für dieses Feld „vehicle purchased“ (gekauftes Fahrzeug) und „car“ (Auto) hinzufügen, sind Abfragen in natürlicher Sprache wie „vehicles purchased by city“ (gekaufte Fahrzeuge nach Stadt) möglich (Abbildung 13).

Abbildung 13: Um Synonyme für bestimmte Datenfelder hinzuzufügen, zeigen Sie mit der Maus auf ein Feld in der Datenquelle, klicken Sie auf den Abwärtspfeil und wählen Sie „Synonyme bearbeiten“ aus. Geben Sie dann durch Kommas getrennt die gewünschten Synonyme für den Feldnamen ein.

Sicherstellen von Datenzugriff und Datensicherheit

Ask Data umfasst die gleichen Sicherheits- und Governance-Funktionen, die Sie bereits aus Tableau Server und Tableau Online kennen. Die folgenden Abschnitte enthalten weitere Informationen dazu, wie Sie in Ask Data zertifizierte Datenquellen verwenden und den Zugriff auf Ask Data in Ihrer gesamten Organisation kontrollieren können.


Festlegen von Benutzerrollen und Berechtigungen

Sobald Ihre Daten für Ask Data kuratiert sind, haben Sie die Kontrolle darüber, wer auf die Funktion zugreifen kann. Um Ask Data nutzen zu können, benötigen Benutzer eine Creator- oder Explorer-Rolle und Zugriff auf die Webdokumenterstellung auf Tableau Server oder in Tableau Online. Tableau Server-Administratoren können Berechtigungen auf Site-Ebene festlegen und so bestimmen, wer Zugriff auf Funktionen der Webdokumenterstellung hat (siehe Abbildung 14). Für Analysten und Geschäftsanwender ist Ask Data ein schnelles, einfaches und nützliches Hilfsmittel, um im Handumdrehen eine Datenquelle zu untersuchen und aussagekräftige Erkenntnisse zu gewinnen.

Weitere Informationen zu Berechtigungen für die Webdokumenterstellung finden Sie hier.

Abbildung 14: Legen Sie Berechtigungen auf Site-Ebene fest, um zu kontrollieren, wer auf Funktionen der Webdokumenterstellung (einschließlich Ask Data) zugreifen kann.

Überprüfen zertifizierter Datenquellen

Benutzer können auf Tableau Server oder in Tableau Online eine Datenquelle zertifizieren und damit signalisieren, dass die Datenquelle vertrauenswürdig und kuratiert ist. Diese Zertifizierung ist keine spezielle Funktion von Ask Data, sondern gilt auch für andere Funktionen. Möchte jedoch ein Benutzer ganz gezielt Ask Data für eine bestimmte Datenquelle deaktivieren, so kann er dies in den Einstellungen für die Datenquelle in der Tableau Server-Benutzeroberfläche tun (siehe Abbildungen 15 und 16).

Abbildung 15

Abbildung 16: Falls gewünscht, können Sie Ask Data für bestimmte Datenquellen in der Ansicht „Datenquellendetails“ von Tableau Server oder Tableau Online deaktivieren.

Ask Data gibt jedem Mitarbeiter Ihrer Organisation die Möglichkeit, Fragen zu Daten zu stellen. Dieser Leitfaden zur Kuratierung soll Ihnen dabei helfen, Ihre Daten so vorzubereiten, dass Benutzer die natürliche Sprachverarbeitung (NLP) optimal nutzen können.