Whitepaper

Data voorbereiden voor interactie in natuurlijke taal in Data vragen

Data vragen, de nieuwe natuurlijke-taalcapaciteit van Tableau, is gemaakt om met al je gepubliceerde databronnen op Tableau Server of Online te werken. Maar om alle voordelen van Data vragen optimaal te benutten, moeten je databronnen worden geconditioneerd om een optimaal analytisch gesprek te ondersteunen.

Om je te helpen Data vragen te implementeren in je organisatie, hebben we deze gids samengesteld, waarin wordt uitgelegd hoe je databronnen conditioneert voor een succesvolle gebruikerservaring.

Menselijke uitingen begrijpen

Data vragen maakt gebruik van context om de attributen van het relevante datatype vast te stellen. De uiting wordt opgebroken in tokens (zinnen die tijdige, ruimtelijke of numerieke uitdrukkingen bevatten) om de intentie te begrijpen. Vervolgens worden visuele best practices gebruikt om vast te stellen welke visualisatie het meest geschikt is voor de intentie van de gebruiker.

Stel dat iemand vragen wil stellen aan een gepubliceerde databron met verkoopcijfers van het lopende jaar. Dan kan er een vraag getypt worden als 'what is the profit over time?' in het invoerveld van Data vragen. In dit geval ziet Data vragen de intentie van de gebruiker voor 'Profit' als een som, de standaard optelling. Het koppelt de intentie van 'time' aan het attribuut 'Order Date' in de databron, samengevoegd op jaarniveau (figuur 1).

Figuur 1: Visualisatie-output van de vraag 'what is the profit over time?'

Het inferentie-algoritme van Data vragen werkt het efficiëntst wanneer alle attributen van het verwachte datatype zijn. In dit voorbeeld zou het verwachte datatype Date (datum) zijn, waarmee de tijdreeks-visualisatie wordt geproduceerd (trend op termijn). Measures moeten worden gespecificeerd aan de hand van de verwachte standaardsamenvoeging en numerieke formattering.

Met de functie Data vragen kun je in het Engels in je gepubliceerde databronnen vragen stellen over berekende velden, kolomvelden, groepvelden en binvelden. Data vragen ondersteunt momenteel geen sets, parameters, gecombineerde velden, gecombineerde sets en hiërarchieën. Tableau werkt eraan om de ondersteuning voor deze velden in latere releases toe te voegen.


Ondersteunde analytische expressies in Data vragen

Er zijn vijf verschillende soorten analytische expressies. Een uiting bestaat uit een of meer van deze expressies.

De volgende analytische expressies worden ondersteund door Data vragen:

Samenvoegingsexpressies: de waarden van meerdere tuples worden samengevoegd om een enkele waarde te vormen, gebaseerd op een wiskundige functie. Bijvoorbeeld 'Sum of Sales', 'Average Profit' of 'Count of Customers'.

Groepsexpressies: expressies die de data in categorieën indelen die in datavisualisatie getoond worden, zoals 'by Region' of 'by Sales'.

Sorteerexpressies: expressies die datatuples op een bepaalde volgorde zetten, zoals oplopend, aflopend of op alfabet. Bijvoorbeeld 'sort Products in ascending order by sum of Profit', of 'sort Customer Name in alphabetical order'.

Filterexpressies: expressies die een subset van het velddomein teruggeven. Dat kunnen numerieke filters zijn, zoals 'sum of Sales at least $2,000', of categorische filters, zoals 'Customer Name starts with John' of 'Category contains Manufacturing'.

Beperkende expressies: expressies verwant aan filters die een subset van het velddomein teruggeven, maar die deze beperken tot aan een subset van tuples. Bijvoorbeeld 'top 5 Wineries by sum of Sales' of 'bottom Category by average Profit'.

Meer informatie over ondersteunde analytische functies.

Data vragen bevat een aantal ingebouwde synoniemen voor deze concepten, zoals 'from largest' voor aflopend en 'mean' voor gemiddelde. Het bevat ook een aantal afkortingen zoals 'cnt' voor count, 'avg' voor average etc. Ga verder om te leren hoe gebruikerssynoniemen kunnen worden toegevoegd aan Data vragen.

Daarnaast werkt Data vragen met tijdige expressies (expressies gerelateerd aan tijd), zowel absoluut als relatief. Data vragen ondersteunt absolute tijdconcepten met expressies zoals 'starts in', 'ends in' en 'between'. Het ondersteunt ook relatieve tijdconcepten zoals 'last 3 years', 'next quarter', 'this month', 'today' en 'yesterday'.

Databronnen voorbereiden voor optimale analytische communicatie

Data vragen is gemaakt om met alle op Tableau Server of Online gepubliceerde databronnen te werken. Om voor handige standaard filterexpressies te zorgen, verrijkt Data vragen het semantische model met metadata over de velden. Deze metadata bestaan onder andere uit numerieke informatie over de waarden in de measures, zoals 'minimum', 'maximum' en 'average'.

De metadata bevatten ook de meest voorkomende tekenreekswaarden. Als een gebruiker een filterexpressie in Data vragen typt, dan zorgen deze metadata ervoor dat het systeem een standaardwaarde kan gebruiken. In de figuur hieronder bijvoorbeeld, is '$4' opgegeven als minimumwaarde in de metadata voor het attribuut 'Price' en het filter 'at least'.

Figuur 2: '$4' is opgegeven als minimumwaarde in de metadata voor het attribuut 'Price' en het filter 'at least'.

Databronnen met machtigingen op tuple-niveau hebben geen minimumprestatie-eisen en kunnen in Data vragen worden gebruikt. Data vragen profileert en indexeert deze databronnen echter niet en slaat geen metadata op voor de velden in het semantische model. Doordat er geen metadata zijn, kan Data vragen standaard filterwaarden gebruiken (zoals weergegeven in Figuur 2), valutaconcepten herkennen zoals 'cheap' of 'expensive' en profieldata tonen in tooltips in het datavenster.

Als je al gecertificeerde databronnen voor je organisatie hebt gepubliceerd, kunnen teams deze bronnen in Data vragen gebruiken. Maar het maakt analyse in Data vragen gemakkelijker als je aanvullende bronnen voor je eindgebruikers openstelt of bestaande bronnen wijzigt. Beheer je data op basis van de volgende factoren om het maximale uit de Data vragen-functie te halen.



Houd de eindgebruiker in gedachten wanneer je je data beheert

Gebruikers van Data vragen kunnen veel gemakkelijker antwoorden vinden op hun vragen wanneer de data met zorg beheerd is door een datasteward of -analist die zowel begrijpt hoe data voorbereid moet worden voor analyse, als het soort vragen kan voorspellen die gebruikers in natuurlijke taal aan de data zullen stellen.

Meer lezen over best practices voor het beheren van een gepubliceerde databron.

Vereenvoudig je gepubliceerde databronnen zoveel mogelijk wanneer je data beheert voor Data vragen. Oftewel, behoud het minimaal aantal velden dat nodig is voor gebruikers om te communiceren met Data vragen en verwijder (of verberg) onnodige databronvelden. Data vragen ondersteunt databronnen met maximaal 1000 velden, maar hoe minder dubbelzinnigheid, hoe beter. Dat zorgt ervoor dat het systeem over het algemeen beter presteert dankzij snellere initialisatietijd en parsen van uitingen in natuurlijke taal. Gebruik een data-extract met databronfilters (indien nodig) om de prestaties te verbeteren als de databron langzaam is.

Neem de volgende factoren in overweging wanneer je databronnen beheert voor vraagstelling in Data vragen:

Je data voorbereiden. Probeer het soort vragen te voorspellen waar gebruikers het antwoord op proberen te vinden in de databron. Datashaping, join operations en gerelateerde datavoorbereidingsfuncties kunnen nodig zijn om de data in de juiste vorm te krijgen om alle voorspelde vragen te beantwoorden.

De juiste standaardwaarden voor velden instellen. Geef ieder veld het juiste datatype (bijv. tekenreeks, nummer, geografisch, datum, datum/tijd, Booleaanse waarde) en de juiste rol (bv. discreet versus continu, measure versus dimension). Aan elke measure standaard samenvoegingsfuncties toewijzen. SUM kan bijvoorbeeld een geschikte standaardwaarde zijn voor 'Sales', maar AVERAGE kan een betere keuze zijn voor 'Test Score'.

Getalnotatie voor percentages en bedragen instellen. Om veelvoorkomende, alledaagse concepten te ondersteunen die mensen gewoonlijk aan hun data vragen, bevat Data vragen concepten zoals 'low', 'high', 'lowest', 'highest', concepten gebaseerd op bedragen zoals 'cheap' en 'expensive' en de bijbehorende synoniemen. Stel measures in met de juiste valutanotatie in de databron (zoals weergegeven in figuur 3 en 4) om uitingen als 'show me the cheapest wineries in France' te ondersteunen.

Figuur 3: Measures instellen met de juiste valutanotatie in de databron.

Figuur 4: Voor de uiting 'cheapest wineries in France' vertaalt het systeem het concept 'cheapest' naar het valuta-attribuut 'Price'. Data vragen vertaalt de metadata van 'Price' naar een numerieke reeks. Door op ‘cheapest’ te klikken, worden de numerieke waarden verfijnd.

Logische hiërarchieën opzetten. Hierdoor kunnen gebruikers de gemaakte visualisaties verder verkennen met Data vragen. Dit geldt voor geografische dimensies (bijv. stad, provincie, land), data en tijd (bijv. jaar, kwartaal, maand) en functieafhankelijke dimensies (bijv. categorie en subcategorie).

Creëer nuttige binvelden (met geschikte bingroottes) voor kwantitatieve variabelen in de volgende scenario's:

  • Een binversie van een veld bekijken dat geen measure is in de databron.
    'Age' is bijvoorbeeld een numerieke dimensie die niet als histogram kan worden weergegeven in Tableau, en dus ook niet in Data vragen. Door een binveld in de databron te creëren voor Age, kan de gebruiker de binversie gebruiken om een vraag stellen (zoals weergegeven in figuur 5).

Figuur 5: Een gebruiker kan 'by Age (bin)' typen om een binversie van de dimensie te zien als staafdiagram.

  • Histogramreacties in Data vragen aanklikken met aangepaste bin-instellingen.
    Door binvelden van measures te maken met op maat gemaakte bingroottes, kan beter bepaald worden hoe deze velden in Data vragen worden getoond. In het voorbeeld hieronder (figuur 7) kan de gebruiker 'Fare as a histogram' typen en Data vragen zal dan de specifieke instellingen van het binveld 'Fare (bin)' gebruiken om een histogram te maken.

Figuur 6: Klik op de rechtermuisknop (Control-klikken op een Mac) in het datascherm en selecteer Create > Bins.

Figuur 7: Visualisatie-output van de uitdrukking 'Tarief als histogram' met gespecificeerde bingroottes.

Velden unieke, betekenisvolle namen geven

Om je databron begrijpelijker te maken voor eindgebruikers en de kansen te vergroten dat mensen met Data vragen de antwoorden vinden die ze nodig hebben, zou je de veldnamen in je databron moeten controleren.

Neem de volgende stappen voor een ideale gebruikerservaring:

Creëer betekenisvolle aliassen voor veldwaarden. In Tableau Desktop kun je gebruiksvriendelijke veldnamen creëren met aliassen (bijv. 'CustID' is 'Customer ID'). Dit is een standaard aanbeveling voor databeheer. Voor Data vragen kun je een stap verder gaan en synoniemen toevoegen. Mensen gebruiken bijvoorbeeld 'Customer Number' om intern aan 'Customer ID' te refereren. Als dat het geval is, kun je deze aanvullende synoniemen toevoegen aan Data vragen om de vragen van gebruikers beter te ondersteunen.

Onderscheid maken tussen je attributen. Door attributen in de databron unieke namen te geven, kan de gebuikerservaring in Data vragen verbeteren. Als er iets in de uiting staat dat op verschillende manieren kan worden geïnterpreteerd, vind Data vragen tekenreeksen die tot op één karakter overeenkomen met een patroon in je data, ook wel bekend als tekenreeksovereenstemming bij benadering. Data vragen toont deze verschillende overeenstemmingen vervolgens als opties. In het voorbeeld hieronder (figuur 8) staan meerdere attributen met het woord 'Sales' in de databron. Maar als je 'Sales' intypt, komt het overeen met maar drie attributen, omdat het verschil tussen het invoerwoord 'sales' en het attribuut 'Sales Foo' meer dan een teken is.

Figuur 8

Ook wordt aangeraden om attributen namen te geven die een semantische betekenis hebben voor het domein van de databron, zodat de vragen in Data vragen intuïtief zijn voor de analytische taak. De naam 'Number of Records' is bijvoorbeeld aangepast naar 'Number of Earthquakes', omdat ieder record in de databron een aardbeving is (figuur 9).

Figuur 9

Veldnamen controleren. Data vragen filtert velden op waarde in de databron. Geef velden niet dezelfde naam als een waarde, om te voorkomen dat Data vragen de datavelden ten onrechte als waarden interpreteert (bijv. nummers, datums, of Booleaanse waarden zoals 'true' of 'false'). Om prestatieredenen indexeert Data vragen dan ook geen velden die de ondersteunde analytische expressies overlappen. Voorkom bijvoorbeeld het gebruik van veldnamen zoals 'Average', 'Sales in 2015' of 'Most Products Sold'.

Geocode aanmaken voor geografische velden. Zorg ervoor dat er goede geocodes worden aangemaakt voor de datawaarden van velden met een geografische rol. Velden met goed aangemaakte geocodes voor de waarden worden in Data vragen herkend als geografische attributen en worden aangeduid met een icoon in het datavenster (figuur 10). Zulke attributen ondersteunen uitingen zoals 'where are the highest fire fatalities?', omdat het systeem het token 'where' herkent als aanduiding op een kaart en daar een geldig geografisch attribuut zoals 'County' aan toekent.

Figuur 10

Relevante berekende velden toevoegen

Data vragen kan niet uit zichzelf berekeningen maken, dus berekeningen moeten worden voorspeld en vooraf aan de databron toegevoegd. Door bijvoorbeeld een berekend veld te creëren dat 'Total compensation' heet en dat het minimumsalaris van 'Base (Variable)' optelt bij de totale commissie van 'Commission (Variable)', kunnen gebruikers vragen stellen zoals 'what is the total compensation for each sales person?' (figuur 11 en 12).

Figuur 11: Selecteer Analysis > Create Calculated Field om een berekend veld te maken. Klik met de rechtermuisknop op het berekende veld in het datavenster en selecteer Edit om een berekend veld te bewerken.

Figuur 12: Door een berekend veld te creëren dat 'Total compensation' heet en dat het minimumsalaris van 'Base (Variable)' optelt bij de totale commissie van 'Commission (Variable)', kunnen gebruikers vragen stellen zoals 'what is the total compensation for each sales person?'

Data verrijken met gebruikerssynoniemen

Je kunt synoniemen voor velden definiëren binnen een databron via het datavenster Data vragen. Stel dat je een databron hebt van auto-aankopen en dat een van de velden 'New Vehicle Model' is. Door 'Vehicle Purchased' en 'car' toe te voegen als synoniemen voor het veld 'New Vehicle Model', worden uitingen in natuurlijke taal zoals 'vehicles purchased by city' beter ondersteund (figuur 13).

Figuur 13: Beweeg de muis over een veld in de databron, klik op het pijltje naar beneden en kies Edit synonyms om synoniemen toe te voegen aan bepaalde datavelden. Voer synoniemen voor de veldnaam in (met een komma tussen elk woord).

Toegang tot en beheer van data mogelijk maken

Data vragen heeft dezelfde veiligheids- en beheerprocedures als Tableau Server en Online. In de volgende paragrafen vind je meer informatie over het gebruik van gecertificeerde databronnen voor Data vragen en het beheren van de toegang tot Data vragen binnen je organisatie.


Rollen en machtigingen instellen

Wanneer je je data hebt samengesteld voor Data vragen, kun je instellen wie toegang heeft tot de functie. Gebruikers moeten de rol Creator of Explorer hebben en gemachtigd zijn voor web authoring om Data vragen te kunnen gebruiken. Beheerders in Tableau Server kunnen machtigingen op siteniveau aangeven om te bepalen wie toegang heeft tot web-authoringcapaciteiten (zoals weergegeven in figuur 14). Data vragen heeft meerwaarde voor zowel analisten als zakelijke gebruikers, omdat het een snelle en eenvoudige manier is om een databron te verkennen en gaandeweg nuttige inzichten te verkrijgen.

Meer informatie over machtigingen voor web authoring.

Figuur 14: Specificeer machtigingen op siteniveau om te bepalen wie toegang heeft tot web-authoringcapaciteiten (waaronder Data vragen).

Gecertificeerde databronnen controleren

Gebruikers kunnen op Tableau Server en Online een databron certificeren om aan te geven dat deze betrouwbaar en beheerd is. Deze certificering is niet functie-specifiek: er is geen certificering specifiek voor Data vragen. Als een gebruiker een databron echter specifiek voor Data vragen wil uitschakelen, dan kan dat in de instellingen van de databron in de gebruikersinterface van Tableau Server (zoals weergegeven in figuur 15 en 16).

Figuur 15

Figuur 16: Indien nodig kan Data vragen voor bepaalde databronnen worden uitgeschakeld in het informatiegedeelte van de databron in Tableau Server of Online.

Data vragen stelt iedereen in je organisatie in de gelegenheid om vragen te stellen aan hun data. Deze richtlijnen voor databeheer helpen bij de voorbereiding van data voor een ideale gebruikerservaring met gebruik van natuurlijke taal.