Whitepaper

Förbereda data för interaktion med vanligt språk i Ask Data

Ask Data, Tableaus tolkning av vanligt språk är gjort för att fungera med alla dina publicerade datakällor på Tableau Server eller Tableau Cloud. Men för att utnyttja alla fördelar med Ask Data behöver dina datakällor vara kuraterade så att de stödjer en optimalt analytisk konversation. Som hjälp för att driftsätta Ask Data i din organisation har vi tagit fram denna vägledning för hur man kurerar datakällor för en lyckad användarupplevelse.

Förstå människors frågor

Ask Data använder kontext för att fastställa attributen för relevant datatyp och bryter upp uttalanden i tokens – fraser med tidsmässiga, rumsliga eller numerära uttryck – för att förstå avsikten. Sedan används visuellt bästa praxis för att fastställa mest lämpliga visualiseringar som uppfyller användarens avsikt.

Låt oss anta att någon vill fråga om en publicerad datakälla som innehåller försäljning på rullande helår. Denna kan skriva in en fråga som ”what is the profit over time?” (vad är vinsten över tid?) i inmatningsrutan för Ask Data. I detta fallet löser Ask Data användarens avsikt genom att sammanställa ”Profit” (vinst) som en summa – standardsammanställningen. Den löser även avsikten med ”time” (tid) till attributet ”Order Date” (orderdatum) i datakällan, sammanställt på årsnivå (figur 1).

Figure 1  Visualization output from the expression “what is the profit over time?”

Figur 1: Visualiseringsresultat för uttrycket ”what is the profit over time?” (vad är vinsten över tid?)

Slutledningsalgoritmen i Ask Data är mest effektiv när samtliga attribut är av förväntad datatyp. I detta exempel blir den förväntade datatypen Date (datum) vilket genererar en tidserievisualisering (trend över tid). Värden anges med förväntad standardsammanställning och numerisk formatering.

Med funktionen Ask Data kan du ställa frågor på engelska om beräknade fält, kolumnfält, gruppfält och bin-fält i dina publicerade datakällor. Ask Data har för närvarande inte stöd för uppsättningar, parametrar, kombinerade fält, kombinerade uppsättningar eller hierarkier. Tableau arbetar med att lägga till stöd för dessa fälttyper i kommande versioner.


Analytiska uttryck som stöds i Ask Data

Det finns fem grundtyper av analytiska uttryck. Ett yttrande består av ett eller fler av dessa uttryck.

Ask Data har stöd för följande analytiska uttryck:

Summeringsuttryck: Värden i flera rader grupperas samman för att ge ett enda värde baserat på en matematisk funktion. Exempelvis ”Sum of Sales” (försäljningssumma, ”Average Profit” (genomsnittsvinst) eller ”Count of Customers” (antal kunder).

Grupputtryck: Uttryck som delar data i kategorier att visa i datavisualisering, som ”by Region” (per region) eller ”by Sales” (efter försäljning).

Sorteringsuttryck: Uttryck som ordnar data i följd, som stigande, fallande eller alfabetisk. Exempelvis ”sort Products in ascending order by sum of Profit” (sortera produkter i stigande ordning efter vinstsumma) eller ”sort Customer Name in alphabetical order” (sortera kundnamn i alfabetisk ordning).

Filteruttryck: Uttryck som returnerar en underuppsättning av fältets domän. Det kan vara numeriska filter som ”sum of Sales at least $2,000” (summa försäljningar från 2 000 USD) eller kategorifilter som ”Customer Name starts with John” (kundnamn som börjar med John) eller ”Category contains Manufacturing” (kategori innehållande tillverkning).

Begränsningsuttryck: Uttryck liknande filter som returnerar en underuppsättning av fältets domän begränsad till en underuppsättning rader. Exempelvis ”top 5 Wineries by sum of Sales” (bästa fem vingårdar efter total försäljning) eller ”bottom Category by average Profit” (sämsta kategori efter genomsnittsvinst).

Läs mer om analysfunktioner som stöds..

Ask Data tillhandahåller vissa vanliga inbyggda synonymer för dessa koncept som ”from largest” (från största) för fallande ordning och ”mean” (medel) för genomsnitt. Den använder även förkortningar som ”cnt” för antal, ”avg” för genomsnitt och liknande. Hoppa framåt för att se hur du lägger till användarsynonymer till Ask Data.

Dessutom visar Ask Data tidsmässiga uttryck – uttryck relaterade till tid – som antingen absoluta eller relativa. Ask Data har stöd för absolut tid, med uttryck som ”starts in” (börjar), ”ends in” (slutar) och ”between” (mellan). Den har även stöd för relativa tidskoncept som uttryck av typen ”last 3 years” (senaste tre år), ”next quarter” (nästa kvartal), ”this month” (denna månad), ”today” (idag) och ”yesterday” (igår).

Förbereda datakällor för en optimal analytisk konversation

Ask Data är utformat för att fungera med alla publicerade datakällor på Tableau Server eller Tableau Online. För att tillhandahålla användbara standarder för filteruttryck fyller Ask Data den semantiska modellen med metadata om fälten. För fortlöpande numeriska värden inkluderar denna metadata statistisk information som ”minimum” (minsta) ”maximum” (högsta) och ”average” (genomsnitt). Metadata för fält innehåller de vanligaste återkommande värdena.

När användaren skriver in ett filteruttryck i Ask Data gör denna metadata att systemet kan ge förslag på värden. Exempelvis i figuren nedan anges ”$4” (4 USD) som lägsta värde i metadata för attributet ”Price” (pris) och filtret ”at least” (minst).

A user types a filter expression in Ask Data, this metadata allows the system to provide defaults for values.

Figur 2: ”$4” (4 USD) anges som lägsta värde i metadata för attributet ”Price” (pris) och filtret ”at least” (minst).

För datakällor med säkerhet på radnivå profilerar, indexerar eller lagrar inte Ask Data metadata för fälten i den semantiska modellen. Om metadata saknas kan inte Ask Data tillhandahålla filterstandarder (enligt figur 2), känna igen jämförbara koncept som ”cheap” (billig) eller ”high” (hög) eller visa profildata i verktygstips i datafönstret.

Men vi förstår att säkerhetskrav på radnivå finns för vissa datakällor. Vid sådana förutsättningar kan inte Ask Data indexera dina datakällor men du kan fortfarande dra fördel av Ask Data genom att ange exakta värden du vill filtrera på och sätta sådana värden inom citattecken.

Låt oss exempelvis anta att du vill visa ”wineries in california that have pinot noir” (vingårdar i Kalifornien som har pinot noir). Om datakällan har säkerhet på radnivå ska du ställa din fråga som:

Vingårdar filtrerade på State (stat) som ”California” (Kalifornien) och Variant (variant) som ”Pinot Noir” (Pinot Noir).

Du behöver inte använda citattecken för datum, booleaner eller siffror eftersom Ask Data automatiskt kan tolka värden av dessa typer och matcha dem med lämpliga fält.

Om du redan publicerar vissa certifierade datakällor för din organisation kan teamen använda dessa källor i Ask Data. Men du kanske vill öppna upp ytterligare källor för dina slutanvändare eller omforma befintliga källor för enklare analys i Ask Data. För att få ut mesta möjliga av funktionen Ask Data ska du kuratera dina data med följande faktorer i åtanke.



Kuratera dina data med tanke på slutanvändaren

Användare av Ask Data lyckas betydligt bättre med att få svar på frågor om data har kuraterats nogsamt av en datasteward eller analytiker, vilka både vet hur de ska förbereda data för analys och kan förutsäga vilken typ av frågor som användarna kommer att ställa data på vanligt språk.

Läs mer om bästa praxis för att kuratera en publicerad datakälla.

När du kuraterar data för Ask Data börjar du med att förenkla dina publicerade datakällor så långt som är möjligt. Det innebär att ha ett minimalt antal fält som användare ställer frågor till under interaktionen med Ask Data och att ta bort (eller dölja) onödiga fält som finns i datakällan. Ask Data har stöd för datakällor med upp till 1 000 fält men ju färre tvetydigheter, desto bättre. Det hjälper till för det övergripande systemets prestanda med kortare initieringstider och tolkning av uttryck på vanligt språk. Om datakällan är långsam kan du använda datautdrag med datakällfilter (vid behov) för bättre prestanda.

Överväg följande faktorer när du kuraterar datakällor för att fråga i Ask Data:

Förbered dina data. Försök att förutse vilka typer av frågor användarna vill ha svar på från datakällan. Det kan behövas dataformning, sammanslagningar och relaterade funktioner för dataförberedelse för att ge data en lämplig form för att svara på de frågor som förväntas.

Ställ in lämpliga standardvärden för fälten. Se till att alla fält har korrekt datatyp (som sträng, numerär, geografisk, datum, datumtid, booleansk) och datafältroll (som separat eller fortlöpande, värde eller dimension). Varje värde ska tilldelas standardfunktioner för sammanslagning. Exempelvis kan SUM vara lämplig standard för ”Sales” (försäljning), medan AVERAGE kanske är en bättre standard för ”Test Score” (testresultat).

Ställ in procent- och valutaformat. Som stöd för vanliga vardagskoncept som människor har en tendens att fråga sina data om inkluderar Ask Data koncept som ”low” (låg), ”high” (hög), ”lowest” (lägsta), ”highest” (högsta) och valutabaserade koncept som ”cheap” (billig) och ”expensive” (dyr) samt deras motsvarande synonymer. För att underlätta vid uttryck som ”show me the cheapest wineries in France” (visa mig de billigaste vingårdarna i Frankrike) ställer du in värden i datakällan med lämpligt valutaformat (enligt figur 3 och 4).

Figure 3   Set up measures in the data source with the appropriate currency format.

Figur 3: Ställ in värden i datakällan med lämpligt valutaformat.

Figure 4   For the utterance “cheapest wineries in France,” the system infers a currency attribute ‘Price’ for the concept ‘cheapest’.  Ask Data infers a numeric range from the metadata for ‘Price’. Clicking on ‘cheapest’ refines the inferred numerical values.

Figur 4: För uttrycket ”cheapest wineries in France” (billigaste vingårdarna i Frankrike) antar systemet ett valutaattribut ”Price” (pris) för konceptet ”cheapest” (billigast.’ Ask Data antar ett numeriskt intervall från metadata för ”Price” (pris). Att klicka på ”cheapest” (billigast) förfinar de antagna numeriska värdena.

Ställa in logiska hierarkier. Med detta kan användare gå både uppåt och neråt i visualiseringar som gjorts med Ask Data. Detta gäller geografiska dimensioner (som stad, stat, land), datum och tid (som år, kvartal, månad) och funktionellt beroende dimensioner (som kategori och underkategori).

Skapa meningsfulla grupperade fält (med lämpliga gruppstorlekar) för kvantitativa variabler i följande scenarier:

  • Visa en grupperad version av ett fält som inte är ett värde i datakällan.
    Exempelvis är ”Age” (ålder) en numerisk dimension som inte kan representeras som ett histogram i Tableau och därmed inte i Ask Data. Men genom att skapa ett grupperat fält för ålder i datakällan kan användaren ställa en fråga med den grupperade versionen (enligt figur 5).
Figure 5 A user can type “by Age (bin)” to view a binned form of the dimension as a bar chart.

Figur 5: En användare kan skriva ”by Age (bin)” (efter ålder (grupp)) för att visa en grupperad form av dimensionen som ett stapeldiagram.

  • Få fram histogramsvar i Ask Data med anpassade gruppinställningar.
    Att skapa grupperade fält med värden som har anpassade gruppstorlekar ger bättre kontroll över hur dessa fält visas i Ask Data. I exemplet nedan (Figur 7) kan användaren skriva ”Fare as a histogram” (biljettpris som histogram) varpå Ask Data använder de anpassade gruppinställningarna från grupperade fältet ”Fare (bin)” (pris (grupp)) för att generera ett histogram.
Figure 6

Figur 6: Högerklicka (ctrl-klicka på Mac) i datafönstret och välj Create (skapa) > Bins (grupper).

Figure 7 Visualization output of the expression, “Fare as a histogram” with custom bin sizes.

Figur 7: Visualiseringsresultat av uttrycket ”Fare as a histogram” (pris som histogram) med anpassade gruppstorlekar.

Ge fälten unika och meningsfulla namn

För att göra datakällan enklare att förstå för slutanvändare – och öka möjligheterna att människor får de svar de söker från Ask Data – kan du redigera fältnamnen i datakällan.

Vidta följande åtgärder för en idealisk användarupplevelse:

Skapa meningsfulla alias för fältvärden. I Tableau Desktop kan du skapa användarvänliga fältnamn med alias (som ”CustID” är ”Customer ID” (kund-id)). Detta rekommenderas som standard för datakuratering. För Ask Data kan du ta detta ett steg längre genom att lägga till synonymer. Exempelvis kan människor även använda ”Customer Number” (kundnummer) för ”Customer ID” (kund-id). I dessa fall kan du lägga till dessa ytterligare synonymer i Ask Data som stöd för användarnas frågor.

Differentiera dina attribut. Att tilldela unika namn på attributen i din datakälla kan ge en bättre användarupplevelse i Ask Data. Om det finns tveksamheter i uttrycket söker Ask Data fram strängar som ungefär stämmer med ett mönster i dina data med upp till ett teckens skillnad, kallas även otydlig strängmatchning. Sedan visar Ask Data dessa ytterligare matchningar som alternativ. I exemplet nedan (Figur 8) finns flera attribut med ordet ”Sales” (försäljning) i datakällan. Men att bara skriva ”sales” (försäljning) matchar bara tre attribut eftersom det inmatade ordet ”sales” (försäljning) och attributet ”Sales Foo” (försäljning foo) skiljer sig med mer än ett tecken.

Figure 8

Figur 8

Vi rekommenderar även att namnge attributen till domänen för datakällan så att frågor ställda i Ask Data är intuitiva med avseende på analysuppgiften. Exempelvis ”Number of Records” (antal registreringar) döps om till ”Number of Earthquakes” (antal jordbävningar) där varje registrering i datakällan motsvarar en jordbävning (Figur 9).

Figure 9

Figur 9

Kontrollera fältnamnen. Ask Data filtrerar värden utifrån fälten i datakällan. Namnge inte fält som värden för att förhindra att Ask Data misstolkar datafält som värden (som siffror, datum eller booleanska värden som ”true” (sant) eller ”false” (falskt)). För prestandans skull indexerar Ask Data inte heller fält som överlappar de analytiska uttryck som stöds. Undvik exempelvis att använda fältnamn som ”Average” (genomsnitt), ”Sales in 2015” (försäljning 2015) eller ”Most Products Sold” (flest sålda produkter).

Geokoda geografiska fält. Se till att fält med geografiska roller har värden som är korrekt geokodade. Fält med korrekt geokodade värden känns igen som geografiska attribut i Ask Data, vilket visas av en ikon i datafönstret (Figur 10). Sådana attribut stödjer uttryck som ”where are the highest fire fatalities?” (var sker de flesta dödsfall i bränder?) där systemet känner igen att token ”where” (var) indikerar en karta och antar ett giltigt geografiskt attribut som ”County” (län).

Figur 10

Lägg till relevanta beräknade fält

Ask Data kan inte skapa beräkning i farten så du måste i förväg lägga till förväntade beräkningar till datakällan. Att exempelvis skapa ett beräknat fält som heter ”Total Compensation” (total ersättning) och lägger samman lägsta baslön från ”Base (Variable)” (bas, variabel) med total kommission från ”Commission (Variable)” (kommission, variabel) gör att användare kan skriva frågor som ”what is the total compensation for each sales person?” (vilken total ersättning får varje försäljare?”. (Figur 11 och 12).

Figur 11: För att skapa ett beräknat fält väljer du Analysis (Analys) > Create Calculated Field (Skapa beräknat fält). För att redigera ett beräknat fält högerklickar du på det beräknade fältet i datafönstret och väljer Edit (redigera).

Figure 12

Figur 12: Att skapa ett beräknat fält som heter ”Total Compensation” (total ersättning) och lägger samman lägsta baslön från ”Base (Variable)” (bas, variabel) med total kommission från ”Commission (Variable)” (kommission, variabel) gör att användare kan skriva frågor som ”what is the total compensation for each sales person?” (vilken total ersättning får varje försäljare?).

Förbättra data med användarsynonymer

Du kan definiera synonymer för fält i en datakälla genom Ask Datas fältfönster. Låt oss exempelvis anta att du har en datakälla med bilinköp och ett av fälten är ”New Vehicle Model” (ny fordonsmodell). Att lägga till ”vehicle purchased” (köpt fordon) och ”car” (bil) som synonymer för ”New Vehicle Model” (ny fordonsmodell) kan stödja uttryck på vanligt språk som ”vehicles purchased by city” (bilar köpta efter stad) (Figur 13).

Figur 13: För att lägga till synonymer till specifika datafält hovrar du över ett fält i datakällan, klickar på neråtpilen och väljer Edit synonyms (redigera synonymer). Ange synonymer, separerade med kommatecken, för fältnamnet.

Möjlighet till dataåtkomst och kontroll

Ask Data har likadana säkerhets- och kontrollfunktioner som du känner igen från Tableau Server eller Tableau Online. Följande avsnitt innehåller mer information om att använda certifierade datakällor med Ask Data och att kontrollera åtkomst till Ask Data i din organisation.


Ställa in roller och behörigheter

När du har kuraterat dina data för Ask Data kan du kontrollera vilka som har åtkomst till funktionen. För att använda Ask Data behöver användare ha roller som Creator eller Explorer och åtkomst till webbförfattande på Tableau Server eller Tableau Online. Administratörer för Tableau Server kan ange behörigheter på platsnivå för att fastställa vilka som har tillgång till webbförfattande (enligt figur 14). Både analytiker och företagsanvändare kan ha nytta av Ask Data som ett snabbt och enkelt sätt att utforska en datakälla och snabbt få meningsfulla insikter.

Läs mer om behörigheter för webbförfattande.

Figur 14: Ange behörigheter på platsnivå för att avgöra vilka som har åtkomst till webbförfattande (inklusive Ask Data).

Kontrollera certifierade datakällor

Användare kan certifiera en datakälla på Tableau Server eller Tableau Online för att indikera att datakällan är betrodd och kuraterad. Certifieringen är inte funktionsspecifik. Det finns ingen specifik Ask Data-certifiering. Men om en användare vill inaktivera Ask Data för en datakälla kan denna göra det i inställningarna för datakälla i Tableau Server användargränssnitt (enligt figur 15 och 16).

Figur 15

Figur 16: Vid behov kan du inaktivera Ask Data för vissa datakällor i avsnittet med uppgifter om datakällan i Tableau Server eller Tableau Online.

Ask Data har potential för att alla i din organisation ska kunna ställa frågor om sina data. Följer du dessa riktlinjer för datakuratering hjälper det dig att förbereda dina data för en idealisk användarupplevelse på vanligt språk.