Whitepaper

Preparação de dados para interação com linguagem natural no Pergunte aos dados

O Pergunte aos dados, recurso de linguagem natural do Tableau, foi criado para ser compatível com todas as suas fontes de dados publicadas no Tableau Server ou no Tableau Cloud. No entanto, para aproveitar todos os benefícios do Pergunte aos dados, você deve selecionar suas fontes de dados a fim de proporcionar a conversação analítica ideal.

Para ajudar você a implantar o Pergunte aos dados na sua organização, criamos este guia sobre como organizar fontes de dados para obter uma experiência do usuário bem-sucedida.

Entenda as perguntas dos usuários

O Pergunte aos dados usa o contexto para determinar os atributos do tipo de dados relevante, dividindo os enunciados em tokens (frases com expressões temporais, espaciais ou numéricas) para interpretar a intenção. Em seguida, o recurso usa as práticas recomendadas de análise visual a fim de determinar a visualização mais adequada para satisfazer a intenção do usuário.

Digamos que alguém queira fazer perguntas sobre uma fonte de dados publicada que contém as vendas acumuladas no ano. A pessoa pode digitar uma pergunta na caixa Pergunte aos dados, como “what is the profit over time?” (qual foi o lucro ao longo do tempo?). Nesse caso, o Pergunte aos dados entende a intenção do usuário agregando “profit” (lucro) como uma soma, a agregação padrão. Ele também entende a intenção “time” (tempo) como referência ao atributo “Order Date” (Data do pedido) na fonte de dados, agregado no nível anual (Figura 1).

Figure 1  Visualization output from the expression “what is the profit over time?”

Figura 1: Resultado de visualização do enunciado “what is the profit over time?” (qual foi o lucro ao longo do tempo?).

O algoritmo de inferência do Pergunte aos dados é mais eficaz quando todos os atributos fazem referência ao tipo de dados esperado. Neste exemplo, o tipo de dados esperado seria “Date” (Data), que gera a visualização da série temporal (tendência ao longo do tempo). As medidas devem ser especificadas com a formatação numérica e a agregação padrão esperadas.

Com o recurso Pergunte aos dados, você pode fazer perguntas em inglês sobre campos calculados, campos de colunas, campos de grupos e campos de compartimento nas suas fontes de dados publicadas. No momento, o Pergunte aos dados não é compatível com conjuntos, parâmetros, campos combinados, conjuntos combinados ou hierarquias. A Tableau está trabalhando para dar suporte a esses tipos de campo em versões posteriores.


Expressões analíticas compatíveis com o Pergunte aos dados

Há cinco tipos básicos de expressões analíticas, e um enunciado é composto por uma ou mais expressões.

As expressões analíticas a seguir são compatíveis com o Pergunte aos dados:

Expressões de agregação: os valores de várias linhas são agrupados para formar um único valor com base em uma função matemática. Por exemplo, “Sum of Sales” (Soma de vendas), “Average Profit” (Lucro médio) ou “Count of Customers” (Contagem de clientes).

Expressões de grupo: essas expressões dividem os dados em categorias exibidas em uma visualização de dados, como “by Region” (por Região) ou “by Sales” (por Vendas).

Expressões de classificação: são expressões que organizam linhas de dados em um pedido, como crescente, decrescente ou ordem alfabética. Por exemplo, “sort Products in ascending order by sum of Profit” (classifique Produtos em ordem crescente pela soma de Lucro) ou “sort Customer Name in alphabetical order” (classifique Nome do Cliente em ordem alfabética).

Expressões de filtro: essas expressões retornam um subconjunto do domínio do campo. Elas podem ser filtros numéricos, como “sum of Sales at least $2,000” (soma de vendas de pelo menos US$ 2.000), ou filtros categóricos, como “Customer Name starts with John” (Nome do cliente começa com João) ou “Category contains Manufacturing” (Categoria contém Setor industrial).

Expressões de limite: semelhantes às de filtro, essas expressões retornam um subconjunto do domínio do campo, restringindo até um subconjunto de linhas. Por exemplo, “top 5 Wineries by sum of Sales” (as cinco principais vinícolas por soma de Vendas) ou “bottom Category by average Profit” (a categoria mais baixa por Lucro médio).

Saiba mais sobre funções analíticas compatíveis.

O Pergunte aos dados usa alguns sinônimos integrados comuns para se referir a esses conceitos, como “from largest” (do maior) para ordem decrescente e “mean” (média) para média. Ele também usa abreviações, como “cnt” para “count” (contagem), “avg” para “average” (média) e outras. Siga adiante para saber como adicionar sinônimos de usuário ao Pergunte aos dados.

Além disso, o Pergunte aos dados representa expressões temporais (expressões relacionadas ao tempo) como absolutas ou relativas. O Pergunte aos dados é compatível com conceitos de tempo absoluto, com expressões como “starts in” (começa com), “ends in” (termina por) e “between” (entre). Ele também entende conceitos de tempo relativo para expressões como “last 3 years” (últimos 3 anos), “next quarter” (próximo trimestre), “this month” (este mês), “today” (hoje) e “yesterday” (ontem).

Prepare as fontes de dados para a conversação analítica ideal

O Pergunte aos dados foi criado para ser compatível com qualquer fonte de dados publicada no Tableau Server ou no Tableau Online. Para oferecer padrões convenientes para expressões de filtro, o Pergunte aos dados aprimora o modelo semântico com metadados sobre os campos. Em medidas numéricas contínuas, esses metadados incluem informações estatísticas, como “mínimo,” “máximo” e “média”. Em campos de texto, os metadados contêm os valores que ocorrem com mais frequência.

Quando um usuário digita uma expressão de filtro no Pergunte aos dados, esses metadados fazem o sistema gerar sugestões para os valores. Na figura abaixo, por exemplo, “$ 4” é gerado como valor mínimo nos metadados para o atributo “Price” (Preço) e o filtro “at least” (pelo menos).

A user types a filter expression in Ask Data, this metadata allows the system to provide defaults for values.

Figura 2: “$ 4” é gerado como valor mínimo nos metadados para o atributo “Price” (Preço) e o filtro “at least” (pelo menos).

Em fontes de dados com segurança no nível da linha, o Pergunte aos dados não cria perfis, não indexa nem armazena metadados para os campos no modelo semântico. Sem metadados, o Pergunte aos dados não consegue gerar padrões de filtro (conforme a Figura 2), não reconhece conceitos comparativos, como “cheap” (barato) ou “high” (alto), nem mostra dados categorizados em dicas de ferramentas no painel Dados.

No entanto, sabemos que algumas fontes de dados têm requisitos de segurança em nível de linha. O Pergunte aos dados não pode indexar suas fontes de dados nessas circunstâncias, mas você ainda pode se beneficiar especificando os valores exatos que deseja filtrar e digitando esses valores entre aspas.

Por exemplo, digamos que você queira ver “wineries in california that have pinot noir” (vinhedos na Califórnia que têm pinot noir). Se a fonte de dados tivesse segurança em nível de linha, você deveria fazer a pesquisa da seguinte maneira:

Vinhedos com “California” no filtro Estado e “Pinot Noir” no filtro Variedade

Não seria necessário usar aspas em datas, valores booleanos ou números, pois o Pergunte aos dados interpreta automaticamente esses tipos de valores e faz a correspondência deles com os campos adequados.

Se você já publica fontes de dados certificadas para a sua organização, as equipes podem aproveitar essas fontes no Pergunte aos dados. Talvez você queira abrir fontes adicionais para os usuários finais ou reformular as fontes existentes a fim de facilitar a análise no Pergunte aos dados. Para aproveitar ao máximo o Pergunte aos dados, selecione seus dados levando em consideração os seguintes fatores.



Pense no usuário final ao selecionar seus dados

Os usuários do Pergunte aos dados recebem respostas muito melhores quando os dados são cuidadosamente selecionados por um administrador ou analista que sabe preparar os dados para a análise e consegue prever os tipos de perguntas que os usuários farão usando a linguagem natural.

Leia mais sobre práticas recomendadas para selecionar uma fonte de dados publicada.

Ao selecionar dados para o Pergunte aos dados, comece simplificando ao máximo suas fontes de dados publicadas. Isto é, procure manter um conjunto mínimo de campos que os usuários consultarão na interação com o Pergunte aos dados e remova (ou oculte) campos desnecessários da fonte de dados. O Pergunte aos dados é compatível com fontes de dados com até mil campos, mas quanto menos ambiguidade, melhor. Fazer isso aprimora o desempenho geral do sistema para agilizar a inicialização e a análise dos enunciados de linguagem natural. Se a fonte de dados estiver lenta, use a extração de dados com filtros de fonte de dados (se necessário) para melhorar o desempenho.

Ao selecionar as fontes de dados para consulta no Pergunte aos dados, pense nos seguintes fatores:

Prepare seus dados. Tente prever os tipos de perguntas dos usuários conforme a fonte de dados. Estruturação de dados, operações de união e funções relacionadas de preparação de dados podem ser necessárias para estruturar seus dados adequadamente a fim de responder a essas perguntas previsíveis.

Configure os padrões de campo adequados. Atribua o tipo de dados correto a cada campo (como cadeia, número, geografia, data, hora e data, booleano) e a função adequada do campo de dados (como discreto x contínuo, medida x dimensão). Para cada medida, atribua funções de agregação padrão. Por exemplo, SUM (SOMA) pode ser um padrão apropriado para “Sales” (Vendas), mas AVERAGE (MÉDIA) pode ser o melhor padrão para “Test Score” (Pontuação de teste).

Configure formatos de número de porcentagem e moeda. Para interpretar termos comuns e coloquiais que as pessoas costumam incluir nas perguntas, o Pergunte aos dados entende conceitos como “low” (baixo), “high” (alto), “lowest” (mais baixo), “highest” (mais alto) e conceitos baseados em moeda, como “cheap” (barato) e “expensive” (caro), além de seus sinônimos. Para facilitar enunciados como “show me the cheapest wineries in France”, (mostre-me as vinícolas mais baratas na França), defina medidas na fonte de dados com o formato de moeda adequado (conforme as Figuras 3 e 4).

Figure 3   Set up measures in the data source with the appropriate currency format.

Figura 3: configure medidas na fonte de dados com o formato de moeda adequado.

Figure 4   For the utterance “cheapest wineries in France,” the system infers a currency attribute ‘Price’ for the concept ‘cheapest’.  Ask Data infers a numeric range from the metadata for ‘Price’. Clicking on ‘cheapest’ refines the inferred numerical values.

Figura 4: no enunciado “cheapest wineries in France” (vinícolas mais baratas na França), o sistema infere um atributo de moeda “Price” (Preço) para o conceito “cheapest” (mais baratas). O Pergunte aos dados infere um intervalo numérico a partir dos metadados para “Price” (Preço). Clicar em “cheapest” (mais baratas) refina os valores numéricos inferidos.

Configure hierarquias lógicas. Com isso, os usuários podem detalhar ou desfazer o detalhamento nas visualizações produzidas usando o Pergunte aos dados. O raciocínio se aplica a dimensões geográficas (como Cidade, Estado, País), datas e horas (como Ano, Trimestre, Mês) e dimensões dependentes de funcionalidade (como Categoria e Subcategoria).

Crie campos em compartimento significativos (com tamanhos de compartimento adequados) para variáveis quantitativas nos seguintes cenários:

  • Exibir uma versão em compartimento de um campo que não é uma medida na fonte de dados.
    Por exemplo, “Age” (Idade) é uma dimensão numérica que não pode ser representada como histograma no Tableau e, consequentemente, no Pergunte aos dados. No entanto, com um campo em compartimento para Idade na fonte de dados, o usuário pode fazer uma pergunta usando sua versão em compartimento (conforme a Figura 5).
Figure 5 A user can type “by Age (bin)” to view a binned form of the dimension as a bar chart.

Figura 5: o usuário pode digitar “by Age (bin)” (por Idade [compartimento]) para exibir uma forma em compartimento da dimensão como gráfico de barras.

  • Deduzir respostas do histograma no Pergunte aos dados com configurações de compartimento personalizadas.
    Criar campos em compartimento de medidas com tamanhos de compartimento personalizados aumenta o controle sobre como esses campos são exibidos no Pergunte aos dados. No exemplo abaixo (Figura 7), o usuário pode digitar “Fare as a histogram” (Tarifa como histograma) e o Pergunte aos dados usará as configurações de compartimento personalizadas do campo em compartimento “Fare (bin)” (Tarifa [compartimento]) para gerar um histograma.
Figure 6

Figura 6: no painel Dados, clique com o botão direito do mouse (Control + clique no Mac) e selecione Criar > Compartimentos.

Figure 7 Visualization output of the expression, “Fare as a histogram” with custom bin sizes.

Figura 7: resultado de visualização da expressão “Fare as a histogram” (Tarifa como histograma) com tamanhos de compartimento personalizados.

Campos com nomes exclusivos e relevantes

Para deixar sua fonte de dados mais compreensível para os usuários finais (e aumentar as chances de obtenção das respostas desejadas no Pergunte aos dados), você deve avaliar os nomes dos campos na fonte de dados em questão.

Siga estas etapas para oferecer a melhor experiência do usuário possível:

Crie aliases significativos para valores de campo. No Tableau Desktop, você pode criar nomes de campo fáceis de usar com aliases (por exemplo, “CustID” é “Customer ID” [ID de cliente]). Essa recomendação é padrão para selecionar e organizar os dados. No Pergunte aos dados, você pode ir um pouco além adicionando sinônimos. Por exemplo, as pessoas também podem usar “Customer Number” (Número do cliente) para se referir a “Customer ID” (ID do cliente) internamente. Nessas situações, você pode incluir sinônimos adicionais para que o Pergunte aos dados entenda as perguntas dos usuários.

Diferencie seus atributos. Dar nomes exclusivos aos atributos na sua fonte de dados pode melhorar a experiência do usuário no Pergunte aos dados. Se o enunciado estiver ambíguo, o Pergunte aos dados localizará cadeias de caracteres que tenham correspondência aproximada com um padrão de dados (com diferença de até um caractere), também conhecidas como cadeias de correspondência difusa. Em seguida, o Pergunte aos dados mostra essas correspondências variadas como opções. No exemplo abaixo (Figura 8), há vários atributos com a palavra “Sales” (Vendas) na fonte de dados. No entanto, digitar apenas “sales” (vendas) corresponde somente a três atributos, pois a palavra “sales” (vendas) e o atributo “Sales Foo” (Vendas de Foo) diferem em mais de um caractere.

Figure 8

Figura 8

Também é recomendável nomear atributos de maneira semanticamente significativa para o domínio da fonte de dados, de modo que as perguntas feitas no Pergunte aos dados sejam intuitivas para a tarefa analítica. Por exemplo, “Number of Records” (Número de registros) é renomeado como “Number of Earthquakes” (Número de terremotos), sendo que cada registro é um terremoto na fonte de dados (Figura 9).

Figure 9

Figura 9

Verifique os nomes de campo. O Pergunte aos dados filtra os valores pelos campos na fonte de dados. Procure não nomear campos como valores para evitar que o Pergunte aos dados interprete um campo como valor (por exemplo, números, datas ou valores booleanos, como “verdadeiro” ou “falso”). Além disso, por motivos de desempenho, o Pergunte aos dados não indexa campos que se sobrepõem às expressões analíticas compatíveis. Por exemplo, evite usar nomes de campo como “Average” (Média), “Sales in 2015” (Vendas em 2015) ou “Most Products Sold.” (Maior número de produtos vendidos).

Geocodifique campos geográficos. Em campos com funções geográficas, verifique se os valores de dados foram geocodificados adequadamente. Campos com valores geocodificados adequadamente são reconhecidos como atributos geográficos no Pergunte aos dados, indicados por um ícone no painel Dados (Figura 10). Tais atributos são compatíveis com enunciados como “where are the highest fire fatalities?” (onde ocorrem as maiores fatalidades por incêndio?), em que o sistema reconhece o token “where” (onde) para indicar um mapa e infere um atributo geográfico válido como “Country” (País).

Figura 10

Adicione campos calculados relevantes

Como o Pergunte aos dados não cria cálculos dinâmicos, é necessário adicionar previamente os cálculos à fonte de dados. Por exemplo, ao criar um campo calculado de nome “Total Compensation” (Compensação total) que adicione o salário base mínimo de “Base (Variable)” (Base [Variável]) com a comissão total de “Commission (Variable)” (Comissão [Variável]), os usuários podem fazer perguntas como “what is the total compensation for each sales person?” (qual é a remuneração total de cada vendedor?). (Figuras 11 e 12).

Figura 11: para criar um campo calculado, selecione Análise> Criar campo calculado. Para editar um campo calculado, clique com o botão direito do mouse no campo calculado no painel Dados e selecione Editar.

Figure 12

Figura 12: ao criar um campo calculado de nome “Total Compensation” (Compensação total) que adicione o salário base mínimo de “Base (Variable)” (Base [Variável]) com a comissão total de “Commission (Variable)” (Comissão [Variável]), os usuários podem fazer perguntas como “what is the total compensation for each sales person?” (qual é a remuneração total de cada vendedor?).

Aprimore os dados com sinônimos

Você pode definir sinônimos para os campos em uma fonte de dados usando o painel de campos do Pergunte aos dados. Por exemplo, suponhamos que você tenha uma fonte de dados sobre compras de carros e que um dos campos seja “New Vehicle Model” (Novo modelo de veículo). Adicionar “vehicle purchased” (veículo comprado) e “car” (carro) como sinônimos para o campo “New Vehicle Model” (Novo modelo de veículo) pode facilitar o entendimento de enunciados em linguagem natural, como “vehicles purchased by city” (veículos comprados por cidade) (Figura 13).

Figura 13: para incluir sinônimos em campos de dados específicos, passe o mouse sobre um campo da fonte de dados, clique na seta para baixo e escolha a opção Editar sinônimos. Digite os sinônimos separados por vírgulas.

Habilitar o acesso e a governança dos dados

O Pergunte aos dados tem as medidas de segurança e governança que você já conhece no Tableau Server ou no Tableau Online. As seções a seguir apresentam mais informações sobre o uso de fontes de dados certificadas com o Pergunte aos dados e o controle do acesso a esse recurso em toda a organização.


Definir funções e permissões

Depois de selecionar seus dados, você pode controlar quem terá acesso ao o Pergunte aos dados. Para acessar o Pergunte aos dados, os usuários precisam das funções Creator ou Explorer e devem ter acesso de criação na Web no Tableau Server ou no Tableau Online. Os administradores do Tableau Server podem especificar permissões no nível do site para determinar quem tem acesso aos recursos de criação na Web (conforme a Figura 14). Analistas e usuários corporativos reconhecerão o valor do Pergunte aos dados como uma forma rápida e fácil de explorar fontes de dados e obter informações em tempo real.

Saiba mais sobre permissões de criação na Web.

Figura 14: especifique as permissões no nível do site para determinar quem tem acesso aos recursos de criação na Web (inclusive ao Pergunte aos dados).

Verifique as fontes de dados certificadas

Os usuários podem certificar uma fonte de dados no Tableau Server ou no Tableau Online para indicar que ela é confiável e que foi devidamente selecionada. Esta certificação não é específica aos recursos; não há certificação específica para o Pergunte aos dados. No entanto, se quiser desativar especificamente o recurso Pergunte aos dados em uma fonte de dados, o usuário pode fazê-lo nas configurações da fonte de dados, na interface do usuário do Tableau Server (conforme as Figuras 15 e 16).

Figura 15

Figura 16: se necessário, você pode desabilitar o Pergunte aos dados em certas fontes na seção de detalhes da fonte de dados do Tableau Server ou do Tableau Online.

Com o Pergunte aos dados, qualquer pessoa na sua organização pode fazer perguntas sobre os dados. Seguir essas diretrizes de seleção e organização vai ajudar você a preparar seus dados para a melhor experiência do usuário com a linguagem natural.