Práticas recomendadas para organizar seus dados com o Tableau Prep

Dados podem ser gerados, capturados e armazenados em várias estruturas diferentes, mas quando o assunto é análise, nem todos os formatos de dados são iguais.

A preparação de dados é o processo de limpar dados sujos, reestruturar dados malformados e combinar diversos conjuntos de dados para análises. Ela envolve a transformação da estrutura dos dados, como linhas e colunas, e a limpeza de tipos de dados e valores, entre outras coisas. A agilidade e a eficiência do seu processo de preparação de dados influencia diretamente o tempo que será preciso para a descoberta de informações. Compreender o escopo dos dados que você está analisando e visualizar as alterações feitas nos dados são fatores que podem acelerar o processo inteiro.

Pense em seus dados de maneira holística

Antes de começar, é importante refletir sobre como as pessoas usarão os dados que você está preparando. Compreender esse contexto ajudará você a determinar qual conjunto de dados utilizar, o volume de dados que deve ser trazido à sua ferramenta de preparação de dados e, por fim, como estruturar e formatar os dados. Para começar, você deve responder a algumas perguntas básicas:

01

Quem fará as análises?

Pense nos usuários finais do seu conjunto de dados finalizado. Por exemplo, você é o único usuário que acessará e compreenderá todas as partes dos dados para fazer análises profundas? Ou o conjunto de dados será utilizado por alguém em outra função, como um gerente de marketing que precisa compreender o desempenho de uma determinada campanha com base em métricas selecionadas e identificadas? Nesse último caso, o ideal talvez seja você limitar o conjunto de dados a apenas essas medidas.

Ou talvez você tenha um código de produto em uma tabela de dados, mas o gerente de marketing precise saber o nome do produto. Nesse caso, você uniria os dados e tabelas de fatos para chegar à informação. O público é fundamental no momento da preparação dos dados, assim como na criação de um painel.

02

Que tipos de perguntas devem ser feitas ou respondidas?

No processo de preparação de dados, é importante saber se as pessoas usarão o conjunto de dados final para análises complexas ou resumos rápidos. Esse detalhe influencia o processo de preparação de dados de maneira significativa, determinando a dimensão dos esforços e o nível de detalhes.

Geralmente, é possível prever as perguntas mais comuns que as pessoas farão aos dados com base na sua compreensão das prioridades estratégicas do negócio, mas provavelmente perguntas inesperadas aparecerão. Ao preparar um conjunto de dados, é preciso alcançar o equilíbrio entre atender às perguntas imediatas e permitir uma exploração aprofundada. Por exemplo, talvez seja possível identificar uma tendência de vendas durante os últimos seis meses, mas detalhar um pico durante uma semana específica exigirá uma análise mais profunda e uma granularidade diária dos dados.

03

Onde os dados estão armazenados?

Para responder a essa pergunta, é preciso considerar algumas questões básicas. Por exemplo, você tem as permissões certas para acessar uma determinada fonte de dados. Além disso, ela está na forma certa? Em outras palavras, ao trazê-la para o Tableau, é possível fazer a análise que você deseja? Você precisa responder a essas duas perguntas antes mesmo de começar o processo de preparação.

Para saber mais sobre como os dados devem se estruturados para análises no Tableau Desktop, visite a página de ajuda on-line.

Quando você puder acessar todos os dados necessários, precisará determinar onde eles estão. Faça a seguinte pergunta: os dados estão em uma única tabela ou em várias tabelas em um único banco de dados? Pode ser que você precise combinar diversos bancos de dados para chegar à raiz das suas perguntas; ou, se precisar de uma exibição mais abrangente, talvez precise trazer uma fonte de dados externa. Por exemplo, você pode querer analisar notas escolares de alunos da sua cidade buscando ver como elas são influenciadas pela situação socioeconômica. Isso faz com que você precise integrar dados do censo. Muitas vezes é preciso importar fontes de dados externas para se chegar à história completa.

Conheça a estrutura básica dos seus dados

Agora que você compreende como os dados serão usados, quem os usará e onde eles estão, é essencial compreender como eles estão constituídos. Você nunca faria a reforma de uma casa sem saber primeiro a localização das paredes de sustentação. Da mesma forma, você não pode começar a preparação de dados sem saber quais campos são interdependentes ou inter-relacionados, como os dados foram inseridos (manual ou automaticamente, por exemplo) ou o nível de detalhe. Conhecendo a estrutura dos seus dados, você poderá desenvolver o projeto antes de prosseguir para a preparação de dados.

01

Saiba o que você está vendo

Antes de trazer os dados para uma ferramenta de preparação de dados, é importante compreender com o que você está trabalhando. Você precisa saber se está olhando para um conjunto de dados inteiro ou um subconjunto. Talvez também precise explorar um pouco os dados antes de começar a limpeza.

02

Ajuste o tamanho da sua amostra

Quando você se conecta a um conjunto de dados grande, deve criar um limite para a amostra dos dados, visando agilizar o seu processo de preparação de dados e otimizar o desempenho. Há casos em que você talvez queira ver o conjunto de dados inteiro, e com o Tableau Prep você pode fazer as duas coisas. Se uma amostra não ajudar a resolver a sua tarefa de preparação de dados, você pode tentar algumas das seguintes sugestões:

  • Aumente o tamanho da amostra dos seus dados. Volte para a etapa de entrada e ajuste o número de linhas da amostra. Você pode aumentar o número de linhas ou incluir todos os dados, mas saiba que isso pode provocar um desempenho mais lento. Outra desvantagem é que, ao usar um número fixo de linhas, o retorno do banco de dados tomará como base a maneira mais rápida de retornar as linhas solicitadas (e isso não significa necessariamente as melhores 1.000 linhas de um banco de dados).
  • Use a amostra aleatória. Por padrão, o Tableau Prep calculará o número ideal de linhas a retornar, dependendo do número total de campos no conjunto e os tipos de dados desses campos. A amostra aleatória é executada no nível do banco de dados, retornando o número de linhas solicitado. O banco de dados olha para cada linha e devolve uma amostra. Essa opção não está disponível para todas as fontes de dados e também pode influenciar o desempenho.
  • Adicione um filtro de etapa de entrada. Adicionando um filtro na etapa de entrada, você assegura que os dados que serão importados para seu conjunto de dados sejam relevantes para as suas análises. Assim, você terá uma amostra muito mais representativa, o que ajudará também com o desempenho.

03

Explore seus dados

Primeiro, provavelmente você queira ver o número único de valores em um determinado campo. No exemplo abaixo, basta bater o olho no topo do cabeçalho da coluna para ver o número de estados representados no conjunto de dados. Você também vai querer saber como valores diferentes se inter-relacionam para poder detectar exceções ou problemas nos dados. No Tableau Prep, você pode usar o recurso destacar para descobrir relacionamentos entre campos. Ao clicar em um valor no painel Perfil, a exibição de grade de dados é detalhada, mostrando os registros que contêm esses valores no campo indicado. O Tableau Prep destaca os valores entre campos, colocando os valores relacionados em azul.



A cor azul mostra a distribuição do relacionamento entre o valor que você selecionou e os valores em outros campos.

04

Remova dados desnecessários

Para otimizar o desempenho geral do seu processo de preparação de dados, limite os campos que você trouxer ao Tableau Prep a somente aqueles que você precisará para suas análises.

Digamos que você esteja preparando um conjunto de dados que representa os dados de vendas e de produtos da sua empresa. Você sabe que, mais tarde, trará este conjunto de dados para o Tableau para analisar o desempenho de vendas do ano. Nesse caso, talvez você não precise incluir detalhes sobre a data de envio de cada produto, uma vez que eles não revelarão muito sobre a venda ou o motivo pelo qual um cliente comprou o produto. Essa é apenas uma indicação de quando o produto saiu do depósito, portanto, você provavelmente poderá removê-la da fonte de dados. Em qualquer momento durante a preparação, se você notar um campo do qual não precisa mais, basta removê-lo durante seu fluxo.

Dica: durante o processo de preparação, você também pode começar a dividir campos, separando-os em várias colunas. Você provavelmente não precisará mais da coluna original da qual acabou de separar os dados, então pode excluí-la.

Filtrar os seus dados é outra ação que economizará tempo no processo, além de assegurar que você está fazendo a análise certa. Por exemplo, se você sabe que só precisa acessar dados de vendas dos últimos dois anos, filtre o campo data para esse período usando o filtro intervalo de datas ou data relativa. Você pode querer remover dados irrelevantes ou incorretos. Basta clicar em um valor no painel Dados e excluí-lo. Isso pode ser feito a qualquer momento em seu fluxo.

05

Revise e limpe

No Tableau, sua análise será influenciada por tipos de dados, e é importante identificar cada campo adequadamente antes de se aprofundar. Apesar de você poder editar aliases, alterar tipos de dados, dividir campos e registrar cálculos no Tableau, é muito mais fácil realizar essas ações primeiro, especialmente ao criar o conjunto de dados para outra pessoa.

É fundamental compreender a qualidade dos dados em cada campo. Por exemplo, números de telefone coletados em uma pesquisa podem estar em diversos formatos, especialmente em uma pesquisa internacional. Inspecionar milhares ou milhões de valores únicos manualmente para detectar inconsistências é muito tedioso e suscetível a erros. Identificar padrões e atualizar os dados em lote pode promover um grande impacto no sentido de um conjunto de dados mais limpo. E, usando as funções nativas do Tableau Prep, como as operações de limpeza rápidas, que permitem a remoção de pontuação, números, letras ou espaços extras, você pode fazer essas alterações de forma rápida e sem arrancar os cabelos.

Por exemplo, se o seu campo estado possui “Califórnia” e “CA”, enquanto os outros valores apresentam o estado em nomes por extenso, você pode alterar os dados diretamente e... pronto: os registros para “Califórnia” agora incluem as ocorrências de “CA”.

Você também pode notar que seus dados estão quase todos corretos, com algumas exceções ocasionais. O Tableau Prep é inteligente. Ele ajuda a padronizar valores de dados acionando algoritmos para fazerem o trabalho pesado. Talvez você tenha uma coluna de dados em que os clientes insiram o nome de sua cidade natal. Você corre os olhos pela coluna e percebe que em várias ocorrências a cidade de Albuquerque está escrita de maneira errada. Em vez de atualizar cada ocorrência manualmente, você pode usar a função nativa do Tableau Prep que agrupa e substitui por caracteres ou pronúncia em comum. Essas opções usam algoritmos para simplificar o processo de limpeza. Ou, se você prever um valor ausente, pode adicioná-lo manualmente para incorporação quando executar o conjunto de dados inteiro durante o fluxo. Se você sabe que um campo precisa ser limpo ou filtrado, mas será necessário algo que não está na interface do usuário, pode usar um cálculo.

06

Conheça o resultado final dos seus dados

Quando você começa a preparar os seus dados, talvez não consiga determinar como o conjunto de dados final deverá ser. Você pode precisar combinar diversas fontes de dados ou dinamizar seus dados de colunas para linhas para que o Tableau possa avaliá-los corretamente.

Uma maneira de superar esse desafio é imaginar como deve ficar o painel Dados do Tableau Desktop. Você tem várias colunas com o mesmo valor? Algum produto especifico deve ter sua própria coluna com as vendas listadas abaixo, ou todos os produtos devem estar em campos únicos, e as vendas em uma coluna separada? Provavelmente, a segunda opção será a mais adequada. Nesse caso, será preciso dinamizar os dados.

Se você precisar combinar duas tabelas, terá que fazer uma união de colunas ou uma união de linhas. Com uma união de colunas, você poderá adicionar mais campos à sua fonte de dados, expandindo o número de campos que poderá analisar. Apesar de ser possível realizar a união de colunas a qualquer momento durante seu fluxo de preparação de dados, quanto mais cedo você a aplicar, mais cedo conseguirá compreender o conjunto de dados e expor áreas que precisam de atenção imediata.

Da mesma forma, com uma união de linhas você poderá combinar dois conjuntos de dados. Por exemplo, você pode ter um arquivo de Excel em que cada planilha mostra transações de diferentes anos. Em vez de unir as colunas das tabelas, uma união de linhas permite que você mantenha a mesma estrutura, porém com mais linhas.

Ao fazer uma união de colunas ou uma união de linhas entre duas tabelas, leve em consideração o nível de detalhe. Para unificar os dados de maneira adequada, talvez seja preciso alterar o nível de detalhe. Se algo parecer estranho, tente fazer uma agregação.

Não perca as etapas de vista

Manter a organização durante a preparação é fundamental quando você precisar voltar e alterar alguma etapa do processo. Embora você não precise seguir instruções específicas para organizar seus dados (na verdade, você deve preparar os dados de maneira que faça sentido no seu caso), será muito mais fácil adaptar ou atualizar seu processo de preparação de dados se você souber onde as alterações foram realizadas.

01
Prepare os dados da forma mais lógica para você

A preparação de dados envolve diversos componentes diferentes, como reestruturação, reformatação e limpeza, e você não deve se limitar a uma ordem específica. Com o Tableau Prep, é possível fazer alterações e atualizações em seus dados da maneira que for mais lógica para você. Algumas pessoas podem começar dinamizando os dados, enquanto outras podem começar limpando palavras com erros ortográficos ou dados ausentes.

02

Separe cada etapa

Criar novas etapas para um conjunto específico de ações mantém seu fluxo organizado. Pense em suas etapas como pastas em seu arquivo físico. Você organiza seus arquivos por assunto para encontrar facilmente o que está procurando. Da mesma forma, as etapas no fluxo devem agrupar conjuntos de alterações relacionados a uma tarefa específica. Por exemplo, a limpeza de nomes de cliente pode envolver a divisão de um campo, o remapeamento de diversos valores e a aplicação de filtros em outros campos para chegar à segmentação de clientes certa para os resultados da fonte de dados. Se você mantiver essas ações na mesma etapa, poderá adicionar um nome descritivo para ajudar a compreender o fluxo mais tarde. Além de ser muito útil, isso permitirá que outros analistas encontrem e façam referência às mesmas ações caso você compartilhe o fluxo, o que tornará mais simples para eles fazer as edições necessárias.

Assim, é muito fácil rastrear o que aconteceu em qualquer etapa específica. Se você fizer uma ação e se arrepender depois, poderá removê-la ou editá-la rapidamente no painel Alterar.

Verifique tudo

É importante estar ciente do que está acontecendo com os dados ao limpá-los ou alterá-los. Você não quer avançar muito no processo para perceber depois que uniu dois campos errados. Isso está diretamente relacionado a conhecer seus dados. Se você tem uma noção clara de como devem ser os dados, essas verificações revelarão se algo está errado com mais facilidade.

01

Use feedback visual

É muito mais fácil preparar os dados se você puder ver como eles se inter-relacionam antes de começar sua análise, como o número de linhas em um conjunto depois de uma união, ou erros, como palavras com erros ortográficos. Assim como o Tableau Desktop, o Tableau Prep foi desenvolvido com uma missão: ajudar as pessoas a ver e a entender seus dados.



Grade de dados

Usar a grade de dados no Tableau Prep é ideal para encontrar seu caminho entre os dados. Você pode ver o estado atual dos dados depois de fazer uma mudança e detectar anomalias.

grade de dados
Minimapas

Às vezes, quando você acredita que seus dados estão limpíssimos, ao usar o minimapa perceberá uma exceção ou alguns registros ausentes. Use o minimapa para encontrá-los e fazer as alterações necessárias.

minimapas
Compreenda a união

Pode ser fácil unir os campos errados, especialmente ao unir diversos campos. O Tableau Prep usa feedback visual para exibir os resultados de uma união, ajudando você a descobrir se há exceções, se a consulta está retornando dados demais e se os dados estão corretos ou não.

compreenda a união

02

Continue iterando

A preparação de dados é um processo contínuo. Ela não termina depois de você corrigir todas as palavras com erros ortográficos ou uniões. Quando o conjunto de dados for atualizado, suas perguntas podem ser outras, ou você pode descobrir que precisa adicionar outro campo. Com o recurso “Abrir amostra no Tableau Desktop”, do Tableau Prep, é fácil testar como os dados aparecerão mais adiante, no momento da análise.

Execute o fluxo e comece a análise

Agora que você limpou, reestruturou e filtrou seus dados, é hora de entender o que eles estão dizendo a você. Ao contrário de muitas ferramentas de preparação de dados, o Tableau Prep se integra plenamente à sua plataforma de business intelligence. Publique a extração no Tableau Server ou no Tableau Online para que outros possam começar suas análises. Traga os dados para o Tableau Desktop e comece a fazer perguntas mais aprofundadas. Você acaba de terminar a parte mais trabalhosa do processo de análise de dados. Agora, é hora de colher os frutos do seu suor: as informações!

Avalie o Tableau Prep

Primeiros passos no Tableau Prep
Ajuda on-line do Tableau Prep: