Cinco práticas recomendadas para a combinação Tableau e Hadoop


Visão geral | O que você aprenderá: 

O Tableau foi criado para facilitar o diálogo em tempo real com dados em diversas plataformas de dados. Os usuários comerciais que se sentiam limitados pelas ferramentas tradicionais estão adotando em massa essa forma de trabalhar. Então, o que acontece quando as consultas demoram horas ou minutos em vez de apenas alguns segundos para serem retornadas? Os usuários conseguem permanecer no “fluxo”?

Vivemos em uma era em que as pessoas analisam milhões ou até mesmo bilhões de linhas de dados, e querem ter resultados instantâneos. Quando a interação do usuário e os tempos de resposta da ferramenta duram mais de dois a três segundos, o fluxo de análise visual é interrompido. Por isso, é essencial oferecer velocidades de consulta rápidas para que os usuários continuem envolvidos no processo e consigam obter mais informações com suas implantações de Big Data.

Os usuários podem aplicar diversas práticas recomendadas para maximizar o desempenho de seus painéis e visualizações do Tableau criados em plataformas de Big Data. As práticas recomendadas geralmente se enquadram nas cinco atividades a seguir:

  1. Aproveitar um mecanismo de consulta interativo
  2. Usar estrategicamente as conexões em tempo real e as extrações
  3. Fazer a triagem dos seus dados a partir do Lago de dados
  4. Otimizar suas extrações
  5. Personalizar o desempenho de sua conexão

Também separamos as páginas iniciais do whitepaper para você ler. Baixe o PDF à direita para ler o restante do documento.


1. Aproveitar um mecanismo de consulta interativo

As consultas do Hive executadas no Hadoop que usam o MapReduce são inerentemente lentas devido à sobrecarga associada ao mapeamento das consultas SQL em um trabalho do MapReduce. É uma ótima opção usar o Hive no MapReduce para executar processamentos em lote, como em aplicativos ETL, porque ele é extremamente tolerante a falhas, mas seu desempenho deixa a desejar. As melhorias feitas no Hive apresentam novas estruturas de aplicativo, como o Tez (que permite consultas interativas) e o Spark (que permite o processamento na memória), que melhoram significativamente a velocidade da consulta.

Além do Hive no Hadoop, existem diversas outras excelentes opções para acelerar suas consultas. O Impala é bastante conhecido por seu desempenho rápido no Hadoop, segundo benchmarks recentes. Apesar de ainda estar em um estágio inicial de desenvolvimento, o Spark SQL já mostrou ter um ótimo potencial como um mecanismo de processamento de dados rápido. Ele pode processar dados armazenados no Hadoop ou Spark Schema RDDs referenciados por um Hive Metastore. O Tableau oferece suporte para o Impala e o Spark SQL como conectores nomeados. Pivotal HAWQ, Presto e Apache Drill também são tecnologias sempre presentes em discussões sobre o desempenho do Hadoop.

Outra opção é procurar fora do Hadoop. Os bancos de dados de análises rápidos, como Actian Vector, HP Vertica, Teradata Aster Data, SAP Hana, ParAccel, Pivotal Greenplum, etc., podem ser um ótimo lugar para hospedar seus dados de consultas de baixa latência para os usuários comerciais do Tableau depois que eles forem processados no Hadoop. Os serviços de infraestrutura hospedados na nuvem também estão cada vez mais populares. O Google BigQuery aproveita a infraestrutura massiva do Google, que se destaca tanto no processamento de dados quanto na rapidez da execução das consultas em conjuntos de dados grandes. O Amazon Redshift é um datawarehouse totalmente gerenciado e estruturado em colunas que tem como foco o acesso aos dados. Há também um grupo de tecnologias emergentes de startups e projetos de código-fonte aberto que usam cubos OLAP (AtScale, eBay Kylin) ou mecanismos de indexação (JethroData) para Hadoop que permitem consultar um bilhão de linhas ou mais com baixa latência.

2. Usar estrategicamente as conexões em tempo real e as extrações

A arquitetura de dados híbrida do Tableau, que permite conectar a uma fonte de dados em tempo real ou a uma extração do Processador de dados na memória, oferece a máxima flexibilidade a seus usuários para trabalhar com Big Data. As extrações são ideais para situações em que não há mecanismos de consulta rápidos disponíveis, os conjuntos de dados têm pequeno e médio porte (centenas de milhões de linhas ou menos) ou uma análise off-line é necessária. Para conjuntos de dados maiores, o Hadoop Hive e outros mecanismos de consulta funcionarão melhor com o Tableau devido à sua execução distribuída. Além disso, quando houver um mecanismo de banco de dados disponível ou uma análise em tempo real for necessária, a melhor opção é usar uma conexão em tempo real.

Quer saber mais? Baixe o restante do whitepaper!

Continuar lendo...

Você também pode gostar de...