Les 5 meilleures pratiques pour Tableau et Hadoop


Présentation | Ce que vous allez découvrir : 

Tableau a été conçu pour faciliter les échanges en temps réel avec les données via plusieurs plates-formes. Les utilisateurs professionnels ayant le sentiment d'être freinés par les outils traditionnels se sont tournés vers ce modus operandi. Que se passe-t-il alors lorsque les requêtes sont renvoyées après quelques heures ou minutes, au lieu de quelques secondes ? Peuvent-ils rester concentrés sur leur tâche ?

Nous vivons à une époque où il est possible d'analyser les millions ou même les milliards de lignes de données à notre disposition. Pourtant, l'utilisateur s'attend à obtenir des résultats presque instantanés. Lorsque le temps de réponse et d'interaction est supérieur à 2 ou 3 secondes, l'utilisateur perd le fil de l'analyse visuelle. Il est donc impératif d'assurer une vitesse suffisante pour les requêtes, pour que l'utilisateur reste concentré et appréhende au mieux ses déploiements Big Data.

Un certain nombre de meilleures pratiques lui permettent d'optimiser les performances de ses visualisations et de ses tableaux de bord Tableau créés sur des plates-formes Big Data. Les meilleures pratiques consistent essentiellement en cinq activités :

  1. L'exploitation d'un moteur de requête interactif rapide
  2. L'utilisation stratégique des connexions en direct par rapport aux extraits
  3. L'organisation de vos données depuis le lac de données
  4. L'optimisation de vos extraits
  5. La personnalisation des performances de votre connexion

Nous vous proposons ici quelques pages extraites du début du livre blanc. Téléchargez le PDF via le formulaire ci-contre à droite pour lire la suite.


1. L'exploitation d'un moteur de requête interactif rapide

Les requêtes Hive exécutées sur Hadoop à l'aide de MapReduce sont particulièrement lentes en raison du traitement associé au mappage des requêtes SQL dans une tâche MapReduce. L'utilisation de Hive avec MapReduce est très intéressante pour réaliser des traitements par lots, comme pour les applications ETL, car ce service offre une grande tolérance aux pannes. Cependant, il reste limité en termes de performances. Les évolutions de Hive se traduisent par de nouvelles structures d'application telles que Tez (qui permet les requêtes interactives) et Spark (qui permet le traitement en mémoire), qui améliorent considérablement la vitesse des requêtes.

En dehors de Hive sur Hadoop, il existe un certain nombre d'options très intéressantes pour accélérer vos requêtes. Impala est très connu pour avoir les performances les plus rapides sur Hadoop selon les derniers indicateurs. Bien qu'il en soit encore à un stade initial de son développement, Spark SQL a montré un fort potentiel en tant que moteur de traitement de données rapide. Il peut traiter des données stockées sur Hadoop ou sur des RDD de schéma Spark référencés par un métastore Hive. Impala et Spark SQL sont tous les deux pris en charge en tant que connecteurs nommés dans Tableau. Pivotal HAWQ, Presto et Apache Drill sont également des technologies régulièrement mentionnées dans les discussions relatives aux performances sur Hadoop.

Il existe aussi d'autres possibilités en dehors de Hadoop. Vous pouvez aussi héberger vos données dans des bases de données analytiques rapides comme Actian Vector, HP Vertica, Teradata Aster Data, SAP HANA, ParAccel, Pivotal Greeplum, etc. pour les requêtes à faible latence des utilisateurs professionnels de Tableau une fois que ces données ont été traitées dans Hadoop. Les services d'infrastructure hébergés dans le cloud connaissent également un succès croissant. Google BigQuery exploite l'infrastructure massive de Google, excellente pour traiter des données ainsi que pour permettre des requêtes rapides, en particulier pour de grands ensembles de données. D'un autre côté, Amazon Redshift est un entrepôt de données en colonnes entièrement géré, axé sur l'accès rapide aux données. Récemment, plusieurs nouvelles technologies issues de startups et de projets open source qui utilisent les cubes OLAP (traitement analytique en ligne) (AtScale, eBay Kylin) ou des moteurs d'indexation (JehtroData) pour Hadoop ont vu le jour. Elles offrent la possibilité d'interroger un milliard de lignes ou plus avec une faible latence.

2. L'utilisation stratégique des connexions en direct par rapport aux extraits

L'architecture de données hybride Tableau permettant de se connecter en direct à une source de données ou au moteur de données Tableau via un extrait stocké en mémoire offre aux utilisateurs une flexibilité optimale pour exploiter le Big Data. Les extraits sont parfaits lorsque les moteurs de requêtes rapides ne sont pas disponibles, pour des ensembles de données de petite ou moyenne taille (pas plus de plusieurs centaines de millions de lignes) ou s'il faut une analyse hors ligne. Pour des ensembles de données plus volumineux, Hadoop Hive et d'autres moteurs de requêtes seront plus efficaces que Tableau en raison de l'exécution distribuée. Aussi, lorsqu'un moteur de base de données rapide est disponible ou si une analyse en temps réel est requise, il est préférable de choisir une connexion en direct.

Vous souhaitez en savoir plus ? Téléchargez l'intégralité du livre blanc !

Continuer la lecture…

Les ressources suivantes peuvent vous intéresser...