Fünf Best Practices für Tableau und Hadoop


Übersicht | Lerninhalt: 

Tableau wurde dafür ausgelegt, eine Interaktion mit Daten in Echtzeit über mehrere Datenplattformen hinweg zu unterstützen. Die neuen Techniken finden großen Anklang bei Geschäftsanwendern, die herkömmliche Tools eher als umständlich empfinden. Was geschieht nun, wenn Abfragen Minuten oder gar Stunden in Anspruch nehmen, anstatt nur wenige Sekunden? Wie lässt sich der „Flow“ erhalten?

Wir leben in einem Zeitalter, in dem Millionen oder sogar Milliarden von Datenzeilen per Tastendruck analysiert werden können – wobei die Benutzer nahezu sofortige Ergebnisse erwarten. Dauert die Spanne zwischen Eingabe und Antwort länger als 2 oder 3 Sekunden, ist der Benutzer schon abgelenkt und nicht mehr im „Flow der visuellen Analyse“. Deshalb sind schnelle Abfragen ein absolutes Muss, damit der Benutzer bei der Sache bleibt und umfassendere Einblicke durch die Big Data-Bereitstellungen gewinnt.

Anwender können zahlreiche Best Practices anwenden, um effizientere Tableau-Visualisierungen und Dashboards zu erstellen, die auf Big Data-Plattformen aufbauen. Die Best Practices sind in der Regel den folgenden fünf Bereichen zuzuordnen:

  1. Nutzung einer schnellen interaktiven Abfrage-Engine
  2. Strategischer Einsatz von Direktverbindungen anstelle von Extrakten
  3. Zusammenstellen der Daten aus dem Datensee
  4. Optimieren der Extrakte
  5. Anpassen der Verbindungsleistung

Hier können Sie ersten Seiten des Whitepapers lesen. Auf der rechten Seite können Sie das vollständige Whitepaper herunterladen.


1. Nutzung einer schnellen interaktiven Abfrage-Engine

Über Hadoop mit MapReduce ausgeführte Hive-Abfragen sind naturgemäß langsam, da die Zuordnung von SQL-Abfragen in einen MapReduce-Auftrag aufwändig ist. Hive mit MapReduce eignet sich dank außerordentlicher Fehlertoleranz hervorragend zur Stapelverarbeitung, wie z. B. bei ETL-Anwendungen, allerdings lässt die Leistung zu wünschen übrig. Durch Weiterentwicklungen bei Hive sind neue Anwendungs-Frameworks wie Tez (für interaktive Abfragen) und Spark (für In-Memory-Verarbeitung) entstanden und verbessern die Abfragegeschwindigkeiten erheblich.

Abgesehen von Hive mit Hadoop gibt es eine Reihe von ausgezeichneten Möglichkeiten zum Beschleunigen Ihrer Abfragen. Laut neuester Benchmarks bietet Impala gemeinhein die schnellste Performance mit Hadoop. Auch wenn Spark SQL noch in einer frühen Entwicklungsphase steckt, zeigt sich sein großes Potenzial als schnelle Datenverarbeitungs-Engine. Es kann in Hadoop oder Spark Schema RDDs gespeicherte Daten verarbeiten, auf die mit einem Hive-Metastore verwiesen wird. Impala und Spark SQL werden als benannte Konnektoren in Tableau unterstützt. Beim Thema Leistung von Hadoop werden auch immer wieder Pivotal HAWQ, Presto und Apache Drill genannt.

Eine weitere Option ist der Blick über Hadoop hinaus. Schnelle analytische Datenbanken wie Actian Vector, HP Vertica, Teradata Aster Data, SAP Hana, ParAccel, Pivotal Greenplum eignen sich perfekt, um Ihre Daten für latenzarme Abfragen von Tableau-Geschäftsanwendern nach der Verarbeitung in Hadoop bereitzustellen. Auch in der Cloud gehostete Infrastrukturdienste erfreuen sich steigender Beliebtheit. Google BigQuery nutzt die umfassende Infrastruktur von Google, die sowohl bei der Verarbeitung von Daten als auch bei der Unterstützung schneller Abfragen äußerst leistungsstark ist, insbesondere bei großen Datensätzen. Amazon Redshift ist hingegen ein vollständig verwaltetes, spaltenbasiertes Data Warehouse, das auf einen schnellen Datenzugriff ausgerichtet ist. Zudem gibt es noch neu entstehende Technologien von Startup-Unternehmen und Open-Source-Projekten, die OLAP Cubes (AtScale, eBay Kylin) oder Indizierungs-Engines (JethroData) für Hadoop nutzen und so Abfragen für einer Milliarde Zeilen oder mehr bei geringer Latenz ermöglichen.

2. Strategischer Einsatz von Direktverbindungen anstelle von Extrakten

Die hybride Datenarchitektur von Tableau stellt Verbindungen entweder live mit der Datenquelle oder über einen In-Memory-Extrakt mit der Daten-Engine von Tableau her. Dadurch erhalten Benutzer bei der Arbeit mit Big Data eine absolute Flexibilität. Extrakte sind eine ideale Lösung, wenn schnelle Abfrage-Engines nicht verfügbar sind, die Datensätze eine geringe bis mittlere Größe aufweisen (Hunderte Millionen von Zeilen oder weniger) oder eine Offline-Analyse benötigt wird. Bei größeren Datensätzen bieten Hadoop Hive und andere Abfrage-Engines aufgrund der verteilten Ausführung eine bessere Skalierung als Tableau. Bei Verfügbarkeit einer schnellen Datenbank-Engine oder für Analysen in Echtzeit ist eine Direktverbindung die bessere Wahl.

Möchten Sie weiterlesen? Hier das ganze Whitepaper herunterladen!

Weiterlesen …

Das könnte Sie auch interessieren ...