5 prácticas recomendadas para Tableau y Hadoop


Resumen | Lo que aprenderá: 

Tableau está diseñado para favorecer las conversaciones con datos en tiempo real y en múltiples plataformas. Los usuarios corporativos que alguna vez sintieron que las herramientas tradicionales obstaculizaban su trabajo adoptaron este modus operandi. Pero, ¿qué sucede cuando las consultas se responden después de horas o minutos en lugar de unos segundos? ¿Puede mantenerse su “flujo”?

Vivimos en una era en la que las personas pueden analizar millones o incluso miles de millones de filas de datos y los usuarios esperan obtener resultados casi al instante. Cuando los tiempos de respuesta y las interacciones del usuario tardan más de 2-3 segundos, este se distrae del “flujo del análisis visual”. Por lo tanto, es fundamental proporcionar rápidas velocidades de consulta para que los usuarios se mantengan interesados y obtengan más información de sus implementaciones de big data.

Los usuarios pueden aplicar distintas prácticas recomendadas para maximizar el rendimiento de sus visualizaciones y dashboards de Tableau en plataformas de big data. La gran mayoría de las prácticas recomendadas se relacionan con las cinco actividades siguientes:

  1. Aprovechamiento de un rápido motor de consulta interactiva
  2. Uso estratégico de conexiones en vivo y extracciones
  3. Ajuste de los datos procedentes del mar de datos
  4. Optimización de las extracciones
  5. Personalización del rendimiento de la conexión

También le ofrecemos las primeras páginas del informe para que las lea. Descargue el PDF de la derecha para leer el resto.


1. Aprovechamiento de un rápido motor de consulta interactiva

Las consultas de Hive ejecutadas en Hadoop con MapReduce son intrínsecamente lentas debido a la sobrecarga asociada con el mapeo de las consultas SQL en los trabajos de MapReduce. Hive en MapReduce es magnífico para el procesamiento en lotes, como el de aplicaciones de extracción, transformación y carga (ETL), porque presenta una gran tolerancia a errores; sin embargo, su rendimiento no es muy satisfactorio. Las mejoras de Hive introducen nuevos marcos de trabajo para las aplicaciones, como Tez (posibilita las consultas interactivas) y Spark (permite el procesamiento en memoria), que incrementan significativamente las velocidades de consulta.

Además de Hive en Hadoop, existen muchas opciones magníficas para acelerar sus consultas. Según pruebas comparativas recientes, Impala es ampliamente considerado como el motor más rápido en Hadoop. Y, aunque se encuentra en las primeras etapas de desarrollo, Spark SQL mostró un gran potencial para convertirse en un rápido motor de procesamiento de datos. Puede procesar datos almacenados en Hadoop o SchemaRDD de Spark a los que se hace referencia mediante un almacén de metadatos de Hive. Tanto Impala como Spark SQL son conectores reconocidos y admitidos por Tableau. Pivotal HAWQ, Presto y Apache Drill son otras tecnologías que suelen mencionarse en debates acerca del rendimiento en Hadoop.

Otra alternativa es considerar opciones fuera de Hadoop. Bases de datos de análisis rápidas, como Actian Vector, HP Vertica, Teradata Aster Data, SAP Hana, ParAccel, Pivotal Greenplum y otras, pueden ser muy útiles a fin de hospedar datos para consultas de baja latencia de los usuarios corporativos de Tableau después del procesamiento en Hadoop. Asimismo, los servicios de infraestructura hospedados en la nube son cada vez más populares. Google BigQuery saca partido de la infraestructura masiva de Google, que destaca en el procesamiento de datos y la habilitación de consultas rápidas, especialmente en grandes conjuntos de datos. Por otro lado, Amazon Redshift es un almacén de datos en columnas completamente administrado que se centra en el acceso rápido a los datos. Finalmente, existe un grupo de tecnologías emergentes de proyectos nuevos y proyectos de código abierto que usan cubos OLAP (AtScale, eBay Kylin) o motores de indexación (JethroData) para Hadoop y proporcionan la capacidad de hacer consultas a mil millones de filas o más con baja latencia.

2. Uso estratégico de conexiones en vivo y extracciones

La arquitectura de datos híbrida de Tableau para la conexión a una fuente de datos en vivo o al motor de datos de Tableau mediante una extracción en memoria proporciona a los usuarios una gran flexibilidad para trabajar con big data. Las extracciones son ideales para situaciones en las que los motores de consulta rápidos no están disponibles, los conjuntos de datos son pequeños o medianos (cientos de millones de filas o menos), o el análisis sin conexión es necesario. Para conjuntos de datos más grandes, Hadoop Hive y otros motores de consulta presentan una mejor escalabilidad que Tableau debido a su ejecución distribuida. Además, cuando hay un motor de base de datos rápido o se requiere un análisis en tiempo real, una conexión en vivo es la mejor opción.

¿Desea seguir leyendo? Descargue el resto del informe.

Continuar leyendo...

También podría interesarle...