Comprensión de las extracciones de datos de Tableau

Esta es la primera publicación de una serie de tres publicaciones que tomarán una gran cantidad de información acerca de las extracciones de datos de Tableau, la comprimirán significativamente y la colocarán en la memoria, su memoria.

Esta es la primera publicación de una serie de tres publicaciones que tomarán una gran cantidad de información acerca de las extracciones de datos de Tableau, la comprimirán significativamente y la colocarán en la memoria, su memoria.

O mejor aún, pondrán esa información a su disposición para que tome lo que necesite en este momento y pueda volver a consultarla cuando desee saber más. Eso se parece más al enfoque que reconoce la arquitectura usado por el veloz motor de datos en memoria de Tableau para el análisis y el descubrimiento.

¿Qué es una extracción de datos de Tableau (TDE)?

Una extracción de datos de Tableau es una instantánea comprimida de los datos almacenados en el disco y cargados en la memoria de acuerdo a lo requerido para representar una visualización en Tableau. Esa es una definición válida. Sin embargo, la historia completa es mucho más interesante y contundente.

Hay dos aspectos del diseño de las TDE que las hacen ideales para respaldar análisis y descubrimiento de datos. El primero es que una TDE es un almacén en columnas. No ahondaré en los almacenes en columnas, hay muchos documentos buenos que ya lo hacen, como este.

No obstante, al menos establezcamos la noción común de que las bases de datos en columnas almacenan valores de columnas juntos en vez de valores de filas. En consecuencia, reducen significativamente las entradas y salidas requeridas para acceder a los valores de una columna y agregarlos. Eso es lo que las hace ideales para el análisis y el descubrimiento de datos

Figura 1: Un almacén en columnas permite operar rápidamente con los valores de cualquier columna

Figura 1: Un almacén en columnas permite operar rápidamente con los valores de cualquier columna

El segundo aspecto clave del diseño de las TDE es su estructura, que afecta el modo en que estas se cargan en memoria y el modo en que Tableau las usa. Esto es crucial para el “reconocimiento de la arquitectura” por parte de las TDE. Básicamente, reconocer la arquitectura significa que las TDE usan toda la memoria de su computadora, desde la memoria RAM hasta el disco duro, y ponen cada parte de ella a trabajar de la manera que mejor se ajuste a sus características.

Para comprender mejor este aspecto de las TDE, examinaremos el proceso de creación de una TDE y la forma en que esta se usa como fuente de datos para una o más visualizaciones.

Cuando Tableau crea una extracción de datos, primero define su estructura y crea archivos individuales para cada columna de la fuente subyacente. (Por este motivo es conveniente minimizar el número de columnas de la fuente de datos seleccionada para la extracción).

Cuando Tableau recupera los datos, ordena, comprime y agrega los valores de cada columna en sus respectivos archivos. En la versión 8.2, el ordenamiento y la compresión ocurren en una parte más temprana del proceso que en versiones anteriores, lo que acelera la operación y reduce la cantidad de espacio temporal del disco usado para la creación de la extracción.

Los usuarios suelen preguntar si las TDE se descomprimen al momento de cargarse en la memoria. La respuesta es no. La compresión usada para reducir los requisitos de almacenamiento de las TDE para que sean más eficaces no es la compresión de archivos.

En realidad, se usan varias técnicas diferentes, incluidas la compresión por diccionario (mediante la cual valores comunes de columnas se reemplazan por valores token más pequeños), la codificación RLE, la codificación de marco de referencia y la codificación delta (puede encontrar más información acerca de estas técnicas de compresión aquí). Sin embargo, también puede usar la antigua compresión de archivos para reducir aún más el tamaño de las TDE, si planifica enviarlas por correo electrónico o almacenar copias en alguna ubicación remota.

Figura 2: Técnicas de compresión

Figura 2: Las técnicas de compresión se usan para optimizar aún más el almacenamiento en columnas de las TDE; cada columna se convierte en un archivo asignado en memoria del almacén de TDE

Para completar la creación de una TDE, se combinan archivos de columnas individuales con metadatos a fin de formar un archivo asignado en memoria; o, más precisamente, un único archivo que contiene tantos archivos individuales asignados en memoria como el número de columnas de la fuente de datos subyacente. Este es un habilitador clave del reconocimiento de la arquitectura cuidadosamente diseñada. (Y aún si el término le resulta desconocido, usted conoce los archivos asignados en memoria. Son característicos de cualquier sistema operativo (SO) moderno. Obtenga más información acerca de ellos aquí).

Como las TDE son archivos asignados en memoria, cuando Tableau solicita datos de una TDE, el sistema operativo carga los datos directamente en la memoria. Tableau no necesita abrir, procesar ni descomprimir la TDE para comenzar a usarla. De ser necesario, el sistema operativo continúa poniendo datos en la memoria RAM y quitándolos de ella para garantizar que todos los datos solicitados estén disponibles para Tableau. Este es un punto clave, ¡significa que Tableau puede hacer consultas a conjuntos de datos más grandes que la memoria RAM disponible en un equipo!

Solo los datos de las columnas solicitadas se cargan en la memoria RAM. También hay otras optimizaciones más sutiles. Por ejemplo, una optimización típica en el nivel del SO consiste en reconocer cuando el acceso a los datos en un archivo asignado en memoria es contiguo y, como resultado, hacer una lectura anticipada para incrementar la velocidad de acceso. El SO también carga los archivos asignados en memoria solo una vez, independientemente de la cantidad de usuarios o visualizaciones que accedan a ellos.

Dado que se debe cargar todo el contenido de las TDE en memoria para que estas puedan usarse, los requisitos de hardware (y, por ende, los costos) de una implementación de Tableau Server se mantienen en un nivel razonable.

Por último, el reconocimiento de la arquitectura no se detiene en la memoria; las TDE admiten Mac OS X y Linux OS, además de Windows, y son compatibles con 32 y 64-bit. Es casi imposible que encuentre mejores motores de datos veloces en memoria. Si le interesa, puede leer acerca de otras importantes tecnologías revolucionarias de Tableau aquí.

Ahora que comprende por qué las TDE son un avance técnico tan importante, estamos listos para enfocarnos en los motivos por los cuales es conveniente usarlas y algunos ejemplos de aplicaciones específicas. Trataremos estos temas en el próximo artículo de esta serie de tres publicaciones.