Los datos “sucios” tienen consecuencias: Cuatro soluciones a los problemas más comunes de preparación de datos

Si alguna vez analizó datos, conoce la sensación de profundizar en ellos y luego descubrir que tienen una estructura incorrecta o numerosas imprecisiones, o que simplemente están incompletos. En ese caso, se ve obligado a solucionar los problemas desde Excel o escribir cálculos complejos para poder responder una pregunta simple.

La preparación de datos es el proceso de dejar los datos listos para el análisis. Incluye las tareas de descubrimiento de datos, transformación y limpieza. Se trata de una parte fundamental del flujo de trabajo de análisis. De acuerdo con un artículo publicado en Harvard Business Review, las personas dedican el 80 % de su tiempo a preparar los datos y solo el 20 % a analizarlos. Y esta estadística no se limita solo a los administradores de datos. Las tareas de preparación de datos se han incorporado a la labor de los analistas y también de usuarios corporativos sin conocimientos técnicos.

Incluso aquellas personas que no realizan la preparación de datos se ven afectadas por el impacto de los “datos sucios”. La cantidad de tiempo y energía necesarios para transformar datos inconexos en información útil trae como resultado análisis ad hoc ineficaces y una pérdida de confianza en los datos de la organización. Estos procesos lentos pueden derivar en la pérdida de oportunidades e ingresos. De hecho, una investigación de Gartner indica que el “impacto financiero promedio de una mala calidad de los datos en las organizaciones es de USD 9,7 millones por año”.1

Por qué hay “datos sucios”

En el afán de eliminar los “datos sucios”, las empresas están creando catálogos de datos y glosarios. Pero incluso con estas prácticas, es probable que continúen apareciendo “datos sucios” en las operaciones cotidianas. Los “datos sucios” surgen por los siguientes motivos:

human error image

1. Error humano

De acuerdo con Experian, esta es la causa más común de generación de “datos sucios”. Los errores pueden surgir de diferentes maneras. Estas incluyen desde la variabilidad en las formas de insertar los datos hasta la introducción manual de datos en hojas de cálculo por parte de los empleados. Incluso un error de ortografía podría ocasionar un problema en el momento de realizar un análisis de los datos.

disparate systems image

2. Sistemas diferentes

Las organizaciones suelen almacenar los datos en sistemas diversos con diferentes estructuras, requisitos y agregaciones. A la hora de integrar estos datos, los analistas se encuentran con campos duplicados o faltantes, o bien una falta de coherencia entre las etiquetas. También es posible que los campos y valores tengan el mismo significado, pero diferentes nombres o valores en los distintos sistemas.

hanging data requirements image

3. Cambios de requisitos

A medida que las empresas evolucionan, los administradores e ingenieros de datos deben realizar modificaciones en los datos. Estas pueden incluir cambios en la granularidad, eliminación de campos que ya no se utilizan o introducción de nuevos campos si fuera necesario. Estos cambios no siempre se comunican a todos los miembros de la empresa. Como consecuencia, es posible que los analistas no estén al tanto de los cambios hasta el momento de trasladar los datos a una plataforma de BI de autoservicio o una herramienta de preparación de datos.

Cuatro problemas comunes de la preparación de datos y cómo resolverlos

01

Problema: Los procesos son poco flexibles y llevan mucho tiempo. Por ende, no siguen el ritmo de la demanda.

issue one image of a clock and papers

De acuerdo con los analistas, la mayor parte de su trabajo consiste en limpiar los datos y darles forma, en lugar de llevar a cabo análisis. Esto puede suceder tanto con un proceso de preparación de datos como con las herramientas de preparación de datos de autoservicio o con las hojas de cálculo de soluciones como Microsoft Excel. Cada vez que se reciben nuevos datos, los analistas deben repetir las tareas de preparación manuales a fin de ajustar la estructura de los datos y limpiarlos para el análisis. En última instancia, esto da lugar al desperdicio de recursos y un mayor riesgo de error humano.

El resultado no es solo frustración a causa de los datos desordenados. Tanto analistas como usuarios corporativos enfrentan dificultades para acceder a los datos que necesitan. Tradicionalmente, la preparación de datos ha sido responsabilidad del departamento de TI. Además, solo ciertos equipos tienen la capacidad de preparar e incorporar nuevas fuentes de datos en un almacén de datos centralizado. Quienes no disponen de esta capacidad realizan sus propios procesos de preparación de datos en programas como Excel. De lo contrario, deben esperar a que otro equipo realice la tarea por ellos. Cathy Bridges, desarrolladora de Tableau en SCAN Health Plan, destacó lo siguiente: “Cuando necesitamos realizar cambios en un conjunto de datos, el proceso puede tomar semanas y, a menudo, hasta meses”.


Solución: Desarrollar procesos ágiles con las herramientas adecuadas

Muchas organizaciones están adoptando soluciones de preparación de datos de autoservicio para la exploración y la creación de prototipos. Las herramientas de preparación de datos de autoservicio ponen el poder en manos de las personas que mejor conocen los datos. De esta manera, se democratiza el proceso de preparación de datos y se reduce la carga sobre el equipo de TI. “El valor agregado de una herramienta de preparación de datos de autoservicio es que todos pueden convertirse en expertos en los datos”, explica Venkatesh Shivanna, administrador de análisis de datos sénior y arquitecto de una popular empresa de videojuegos. “Los analistas pueden llevar a cabo las tareas de limpieza de datos ad hoc ellos mismos en lugar de esperar en fila mientras las completa otro equipo”.

No es posible democratizar realmente el uso de los datos sin ayudar a las personas a entender el proceso de preparación de datos.

Cada organización tiene necesidades específicas. No existe un enfoque único de preparación de datos que se adapte a todas las empresas. Sin embargo, a la hora de elegir una herramienta de preparación de datos de autoservicio, las organizaciones deberían considerar cómo esta convertirá las tareas en procesos más iterativos y ágiles en lugar de crear nuevas barreras para la introducción de datos. Las personas tendrán un mayor deseo de preparar y entender los datos si pueden ver el impacto que tiene su preparación de datos. Jason Harmer, consultor de Nationwide Insurance, explicó: “A través de la preparación de datos visual, las personas pueden ver todo el proceso de manera temprana, incluidos los errores potenciales. Esto incluye, por ejemplo, errores de ortografía, espacios adicionales o cláusulas de unión incorrectas. Asimismo, ayuda a aumentar la confianza en el análisis final”.

02

Problema: La preparación de datos requiere un amplio conocimiento de los datos de la organización

issue two image of magnifying glass on a calendar

Antes de preparar los datos, es fundamental entender su ubicación, estructura y composición. También se debe conocer los detalles de granularidad, como definiciones de campos. Algunas personas se refieren a este proceso como “descubrimiento de datos”, el cual es un elemento esencial de la preparación de datos. No solemos iniciar un viaje largo sin saber el destino. Esta misma lógica aplica a la preparación de datos.

El surgimiento de la BI de autoservicio y la funcionalidad de arrastrar y soltar simplificaron el descubrimiento de datos para los usuarios corporativos. Les proporcionaron un mayor conocimiento de la estructura y el contenido de sus conjuntos de datos existentes. Debido a los silos de información, estos usuarios no siempre pueden ver el panorama completo de los datos de la organización. Esto puede incluir la ubicación de los datos y cómo acceder a ellos. La confusión en torno a las definiciones de datos, por ejemplo, puede dificultar los análisis. Incluso puede dar lugar a análisis imprecisos en toda la empresa. Por ejemplo, si una persona quiere analizar los datos de clientes, quizás descubra que el equipo de marketing tiene una definición distinta de la que maneja el departamento de finanzas sobre qué constituye un “cliente”.


Solución: Crear estándares de definición de los datos para toda la empresa

Las herramientas de preparación de datos visuales y de autoservicio permiten a los analistas profundizar en los datos. Así pueden entender su estructura y ver la relación que existe entre las tablas. La capacidad de entender el perfil de los datos permite a los analistas detectar valores inesperados que requieran una limpieza. Esta tecnología aporta claridad a los datos. No obstante, las personas necesitan el soporte de otros miembros de la empresa para entender detalles, como definiciones de campos.

Una manera de estandarizar las definiciones de datos en toda la organización es la creación de un diccionario. Un diccionario de datos ayuda a los analistas a entender cómo se usan los términos en cada aplicación empresarial. Les muestra qué campos son relevantes para el análisis frente a los que solo están basados en el sistema. Brian Davis, ingeniero de proyecto de una empresa de energía, afirma que los diccionarios de datos son una herramienta “invaluable”.

Con frecuencia, debo combinar datos contables con los datos de los técnicos de campo. La capacidad de definir los datos iniciales con campos calculados da lugar a la generación de análisis más precisos. Asimismo, reduce la cantidad de tiempo perdido en determinar qué campo o tabla se debe usar.

La creación de un diccionario de datos no es una tarea simple. Los administradores de datos y los expertos en la materia deben comprometerse con la iteración continua y las verificaciones a medida que cambian los requisitos.2 Si el diccionario está desactualizado, puede perjudicar la estrategia de datos de la organización. La comunicación y la propiedad deben formar parte del proceso desde el comienzo. Estos elementos ayudan a determinar dónde debe estar el glosario, y con qué frecuencia se debe actualizar o redefinir.

03

Problema: El concepto de “datos limpios” es subjetivo

issue three image of one person saying 'six' and one saying 'nine'

Los distintos equipos tienen diferentes requisitos y preferencias con relación a qué constituye datos “bien estructurados”. Por ejemplo, los administradores de base de datos y los ingenieros de datos priorizan la forma en que se almacenan los datos y se accede a ellos. Se pueden incorporar columnas exclusivamente para su uso por parte de la base de datos, no de los humanos. Cuando un ingeniero crea un almacén de datos específicamente para el análisis, prioriza las principales métricas que responden la mayoría de las preguntas del negocio. Si la información que necesitan los analistas de datos aún no está en el conjunto de datos, es posible que deban ajustar las agregaciones o incorporar fuentes externas. Esto puede dar lugar a silos o imprecisiones en los datos.

Cathy Bridges, desarrolladora de Tableau en SCAN Health Plan, explicó que los analistas con frecuencia deben volver atrás y actualizar un conjunto de datos que otro equipo ya ha limpiado. “Incorporar columnas adicionales puede ser un proceso largo y arduo. Por ejemplo, si necesito conocer los valores totales en lugar de un quiebre, debo duplicar las fuentes de datos. Esta tarea puede ser difícil”.


Solución: Colocar el poder en manos de los expertos en datos

La preparación de datos de autoservicio brinda a los analistas la posibilidad de retocar los conjuntos de datos de una forma adecuada para sus análisis. De esta manera, logran análisis ad hoc más rápidos y pueden responder las preguntas a medida que surgen. También reduce para el equipo de TI la carga de tener que reestructurar los datos cada vez que surja una pregunta inesperada. Esto también pueden reducir los esfuerzos duplicados, ya que otros analistas pueden reutilizar estos modelos. Si los conjuntos de datos son valiosos a gran escala, puede combinarlos para formar un conjunto canónico en el futuro.

Una herramienta de preparación de datos debe incluir las preguntas únicas de los analistas, pero también las repetidas. Cuando desarrollo la lógica, se guarda en un archivo en algún lugar. La próxima vez, puedo abrir ese mismo archivo, volver a consultar esas fuentes de datos y empezar desde donde abandoné el flujo de trabajo.

04

Problema: La realidad oculta de los silos de preparación de datos

issue four groups of people

Las herramientas de preparación de datos avanzadas pueden ser complejas. Ello significa que esta capacidad suele estar restringida a un número limitado de usuarios avanzados. No obstante, incluso si los analistas y los usuarios corporativos no tienen acceso a las herramientas de preparación de datos, no significa que no realicen esas tareas en otras aplicaciones. Las herramientas de inteligencia de negocios de autoservicio extendieron las capacidades de análisis de datos a los usuarios de todos los niveles. Sin embargo, estos usuarios aún necesitan del equipo de TI para acceder a datos bien estructurados y obtener información a partir de ellos. En lugar de esperar días o meses para poder acceder a los datos, los usuarios los extraen de los sistemas y los preparan en hojas de cálculo. El resultado es un conjunto de datos con una nueva estructura que satisface un propósito único. Los departamentos con frecuencia tienen que duplicar los esfuerzos sin siquiera saberlo. Este proceso lleva a una abundancia de silos de datos, que no son eficientes, escalables ni gobernados.

Incluso las personas que no están familiarizadas con el término “preparación de datos” están preparando datos en programas como Excel. Cuantos más silos tenemos, más interpretaciones posibles de los datos hay. Esto genera desconfianza en los datos.


Solución: Crear coherencia y colaboración en el proceso de preparación de datos

La eliminación de los silos comienza con la colaboración. Una investigación de Business Application Research Center (BARC) demostró que las empresas que estaban más satisfechas con sus procesos de preparación de datos eran aquellas que “habían convertido a la preparación de datos en una tarea compartida entre el equipo de TI y los departamentos de negocios”.

La adopción de la preparación de datos de autoservicio en toda la organización requiere que los usuarios entiendan los detalles de los datos. Históricamente, estos conocimientos solo pertenecían a los miembros del equipo de TI y los ingenieros de datos. Por eso, es fundamental que los analistas dediquen tiempo a aprender las sutilezas de los datos, como la granularidad y cualquier transformación que haya atravesado el conjunto de datos. La programación de revisiones periódicas o un flujo de trabajo estandarizado para las preguntas permite a los ingenieros compartir la forma más actualizada de realizar preguntas y trabajar con datos válidos. Al mismo tiempo, brinda a los analistas la capacidad de preparar los datos con mayor celeridad y confianza.



Elimine las dificultades de la preparación de datos

Probar Tableau Prep

1. Gartner, Smarter with Gartner, How to Create a Business Case for Data Quality Improvement (Cómo crear un caso de negocios para mejorar la calidad de los datos). 9 de enero de 2017, https://www.gartner.com/smarterwithgartner/how-to-create-a-business-case....

2. TDWI, TDWI Upside, Five Key Elements Your Data Governance Business Glossary May Be Missing (Cinco elementos clave que podrían faltar en su glosario de gobernanza de datos). 16 de febrero de 2016, https://tdwi.org/articles/2016/02/16/data-governance-glossary-missing-el....

También podría interesarle...