Los datos “sucios” tienen consecuencias: Cómo solucionar los problemas más comunes de preparación de datos

Si alguna vez analizó datos, conoce la desagradable sensación de profundizar en ellos y luego descubrir que están “sucios”; es decir, tienen una estructura incorrecta, numerosas imprecisiones o simplemente están incompletos. En ese caso, se ve obligado a solucionar los problemas desde Excel o formular cálculos complejos para poder responder una pregunta simple. La preparación de datos es el proceso de dejar los datos listos para el análisis. Incluye las tareas de descubrimiento, transformación y limpieza de datos, y se trata de una parte fundamental del flujo de análisis.

Incluso aquellas personas que no realizan directamente la preparación de datos se ven afectadas por los “datos sucios”. La cantidad de tiempo y energía necesarios para transformar datos inconexos en información útil conlleva análisis ad hoc ineficaces y una pérdida de confianza en los datos de la organización. Estos procesos lentos pueden derivar en la pérdida de oportunidades e ingresos. De hecho, un estudio de Gartner indica que el “impacto financiero promedio de una mala calidad de los datos en las organizaciones es de USD 9,7 millones por año”.1

Por qué hay “datos sucios”

En el afán por eliminar los “datos sucios”, las empresas están creando catálogos de datos y glosarios. Pero incluso con estas prácticas, es probable que continúen apareciendo “datos sucios” en las operaciones cotidianas. Los “datos sucios” surgen generalmente por los siguientes motivos:

human error image

1. Error humano

De acuerdo con Experian, esta es la causa más común de generación de “datos sucios”. Esto puede deberse a la variabilidad en las formas de insertar los datos o la introducción manual de datos en hojas de cálculo por parte de los empleados. Incluso un error de ortografía podría ocasionar un problema en el momento de analizar los datos.

disparate systems image

2. Sistemas diferentes

Las organizaciones suelen almacenar los datos en sistemas diversos con diferentes estructuras, requisitos y agregaciones. A la hora de integrar estos datos, los analistas se encuentran con campos duplicados o faltantes, o bien una falta de coherencia entre las etiquetas. También es posible que los campos y valores tengan el mismo significado, pero diferentes nombres o valores en los distintos sistemas.

hanging data requirements image

3. Cambios de requisitos

A medida que las empresas evolucionan, los administradores e ingenieros de datos deben realizar modificaciones en los datos. Estas pueden incluir cambios en la granularidad, eliminación de campos que ya no se utilizan o introducción de nuevos campos si fuera necesario. A menudo, los analistas no están al tanto de los cambios hasta el momento de trasladar los datos a una plataforma de BI de autoservicio o una herramienta de preparación de datos.

Cuatro problemas comunes de la preparación de datos y cómo resolverlos

01

Problema: Los procesos son poco flexibles y llevan mucho tiempo. Por ende, no siguen el ritmo de la demanda.

De acuerdo con los analistas, la mayor parte de su trabajo consiste en limpiar los datos y darles forma, en lugar de llevar a cabo análisis. Esto puede suceder tanto con un proceso de preparación de datos como con las herramientas de preparación de datos de autoservicio o las hojas de cálculo de soluciones como Microsoft Excel. Cada vez que se reciben nuevos datos, los analistas deben repetir las tareas de preparación manuales a fin de ajustar la estructura de los datos y limpiarlos para el análisis. En última instancia, esto da lugar a un despilfarro de recursos y un mayor riesgo de error humano.

El resultado no es solo frustración a causa de los datos desordenados. Tanto analistas como usuarios corporativos tienen problemas para acceder a los datos que necesitan. Tradicionalmente, la preparación de datos ha sido responsabilidad del departamento de TI. Además, solo ciertos equipos tienen la capacidad de preparar e incorporar nuevas fuentes de datos en un almacén de datos centralizado. Quienes no disponen de esta capacidad realizan sus propios procesos de preparación de datos en programas como Excel. De lo contrario, deben esperar a que otro equipo realice la tarea por ellos.
issue one image of a clock and papers


SOLUCIÓN: Desarrollar procesos ágiles con las herramientas adecuadas

Adopte el concepto de preparación de datos de autoservicio: Muchas organizaciones están adoptando soluciones de preparación de datos de autoservicio para la exploración y la creación de prototipos. Las herramientas de preparación de datos de autoservicio delegan el poder en manos de las personas que mejor conocen los datos. De esta manera, se democratiza el proceso de preparación de datos y se reduce la carga sobre el equipo de TI.

Gracias a las herramientas de preparación de datos de autoservicio, los analistas pueden llevar a cabo ellos mismos las tareas de limpieza de datos ad hoc en lugar de esperar en fila mientras las completa otro equipo. Esto representa un valor agregado.

Desarrolle los procesos para que sean más ágiles e iterativos: Cada organización tiene necesidades específicas. No existe un enfoque único de preparación de datos que se adapte a todas las empresas. Sin embargo, a la hora de elegir una herramienta de preparación de datos de autoservicio, las organizaciones deberán considerar cómo esta convertirá las tareas en procesos más iterativos y ágiles en lugar de crear nuevas barreras para la introducción de datos. Las personas tendrán un mayor deseo de preparar y entender los datos si pueden ver el impacto que tiene su preparación de datos. Jason Harmer, consultor de la compañía de seguros Nationwide, explicó: “A través de la preparación de datos visual, las personas pueden ver todo el proceso y detectar de manera temprana los errores potenciales. Esto incluye, por ejemplo, errores de ortografía, espacios adicionales o cláusulas de unión incorrectas. Asimismo, ayuda a aumentar la confianza en el análisis final”.

02

Problema: La preparación de datos requiere un amplio conocimiento de los datos de la organización

Antes de preparar los datos, es fundamental entender su ubicación, estructura y composición. También deben conocerse los detalles de granularidad, como definiciones de campos. Algunas personas hacen referencia a este proceso como “descubrimiento de datos”; se trata de un elemento esencial de la preparación de datos. No solemos iniciar un viaje largo sin conocer el destino. Esta misma lógica se aplica a la preparación de datos.

El surgimiento de la BI de autoservicio simplificó el descubrimiento de datos para los usuarios corporativos. Les proporcionó un mayor conocimiento de la estructura y el contenido de sus conjuntos de datos existentes. Sin embargo, debido a los silos de información, estos usuarios no siempre pueden disponer de una visión completa de los datos de la organización. Esto puede incluir los propios datos, su ubicación o su definición. La confusión en torno a las definiciones de datos, por ejemplo, puede dificultar los análisis. Incluso puede dar lugar a análisis imprecisos en toda la empresa.
issue two image of magnifying glass on a calendar

Solución: Crear estándares de definición de datos para toda la empresa

Las herramientas de preparación de datos visuales y de autoservicio permiten a los analistas profundizar en los datos. Así pueden entender su estructura y ver las relaciones que existen entre las tablas. La capacidad de entender el perfil de los datos permite a los analistas detectar valores inesperados que requieren una limpieza. Esta tecnología aporta claridad a los datos. No obstante, las personas necesitan el soporte de otros miembros de la empresa para entender detalles, como las definiciones de campos.

Cree un diccionario de datos: Una manera de estandarizar las definiciones de datos en toda la organización es la creación de un diccionario. Un diccionario de datos ayuda a los analistas a entender cómo se usan los términos en cada aplicación empresarial. Les muestra qué campos son relevantes para el análisis frente a los que solo están basados en el sistema. Brian Davis, ingeniero de proyectos de una empresa de energía, afirma que los diccionarios de datos son una herramienta “de valor incalculable”.

Continúe con la iteración y la innovación: La creación de un diccionario de datos no es una tarea simple. Los administradores de datos y los expertos en la materia deben comprometerse con la iteración continua y las revisiones a medida que cambian los requisitos.2 Si el diccionario está desactualizado, la estrategia de datos de la organización puede verse perjudicada. La comunicación y la propiedad deben formar parte del proceso desde el comienzo. Estos elementos ayudan a determinar dónde debe residir el glosario, y con qué frecuencia se debe actualizar o redefinir.

Material de lectura adicional

Cinco prácticas recomendadas para ordenar los datos

Entienda el alcance de sus datos para acelerar el proceso de preparación.

Tableau Data Management

Confianza, visibilidad y gobernanza para el análisis de autoservicio escalable.

03

Problema: El concepto de “datos limpios” es subjetivo

Los distintos equipos tienen diferentes requisitos y preferencias en relación con qué constituye datos “bien estructurados”. Por ejemplo, los administradores de base de datos y los ingenieros de datos priorizan la forma en que se almacenan los datos y se accede a ellos. Se pueden incorporar columnas exclusivamente para su uso por parte de la base de datos, no de las personas. Cuando un ingeniero crea un almacén de datos específicamente para el análisis, prioriza las principales métricas que responden la mayoría de las preguntas del negocio. Si la información que necesitan los analistas de datos no se encuentra aún en el conjunto de datos, es posible que deban ajustar agregaciones o incorporar fuentes externas. Esto puede dar lugar a silos o imprecisiones en los datos.

Cathy Bridges, desarrolladora de Tableau en SCAN Health Plan, explicó que los analistas con frecuencia deben volver atrás y actualizar un conjunto de datos que otro equipo ya ha limpiado. “Incorporar columnas adicionales puede ser un proceso largo y arduo. Por ejemplo, si necesito conocer los valores totales en lugar de un desglose, debo duplicar las fuentes de datos. Esta tarea puede ser difícil”.


issue three image of one person saying 'six' and one saying 'nine'

Solución: Delegar el poder en manos de los expertos de datos

La preparación de datos de autoservicio brinda a los analistas la posibilidad de retocar los conjuntos de datos de una forma adecuada para sus análisis. De esta manera, logran análisis ad hoc más rápidos y pueden responder las preguntas a medida que surgen. También reduce para el equipo de TI la carga de tener que reestructurar los datos cada vez que surge una pregunta inesperada. Esto también puede reducir la cantidad de esfuerzos duplicados, ya que otros analistas pueden reutilizar estos modelos. Si los conjuntos de datos son valiosos a gran escala, puede combinarlos para formar un conjunto canónico en el futuro.

Una herramienta de preparación de datos debe incluir las preguntas únicas de los analistas, pero también las repetidas.

04

Problema: La realidad oculta de los silos de preparación de datos

Las herramientas de preparación de datos avanzadas pueden ser complejas. Esto significa que esta capacidad suele estar restringida a un número limitado de usuarios avanzados. No obstante, aunque los analistas y los usuarios corporativos no tengan acceso a las herramientas de preparación de datos, no significa que no realicen esas tareas con otras aplicaciones. Las herramientas de inteligencia de negocios de autoservicio extendieron las capacidades de análisis de datos a los usuarios de todos los niveles. Sin embargo, estos usuarios aún necesitan del equipo de TI para acceder a datos bien estructurados y obtener información a partir de ellos.

En lugar de esperar días o meses para poder acceder a los datos, los usuarios los extraen de los sistemas y los preparan en hojas de cálculo. El resultado es un conjunto de datos con una nueva estructura que satisface un propósito único. Los departamentos con frecuencia tienen que duplicar las tareas sin siquiera saberlo. Este proceso lleva a una abundancia de silos de datos que no son eficientes, escalables ni gobernados.

Cuantos más silos tenemos, más interpretaciones posibles de los datos existen. Esto genera desconfianza.

issue four groups of people

Solución: Crear coherencia y colaboración en el proceso de preparación de datos

Elimine los silos mediante la colaboración: Un estudio del Business Application Research Center (BARC) reveló que las empresas que estaban más satisfechas con sus procesos de preparación de datos eran aquellas que “habían convertido la preparación de datos en una tarea compartida entre el equipo de TI y los departamentos de la empresa”.

Ayude a los analistas a descubrir las sutilezas de los datos: La adopción de la preparación de datos de autoservicio en toda la organización requiere que los usuarios entiendan los detalles de los datos. Históricamente, estos conocimientos solo pertenecían a los miembros del equipo de TI y los ingenieros de datos. Por eso, es fundamental que los analistas dediquen tiempo a aprender las sutilezas de los datos, como la granularidad y cualquier transformación que haya sufrido el conjunto de datos. La programación de revisiones periódicas o un flujo de trabajo estandarizado para las preguntas permite a los ingenieros compartir la forma más actualizada de realizar consultas y trabajar con datos válidos. Al mismo tiempo, brinda a los analistas la capacidad de preparar los datos con mayor celeridad y confianza.

1. Gartner, Smarter with Gartner, How to Create a Business Case for Data Quality Improvement (Cómo crear un caso de negocios para mejorar la calidad de los datos). 9 de enero de 2017, https://www.gartner.com/smarterwithgartner/how-to-create-a-business-cas….

2. TDWI, TDWI Upside, Five Key Elements Your Data Governance Business Glossary May Be Missing (Cinco elementos clave que podrían faltar en su glosario de gobernanza de datos). 16 de febrero de 2016, https://tdwi.org/articles/2016/02/16/data-governance-glossary-missing-e….