Les données non filtrées représentent un coût pour votre entreprise : quatre solutions aux problèmes courants relatifs à la préparation de données

Si vous avez déjà analysé des données, vous savez combien ce travail peut être délicat lorsqu'elles sont mal structurées, inexactes ou tout simplement incomplètes. Elles entravent alors le processus d'analyse et entraînent, par exemple, un long travail de décryptage avant de pouvoir répondre à une question simple.

Préparer des données consiste à les organiser de façon optimale afin de les analyser. Ce processus inclut des étapes de découverte, de transformation et de nettoyage, et il constitue un pan crucial du travail analytique. Un article publié récemment dans le magazine Harvard Business Review révèle que nous passons 80 % de notre temps à préparer des données et seulement 20 % à les analyser. Cette statistique ne s’applique pas uniquement aux gestionnaires de données, elle se vérifie également auprès des analystes et même des particuliers.

Les répercussions de l’analyse de données non filtrées s’étendent au-delà du domaine professionnel. Le temps et l’énergie consacrés à la mise en forme de données exploitables conduisent à des analyses caduques et inefficaces, ainsi qu’au déclin de la fiabilité des données organisationnelles. En d’autres termes, l’analyse de ces données peut être la cause d’opportunités manquées ou encore expliquer une chute des bénéfices. Une étude Gartner révèle d’ailleurs que les « coûts moyens imputables à la mauvaise qualité des données s’élèvent à 9,7 millions de dollars par an. »1

Comment les données non filtrées sont-elles produites ?

Malgré la mise en place de mesures palliatives, comme la création de catalogues ou de glossaires, il est possible que certaines données échappent aux processus de classement et d’organisation. Cette faille s’explique généralement par l’un des trois facteurs suivants :

image erreur humaine

1. L’erreur humaine

Selon Experian, l’erreur humaine constitue la principale source de données non filtrées au sein d’une organisation. Elle se manifeste sous différentes formes – pratiques diverses en matière de saisie des données, erreurs de saisie manuelle, ou encore fautes de frappe – qui sont toutes susceptibles d’entraver le travail d’analyse.

image disparité des systèmes

2. La disparité des systèmes en place

Les entreprises tendent à stocker leurs données dans différents systèmes disparates dont les structures, les exigences et les agrégations varient. L’intégration de données peut alors créer des champs en double, en supprimer ou générer des labels incohérents. Des champs ou des valeurs similaires peuvent également avoir des noms différents selon les systèmes.

image évolution des objectifs

3. L’évolution des objectifs

Lorsqu’une entreprise évolue, ses données évoluent avec elle. Gestionnaires et ingénieurs en modifient alors la granularité, ils dévaluent certains champs, en introduisent de nouveaux. Ces changements ne faisant pas toujours l’objet d’une communication transparente, il arrive que les parties concernées n’en prennent connaissance qu’une fois qu’ils sont implémentés.

Quatre problèmes communs liés à la préparation de données et leurs solutions

01

Problème : Les processus rigides et chronophages ne répondent pas aux attentes des utilisateurs

image problème 01 horloge et papiers

Les analystes rapportent que l’essentiel de leur travail ne s’articule pas autour de l’analyse de données, mais relève plutôt d’une activité de nettoyage et de reformatage. Qu’ils utilisent un processus ETL, des outils de préparation de données en libre-service ou des outils de calcul comme Microsoft Excel, la réception de nouvelles données génère inévitablement la répétition de tâches manuelles de préparation. Ces dernières entraînent à leur tour un gaspillage de ressources et un nombre potentiellement plus conséquent d’erreurs humaines.

Pire encore que la frustration générée par l’analyse de données non filtrées, il arrive parfois qu’analystes et professionnels ne puissent même pas accéder aux informations dont ils ont besoin. La préparation de données relève généralement des responsabilités du support informatique, et seules certaines équipes ont la possibilité de préparer et d’intégrer de nouvelles sources de données dans un entrepôt centralisé. Pour les autres, cette tâche s'effectue à l’aide de programmes comme Excel, ou alors elle est confiée à une équipe habilitée à s’en charger. Cathy Bridges, Développeur Tableau à SCAN Health Plan, déclare : « Lorsque nous devons apporter des modifications à un ensemble de données, cela prend au minimum plusieurs semaines, voire plusieurs mois. »


Solution : Développer des processus flexibles avec les outils adaptés

De nombreuses organisations ont recours aux solutions de préparation de données en libre-service pour leurs activités d'exploration et de prototypage. Ces solutions conçues pour aider ceux qui manipulent des données au quotidien favorisent la démocratisation des processus de préparation tout en réduisant la charge de travail du support informatique. « La valeur ajoutée d'un outil de préparation des données en libre-service repose sur sa capacité à faire de chacun de nous un spécialiste en la matière. », déclare Venkatesh Shivanna, Responsable de l'analyse des données pour une célèbre société de jeux. Et de poursuivre, « Les analystes n’ont plus à attendre dans une file d’attente et peuvent gérer eux-mêmes des tâches de nettoyage des données itératives. »

Vous ne pouvez pas vraiment démocratiser l’analyse des données sans assurer la transparence du processus de préparation des données.

Chaque organisation a des besoins spécifiques et il n’existe pas de solution universelle en matière de préparation des données. Toutefois, lorsqu’une entreprise sélectionne un outil de préparation des données en libre-service, elle doit tenir compte de ses capacités à produire une approche itérative, flexible et fiable au fil du temps. Les utilisateurs souhaiteront davantage préparer et comprendre leurs données s’ils peuvent déterminer l’impact de chaque étape du processus de préparation. Jason Harmer, consultant chez Nationwide Insurance, affirme que « la préparation visuelle des données permet aux utilisateurs d’appréhender le processus de bout en bout et d’identifier les erreurs potentielles dès le début, qu’il s’agisse de fautes d'orthographe, d’espaces supplémentaires ou de clauses de jointure erronées. Elle permet également d’accroître la fiabilité des résultats. »

02

Problème : La préparation des données nécessite une connaissance approfondie des données organisationnelles

image problème 02 loupe sur calendrier

Avant de préparer des données, il est essentiel de définir leur emplacement, leur structure et leur composition, ainsi que des détails plus précis comme les définitions de champs. Ce processus correspond à une phase fondamentale de la préparation que l’on appelle souvent la découverte des données. Tout comme vous ne partiriez pas en voyage sans avoir au moins une vague idée de votre destination, vous ne pouvez préparer de données sans en connaître la teneur ou la nature.

L’émergence d’outils en libre-service proposant une fonctionnalité glisser-déposer facilite le processus de découverte pour les utilisateurs professionnels en leur permettant de mieux comprendre la structure et le contenu de leurs propres ensembles de données. Cependant, l’utilisation de silos d’informations entraîne une réduction de visibilité sur l’ensemble des processus de gestion de données – quelles données existent ? Où se trouvent-elles ? Comment sont-elles définies ? Des données mal définies entravent le travail d’analyse et produisent des résultats erronés à l’échelle de l’entreprise. Par exemple, vous découvrirez peut-être en analysant les données d'un client que votre équipe marketing et votre département financier ont des définitions différentes du terme 'client'.


Solution : Normaliser les définitions des données à l’échelle de l’entreprise

Les outils de préparation de données visuels et en libre-service permettent aux analystes d'approfondir leurs recherches, de se représenter la structure de leurs données avec une plus grande précision, et d’établir des connexions entre différents ensembles de données. En interprétant le profil de leurs données avec justesse les analystes sont en mesure de repérer plus facilement celles qui sont caduques. Si de tels outils contribuent à l’intelligibilité des données, la collaboration entre équipes n’en demeure pas moins essentielle pour comprendre des détails plus précis comme les définitions de champs.

L’une des façons de standardiser les définitions des données à l’échelle de l’entreprise consiste à créer un dictionnaire de données. Il permet aux analystes de comprendre les termes en usage dans chaque pan de leurs activités et d’identifier les champs pertinents pour leur travail d’analyse. Brian Davis, Ingénieur de projet dans une société de services énergétiques, estime qu’il s’agit d’une ressource « inestimable ».

Je combine régulièrement les données de la comptabilité avec celles des techniciens sur le terrain. Définir les données initiales et les associer à des champs calculés produit des analyses plus précises et permet d’identifier plus rapidement les champs ou tables à utiliser.

Créer un dictionnaire de données n’est pas une tâche aisée. Les administrateurs et autres experts impliqués doivent s’engager à mettre en place un processus réexécutable sur le long terme et en assurer la mise à jour en fonction de l’évolution des objectifs.2 Un dictionnaire obsolète peut nuire à la stratégie de données de votre entreprise. La communication et la propriété devraient faire partie intégrante du processus afin de déterminer l’emplacement du dictionnaire et la fréquence de ses mises à jour.

03

Problème : Des données propres, une question de perspective

image problème 03 une personne dit 'six' l'autre 'neuf'

Selon les équipes, la notion de données bien structurées recouvre des concepts qui peuvent varier de façon significative. Par exemple, les administrateurs de base de données et les ingénieurs priorisent le stockage et l’accessibilité, nécessitant parfois l’ajout de colonnes à l’usage exclusif de la base de données et non des utilisateurs. Lorsqu'un ingénieur crée un entrepôt de données destiné uniquement à l’analyse, il accorde la priorité aux indicateurs permettant de répondre au plus grand nombre de questions relatives à l’organisation. Si les informations recherchées ne sont pas disponibles dans les ensembles de données existants, les analystes peuvent être amenés à ajuster les agrégations ou faire appel à des sources externes, créant ainsi des silos d’information, qui peuvent produire des données inexactes.

Cathy Bridges, Développeur Tableau à SCAN Health Plan, explique comment les analystes sont souvent contraints de remettre à jour des ensembles de données déjà nettoyés par d’autres équipes : « Ajouter des colonnes supplémentaires à un tableau peut représenter une tâche chronophage et complexe. Par exemple, si j’ai besoin de comparer les totaux et les éléments les composant, je suis obligée de dupliquer la source de données, et cela peut être fastidieux. »


Solution : Offrir davantage de contrôle aux analystes

Les outils de préparation de données en libre-service permettent aux analystes de personnaliser leurs ensembles de données sur la base de leurs propres analyses. Ils en accélèrent ainsi le processus itératif et sont alors plus susceptibles de pouvoir répondre aux questions à mesure qu’elles sont soulevées. Ces outils allègent également la charge de travail du support informatique, qui n’a plus à restructurer de données lorsque se posent des questions imprévues. Ils réduisent aussi la duplication d’efforts, car ils permettent de produire des ensembles réutilisables. En outre, lorsque des ensembles de données présentent une valeur ajoutée à l’échelle de l’entreprise, il est même possible de les combiner en un ensemble canonique.

Un outil de préparation des données doit permettre aux analystes de répondre aux questions ponctuelles et itératives. Lorsque je configure les paramètres d’un ensemble, ils sont sauvegardés dans un fichier auquel je peux à accéder par la suite pour reprendre mon travail là où je l’avais laissé.

04

Problème : La réalité cachée des silos de préparation des données

image problème 04 groupes de personnes

La complexité des outils de préparation des données avancés en limite l’accès à un nombre restreint d'utilisateurs expérimentés. Pourtant, analystes et professionnels utilisent au quotidien d’autres applications ou programmes pour effectuer des tâches de préparation. Les outils disponibles en libre-service ont ouvert la voie à de nouvelles possibilités pour des utilisateurs de tout niveau, mais pour obtenir des données structurées et en extraire les informations dont ils ont besoin, ces mêmes utilisateurs doivent encore recourir au support informatique. Ce processus chronophage pouvant prendre plusieurs jours, voire plusieurs mois, ils extraient eux-mêmes les données des systèmes et les préparent dans des feuilles de calcul. Ceci produit des ensembles de données à usage et configuration uniques et entraîne par conséquent la création de duplicatas d’ensembles au sein de différentes équipes. Il en résulte une abondance de silos d’information qui ne sont ni efficaces, ni évolutifs, ni contrôlés.

Même les personnes qui ne connaissent pas l’expression ‘préparation des données’ préparent des données dans des programmes comme Excel. Plus nous avons de silos, plus l’interprétation des données varie et moins elles sont fiables.


Solution : Créer un processus de préparation des données cohérent et collaboratif

Mettre fin à la multiplication des silos passe par la collaboration. Une étude réalisée par le Business Application Research Center (BARC) révèle que les entreprises les plus satisfaites de leurs processus de préparation des données sont celles qui « en attribuent la responsabilité commune à leurs départements informatique et commercial. »

La préparation de données en libre-service nécessite une connaissance approfondie des données à analyser. Cette activité ayant longtemps été le domaine gardé du département informatique et des ingénieurs en base de données, il est essentiel que les analystes prennent le temps de se familiariser aux subtilités des données, y compris leur granularité et leurs éventuelles transformations. En vérifier régulièrement la qualité et créer des workflows standardisés pour les questions qu’elles soulèvent permet aux ingénieurs d’indiquer aux analystes comment les interroger et les manipuler avec pertinence tout en les habilitant à les préparer plus rapidement et avec plus de fiabilité.



Une tâche facilitée et simplifiée

Essayez Tableau Prep

1. Gartner, Smarter with Gartner, How to Create a Business Case for Data Quality Improvement. 8 janvier 2017, https://www.gartner.com/smarterwithgartner/how-to-create-a-business-case....

2. TDWI, TDWI Upside, Five Key Elements Your Data Governance Business Glossary May Be Missing. 16 février 2016, https://tdwi.org/articles/2016/02/16/data-governance-glossary-missing-el....

Autres ressources susceptibles de vous intéresser…