Les défis de la préparation de données

Si vous avez déjà analysé des données, vous savez combien cela peut être délicat lorsqu'elles sont mal structurées, inexactes ou tout simplement incomplètes. Vous passez un temps fou à les corriger dans votre tableur ou à élaborer des calculs complexes avant de pouvoir répondre à une question simple. Préparer des données consiste à faire en sorte qu'elles soient prêtes pour l'analyse. Cela inclut des étapes de découverte, de transformation et de nettoyage, et c'est une partie cruciale du workflow analytique.

Les données « sales » ont des répercussions même pour les personnes qui ne sont pas directement impliquées dans le travail de préparation. Le temps et l'énergie qu'il faut pour enfin obtenir des insights exploitables rendent les analyses ad hoc inefficaces. Cela aboutit également à une perte de confiance dans les données. Tous ces processus ralentis peuvent être la cause d'opportunités manquées et de pertes de revenu. Une étude Gartner révèle d'ailleurs que les « coûts moyens imputables à la mauvaise qualité des données s'élèvent à 9,7 millions de dollars par an ».1

À quoi sont dus les problèmes dans les données ?

Malgré la mise en place de mesures palliatives, comme la création de catalogues ou de glossaires, certaines données échappent aux opérations de classement et d'organisation. Voici les causes habituelles de ces problèmes.

image erreur humaine

1. L'erreur humaine

Selon Experian, les données « sales » sont principalement dues à des erreurs humaines, comme des pratiques différentes pour la saisie, des entrées manuelles incorrectes ou des fautes de frappe. Même une simple erreur de saisie peut poser problème au moment de l'analyse.

image disparité des systèmes

2. La disparité des systèmes en place

Les entreprises stockent souvent leurs données dans plusieurs systèmes disparates dont les structures, les exigences et les agrégations varient. Au moment d'intégrer ces données, l'analyste se retrouve alors avec des champs en double ou manquants, ou avec des étiquettes différentes. Des champs ou des valeurs ayant la même signification peuvent aussi avoir des noms différents d'un système à l'autre.

image évolution des besoins

3. L'évolution des besoins

À mesure que l'activité évolue, les administrateurs et les ingénieurs chargés des données doivent apporter des modifications : changer la granularité, rendre certains champs obsolètes ou en créer de nouveaux. Bien souvent, les analystes ne prennent conscience de ces changements que lorsqu'ils intègrent les données à un outil de préparation ou de BI en libre-service.

4 problèmes courants de la préparation de données et leurs solutions

1

Problème : les processus rigides et chronophages ne permettent pas de répondre à la demande assez vite

Les analystes indiquent que ce n'est pas sur l'analyse qu'ils passent le plus de temps, mais sur le nettoyage et le remaniement des données. Qu'ils utilisent un processus ETL, des outils de préparation de données en libre-service ou des tableurs comme Microsoft Excel, dès qu'ils reçoivent de nouvelles données, ils doivent inévitablement répéter les mêmes opérations pour les restructurer et les nettoyer. Cela entraîne un gaspillage des ressources et un risque d'erreur humaine accru.

Outre la frustration que causent des données mal organisées, les analystes et les utilisateurs métier sont confrontés aux difficultés même pour accéder à celles dont ils ont besoin. La préparation est habituellement réservée à l'IT, et seules certaines équipes ont la possibilité de préparer et d'intégrer de nouvelles sources de données dans un entrepôt centralisé. Les autres effectuent cette tâche dans des programmes comme Excel ou attendent que des collègues s'en chargent.
image problème 01 horloge et papiers


SOLUTION : développer des processus agiles et proposer les bons outils

Adopter la préparation de données en libre-service : de nombreuses entreprises adoptent des solutions de préparation de données en libre-service pour l'exploration et le prototypage. Ces outils donnent le pouvoir à ceux qui connaissent le mieux les données, ce qui met la préparation à la portée de tous et réduit la charge de travail de l'IT.

La valeur ajoutée d'un outil de préparation en libre-service réside dans le fait que les analystes peuvent se charger eux-mêmes du nettoyage des données quand ils en ont besoin au lieu d'attendre leur tour dans une file d'attente.

Faire évoluer les processus pour permettre une approche itérative et agile : chaque entreprise a des besoins spécifiques et il n'existe pas de solution universelle en matière de préparation des données. Toutefois, au moment de choisir un outil en libre-service, il faut tenir compte de sa capacité à évoluer au fil du temps pour permettre une approche itérative et agile. Les utilisateurs auront davantage envie de préparer et comprendre leurs données s'ils peuvent connaître les effets de chaque étape de la préparation. Selon Jason Harmer, consultant chez Nationwide Insurance, « la préparation visuelle donne une visibilité de bout en bout et permet de déceler les erreurs potentielles dès le départ, qu'il s'agisse de fautes d'orthographe, d'espaces en double ou de clauses de jointure incorrectes. Cela renforce également la confiance dans l'analyse finale. »

2

Problème : la préparation nécessite une bonne connaissance des données

Avant de préparer des données, vous devez connaître leur emplacement, leur structure et leur composition, mais aussi des détails plus précis comme les définitions des champs. C'est ce que certains appellent la « découverte des données », une composante essentielle de la préparation. Vous ne partiriez pas en voyage sans avoir au moins une vague idée de votre destination. La même logique s'applique à la préparation des données.

L'émergence de la BI en libre-service facilite la découverte pour les utilisateurs métier, car ils peuvent mieux comprendre la structure et le contenu de leurs ensembles de données. Cependant, à cause des silos d'informations, ils ont souvent moins de visibilité sur l'écosystème des données : quelles données, où elles se trouvent et comment elles sont définies. En effet, des définitions obscures ralentissent, voire faussent, le travail d'analyse.
image problème 02 loupe sur calendrier

Solution : harmoniser les définitions des données dans l'entreprise

Les outils de préparation de données visuels et en libre-service permettent aux analystes d'approfondir leurs recherches, de mieux comprendre la structure des données et de voir les liens entre les tables. Une bonne interprétation du profil de leurs données permet aux analystes de repérer plus facilement celles qui nécessitent un nettoyage. Si de tels outils contribuent à la clarté des données, la collaboration entre équipes n'en demeure pas moins essentielle pour comprendre des détails plus précis comme les définitions des champs.

Mettre en place un dictionnaire des données : pour harmoniser les définitions des données à l'échelle de l'entreprise, vous pouvez créer un dictionnaire des données. Cela permet aux analystes de comprendre comment les termes sont utilisés dans chaque service et de faire le tri entre les champs utiles à l'analyse et les champs réservés au système. Brian Davis, ingénieur de projet dans une entreprise du secteur de l'énergie, estime qu'il s'agit d'une ressource « inestimable ».

Continuer à innover et à procéder par itération : créer un dictionnaire des données n'est pas une tâche aisée. Les Data Stewards et autres experts doivent y revenir régulièrement et assurer la mise à jour en fonction de l'évolution des besoins.2 Un dictionnaire obsolète peut nuire à la stratégie data de votre entreprise. La communication et le contrôle devraient faire partie intégrante du processus dès le départ afin de déterminer l'emplacement du dictionnaire et la fréquence de ses mises à jour.

Autres ressources

Meilleures pratiques pour nettoyer les données

Il est donc important de comprendre la portée de vos données pour accélérer la préparation.

Tableau Data Management

Confiance, visibilité et gouvernance pour l'analytique en libre-service à grande échelle.

3

Problème : tout le monde n'a pas la même conception des données « propres »

Selon les équipes, ce qui caractérise des données « bien structurées » dépend des besoins et des préférences. Par exemple, pour les administrateurs de base de données et les ingénieurs, le stockage et l'accessibilité sont les critères les plus importants. Des colonnes peuvent alors être ajoutées à l'usage exclusif de la base de données et non des utilisateurs. Lorsqu'un ingénieur crée un entrepôt de données destiné uniquement à l'analyse, il donne la priorité aux métriques qui permettront de répondre au plus grand nombre de questions. Si les informations recherchées ne sont pas déjà disponibles dans les ensembles de données, les analystes peuvent être amenés à ajuster les agrégations ou à ajouter des sources externes. C'est ainsi qu'ils se retrouvent avec des silos ou des inexactitudes.

Cathy Bridges, développeur Tableau chez SCAN Health Plan, explique que les analystes sont souvent contraints de remettre à jour des ensembles de données déjà nettoyés par d'autres équipes : « Ajouter des colonnes supplémentaires peut être compliqué et chronophage. Par exemple, si j'ai besoin de comparer les totaux et les détails, je dois dupliquer la source de données, ce qui peut être vraiment pénible. »


image problème 3 une personne dit 'six', l'autre 'neuf'

Solution : donner plus de contrôle aux experts data

Les outils de préparation de données en libre-service aident les analystes à améliorer leurs ensembles de données en fonction de leurs besoins. Ils accélèrent les analyses ad hoc, ce qui permet de trouver les réponses à mesure que les questions émergent. Ces outils allègent également la charge de travail de l'IT, qui n'a plus à restructurer de données en cas de questions imprévues. Cela réduit aussi la répétition des mêmes opérations, puisque les autres analystes peuvent réutiliser les mêmes modèles. En outre, lorsque des ensembles de données sont utiles dans toute l'entreprise, vous pouvez les combiner en un ensemble canonique.

Un outil de préparation des données doit permettre aux analystes de répondre aux questions ponctuelles et être itératif.

4

Problème : la réalité cachée des silos lors de la préparation des données

La complexité des outils de préparation avancés limite leur usage à un nombre restreint d'utilisateurs confirmés. Mais les analystes et les utilisateurs métier peuvent utiliser d'autres applications ou programmes pour effectuer des tâches de préparation. Les outils BI en libre-service ont ouvert la voie à de nouvelles possibilités pour des utilisateurs de tout niveau. Cependant, pour accéder aux informations exploitables que recèlent les données, ces mêmes utilisateurs doivent encore solliciter l'IT.

Alors, pour éviter de perdre du temps, ils extraient eux-mêmes les données des systèmes et les préparent dans des feuilles de calcul. Cela produit des ensembles de données restructurés à usage unique, de sorte que différents services peuvent faire chacun le même travail sans même le savoir. Il en résulte d'innombrables silos de données qui ne sont ni efficaces, ni évolutifs, ni contrôlés.

Plus nous avons de silos, plus l'interprétation des données varie et moins elles sont fiables.

image problème 04 groupes de personnes

Solution : apporter cohérence et collaboration dans la préparation des données

Supprimez les silos grâce à la collaboration : une étude réalisée par le Business Application Research Center (BARC) révèle que les entreprises les plus satisfaites de leurs processus de préparation des données sont celles qui « en attribuent la responsabilité commune à l'IT et aux métiers. »

Donnez les moyens aux analystes d'assimiler les subtilités des données : la préparation en libre-service nécessite une très bonne connaissance des données. Comme cette compétence a longtemps été réservée à l'IT et aux ingénieurs data, les analystes doivent prendre le temps d'assimiler toutes les subtilités des données, y compris la granularité et les transformations apportées à l'ensemble de données. Avec des contrôles réguliers ou la mise en place d'un workflow standard pour les questions, les ingénieurs peuvent faire connaître les dernières méthodes d'interrogation et d'utilisation des données fiables, et également permettre aux analystes de préparer les données plus rapidement et plus sereinement.