„Schmutzige Daten“ sind sehr kostspielig für Sie: Vier Lösungen für häufige Probleme bei der Datenvorbereitung

Wenn Sie jemals Daten analysiert haben, wissen Sie, wie nervig es sein kann, wenn Sie bei näherer Untersuchung Ihrer Daten feststellen, dass diese schlecht strukturiert, ziemlich fehlerhaft oder einfach nur unvollständig sind. Dann bleibt Ihnen nichts anderes übrig, als die Daten in Excel aufzubereiten oder komplexe Berechnungen vorzunehmen, bevor Sie eine einfache Frage beantworten können.

Die Datenvorbereitung umfasst Data Discovery sowie Umwandlungs- und Aufbereitungsaufgaben und soll Daten für Analysen vorbereiten. Sie ist somit ein wesentlicher Bestandteil des Analyse-Workflows. Laut einem jüngst im Harvard Business Review veröffentlichten Artikel verbringen die Anwender 80 % Prozent ihrer Zeit mit der Vorbereitung der Daten und nur 20 % ihrer Zeit mit der Analyse der Daten. Und diese Statistik beschränkt sich nicht nur auf die Rolle der Datenverwalter. Die Datenvorbereitung ist zunehmend auch Aufgabe von Analysten und sogar von Geschäftsanwendern ohne besondere Datenkompetenzen.

Selbst Benutzer, die nicht direkt mit Datenvorbereitungsaufgaben betraut sind, spüren die Auswirkungen „schmutziger Daten“. Der erforderliche Zeit- und Arbeitsaufwand, um aus zusammenhanglosen Daten umsetzbare Erkenntnisse zu gewinnen, verleitet zu ineffizienten Ad-Hoc-Analysen und führt dazu, dass den Daten der Organisation immer weniger Vertrauen geschenkt wird. Diese langsameren Prozesse können sich letztendlich in verpassten Chancen sowie in Umsatzeinbußen niederschlagen. Forschungsergebnisse von Gartner besagen, dass „Organisationen finanzielle Einbußen von durchschnittlich 9,7 Millionen USD im Jahr durch schlechte Datenqualität verzeichnen“.1

Wie kommt es zu „schmutzigen Daten“?

Die Unternehmen ergreifen Maßnahmen gegen „schmutzige Daten“, indem sie Datenkataloge und Glossare erstellen. Doch selbst bei Beachtung dieser Best Practices werden im täglichen Betrieb in gewissem Umfang „schmutzige Daten“ ins System gelangen. Zu „schmutzigen Daten“ kommt es häufig durch:

Bild zu menschlichem Versagen

1. Menschliches Versagen

Laut Experian ist dies die häufigste Ursache für „schmutzige Daten“. Fehler können sich auf unterschiedlichste Weise einschleichen. Das Spektrum reicht von verschiedenen Praktiken bei der Dateneingabe bis hin zu Werten, die von Benutzern manuell in Tabellen eingegeben werden. Selbst ein einfacher Rechtschreibfehler könnte später zu Problemen führen, wenn jemand die Daten analysiert.

Bild zu unterschiedlichen Systemen

2. Unterschiedliche Systeme

Häufig speichern Organisationen ihre Daten in unterschiedlichen Systemen, die über verschiedene Strukturen, Anforderungen und Aggregationen verfügen. Wenn diese Daten dann integriert werden sollen, müssen sich die Analysten mit doppelten oder fehlenden Feldern bzw. mit uneinheitlichen Beschriftungen herumplagen. Darüber hinaus könnten Datenfelder oder Werte dieselbe Bedeutung haben, aber in den unterschiedlichen Systemen werden jeweils andere Namen oder Werte verwendet.

Bild zu den veränderlichen Datenanforderungen

3. Veränderliche Anforderungen

Wenn sich Unternehmen weiterentwickeln, müssen die Datenverwalter und Data Engineers Änderungen an den Daten vornehmen. Dabei verändern sie die Granularität der Daten, kennzeichnen nicht mehr verwendete Felder als veraltet oder fügen bei Bedarf neue Felder hinzu. Diese Änderungen werden nicht immer im ganzen Unternehmen kommuniziert, sodass die Analysten unter Umständen erst von diesen Änderungen erfahren, wenn sie die Daten in ein Tool für Selfservice-BI oder zur Datenvorbereitung importieren.

Vier häufige Probleme bei der Datenvorbereitung und ihre Behebung

1.

Problem: Starre und zeitraubende Prozesse halten nicht mit der Nachfrage Schritt.

1. Problem: Bild mit einer Uhr und Dokumenten

Analysten berichten, dass der Großteil ihres Jobs nicht aus Analysen besteht, sondern vielmehr aus der Aufbereitung und Umformatierung von Daten. Dieses Problem kann in ETL-Prozessen, Selfservice-Tools zur Datenvorbereitung oder Tabellenprogrammen wie Microsoft Excel auftreten. Jedes Mal, wenn neue Daten empfangen werden, müssen die Analysten repetitive manuelle Datenvorbereitungsaufgaben erledigen, um die Struktur anzupassen und die Daten für die Analyse aufzubereiten. Letztendlich schlägt sich das in verschwendeten Ressourcen und einer erhöhten Gefahr menschlichen Versagens nieder.

Doch nicht nur der Aufwand, den schlecht strukturierte Daten erfordern, sorgt für Frustration. Sowohl Analysten als auch Geschäftsanwender müssen sogar darum kämpfen, überhaupt Zugriff auf die benötigten Daten zu erhalten. Traditionell ist die Datenvorbereitung eine Aufgabe des IT-Teams – und nur bestimmte Teams sind überhaupt in der Lage, Daten vorzubereiten und neue Datenquellen in ein zentralisiertes Data Warehouse zu importieren. Wer diese Fähigkeit nicht besitzt, muss die Datenvorbereitung in Programmen wie Excel selbst vornehmen oder darauf warten, dass ein anderes Team diese Aufgabe übernimmt. Cathy Bridges, Tableau-Entwicklerin bei SCAN Health Plan, hat Folgendes festgestellt: „Wenn wir Änderungen an einem Datensatz vornehmen müssen, dauert das mindestens mehrere Wochen und oft sogar Monate.“


Lösung: Entwicklung agiler Prozesse mit den richtigen unterstützenden Werkzeugen

Viele Organisationen setzen auf Selfservice-Lösungen zur Datenvorbereitung für die Datenexploration und die Entwicklung von Prototypen. Selfservice-Tools zur Datenvorbereitung verleihen den Anwendern die Kontrolle, die ihre Daten am besten kennen, indem sie den Datenvorbereitungsprozess demokratisieren und die Belastung des IT-Teams reduzieren. „Der Mehrwert eines Selfservice-Tools zur Datenvorbereitung besteht darin, das jeder zu einem Master der Daten werden kann“, sagte Venkatesh Shivanna, Senior Data Analytics Manager and Architect bei einem bekannten Gaming-Unternehmen. „Die Analysten können die Ad-hoc-Datenaufbereitung selbst übernehmen, anstatt sich in eine Warteschlange stellen zu müssen.“

Die Daten lassen sich nicht wirklich demokratisieren, ohne dass die Benutzer den gesamten Datenvorbereitungsprozess verstehen.

Jede Organisation hat ganz eigene Anforderungen, und es gibt kein Einheitskonzept für die Datenvorbereitung. Doch bei der Auswahl eines Selfservice-Tools zur Datenvorbereitung sollten die Organisationen darauf achten, dass das Tool die Prozesse so weiterentwickelt, dass ein iteratives, agiles Konzept verwirklicht wird, anstatt neue Zugriffshemmnisse zu erzeugen. Die Mitarbeiter werden einen stärkeren Wunsch verspüren, ihre Daten vorzubereiten und zu verstehen, wenn sie die Auswirkungen ihrer eigenen Datenvorbereitungsschritte sehen. Jason Harmer, Consultant bei Nationwide Insurance, berichtete Folgendes: „Visuelle Datenvorbereitung lässt die Benutzer den gesamten Prozess sehen und potenzielle Warnzeichen früher erkennen – zum Beispiel Rechtschreibfehler in den Daten, überzählige Leerzeichen oder fehlerhafte Join-Klauseln. Außerdem stärkt sie das Vertrauen in die endgültige Analyse.“

2.

Problem: Datenvorbereitung erfordert fundierte Kenntnis der Unternehmensdaten

2. Problem – Bild einer Lupe über einem Kalender

Vor der Datenvorbereitung müssen die Benutzer unbedingt den Ort, die Struktur und die Zusammensetzung der Daten kennen sowie granulare Details wie Felddefinitionen verstehen. Dieser Prozess ist ein grundlegender Bestandteil der Datenvorbereitung und wird mitunter als „Data Discovery“ bezeichnet. Niemand würde sich auf eine lange Reise begeben, ohne grundsätzlich zu wissen, wohin es gehen soll. Dasselbe Prinzip gilt auch für die Datenvorbereitung.

Mit dem Aufkommen der Selfservice-BI und ihrer Drag & Drop-Funktionalität ist Data Discovery für Geschäftsanwender einfacher geworden, denn sie verschafft ihnen ein fundierteres Wissen über die vorhandene Struktur und die Inhalte ihrer Datensätze. Aber wegen der Informationssilos haben diese Benutzer häufig weniger Einblick in die gesamte Datenlandschaft ihrer Organisation und wissen nicht, welche Daten vorhanden sind, wo sie sich befinden und wie sie definiert sind. Verwirrung um Datendefinitionen kann beispielsweise eine Analyse verhindern, oder schlimmer noch, im gesamten Unternehmen zu fehlerhaften Analysen führen. Wenn ein Benutzer zum Beispiel Kundendaten analysieren möchte, könnte er möglicherweise feststellen, dass im Marketingteam eine andere Definition für den Begriff „Kunde“ verwendet wird als im Finanzteam.


Lösung: Festlegen von Unternehmensstandards für Datendefinitionen

Visuelle Selfservice-Tools für die Datenvorbereitung gestatten es den Analysten, tiefer in die Daten einzutauchen, um ihre Strukturen zu verstehen und Beziehungen zwischen Tabellen zu erkennen. Weil die Analysten das Profil ihrer Daten verstehen, können sie mühelos unerwartete Werte erkennen, die aufbereitet werden müssen. Obwohl diese Technologie Klarheit in die Daten bringt, werden die Benutzer immer noch die Unterstützung anderer Mitarbeiter in ihrem Unternehmen benötigen, um Details wie Felddefinitionen zu verstehen.

Eine Möglichkeit zur Standardisierung von Datendefinitionen in einem Unternehmen ist das Erstellen eines Datenkatalogs. Mit einem Datenkatalog können die Analysten leichter nachvollziehen, wie bestimmte Begriffe innerhalb der jeweiligen Geschäftsanwendung verwendet werden, denn dort werden die für die Analyse relevanten Felder angezeigt, und nicht etwa die ausschließlich systemrelevanten Felder. Für Brian Davis, Projektingenieur bei einem Energieunternehmen, sind Datenkataloge „unbezahlbar“.

Ich kombiniere regelmäßig Daten aus der Buchhaltung mit den Daten von Servicetechnikern. Das Definieren der Ausgangsdaten und berechneten Felder schlägt sich in präziseren Analysen nieder und reduziert den erforderlichen Zeitaufwand für die Ermittlung des zu verwendenden Feldes bzw. der zu verwendenden Tabelle.

Das Erstellen eines Datenkatalogs ist sehr aufwendig. Datenverwalter und Datenfachleute müssen sich zu laufender Iteration verpflichten und [den Datenkatalog] bei sich ändernden Anforderungen immer wieder überprüfen.2. Wenn ein Katalog veraltet ist, kann er tatsächlich der Datenstrategie Ihrer Organisation schaden. Kommunikation und Besitz sollten von Anfang an in den Prozess integriert sein, um festzulegen, wo sich das Glossar befinden soll und wie oft es aktualisiert und optimiert werden sollte.

3.

Problem: „Gut strukturierte Daten“ sind eine Frage der Perspektive.

3. Problem – Bild mit einer Person, die „sechs“ sagt, und einer weiteren Person, die „neun“ sagt.

Unterschiedliche Teams haben auch unterschiedliche Anforderungen und Präferenzen bezüglich der Frage, was „gut strukturierte“ Daten ausmacht. Datenbankadministratoren und Datentechniker priorisieren zum Beispiel die Speicherung und Verfügbarkeit von Daten. Sie könnten bspw. Spalten hinzufügen, die ausschließlich für die Nutzung durch Datenbanken bestimmt sind. Wenn ein Datentechniker ein Data Warehouse für Analysen einrichtet, priorisiert er die wesentlichen geschäftlichen Kennzahlen, mit denen sich der Großteil der Fragen beantworten lässt. Wenn die von den Datenanalysten benötigten Informationen nicht bereits im Datensatz enthalten sind, müssen sie die Aggregationen anpassen oder Daten aus externen Quellen importieren. Das Resultat wären dann unter Umständen Datensilos oder fehlerhafte Daten.

Cathy Bridges, Tableau-Entwicklerin bei SCAN Health Plan, berichtete, dass Analysten oftmals einen Datensatz erneut aktualisieren müssen, der bereits von einem anderen Team aufbereitet wurde. „Das Einfügen zusätzlicher Spalten kann ein langwieriger und mühseliger Prozess sein. Wenn ich zum Beispiel Gesamtwerte mit separaten Werten vergleichen möchte, muss ich die Datenquelle duplizieren – und das kann ganz schön aufwendig sein.“


Lösung: Geben Sie den Datenexperten die Kontrolle über die Daten.

Selfservice-Datenvorbereitung befähigt die Analysten dazu, die Datensätze auf eine Weise aufzubereiten, die zu ihren Analysen passt, was zu schnelleren Ad-Hoc-Analysen führt und ihnen gestattet, auftauchende Fragen umgehend zu beantworten. Das entlastet auch das IT-Team, das die Daten nicht jedes Mal neu strukturieren muss, wenn eine unerwartete Frage auftaucht. Außerdem lässt sich so doppelte Arbeit vermeiden, weil andere Analysten diese Modelle wiederverwenden können. Wenn die Datensätze für ein breites Publikum wichtig sind, können Sie sie in Zukunft zu einem kanonischen Datensatz kombinieren.

Ein Datenvorbereitungstool sollte die einmaligen Fragen der Analysten bedienen und außerdem wiederholbar sein. Wenn ich die Logik erstelle, wird sie irgendwo in einer Datei gespeichert. Und beim nächsten Mal kann ich dieselbe Datei wieder öffnen, erneut die Verbindung zu denselben Datenquellen herstellen und genau dort weitermachen, wo ich aus dem Workflow ausgestiegen bin.

4.

Problem: Datenvorbereitungssilos – eine unsichtbare Realität

4. Problem: Personengruppen

Erweiterte Datenvorbereitungstools können komplex sein, weshalb die Nutzung dieser Funktion häufig einigen ausgewählten Power-Usern vorbehalten ist. Doch selbst wenn Analysten und Geschäftsanwender keinen Zugriff auf Datenvorbereitungstools haben, bedeutet das nicht, dass sie diese Aufgaben nicht schon längst in anderen Anwendungen erledigen. Selfservice-BI-Tools haben die Datenanalysefunktionen für Benutzer jeder Qualifikationsstufe verfügbar gemacht, doch um ihren Daten tatsächlich Erkenntnisse zu entlocken, müssen sich diese Benutzer immer noch darauf verlassen, dass das IT-Team bestens strukturierte Daten bereitstellt. Anstatt tage- oder monatelang auf die Daten warten zu müssen, extrahieren die Benutzer Daten aus Systemen und bereiten ihre Daten in Arbeitsblättern vor. Daraus resultiert ein neu strukturierter Datensatz, der nur einem einzigen Zweck dient, und häufig betreiben die einzelnen Abteilungen doppelten Aufwand, ohne es zu wissen. Dieser Prozess bringt übermäßig viele Datensilos hervor, die weder effizient oder skalierbar sind, noch kontrolliert werden.

Selbst Mitarbeiter, die den Begriff „Datenvorbereitung“ kennen, bereiten ihre Daten noch immer in Programmen wie Excel vor. Je mehr Silos bei uns vorhanden sind, desto mehr Interpretationen der Daten sind möglich, sodass den Daten noch stärker misstraut wird.


Lösung: Konsistenz und Zusammenarbeit bei der Datenvorbereitung

Zusammenarbeit ist der Schlüssel zur Vermeidung von Datensilos. Forschungsergebnisse des Business Application Research Center (BARC) zeigen, dass die Unternehmen am zufriedensten mit ihren Datenvorbereitungsprozessen waren, die „die Datenvorbereitung zu einer gemeinsamen Aufgabe der IT- und Geschäftsabteilungen gemacht hatten“.

Um Selfservice-Datenvorbereitung in einer ganzen Organisation einzuführen, müssen die Benutzer alle Einzelheiten der Daten kennen. Da dieses Wissen traditionell dem IT-Team und den Datentechnikern vorbehalten war, müssen sich die Analysten unbedingt die Zeit nehmen, um die Nuancen in den Daten in Erfahrung zu bringen. Hierzu zählen auch die Granularität und jegliche Umwandlungen, denen der Datensatz unterzogen wurde. Die Planung regelmäßiger Eincheckvorgänge oder eines standardisierten Workflows ermöglicht es den Datentechnikern, das aktuelle Verfahren für das Abfragen von und das Arbeiten mit gültigen Daten bekannt zu geben und die Analysten gleichzeitig dazu zu befähigen, die Daten schneller und selbstbewusster vorzubereiten.



Mühelose Datenvorbereitung

Testen Sie Tableau Prep

1. Gartner, Smarter with Gartner, How to Create a Business Case for Data Quality Improvement (Wie Sie einen Business Case zur Verbesserung der Datenqualität erstellen). 9. Januar 2017, https://www.gartner.com/smarterwithgartner/how-to-create-a-business-case....

2. TDWI, TDWI Upside, Five Key Elements Your Data Governance Business Glossary May Be Missing (Fünf wesentliche Elemente, die in Ihrem Unternehmensglossar für Datensicherheit fehlen könnten). 16. Februar 2016, https://tdwi.org/articles/2016/02/16/data-governance-glossary-missing-el....

Für Sie könnte auch Folgendes interessant sein: