Was ist Big Data?

Das Gabler Wirtschaftslexikon definiert „Big Data“ als große Mengen an strukturierten und unstrukturierten Daten. Diese werden in allen Wirtschaftszweigen von unterschiedlichsten System erhoben, gespeichert und für verschiedene Zwecke ausgewertet. Aufgrund der exponentiell steigenden Gesamtmenge an Daten, ergeben sich neben ethischen Fragen bezüglich Datenschutz und Privatsphäre auch immer wieder neue technische und technologische Herausforderungen.

Big Data ist nicht immer gleich Big Data

„Big Data“ wird häufig als Sammelbegriff für digitale Technologien verwendet, die in technischer Hinsicht für eine neue Ära digitaler Kommunikation und Verarbeitung und in sozialer Hinsicht für einen gesellschaftlichen Umbruch verantwortlich gemacht werden. (Reichert, 2004)

Je nach Kontext lassen sich dem englischen Begriff Big Data (dt. „Massendaten“) jedoch noch eine ganze Reiher weiterer, mehr oder weniger nuancierter Bedeutungen zuweisen.

Big Data bezeichnet in erster Linie die Verarbeitung großer, komplexer und sich schnell ändernder Datenmengen. Wikipedia listet unter medial gängigen Verwendungen für den Begriff Big Data unter anderem auch:

  • den Wunsch der Industrie aus den vorhandenen Daten einen Wettbewerbsvorteil erlangen zu können
  • die Automatisierung von Produktionsprozessen (Industrie 4.0, Internet der Dinge)
  • Werbung, basierend auf Daten über die Internet- und Handynutzung
  • die zunehmende Überwachung der Menschen durch Geheimdienste bspw. durch Vorratsdatenspeicherung

Einen etwas tieferen Blick auf die deutsche Big Data Landschaft wirft das Business Application Research Center (BARC) in seiner Studie Big Data Use Cases.

Technische Grundlagen und Anwendungsgebiete von Big Data

Genau wie der Sammelbegriff Big Data selbst, sind technische Grundlagen und Anwendungsgebiete nur schwer eingrenzbar. In einer zunehmend digitalisierten Welt ist jeder und alles ein Datenlieferant. Entsprechend vielfältig sind auch die potenziellen Datenquellen. Begrenzt wird diese Vielfalt letztlich von den Faktoren Speicherplatz auf Hardware-Seite und der Möglichkeit zur sinnvollen Auswertung auf Software-Seite.

Eine Auswahl möglicher Datenquellen:

  • die Nutzung von Kunden-, EC- oder Kreditkarten
  • jegliche elektronische Kommunikation inklusive Metadaten
  • Mobilfunk- und Standortdaten
  • Informationen und -Interaktionen aus sozialen Netzwerken
  • vernetzte Technik bzw. das Internet der Dinge
  • Maschinendaten in der Produktion, Warenwirtschaftssysteme


Was tun mit all den Daten? Data-Warehousing, Datenaufbereitung und ETL

Der Hype verspricht mit Big Data Verbesserungen in allen Funktionsbereichen und Geschäftsprozessen von Unternehmen, vor allem aber bei Technologieentwicklung, Informationstechnik und Marketing. (R. Schmidt, 2014) Die Erhebung und Verwertung der Datenmengen dient dabei im Allgemeinen der Gewinnung umsetzbarer Erkenntnisse und Handlungsempfehlungen. Die Daten werden nach ihrer Erhebung häufig in sog. Data-Warehouses oder Data-Lakes (z.B. Hadoop) überführt und dort vorgehalten.

Traditionell nutzten vor allem große Unternehmen und Nachrichtendienste die entsprechenden digitalen Methoden. Sie verfügten am ehesten über die finanziellen und technischen Voraussetzungen, die erfassten Daten weiter zu entwickeln und nutzbringend einzusetzen. Mit dem Siegeszug der Cloud und der stetigen Entwicklung besserer und schnellerer Tools für die Datenanalyse, hält Big Data Einzug in immer mehr Unternehmen aller Größenordnungen. Aus den Marketingabteilungen ist Big Data Analytics mittlerweile nicht mehr wegzudenken: unzählige Datenpunkte zu Werbung in sozialen Netzwerken, Suchmaschinen und anderen Internet-Diensten sind so einfach zugänglich wie nie zuvor – müssen aber unbedingt zielgerichtet und mit Sachverstand aufbereitet werden, um wirklich nützlich zu sein. Das bedeutet ETL-Prozesse, die Daten aus produktiven Systemen extrahieren, sie dann in ein geeignetes Format transformieren und zur Analyse in beispielsweise ein Visual Analytics-Tool wie Tableau laden, werden immer wichtiger.


Von der Masse zur Klasse: Data Discovery, Big Data Analytics und Business Intelligence

Die eigentliche Wertschöpfung erfolgt erst in der zielgerichteten Analyse sauber aufbereiteter Daten. Erst hier werden in den Daten verborgene Schätze entdeckt, Zusammenhänge und Muster sichtbar gemacht und für den Geschäftserfolg kritische Erkenntnisse gewonnen.

Es ist daher wichtig, den Zeitaufwand für die Erhebung, Speicherung und Aufbereitung von Big Data im Verhältnis zu erkenntnisstiftenden Tätigkeiten zu minimieren. Verfahren wie Machine Learning, natürliche Sprachverarbeitung (NLP) und Künstliche Intelligenz stecken zwar noch in den Kinderschuhen, halten jedoch bereits heute Einzug in BI-Lösungen, wo sie den Weg von den Daten zur datengetriebenen Erfolgsgeschichte möglichst kurz halten sollen.

Rechtliche Grundlagen und ethische Überlegungen

Datenschutz und Privatsphäre

Da Big Data für Unternehmen und Behörden gerade da erst bei den personenbezogenen Daten so richtig interessant wird, stehen der Wunsch nach freiem Datenzugriff und die Datenschutzgrundverordnung im direkten Konflikt. Eine Anonymisierung der Daten ist eine mögliche Lösung, wenn es um die Erkennung von Mustern auf übergeordneten (z.B. demographischer oder geographischer) Ebene geht. Für den Anwendungsfall in Unternehmen ist dies nur bedingt nützlich, denn Omni-Channel-Marketing in Kombination mit der 360-Grad Sicht auf den Kunden gilt heutzutage als erfolgskritisch. Dazu gehören aber eben auch personenbezogene Daten.
Dementsprechend müssen „[…] Unternehmen, die den Einsatz von Big Data mit personenbezogenen Daten beabsichtigen, […] ein Datenschutz-Management-System zur Erfüllung umfassender Nachweispflichten über die Rechtskonformität (Compliance) […]“ einführen (Nohr, 2017).


Governance vs. Selfservice

Unternehmen sind nun also mehr denn je in der Pflicht, personenbezogene Daten ihrer (potenziellen) Kunden sorgsam zu hüten. Das betrifft aber nicht nur den Schutz dieser Daten vor unberechtigtem Zugriff Dritter, sondern auch durch Mitarbeiter innerhalb des Unternehmens. Gerade zu einer Zeit, in der sich die Idee der Demokratisierung von Daten und Selfservice-BI als erfolgssichernd etablieren, scheint die DSGVO dem einen Riegel vorschieben zu wollen.
Allerdings ist Governance für die meisten Unternehmen keine von Grund auf neue Überlegung, und moderne BI-Lösungen bieten bereits heute u.a. nahtlose Integration in Sicherheits- und Authentifizierungssysteme, zertifizierte Datenquellen und Zugriffsverwaltung auf Zeilenebene. Das bedeutet einerseits erhalten Mitarbeiter Zugriff auf die Daten, die zur Ausübung ihrer Tätigkeit erforderlich sind, und andererseits kann die IT-Abteilung sich darauf konzentrieren, Datenqualität, Governance und Compliance sicher zu stellen.
Eine zweckmäßige Governance schützt Ihre Daten und fördert gleichzeitig die umfassende Nutzung von Analytics in Ihrem Unternehmen. Geschäftsanwender erhalten damit einen einfachen Zugang zur Erkundung und Ermittlung verborgener Erkenntnisse.

Verweise

Bendel, Prof. Dr. Oliver. 2018. Gabler Wirtschaftslexikon. [Online] 19. 02 2018. [Zitat vom: 14. 08 2018.] https://wirtschaftslexikon.gabler.de/definition/big-data-54101/version-2....
R. Schmidt, M. Möhring, S. Maier, J. Pietsch, R.-C. Härting. 2014. Big Data as Strategic Enabler – Insights from Central European Enterprises. Business Information Systems (= Lecture Notes in Business Information Processing). 2014, 176.
Radtke, M. 2016. BigData Insider. [Online] 01. 09 2016. [Zitat vom: 14. 08 2018.] https://www.bigdata-insider.de/was-ist-big-data-a-562440/.
Reichert, R. 2004. Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie. Bielefeld : transcript Verlag, 2004.
Klippstädter, K. 2016. Was ist was bei Big Data? Computerwoche.de. [Online] 07. 02 2016. [Zitat vom: 16. 08 2018.] https://www.computerwoche.de/a/was-ist-was-bei-big-data,3070624.
Nohr, Prof. H. 2017. JurPC Web-Dok. 111/2017 - DOI 10.7328/jurpcb2017328111. JurPC. [Online] 15. 08 2017. [Zitat vom: 17. 08 2018.] http://www.jurpc.de/jurpc/show?id=20170111.