Die 10 wichtigsten Big Data-Trends für 2017

2016 war ein herausragendes Jahr für Big Data. Immer mehr Organisationen speichern, verarbeiten und generieren Mehrwert aus Daten unterschiedlichster Form und Größe. 2017 werden Systeme, die große Mengen strukturierter und unstrukturierter Daten unterstützen, weiter expandieren. Der Markt wird Plattformen fordern, die den Hütern der Daten helfen, Big Data zu regulieren und zu sichern, und gleichzeitig den Endbenutzer diese Daten analysieren lassen. Diese Systeme werden reifen, sodass sie gut innerhalb der IT-Systeme und -Standards der Unternehmen funktionieren.

1. Big Data wird schneller und leichter zugänglich

Es gibt mehr Optionen, um Hadoop zu beschleunigen.

Sicher, man kann auf Hadoop maschinelles Lernen nutzen und Sentiment-Analysen durchführen, aber als Erstes wird häufig die Frage gestellt: Wie schnell ist die interaktive SQL? SQL ist letztendlich die Datenleitung der Geschäftsanwender, die Hadoop-Daten für schnellere, leichter wiederholbare KPI-Dashboards und Untersuchungsanalysen nutzen wollen.

Dieser Bedarf an Schnelligkeit hat dazu geführt, dass schnellere Datenbanken eingeführt wurden, wie Exasol und MemSQL, Hadoop-basierte Speicher wie Kudu sowie Technologien, die schnellere Abfragen ermöglichen. Diese Abfragebeschleuniger verwenden SQL-on-Hadoop-Engines (Apache Impala, Hive LLAP, Presto, Phoenix und Drill) sowie OLAP-on-Hadoop-Technologien (AtScale, Jethro Data und Kyvos Insights) und verwischen die Trennlinie zwischen herkömmlichen Data Warehouses und der Big Data-Welt.


Weiterführendes Material:

AtScale-Benchmark zu BI mit Hadoop für Q4 2016 (auf Englisch)

2. Big Data ist nicht mehr nur Hadoop

Für Hadoop maßgeschneiderte Tools werden ausgemustert.

In den vergangenen Jahren konnten wir mit der Big Data-Welle den Aufstieg mehrerer Technologien beobachten, die dem Analysebedarf auf Hadoop entsprachen. Aber Unternehmen mit komplexen, heterogenen Umgebungen wollen keinen isolierten BI-Zugriffspunkt für eine einzige Datenquelle (Hadoop) mehr einführen. Antworten auf ihre Fragen sind in einer Vielzahl von Quellen verborgen: von Aufzeichnungssystemen über Cloud-Warehouses bis hin zu strukturierten und unstrukturierten Daten, sowohl von Hadoop- als auch von Nicht-Hadoop-Quellen. (Übrigens bereiten sich auch relationale Datenbanken auf Big Data vor. SQL Server 2016 unterstützt beispielsweise seit Kurzem JSON.)

2017 werden die Kunden die Analyse aller Daten fordern. Daten- und quellenunabhängige Plattformen werden florieren, während für Hadoop maßgeschneiderte Plattformen, die sich nicht für verschiedene Anwendungsfälle bereitstellen lassen, außen vor bleiben werden. Der Verkauf von Platfora dient als Frühindikator für diesen Trend.


Weiterführendes Material:

Uncommon sense: The big data warehouse (Ungewöhnlich: Das Big Data-Warehouse)

3. Unternehmen nutzen von Anfang an Datenseen, um Werte zu schaffen

Ein Datensee ist wie ein künstlicher Stausee.

Zunächst wird ein Damm gebaut (ein Cluster), der dann mit Wasser gefüllt wird (Daten). Nachdem der See angelegt wurde, wird das Wasser (die Daten) für verschiedene Zwecke genutzt, etwa um Elektrizität zu erzeugen, es zu trinken und zur Erholung (prädiktive Analysen, ML, Netzsicherheit usw.).

Bis jetzt war das Füllen des Sees Selbstzweck. 2017 wird sich dies ändern, weil die wirtschaftliche Rechtfertigung für Hadoop schwieriger wird. Unternehmen fordern eine wiederholbare und agile Nutzung des Sees für schnellere Antworten. Sie werden die Wirtschaftlichkeit sorgfältig prüfen, bevor sie in Personal, Daten und Infrastruktur investieren. Dies stärkt die Partnerschaft zwischen Geschäftsabteilung und IT. Und Selfservice-Plattformen gewinnen Anerkennung als Tools, um von Big Data zu profitieren.


Weiterführendes Material:

Maximizing data value with a data lake (Datenseen bringen mehr Datenwert)

4. Architekturen reifen und weisen Universal-Frameworks zurück

Hadoop ist nicht mehr nur eine Plattform mit Stapelverarbeitung für Datenwissenschaftler.

Es ist zu einer Mehrzweck-Engine für Ad-hoc-Analyse geworden. Es wird sogar zur Betriebsberichterstattung für tägliche Arbeitslasten eingesetzt, was herkömmlicherweise von Data Warehouses erledigt wurde.

2017 werden Organisationen diesen Hybridbedarf decken, indem sie auf fallspezifische Architekturkonzepte setzen. Sie suchen nach den verschiedensten Faktoren, etwa Personas, Fragen, Volumen, Zugriffshäufigkeit, Datengeschwindigkeit und Aggregationsniveau, bevor sie sich auf eine Datenstrategie festlegen. Diese modernen Architekturen werden bedarfsgesteuert sein. Sie kombinieren die besten Selfservice-Tools zur Datenaufbereitung, Hadoop Core und Analyseplattformen für Endbenutzer auf eine Weise, die sich neu konfigurieren lässt, wenn sich der Bedarf weiterentwickelt. Die Flexibilität dieser Architekturen wird letztendlich entscheidend sein für die Wahl der Technologie.


Weiterführendes Material:

The cold/warm/hot framework and how it applies to your Hadoop strategy (Bedeutung des Frameworks für die Hadoop-Strategie)

5. Vielfalt, nicht Volumen oder Geschwindigkeit, ist entscheidend für Big Data-Investitionen

Gartner definiert Big Data so:

Datenbestände mit hohem Volumen, hoher Geschwindigkeit und großer Vielfalt. Zwar wachsen alle diese drei Punkte, doch die Vielfalt wird zur größten Triebkraft von Big Data-Investitionen, wie vor Kurzem aus einer Umfrage von New Vantage Partners hervorging. Dieser Trend wird sich fortsetzen, da die Unternehmen mehr Quellen integrieren und sich auf die „lange Schleppe“ der Big Data konzentrieren wollen. Vom schemafreien JSON über verschachtelte Typen in anderen Datenbanken (relational und NoSQL) bis zu strukturierten Daten (Avro, Parquet, XML) vervielfältigen sich die Datenformate und die Konnektoren werden entscheidend. 2017 werden Analyseplattformen danach beurteilt, ob sie Direktverbindungen zu diesen disparaten Quellen herstellen können.


Weiterführendes Material:

Variety, not volume, is driving big data initiatives (Vielfalt, nicht Volumen, ist entscheidend für Big Data-Initiativen)

6. Spark und maschinelles Lernen lassen Big Data erstrahlen

Apache Spark, ursprünglich eine Komponente des Hadoop-Systemumfelds, wird jetzt zur Big Data-Plattform erster Wahl für Unternehmen.

In einer Umfrage unter Datenarchitekten, IT-Managern und BI-Analysten bevorzugten fast 70 % der Befragten Spark gegenüber dem etablierten MapReduce, das stapelorientiert und nicht für interaktive Anwendungen oder die Verarbeitung von Echtzeit-Streams geeignet ist.

Diese Fähigkeit für große Rechenoperationen mit Big Data haben Plattformen hervorgebracht, die rechenintensives maschinelles Lernen, KI und grafische Algorithmen bieten. Microsoft Azure ML war besonders erfolgreich aufgrund seiner Anfängerfreundlichkeit und der einfachen Integration mit vorhandenen Microsoft-Plattformen. Die Bereitstellung von ML für die Massen wird mehr Modelle und Anwendungen zur Folge haben, wodurch Petabytes von Daten generiert werden. Wenn Maschinen lernen und Systeme intelligent werden, wird sich das Augenmerk auf Anbieter von Selfservice-Software richten, um zu sehen, wie sie den Zugriff der Endbenutzer auf diese Daten ermöglichen.


Weiterführendes Material:

Why you should use Spark for machine learning (Weshalb Spark die richtige Lösung für maschinelles Lernen ist)

7. Die Konvergenz von IoT, Cloud und Big Data schafft neue Gelegenheiten für Selfservice-Analysen

Es scheint, als ob 2017 alles mit Sensoren ausgestattet sein wird, die Daten an das Mutterschiff zurücksenden.

IoT generiert Riesenmengen an strukturierten und unstrukturierten Daten und ein wachsender Anteil dieser Daten wird von Cloudservices bereitgestellt. Die Daten sind häufig heterogen und befinden sich auf zahlreichen relationalen und nicht relationalen Systemen von Hadoop-Clustern bis zu NoSQL-Datenbanken. Während Innovationen bei Speicherung und Managed Services den Erfassungsprozess beschleunigt haben, sind der Zugriff auf die Daten und das Verstehen der Daten selbst immer noch die größte Herausforderung auf der letzten Meile. Das Resultat ist, dass die Nachfrage nach Analysetools ansteigt, die nahtlos eine Verbindung zu einer Vielzahl von in der Cloud gehosteten Datenquellen herstellen und diese kombinieren können. Mit solchen Tools können Unternehmen sämtliche Datentypen untersuchen und visualisieren, ganz gleich, wo sie gespeichert sind. Auf diese Weise lassen sich versteckte Geschäftsgelegenheiten in der IoT-Investition aufdecken.


Weiterführendes Material:

Das Problem der letzten Meile im Internet der Dinge und seine Lösung

8. Selfservice-Datenaufbereitung wird zum Mainstream, wenn die Endbenutzer beginnen, Big Data zu gestalten

Geschäftsanwendern den Zugriff auf Hadoop-Daten zu gestatten, ist eine der größten Herausforderungen unserer Zeit.

Der Boom bei den Selfservice-Analyseplattformen hat diese Umstellung erleichtert. Aber die Geschäftsanwender wollen Zeitaufwand und Komplexität der Datenaufbereitung für die Analyse noch weiter reduzieren. Dies ist besonders wichtig, wenn es um eine Vielzahl von Datentypen und -formaten geht.

Agile Selfservice-Tools zur Datenaufbereitung ermöglichen es nicht nur, dass Hadoop-Daten direkt an der Quelle aufbereitet werden können, sondern stellen die Daten auch als Momentaufnahmen bereit, damit sie schneller und einfacher untersucht werden können. Wir haben in diesem Bereich eine Vielzahl von Innovationen von Unternehmen beobachtet, die sich auf die Big Data-Datenaufbereitung durch Endbenutzer konzentrieren, wie etwa Alteryx, Trifacta und Paxata. Diese Tools senken die Einstiegsbarrieren für Hadoop-Nachzügler und -Späteinsteiger. Sie werden auch 2017 weiter an Zugkraft gewinnen.


Weiterführendes Material:

Why self-service prep is a killer app for big data (Die Bedeutung von Selfservice-Datenaufbereitung für Big Data)

9. Big Data wird erwachsen: Hadoop als Beitrag zu Unternehmensstandards

Wir beobachten einen Trend, dass Hadoop zunehmend zum Kern des IT-Umfelds im Unternehmen wird.

2017 werden wir mehr Investitionen in Sicherheits- und Governance-Komponenten im Umfeld der Unternehmenssysteme sehen. Apache Sentry bietet ein System zur Durchsetzung detaillierter, rollenbasierter Autorisierung für Daten und Metadaten, die in einem Hadoop-Cluster gespeichert sind. Apache Atlas, entwickelt als Teil der Data Governance-Initiative, ermöglicht es den Organisationen, eine konsistente Datenklassifizierung im gesamten Datensystemumfeld anzuwenden. Apache Ranger bietet zentralisierte Sicherheitsverwaltung für Hadoop.

Kunden beginnen, diese Arten von Funktionen bei ihren RDBMS-Plattformen auf Unternehmensebene zu erwarten. Diese Funktionen stehen im Vordergrund neu aufkommender Big Data-Technologien und beseitigen eine weitere Barriere für die Einführung in den Unternehmen.


Weiterführendes Material:

The phases of Hadoop maturity: Where exactly is it going? (Die Phasen der Hadoop-Reife: Wohin führt die Entwicklung?)

10. Das Aufkommen der Metadatenkataloge hilft den Mitarbeitern, Big Data zu finden, deren Analyse sich lohnt

Über einen langen Zeitraum vernichteten Unternehmen Daten, weil zu viel verarbeitet werden musste.

Mit Hadoop können viele Daten verarbeitet werden, aber die Daten sind im Allgemeinen nicht so organisiert, dass man sie finden kann.

Metadaten können den Benutzern helfen, relevante Daten zu entdecken und zu verstehen, deren Analyse mit Selfservice-Tools sich lohnt. Diese Lücke beim Kundenbedarf wird von Unternehmen wie Alation und Waterline ausgefüllt, die maschinelles Lernen einsetzen, um das Auffinden von Daten in Hadoop zu automatisieren. Die Katalogdateien verwenden Tags, entdecken Beziehungen zwischen Datenbeständen und liefern sogar Abfragevorschläge über durchsuchbare Benutzeroberflächen. Dies hilft sowohl den Datenkonsumenten als auch den Dateneigentümern dabei, den Zeitaufwand zu reduzieren, um Daten vertrauenswürdig zu machen, sie zu finden und präzise abzufragen. 2017 wird die Selfservice-Untersuchung als natürliche Erweiterung der Selfservice-Analyse an Bedeutung gewinnen und sich einer größeren Nachfrage erfreuen.


Weiterführendes Material:

Data catalogs as a strategic requirement for data lakes (Datenkataloge als strategische Voraussetzung für Datenseen)