So finden Sie die besten Quellen für kostenlose und öffentlich zugängliche Datensätze

Jacob Olsufka gibt Tipps, wie Sie den perfekten Datensatz für Ihr nächstes Datenvisualisierungsprojekt finden können.

Das Analysieren von Daten außerhalb der Arbeit kann eine hervorragende Möglichkeit zur Entwicklung Ihrer Fähigkeiten und zur Ausweitung Ihrer kreativen Grenzen sein, losgelöst von der Wiederholung der Geschäftsdaten.

Wollten Sie je ein Datenvisualisierungsprojekt starten, haben sich dann aber gedacht: „Wo finde ich nur die Daten?“ Damit sind Sie nicht allein. Glücklicherweise gibt es online viele öffentlich zugängliche Ressourcen. Tableau Public bietet einige Beispieldaten auf seinen Ressourcenseiten, und in diesem Artikel sind eine Reihe von Orten aufgeführt, an denen Sie kostenlose und öffentlich zugängliche Daten finden können. Neben diesen sind hier noch einige meiner bevorzugten Orte, um mit der Suche nach interessanten und sauberen Datensätzen zu beginnen.

Quelle 1: Daten auf Nachrichten-Websites und Medienkanälen finden

Daten von neuen Websites sind toll, wenn Sie nach einer großen Vielzahl von Themen suchen. Sie können sie üblicherweise als .csv-Datei herunterladen und dann mit einer Software, wie Tableau, nutzen

  • FiveThirtyEight - Eine Goldmine mit über 100 Datensätzen aus den Bereichen Sport und Politik. Beispiele: March Madness-Prognosen, politische Umfragen, die Bachelorette-Fernsehserie usw.

    Visualization using March Madness data sets from Five ThirtyEight

    Dies ist ein tolles Beispiel für ein Dashboard, das von Chris DeMartini unter Verwendung des March Madness-Datensatzes von FiveThirtyEight erstellt wurde.

  • The Pudding: Diese Datenjournalismus-Website hat sich zum Ziel gesetzt, heiß umstrittene Ereignisse mit visuellen Essays aus Original-Datensätzen und Primärrecherchen zu veranschaulichen. Ihr GitHub ist ein Hub für Pop Culture-Daten. Beispiele: Damen- vs Herrenhosentaschen, Witterungsbedingungen auf dem Mars usw.
  • Buzzfeed: Wenn Sie Buzzfeed kennen, dann wissen Sie, dass auf deren Nachrichten-Website eine Vielzahl von Themen aus den Bereichen Politik, Sport und Kulturevents behandelt werden. Darüber hinaus haben sie eine umfangreiche Liste mit Datensätzen auf GitHub. Beispiele: Tweets von Trump, der Text aller Regierungserklärungen zur Lage der Nation usw.
  • Washington Post: Die Washington Post ist eine hochangesehene Nachrichtenquelle. Ihre Liste von öffentlich zugänglichen Datensätzen umfasst Themen, wie NCAA-Finanzwesen und Daten aus dem Transportwesen. Beispiele: Schießereien in Schulen, Polizeischießereien, NFL-Verhaftungen usw.

Quelle 2: Sehen Sie sich Community-geführte Projekte an

Die Tableau Community sucht ihresgleichen, was Leidenschaft und analytische Kompetenz anbelangt. Daher ist sie eine natürliche Anlaufstelle für saubere Datenquellen, die bereit für die Analyse sind.

  • Viz for Social Good: Ein Projekt im Hackathon-Stil, bei dem die Community mit gemeinnützigen Organisationen verknüpft wird. Beispiele: Die Unterstützung vaterloser Kinder in Afrika, das Steigern des Bewusstseins für Flüchtlingskinder, das Unterstützen von schwarzen männlichen Unternehmern.
  • Makeover Monday: Ein wöchentliches Projekt mit sozialen Daten zum Initiieren einer Diskussion rund um die Verbesserung von Datenvisualisierungen. Jeden Sonntag postet das Team einen Link zu einer Visualisierung oder einem Datensatz. Ihre Herausforderung besteht darin, eine bessere Version der Visualisierung in Ihrer eigenen kreativen Art zu erstellen. Ihre wöchentlichen Datensätze sind vielfältiger Natur und verbleiben zur Wiederverwendung auf der Website. Somit ist diese ein hervorragender Ort, um mit Ihrer Suche nach sauberen Daten zu beginnen. Beispiele: Windenergie nach Bundesland, Mindestlohn, NHL-Teilnahme
  • Sports Viz Sunday: Ein Community-geführtes Projekt zum Erstellen, Teilen und Fördern von Visualisierungen aus der Welt des Sports. Sports Viz Sunday hostet einen monatlichen Wettbewerb basierend auf einem aktuellen Sportthema. In regelmäßigen Abständen werden dazu Updates aus der Welt der Sportvisualisierungen bereitgestellt sowie umfangreiche Datensätze aus einer großen Vielzahl von Sportarten. Beispiele: Weltmeisterschaft, Masters, Formel 1 Rennen.
  • Iron Quest: Ein Projekt, das Teilnehmer für die Iron Viz-Qualifikationswettbewerbe vorbereiten soll. Hier haben Sie die Möglichkeit, das Suchen Ihrer eigenen Datensätze zu üben.

Quelle 3: Nutzen Ihrer eigenen persönlichen und quantifizierten Daten

Wenn Sie das Internet durchsucht haben, aber nichts finden können, was Sie so richtig interessiert, besteht ja immer noch die Möglichkeit, persönliche Daten zu erfassen. So hat beispielsweise ein Teilnehmer das Schlafmuster der Tochter in den ersten vier Monaten ihres Lebens erfasst und visualisiert.

  • Twitter-Daten: Twitter verfügt über eine Programmierschnittstelle (API), über die Sie Daten zu Hashtags, Schlüsselbegriffen oder Konten abrufen können. Hier finden Sie einen Leitfaden zur Verknüpfung mit Twitter-Daten direkt in Tableau. Wenn Sie mit der Arbeit mit APIs vertrauter sind, können Sie eine Anfrage zum Erhalt von JSON-Daten stellen, einem in Tableau unterstützen Datentyp. Hier finden Sie die komplette Dokumentation zur API. Visualisierungsbeispiel: Am Puls des Super Bowl LIII.

    Visualization of Super Bowl LIII Peaks.

  • Netflix-Daten: Laden Sie sich Ihre Betrachtungsdaten unter netflix.com/viewingactivity herunter. Visualisierungsbeispiel: Ich habe ein Dashboard erstellt, das die Gelüste von Menschen vergleicht und die Aktivität des Netflix-Schauens über einen bestimmten Zeitraum visualisiert.

    Netflix binge analysis.

  • Spotify-Streamingdaten - Wussten Sie, dass Sie Ihre persönlichen Hördaten von Spotify anfordern können? Wenn Sie mit der Arbeit mit APIs vertraut sind, können Sie über die Spotify Web API Daten zu Musikern, Alben und Titeln direkt aus dem Spotify Data Catalogue abrufen.

    Visualization using Spotify's API.

    Robert Janezic nutzte die Spotify API zum Erstellen seiner Analyse alternativer Titel.

Quelle 4: Daten selbst aus dem Web zusammensuchen

Gelegentlich finde ich Daten auf einer Website, die ich wirklich gern in Tableau übernehmen und tiefreichender analysieren möchte, aber ich möchte sie nicht manuell per Kopieren und Einfügen übernehmen. Rufen Sie Web Scraping auf. Google Sheets verfügt über eine integrierte Funktion (IMPORTHTML) für den Datenimport aus einer Tabelle oder einem Verzeichnis innerhalb einer HTML-Seite. Corey Jones schrieb einen Blog-Beitrag, in dem er erklärte, wie er diese Funktion nutzt und den Prozess sogar automatisiert, sodass er jeden Tag ausgeführt wird. Skyler Johnson nutzt ein ähnliches Verfahren, um in seiner Visualisierung die Instagram-Follower-Zahlen über einen bestimmten Zeitraum hinweg zu verfolgen.

Einige weitere Websites für öffentlich zugängliche Daten sind:

Allgemeine Tipps zum Kuratieren Ihrer eigenen öffentlich zugänglichen Lieblingsdatenquellen

Dies sind einige der vielen Orte, an denen Sie Daten finden können. Was aber macht einen Satz für Sie zum „perfekten“ Datensatz? Meiner Ansicht nach ist der Prozess des Suchens und Aufbereitens eines Datensatzes einer der besten Phasen eines jeden Datenprojekts. Hier sind einige Gedanken und Empfehlungen:

  1. Wenn Sie ein Thema wirklich lieben, erkunden Sie es per Datenvisualisierung. Vermutlich werden Sie die Themen deutlich tiefreichender analysieren und die Nuancen besser verstehen, durch die sich verborgene Storys aufdecken lassen. So habe ich beispielsweise für mein Projekt Am Puls des Super Bowl LIII gelernt, R-Basiscode mit dem nflscrapR-Paket zu schreiben, um die Gewinnwahrscheinlichkeiten bei jedem Spiel aus den spielspezifischen Daten zu extrahieren. Zur Akquisition der Bildschirmzeit für mein Projekt Star Wars – Bildschirmzeit nutzte ich ein Python-Skript zum Parsen von Daten, die im JSON-Format begannen, bis zu dem Status, den ich für die Analyse benötigte. Dies war besonders hilfreich, da ich Python nun bei meiner derzeitigen Tätigkeit zur Analyse nutze. Arbeiten Sie im Zweifelsfall mit Ihren persönlichen Leidenschaften.
  2. Begrüßen Sie chaotische Daten als Gelegenheit zur Erkundung neuer Tools. Chaotische Daten müssen nicht als Hindernis gesehen werden, sondern eher als Gelegenheit. Die Verbesserung seiner Fähigkeit auf den Gebieten Codierung, Data Scraping, Datenaufbereitung oder Automatisierung von Aufgaben kann Spaß machen und bietet zusätzlich den Vorzug, dass sie sich gut auf Ihrem Lebenslauf machen.
  3. Erstellen Sie einen eindeutigen Datensatz. Obgleich aufbereitete Daten oft praktisch sind, kann eine Idee zum Verfolgen oder zum Erstellen eines entsprechenden Datensatzes führen. Das Erstellen eines Datensatzes kann eine tolle Lernerfahrung sein und eine Visualisierung ergeben, die eine wahrhaft einzigartige Story zu erzählen hat.
  4. Führen Sie eine Liste potenzieller Ideen und Projekte. Ich habe auf meinem Smartphone umfangreiche Listen mit Ideen, die mir zwischendurch so gekommen sind. Einige davon führen vielleicht zu gar nichts, aber ich habe festgestellt, dass man einfacher für die Suche nach einem Datensatz motiviert ist, je mehr Ideen sich finden lassen.

Es gibt da draußen so viele Daten! Hoffentlich ist dies für Sie ein guter Ausgangspunkt, wenn Sie damit kämpfen, inspirierende Daten zu finden. Jetzt, wo Sie die Daten haben, warum legen Sie sich nicht ein Tableau Public-Profil an, um mit der Visualisierung und dem Teilen Ihrer Arbeit zu beginnen? Worauf warten Sie noch?