Come trovare le migliori origini per accedere a dei set di dati pubblici gratuiti

Jacob Olsufka ci propone alcuni suggerimenti per trovare il set di dati perfetto per il prossimo progetto di visualizzazione.

L'analisi dei dati al di fuori del lavoro può essere un'ottima soluzione per sviluppare competenze e ampliare i propri confini creativi, allontanandosi dalla ripetitività dei dati aziendali.

Hai mai sognato di intraprendere un progetto di visualizzazione dei dati, per poi bloccarti alla domanda: "Ma dove trovo i dati?" Non sei il solo. Fortunatamente però ci sono molte risorse online a disposizione di tutti. Tableau Public propone alcuni dati di esempio nella sua pagina delle risorse e in questo articolo suggeriamo diversi modi per trovare dati pubblici gratuiti. In più, ecco alcuni dei miei posti preferiti in cui iniziare a cercare dei set di dati interessanti e puliti.

Origine 1: Ricavare i dati dai siti di notizie e dai media

I dati dei siti di notizie sono perfetti per chi cerca una grande varietà di argomenti. Di solito si possono scaricare come file .CSV, da collegare poi a un software come Tableau.

  • FiveThirtyEight - Una vera miniera d'oro: oltre 100 set di dati su sport e politica. Alcuni esempi: previsioni del March Madness, sondaggi politici, la trasmissione The Bachelorette e così via.

    Visualization using March Madness data sets from Five ThirtyEight

    Questo è un ottimo esempio di dashboard, a cura di Chris DeMartini, che utilizza il set di dati March Madness del sito FiveThirtyEight.

  • The Pudding - Questo sito di data journalism ha l'obiettivo di spiegare eventi culturali intensamente dibattuti con saggi visivi ricavati da set di dati originali e ricerche di base. Il suo GitHub è un hub di dati della cultura popolare. Alcuni esempi: tasche dei pantaloni da donna a confronto con quelle dei pantaloni da uomo, condizioni meteorologiche su Marte e così via.
  • Buzzfeed - Chi conosce Buzzfeed sa bene che il suo sito di notizie tratta svariati argomenti, dalla politica, allo sport, all'attualità. Offre anche un fornito elenco di set di dati su GitHub. Alcuni esempi: i tweet di Trump, tutti gli indirizzi di ogni Stato degli USA e così via.
  • Washington Post - Il Washington Post è un'autorevole fonte di notizie e dispone di un elenco di set di dati aperti a tutti, con argomenti come i dati finanziari dell'NCAA o i dati relativi ai trasporti. Alcuni esempi: sparatorie nelle scuole, sparatorie con la polizia, arresti tra i protagonisti della NFL e così via.

Origine 2: Scopri i progetti collettivi condotti dalle community

La community di Tableau non teme confronti per quanto riguarda passione e capacità di analisi, quindi è il punto di partenza ideale per chi cerca origini di dati pulite e pronte per l'analisi.

  • Viz for Social Good - Un progetto in stile hackathon che mette in contatto le persone con organizzazioni senza scopo di lucro. Alcuni esempi: supporto ai bambini rimasti senza padre in Africa, sensibilizzazione sul problema dei bambini rifugiati, supporto agli imprenditori di colore.
  • Makeover Monday - Un progetto settimanale di social-data volto a favorire il dibattito sul miglioramento della visualizzazione dei dati. Ogni domenica il team pubblica un link a una visualizzazione e un set di dati. La sfida per te consiste nel creare una versione migliore della loro visualizzazione seguendo il tuo stile creativo personale. I set di dati settimanali proposti sono molto vari e rimangono a disposizione sul sito per essere riutilizzati: un eccellente punto di partenza per chi cerca dati puliti. Alcuni esempi: energia eolica per Stato, salario minimo, partecipazione del pubblico alle partite dell'NHL.
  • Sports Viz Sunday - Un progetto collettivo per creare, condividere e promuovere visualizzazioni riguardanti il mondo dello sport. Sports Viz Sunday organizza ogni mese una sfida basata su un tema sportivo di attualità, condividendo regolarmente aggiornamenti dal mondo delle visualizzazioni a tema sportivo e proponendo grandi set di dati riguardanti molti sport diversi. Alcuni esempi: Campionato mondiale di calcio, The Masters, Formula 1.
  • Iron Quest - Un progetto che ha l'obiettivo di preparare chi desidera partecipare alla qualificazioni dell'Iron Viz, offrendo l'opportunità di allenarsi nella ricerca dei propri set di dati.

Origine 3: Usa i tuoi dati personali quantificati

Se hai cercato un po' dappertutto ma ancora non hai trovato nulla di interessante, hai comunque la possibilità di raccogliere dati su di te. Ad esempio, qualcuno ha raccolto i dati relativi alle dinamiche del sonno della propria figlia nei primi quattro mesi di vita e li ha visualizzati.

  • Dati di Twitter - Twitter ha un'API che consente di ricavare i dati relativi agli hashtag, alle parole chiave o agli account. Ecco qua una guida su come connettersi ai dati di Twitter direttamente in Tableau. Se preferisci lavorare con le API, puoi inoltrare una richiesta per ottenere i dati in formato JSON: un tipo di dati supportato da Tableau. Ecco la documentazione completa dell'API. Un esempio di visualizzazione: Panoramica del Super Bowl LIII.

    Visualization of Super Bowl LIII Peaks.

  • Dati di Netflix - Scarica i dati delle tue abitudini di visione all'indirizzo netflix.com/viewingactivity. Un esempio di visualizzazione: Ho creato una dashboard che confronta le "maratone televisive" delle persone e mostra l'attività di visione di Netflix nel tempo.

    Netflix binge analysis.

Origine 4: Estrai i dati dal Web in autonomia

A volte trovo su un sito web dei dati che vorrei analizzare con Tableau per esplorarli in modo più approfondito, ma non ho voglia di copiarli e incollarli a mano. Estrai i dati dal Web. Fogli Google offre una funzione integrata (IMPORTHTML) che permette di importare in una pagina HTML i dati di una tabella o di un elenco. Corey Jones ha scritto un post per spiegare il suo utilizzo di questa funzione e ha addirittura automatizzato la procedura affinché venga eseguita ogni giorno. Skyler Johnson adotta un metodo simile per seguire il numero di follower su Instagram nel corso del tempo, in questa viz.

Ecco altri siti web con dati pubblicamente disponibili:

Suggerimenti generali per la cura delle fonti di dati pubbliche preferite

Abbiamo visto alcuni dei molti ambienti in cui puoi trovare dei dati, ma che caratteristiche deve avere un set di dati per essere "perfetto" per te? Secondo me la fase di ricerca e preparazione di un set di dati è una delle parti migliori di qualsiasi progetto riguardante i dati. Ecco alcune riflessioni e alcuni consigli:

  1. Se un argomento ti piace, esploralo ricorrendo alla visualizzazione dei dati. Avrai maggiori possibilità di analizzare in modo più approfondito gli argomenti che ti interessano e di cogliere sfumature che possono aprirti le porte su dettagli nascosti. Ad esempio, per il mio progetto Panoramica del Super Bowl LIII, ho imparato a scrivere semplici istruzioni in linguaggio R usando il pacchetto nflscrapR per ricavare le probabilità di vittoria in ogni partita in base ai dati degli incontri progressivi. Per acquisire i dati relativi ai tempi di visualizzazione per il mio progetto Star Wars - Analisi dei tempi di apparizione, ho adottato uno script di Python per analizzare i dati passando dal formato JSON allo stato di cui avevo bisogno. È stato molto utile, perché ora uso Python nella mia attività di analisi. Nel dubbio, segui le tue passioni.
  2. Considera i dati disordinati come un'opportunità per esplorare nuovi strumenti. I dati disordinati non devono rappresentare un ostacolo, bensì un'opportunità. Migliorare le capacità di codifica, estrazione e preparazione dei dati, o di automazione delle attività può essere divertente, con il vantaggio di potenziare le competenze da inserire nel curriculum.
  3. Crea un set di dati unico. È vero che spesso i dati pronti all'uso sono comodi, ma a volte un'idea può portare a ottenere o a creare un set di dati ottimale. Creare un set di dati può essere una grande esperienza didattica e può davvero permettere di elaborare una visualizzazione in grado di presentare una storia unica.
  4. Tieni un elenco delle idee e dei progetti potenziali. Ho sul telefono elenchi lunghissimi di idee che mi vengono in mente. Alcune potrebbero non portare a nulla, ma ho scoperto che quante più idee ti vengono in mente, tanto più facile sarà trovare la motivazione per cercare un set di dati.

Ci sono tantissimi dati in giro! Spero che queste indicazioni offrano un buon punto di partenza a chi ha difficoltà a trovare dati stimolanti. Adesso che hai i dati, perché non creare un profilo di Tableau Public per visualizzare e condividere il tuo lavoro? Che aspetti?