Où trouver les meilleurs ensembles de données gratuits et publics

Jacob Olsufka nous donne quelques conseils pour trouver l'ensemble de données idéal pour votre prochaine visualisation.

S'entraîner à créer des visualisations en dehors du travail est un bon moyen de vous sortir du train-train de l'analyse de données métier et de donner libre cours à votre créativité pour progresser.

Vous avez certainement déjà eu envie de créer une visualisation, sans pourtant savoir où trouver les données à analyser. Vous êtes loin d'être le seul. Fort heureusement, il existe de nombreuses ressources de données publiques en ligne. Tableau Public propose quelques échantillons disponibles à la page des ressources et l'article disponible ici cite plusieurs ressources de données gratuites et publiques. Pour compléter cette liste, je vais vous présenter quelques-unes de mes ressources préférées pour trouver des ensembles de données intéressants et bien organisés.

Source 1 : Données provenant de sites d'actualité et d'organes de presse

Si vous recherchez des données sur un large éventail de sujets, vous pouvez regarder du côté des sites d'actualités. Vous pouvez généralement y télécharger des sources de données au format CSV, qu'il est possible de connecter à des logiciels tels que Tableau.

  • FiveThirtyEight : une véritable mine de plus de 100 ensembles de données sur le sport et la politique. Exemples de sujet : prédictions pour la March Madness (basketball), élections politiques, émission The Bachelorette, etc.

    Visualization using March Madness data sets from Five ThirtyEight

    Voici un excellent exemple de tableau de bord, conçu par Chris DeMartini et basé sur l'ensemble de données de FiveThirtyEight sur la March Madness.

  • The Pudding : ce site de data journalism propose une approche visuelle de nombreux sujets très médiatisés, en se basant sur des ensembles de données originaux et sur des travaux de recherche. L'espace GitHub de The Pudding est un concentré de culture populaire. Exemples de sujet : comparatif des poches de pantalon pour hommes et pour femmes, conditions météorologiques sur Mars etc.
  • Buzzfeed : si vous connaissez Buzzfeed, vous savez que ce site couvre divers sujets relevant de la politique, du sport et de l'actualité. Il propose également une liste très fournie d'ensembles de données sur GitHub. Exemples de sujet : tweets de Trump, texte de chaque discours sur l'état de l'Union, etc.
  • Washington Post : le Washington Post est une source d'information reconnue qui propose de nombreux ensembles de sources de données publiques, notamment sur les finances de la NCAA ou sur le secteur des transports. Exemples de sujet : fusillades dans les écoles, fusillades policières, arrestations de joueurs de la NFL, etc.

Source 2 : Projets animés par la communauté

La passion et les compétences analytiques de la communauté Tableau sont inégalées, et vous pourrez facilement y trouver des sources de données prêtes à être analysées.

  • Viz for Social Good : un projet de type hackathon qui permet de faire le lien entre la communauté d'utilisateurs et les organismes à but non lucratif. Exemples de sujet : effets de l'absence d'un père sur les garçons en Afrique, sensibilisation aux conditions des enfants réfugiés, soutien aux entrepreneurs afro-américains.
  • Makeover Monday : un évènement organisé chaque semaine sur les médias sociaux, qui lance une discussion autour d'une visualisation de données particulière à améliorer. Chaque dimanche, l'équipe poste un lien vers une visualisation et un ensemble de données. Le défi est de créer une visualisation de meilleure qualité de manière créative. Les ensembles de données publiés chaque semaine sont diversifiés et restent à disposition sur le site ; ils peuvent donc servir de point de départ à votre recherche de données propres. Exemples de sujet : énergie éolienne dans les États américains, salaire minimum, participation aux matchs de la NHL.
  • Sports Viz Sunday : projet organisé par la communauté pour créer, partager et promouvoir des visualisations sur le monde du sport. Sports Viz Sunday organise chaque mois un concours sur un thème sportif, rend compte de l'actualité des visualisations sportives et propose des ensembles de données complets sur un large éventail de sports. Exemples de sujet : Coupe du monde de football, Masters de golf, Formule 1.
  • Iron Quest : ce projet a pour but de préparer les participants aux concours de qualification de l'Iron Viz, en leur permettant de s'entraîner à trouver leurs propres ensembles de données.

Source 3 : Données relatives à vos propres activités

Si vous ne trouvez rien à votre goût sur ces différents sites, vous avez toujours la possibilité de collecter vos propres données. Un utilisateur Reddit a par exemple créé une visualisation à partir de données qu'il a collectées sur le rythme de sommeil de sa fille pendant ses quatre premiers mois.

  • Données Twitter : Twitter propose une API qui permet d'obtenir des données sur les hashtags, les mots clés et les comptes utilisateur. Voici un guide expliquant comment vous connecter aux données Twitter directement dans Tableau. Si vous êtes à l'aise avec l'utilisation d'API, vous pouvez créer des requêtes pour récupérer des données JSON, qui sont prises en charge dans Tableau. Voici la documentation complète concernant les API. Exemple de visualisation : Pulse of Super Bowl LIII.

    Visualization of Super Bowl LIII Peaks.

  • Données Netflix : téléchargez les données de votre historique Netflix en vous rendant sur netflix.com/viewingactivity. Exemple de visualisation : j'ai créé un tableau de bord qui compare les habitudes de binge watching de plusieurs utilisateurs et présente leurs activités de visionnage dans le temps.

    Netflix binge analysis.

Source 4 : Extraction de données présentées sur le Web

Parfois, je trouve des données que j'ai vraiment envie d'explorer en profondeur dans Tableau, mais qui nécessiteraient des opérations fastidieuses de copier/coller. C'est là que l'extraction de contenu Web est intéressante. Google Sheets propose une fonction (IMPORTHTML) permettant d'importer des données depuis un tableau ou une liste figurant sur une page HTML. Corey Jones a écrit un article pour expliquer comment il utilise cette fonctionnalité et automatise le processus de sorte qu'il s'exécute chaque jour. Skyler Johnson utilise une méthode similaire pour analyser le nombre de followers Instagram dans le temps dans cette visualisation.

Autres exemples de sites proposant des données publiques :

Conseils pour trouver vos propres sources de données publiques

Voilà différentes possibilités pour trouver des données, mais comment trouver l'ensemble de données fait pour vous ? À mon avis, la phase de recherche et de préparation des données est l'une des étapes les plus intéressantes d'un projet. Voici quelques recommandations :

  1. Si un thème vous passionne, faites-en le sujet d'une visualisation. Vous avez probablement davantage envie d'explorer en détail un sujet qui vous intéresse et vous le connaissez suffisamment pour comprendre les nuances et faire des découvertes intéressantes. Pour mon projet Pulse of Super Bowl LIII par exemple, j'ai appris à écrire du code R de base à l'aide du package nflscrapR pour extraire les probabilités de victoire à partir des données des différentes phases de jeu. Pour obtenir les données sur le temps de chaque apparition pour Star Wars - Screen Time Analysis, j'ai utilisé un script Python afin d'analyser des données JSON et de leur donner le format dont j'avais besoin pour la visualisation. Cette expérience s'est révélée particulièrement utile, car j'utilise aujourd'hui Python pour le travail. En cas de doute, choisissez ce qui vous passionne.
  2. Les données désorganisées vous donnent l'occasion de tester de nouveaux outils. Vous ne devez pas les traiter comme un obstacle infranchissable mais comme un défi. Elles vous permettent d'améliorer vos compétences en code, en extraction Web, en préparation de données ou en automatisation, que vous pourrez mettre en avant sur votre CV.
  3. Créez un ensemble de données unique. Bien que les données prêtes à l'emploi soient pratiques, vous pouvez partir d'une idée que vous avez en tête et créer un ensemble de données adéquat. Il s'agit là d'une bonne occasion d'apprendre quelque chose de nouveau et de créer une visualisation véritablement unique.
  4. Faites une liste de vos idées de projets potentiels. Je garde sur mon smartphone une liste de toutes les idées qui me passent par la tête. Certaines ne donneront peut-être rien, mais je me suis rendu compte que plus je note des idées, plus ça me motive à trouver un ensemble de données.

Les données ne manquent pas ! J'espère que ces recommandations vous serviront de point de départ si vous avez du mal à trouver des données qui vous inspirent. Et si vous avez déjà vos données, n'hésitez pas à créer un profil Tableau Public pour partager toutes vos créations. Qu'attendez-vous ?