Como encontrar as melhores fontes de conjuntos de dados públicos gratuitos

Jacob Olsufka compartilha dicas sobre como encontrar o conjunto de dados perfeito para seu próximo projeto de visualização de dados.

Analisar dados fora do trabalho pode ser uma ótima forma de desenvolver suas habilidades e expandir seus horizontes criativos, saindo da mesmice dos dados comerciais.

Você alguma vez já quis começar um projeto de visualização de dados, mas pensou: “Onde encontro dados?” Você não é o único. Felizmente, a Internet está repleta de recursos públicos à disposição. O Tableau Public tem alguns dados de exemplo em suas páginas de recursos, e este artigo lista vários lugares onde você pode encontrar dados públicos gratuitos. Além dessas opções, confira a seguir alguns dos meus lugares favoritos para procurar conjuntos de dados organizados e interessantes.

Fonte 1: Encontre dados de sites de notícias e meios de comunicação

Dados de sites de notícias são uma ótima opção se você está buscando uma ampla variedade de tópicos. Você geralmente pode baixá-los como um arquivo .csv que pode conectar a softwares como o Tableau.

  • FiveThirtyEight - Uma mina de ouro com mais de 100 conjuntos de dados sobre esporte e política. Exemplos: Previsões do torneio de basquete March Madness, pesquisas políticas, o reality show Bachelorette etc.

    Visualization using March Madness data sets from Five ThirtyEight

    Este é um ótimo exemplo de um painel criado por Chris DeMartini com o conjunto de dados sobre o torneio de basquete March Madness do site FiveThirtyEight.

  • The Pudding: este site de jornalismo de dados se propõe a explicar acontecimentos culturais amplamente comentados com ensaios visuais respaldados por conjuntos de dados originais e pesquisas primárias. O GitHub do site é uma central de dados sobre cultura popular. Exemplos: Comparação dos bolsos de calças femininas e masculinas, condições climáticas em Marte etc.
  • Buzzfeed: se você conhece o Buzzfeed, sabe que o site de notícias do portal aborda uma variedade de tópicos sobre política, esporte e atualidades. O site também disponibiliza uma longa lista de conjuntos de dados no GitHub. Exemplos: Tuítes de Trump, o texto de cada discurso de Estado da União dos EUA etc.
  • Washington Post: o Washington Post é uma respeitada fonte de notícias, e sua lista de conjuntos de dados abertos inclui tópicos como dados financeiros da NCAA e dados sobre transporte. Exemplos: Tiroteios em escolas, tiroteios envolvendo a polícia, prisões de jogadores da NFL etc.

Fonte 2: Confira projetos promovidos pela comunidade

A comunidade do Tableau é inigualável em termos de proeza analítica e envolvimento dos usuários, sendo um ponto de partida natural para encontrar fontes de dados organizadas prontas para análise.

  • Viz for Social Good: um projeto estilo hackaton que conecta a comunidade a organizações sem fins lucrativos. Exemplos: Assistência a garotos sem pai na África, conscientização sobre crianças refugiadas e apoio a empreendedores negros.
  • Makeover Monday: um projeto de dados social semanal que promove uma discussão sobre como melhorar as visualizações de dados. Todos os domingos, a equipe publica um link para uma visualização e um conjunto de dados. O desafio é criar uma versão melhorada da visualização usando sua criatividade. Os conjuntos de dados semanais são variados e permanecem no site para reutilização, então esse é um ótimo lugar para começar se você busca dados organizados. Exemplos: Energia eólica por estado dos EUA, salário mínimo, público de jogos da NHL (Liga Americana de Hóquei).
  • Sports Viz Sunday: um projeto realizado pela comunidade para criar, compartilhar e promover visualizações do mundo do esporte. O Sports Viz Sunday lança um desafio mensal baseado em um tema esportivo atual, compartilhando regularmente atualizações do mundo das visualizações esportivas e disponibilizando conjuntos de dados diversificados sobre uma ampla gama de esportes. Exemplos: Copa do Mundo, torneio Masters de golfe, Fórmula 1.
  • Iron Quest: um projeto que tem o objetivo de preparar pessoas para as competições eliminatórias do Iron Viz, permitindo que você treine sua capacidade de encontrar seus próprios conjuntos de dados.

Fonte 3: Use dados pessoais e quantificáveis sobre si mesmo

Se você pesquisou e, ainda assim, não encontrou algo que despertou seu interesse, sempre tem a opção de coletar dados sobre si mesmo. Por exemplo, alguém registrou os hábitos de sono da própria filha nos primeiros quatro meses de vida e criou uma visualização com eles.

  • Dados do Twitter: o Twitter tem uma API que dá acesso a dados sobre hashtags, palavras-chave e contas. Confira este guia sobre como conectar-se a dados do Twitter diretamente no Tableau. Se você está acostumado a trabalhar com APIs, pode fazer consultas para obter dados JSON, que é um tipo de dados compatível com o Tableau. Veja aqui a documentação completa das APIs. Exemplo de visualização: Acompanhamento do Super Bowl LIII.

    Visualization of Super Bowl LIII Peaks.

  • Dados da Netflix: baixe suas estatísticas de visualização em netflix.com/viewingactivity. Exemplo de visualização: Criei um painel que compara as “maratonas” de séries/filmes de algumas pessoas e mostra a atividade de visualização da Netflix ao longo do tempo.

    Netflix binge analysis.

Fonte 4: Extraia dados da Web por conta própria

Às vezes, encontro em um site dados que adoraria trazer para o Tableau e explorar em mais detalhes, mas não quero ter o trabalho de copiar e colá-los manualmente. É aí que entra a extração da Web. O Planilhas Google tem uma função integrada (IMPORTHTML) para importar dados de uma tabela ou lista em uma página HTML. Corey Jones escreveu um artigo em seu blog explicando como usa esse recurso e até mesmo automatiza o processo para ser executado todos os dias. Skyler Johnson usa um método parecido para monitorar o número de seguidores do Instagram ao longo do tempo nesta visualização.

Alguns outros sites com dados públicos:

Dicas gerais para compilar suas próprias fontes de dados públicos favoritas

Estes são alguns dos inúmeros lugares onde você pode encontrar dados, mas o que torna um conjunto de dados “perfeito” para você? Na minha opinião, o processo de encontrar e preparar um conjunto de dados é uma das melhores partes de qualquer projeto de dados. Algumas considerações e recomendações:

  1. Se você tem um interesse particular por determinado tema, explore-o em uma visualização de dados. Você provavelmente se sentirá mais motivado a fazer uma análise mais detalhada desses temas e entenderá nuances que podem revelar histórias ocultas. Por exemplo, em meu projeto Acompanhamento do Super Bowl LIII, aprendi a programar códigos básicos em R usando o pacote nflscrapR para calcular as probabilidades de vitória durante cada jogada a partir de dados de jogadas individuais. Para obter os dados de tempo em tela para meu projeto Star Wars: análise do tempo em tela, usei um script Python para converter dados originalmente em formato JSON para o formato adequado para análise. Isso foi muito útil, pois agora uso Python para fazer análises em meu trabalho atual. Na dúvida, trabalhe com aquilo que ama.
  2. Aproveite dados desorganizados como uma oportunidade de explorar novas ferramentas. Os dados desorganizados não precisam ser encarados como um obstáculo, mas sim como uma oportunidade. Ampliar seus conhecimentos de programação, extração de dados, preparação de dados ou automação de tarefas pode ser divertido, e você ainda pode acrescentar novas habilidades ao seu currículo.
  3. Crie um conjunto de dados exclusivo. Embora trabalhar com conjuntos de dados pré-prontos seja conveniente, uma ideia pode motivar a busca ou até mesmo a criação do conjunto de dados ideal. Criar um conjunto de dados pode ser uma ótima experiência de aprendizado e resultar em uma visualização que conta uma história única.
  4. Mantenha uma lista de possíveis ideias e projetos. Em meu celular, tenho listas enormes de ideias que surgem na cabeça. Algumas delas não vão para frente, mas percebi que, quanto mais ideias você tem, mais motivado se sente para encontrar um conjunto de dados.

O mundo está cheio de dados à disposição! Espero que este artigo ofereça um bom ponto de partida caso você esteja com dificuldade para encontrar dados inspiradores. Agora que você já tem os dados, que tal criar um perfil no Tableau Public para começar a visualizar e compartilhar seu trabalho? O que está esperando?