Cómo encontrar las mejores fuentes de conjuntos de datos públicos y gratuitos

Jacob Olsufka comparte algunos consejos sobre cómo encontrar el conjunto de datos perfecto para su próximo proyecto de visualización de datos.

Analizar datos fuera del trabajo puede ser una gran manera de desarrollar habilidades y extender los límites de la creatividad sin la repetición asociada a los datos de negocios.

Alguna vez consideró comenzar un proyecto de visualización de datos, pero pensó: “¿Dónde obtengo los datos?”. No es el único. Por fortuna, existen numerosos recursos públicos disponibles en línea. Tableau Public incluye algunos datos de muestra en su página de recursos. Además, en este artículo se enumeran varios sitios donde puede encontrar datos públicos y gratuitos. También comparto algunos de mis sitios favoritos en los que comenzar a buscar conjuntos de datos limpios e interesantes.

Fuente 1: Encuentre datos en sitios de noticias y medios

Si busca una amplia variedad de temas, los datos de sitios de noticias resultan de gran utilidad. Con frecuencia, se descargan como archivos .CSV a los que puede conectarse con un software como Tableau.

  • FiveThirtyEight: Una mina de oro con más de 100 conjuntos de datos sobre deporte y política. Ejemplos: Predicciones de March Madness, encuestas políticas, el programa de televisión The Bachelorette, etc.

    Visualization using March Madness data sets from Five ThirtyEight

    Este es un gran ejemplo de un dashboard creado por Chris DeMartini que utiliza el conjunto de datos de March Madness obtenido en FiveThirtyEight.

  • The Pudding: Este sitio web de periodismo de datos pretende explicar fenómenos culturales polémicos mediante ensayos visuales generados a partir de conjuntos de datos originales e investigación principal. Su GitHub es un centro neurálgico de datos de cultura popular. Ejemplos: Bolsillos de pantalones de hombre y mujer, condiciones climáticas en Marte, etc.
  • Buzzfeed: Si conoce Buzzfeed, sabrá que sus noticias abarcan una gran variedad de temáticas sobre política, deporte y actualidad. También cuentan con una amplia lista de conjuntos de datos en GitHub. Ejemplos: Los tuits de Trump, el texto de cada discurso del Estado de la Unión, etc.
  • Washington Post: Se trata de una fuente de noticias muy respetada. Su lista de conjuntos de datos disponibles contiene temas como datos financieros de la NCAA y datos sobre transporte. Ejemplos: Tiroteos en escuelas, tiroteos policiales, arrestos en la NFL, etc.

Fuente 2: Conozca los proyectos impulsados por la comunidad

La pasión y la capacidad de análisis de la Comunidad de Tableau son inigualables. Por eso, es un gran sitio para comenzar y obtener fuentes de datos limpias y listas para el análisis.

  • Viz for Social Good: Proyecto estilo hackathon que conecta a las comunidades con organizaciones sin fines de lucro. Ejemplos: Defender a los niños huérfanos en África, aumentar la conciencia sobre los niños refugiados, respaldar a los hombres emprendedores de raza negra.
  • Makeover Monday: Proyecto semanal de datos sociales destinado a crear un debate en torno a la mejora de las visualizaciones de datos. Todos los domingos, el equipo publica un enlace a una visualización y un conjunto de datos. El desafío radica en crear una mejor versión de la visualización aportando su propia creatividad. Sus conjuntos de datos semanales son muy diversos y permanecen en el sitio para su reutilización. Por lo tanto, constituye un excelente lugar para comenzar a buscar datos limpios. Ejemplos: Energía eólica por estado, salario mínimo, asistencia a eventos de la NHL.
  • Sports Viz Sunday: Proyecto impulsado por la comunidad destinado a crear, compartir y promover visualizaciones del mundo del deporte. Sports Viz Sunday organiza un desafío mensual basado en el deporte. Con frecuencia, comparten las últimas novedades del mundo de las visualizaciones sobre deportes y proporcionan conjuntos de datos exhaustivos acerca de una amplia variedad de disciplinas deportivas. Ejemplos: La Copa Mundial, el Másters, carreras de Fórmula 1.
  • Iron Quest: Proyecto destinado a preparar a las personas para las eliminatorias de Iron Viz. Ofrece oportunidades para practicar la búsqueda de conjuntos de datos propios.

Fuente 3: Utilice sus propios datos personales y cuantificados

Si ha estado buscando y aún no encuentra nada que le interese, siempre existe la opción de obtener datos sobre usted mismo. Por ejemplo, una persona recopiló datos sobre los patrones de sueño de su hija durante los primeros cuatro meses de su vida y elaboró una visualización con ellos.

  • Datos de Twitter: Twitter cuenta con una API que permite obtener datos acerca de hashtags, palabras clave o cuentas. Aquí encontrará una guía sobre cómo conectarse a los datos de Twitter directamente en Tableau. Si se siente más cómodo trabajando con una API, puede realizar consultas para obtener datos JSON, que es uno de los tipos de datos que admite Tableau. Aquí encontrará la documentación completa de la API. Ejemplo de visualización: Pulse of Super Bowl LIII.

    Visualization of Super Bowl LIII Peaks.

  • Datos de Netflix: Descargue sus datos de visionado en netflix.com/viewingactivity. Ejemplo de visualización: He creado un dashboard donde se comparan las maratones de visionado de los espectadores y se muestra la actividad en Netflix en el tiempo.

    Netflix binge analysis.

Fuente 4: Extraiga datos de la web usted mismo

A veces, encuentro datos en un sitio web y deseo introducirlos en Tableau para explorarlos con más profundidad. Sin embargo, no quiero tener que copiarlos y pegarlos de forma manual. La solución: web scraping. Hojas de cálculo de Google incluye una función (IMPORTHTML) que permite importar datos de una tabla o lista dentro de una página HTML. Corey Jones escribió una publicación de blog donde explica cómo utiliza esta funcionalidad y hasta automatiza el proceso de modo que se ejecute todos los días. Skyler Johnson utiliza un método similar para llevar un seguimiento de los conteos de seguidores de Instagram en el tiempo en esta visualización.

A continuación incluimos otros sitios web que proporcionan datos públicos:

Consejos generales para optimizar sus propias fuentes de datos públicas favoritas

Estos son algunos de los muchos sitios donde puede encontrar datos. Pero ¿qué hace que un conjunto sea “perfecto” para usted? En mi opinión, el proceso de encontrar y preparar un conjunto de datos es una de las mejores partes de cualquier proyecto de datos. Aquí encontrará algunas ideas y recomendaciones:

  1. Si lo apasiona algún tema, explórelo a través de la visualización de datos. De ese modo, es más probable que profundice en el análisis de esos temas y comprenda los matices que pueden revelar historias ocultas. Por ejemplo, para mi proyecto Pulse of Super Bowl LIII, aprendí a escribir código R básico con el paquete nflscrapR a fin de extraer las probabilidades de victoria durante cada jugada a partir de los datos de las diferentes jugadas. A fin de obtener los datos de tiempo en pantalla para mi proyecto Star Wars - Screen Time Analysis (Star Wars: análisis de tiempo en pantalla), utilicé un script de Python con el propósito de analizar datos en formato JSON y convertirlos al estado necesario para el análisis. Esto resultó especialmente útil, dado que ahora utilizo Python en mi cargo actual para el análisis. Cuando tenga dudas, siga sus pasiones.
  2. Utilizar datos desordenados constituye una oportunidad para explorar nuevas herramientas. Los datos desordenados no tienen por qué considerarse un obstáculo, sino una oportunidad. Mejorar las habilidades para la programación, la recopilación de datos, la preparación de datos o la automatización de tareas puede ser entretenido. Además, permite ampliar la sección de habilidades del currículum.
  3. Cree un conjunto de datos único. Aunque contar con datos listos para el análisis suele ser conveniente, una idea puede dar lugar a la búsqueda o creación de un conjunto de datos adecuado. La creación de un conjunto de datos puede constituir una excelente experiencia de aprendizaje y ayudar a lograr una historia única a través de una visualización.
  4. Mantenga una lista de posibles ideas y proyectos. En mi teléfono, suelo mantener largas listas de ideas que se me van ocurriendo. Es posible que algunas no lleguen a nada, pero he descubierto que cuantas más ideas se me ocurren, más fácil me resulta sentir motivación para encontrar un conjunto de datos.

Hay muchísimos datos disponibles. Espero que este artículo sea un buen punto de partida en la búsqueda de datos inspiradores. Ahora que tiene los datos, ¿por qué no crear un perfil de Tableau Public para comenzar a visualizar y compartir su trabajo? ¿Qué espera?