최고의 무료 공개 데이터 집합 출처를 찾는 방법

Jacob Olsufka가 다음 데이터 시각화 프로젝트에 사용하실 완벽한 데이터 집합을 찾는 방법에 대한 도움말을 공유합니다.

업무 밖에서 데이터를 분석하는 것은 기술을 쌓고 반복되는 비즈니스 데이터를 벗어나 창의력의 경계를 넓히는 좋은 방법이 됩니다.

데이터 시각화 프로젝트를 시작하려고 하는데, “데이터는 어디서 찾지?”라는 생각이 든 적이 있습니까? 이런 경우가 많이 있습니다. 다행히도, 온라인 공개 리소스가 많이 나와 있습니다. Tableau Public의 리소스 페이지에 몇몇 데이터 샘플을 있으며, 무료 공개 데이터를 찾을 수 있는 여러 위치의 목록이 이 문서에 나와 있습니다. 거기에 더해, 흥미롭고 잘 정리된 데이터 집합을 찾기 시작할 때 제가 즐겨 찾는 곳을 소개합니다.

원본 1: 뉴스 사이트 및 미디어 출구에서 데이터 찾기

폭넓고 다양한 주제를 찾고 있다면 뉴스 사이트의 데이터가 좋습니다. 보통 .CSV 파일로 다운로드할 수 있어서 Tableau와 같은 소프트웨어에 연결할 수 있습니다.

  • FiveThirtyEight - 스포츠와 정치에 관한 100개가 넘는 데이터 집합의 금광입니다. 예: March Madness(3월의 광란, 미국 대학 농구 선수권 대회) 예측, 정치 여론 조사, Bachelorette(TV 프로그램) 등.

    Visualization using March Madness data sets from Five ThirtyEight

    이것은 대시보드의 훌륭한 예Chris DeMartini이 FiveThirtyEight의 March Madness 데이터 집합을 사용하여 작성한 것입니다.

  • The Pudding - 이 데이터 저널리즘 웹 사이트는 열띤 논쟁을 부르는 문화 이벤트를 원본 데이터 집합과 기초 연구를 출처로 한 시각적 에세이로 설명하는 데 목적을 둡니다. 이 곳의 GitHub는 대중 문화 데이터의 허브입니다. 예: 여성 대 남성 바지 주머니, 화성의 날씨 상태 등.
  • Buzzfeed - Buzzfeed를 들어보셨다면, 그 뉴스 사이트에 정치, 스포츠 및 현 사안에 걸친 다양한 주제를 다룬다는 것을 알고 계십니다. 또한 GitHub에 풍부한 데이터 집합 목록을 갖고 있습니다. 예: Trump의 트윗, 대통령의 모든 일반 교서 원고 등.
  • Washington Post - 워싱턴 포스트는 명성 있는 뉴스 출처이며, 오픈 데이터 집합 목록에는 NCAA(미국 대학 체육 협회) 재정, 운송 데이터 같은 주제가 들어 있습니다. 예: 교내 총기 사건, 경찰 총기 사건, NFL(미국 프로 미식축구 연맹) 체포 등

원본 2: 커뮤니티 주도 프로젝트 살펴보기

Tableau 커뮤니티는 열정과 분석 능력에 있어 타의 추종을 불허합니다. 따라서 당연히 분석에 사용될 준비가 돼 있는 정리된 데이터 원본으로 시작할 수 있는 곳입니다.

  • Viz for Social Good - 커뮤니티와 비영리 조직을 연결하는 해커톤 스타일 프로젝트입니다. 예: 아프리카의 아빠 없는 소년들 옹호, 아동 난민에 대한 인식 높이기, 흑인 남성 기업가 지원.
  • Makeover Monday - 데이터 시각화 향상을 위한 토론을 여는 주간 소셜 데이터 프로젝트입니다. 매주 일요일, 하나의 비주얼리제이션과 하나의 데이터 집합으로 연결되는 링크가 게시됩니다. 과제는, 독창적인 방법으로 해당 비주얼리제이션을 더 나은 버전으로 만드는 것입니다. 주간 데이터 집합은 다채롭고 재사용되도록 사이트에 계속 남으므로, 정리된 데이터를 찾을 때 시작점으로 좋은 곳입니다. 예: 주별 풍력, 최저 임금, NHL(미국, 캐나다의 프로 아이스하키 리그) 참가.
  • Sports Viz Sunday - 스포츠 세계의 비주얼리제이션을 작성, 공유, 홍보하는, 커뮤니티 주도의 프로젝트입니다. Sports Viz Sunday는 스포츠 비주얼리제이션 세계로부터의 업데이트 내용을 정기적으로 공유하고 광범위한 스포츠 분야에 걸쳐 풍부한 데이터 집합을 제공하며, 특정 스포츠 주제에 따라 월간 과제를 선정합니다. 예: 월드컵, 마스터즈 골프, Formula 1 경주.
  • Iron Quest - Iron Viz 예선 경연을 준비하는 사람을 대상으로 자신만의 데이터 집합을 찾아내는 연습을 하는 기회를 제공합니다.

원본 3: 자신의 개인적인 수량화된 셀프 데이터 사용하기

여기 저기 탐색해 보았으나 아직 흥미를 끄는 것을 못 찾았다면 자신에 대한 데이터를 수집하는 옵션이 있습니다. 예를 들어, 아기가 태어난 후 처음 넉 달 동안의 데이터를 수집하여 우리 딸 수면 패턴을 시각화했습니다.

  • Twitter 데이터 - Twitter에는 해시태그, 키워드 또는 계정에 대한 데이터를 가져올 수 있는 API가 있습니다. 이 가이드에 Tableau에서 바로 Twitter 데이터에 연결하는 법이 나와 있습니다. API로 작업하는 것이 더 편하다면, Tableau에서 지원되는 데이터 유형인 JSON 데이터를 가져오도록 쿼리하시면 됩니다. 여기 API 문서 전문이 있습니다. 비주얼리제이션의 예로 슈퍼볼 LIII 실황이 있습니다.

    Visualization of Super Bowl LIII Peaks.

  • Netflix data - 자신의 시청 데이터를 netflix.com/viewingactivity에서 다운로드합니다. 비주얼리제이션의 예로 사람들의 몰아보기 양상을 비교하고 시간 흐름에 따른 Netflix 시청 활동을 시각화하는 대시보드를 만들었습니다.

    Netflix binge analysis.

  • Spotify 스트리밍 데이터 Spotify에서 자신의 개인 청취 데이터를 요청 할 수 있다는 것을 알고 계셨습니까? API로 작업하는 것에 익숙하시다면, Spotify Web API 를 사용하여 음악가, 앨범, 트랙에 관한 데이터를 Spotify Data Catalogue에서 직접 가져올 수 있습니다.

    Visualization using Spotify's API.

    Robert Janezic이 Spotify API를 사용하여 이 얼터너티브 트랙 분석을 작성했습니다.

원본 4: 웹에서 직접 데이터를 스크래핑

어떤 웹 사이트에서 Tableau로 가져와 더 깊이 탐색해 보고 싶은 데이터를 발견할 때가 있습니다. 그런데 그것을 수동으로 복사해서 붙여넣고 싶지는 않습니다. 그럴 때 웹 스크래핑을 씁니다. Google 스프레드시트에는 HTML 페이지 내의 테이블이나 목록에서 데이터 가져오기를 하는 (IMPORTHTML)이라는 내장된 기능이 있습니다. Corey Jones가 이 기능을 어떻게 사용하는지와 그 프로세스를 자동화하여 매일 실행하는 방법에 대해 설명하는 블로그 게시물을 작성했습니다. Skyler Johnson은 비슷한 방법을 사용하여 이 비주얼리제이션에서 시간 흐름에 따른 Instagram 팔로워 계정을 추적하였습니다

다음은 공개 데이터가 있는 기타 웹 사이트입니다.

좋아하는 공개 데이터 원본의 큐레이션을 위한 몇 가지 도움말

지금까지 데이터를 찾을 수 있는 많은 사이트 중 몇 곳을 살펴보았습니다. 그런데 어떻게 하면 하나의 집합이 내가 사용하기에 ‘완벽’해질 수 있을까요? 제 생각에는, 데이터 집합을 찾고 준비하는 프로세스가 모든 데이터 프로젝트의 가장 중요한 부분 중 하나입니다. 몇 가지 권장 사항을 말씀드립니다.

  1. 어떤 주제에 열정이 있다면, 그 주제를 데이터 시각화에서 탐색하십시오. 스스로 그러한 주제에 대한 더 깊은 분석에 관심을 갖게 되며, 숨겨진 스토리를 발견할 수 있는 미묘한 차이를 깨닫게 될 것입니다. 한 예로, 저의 슈퍼볼 LIII 실황 프로젝트에서, 스포츠 실황 중계 데이터에서 각 경기 중에 우승 가능성을 산출하기 위해 nflscrapR 패키지를 사용해 기본 R 코드를 작성하는 법을 배웠습니다. 스타워즈 - 상영 시간 분석 프로젝트에서는 상영 시간 데이터를 획득하기 위해, JSON 형식에서 시작하여 분석에 필요했던 상태까지 데이터를 구문 분석하는 데 Python 스크립트를 사용했습니다. 특히 그 작업은 아주 유용했는데요, 현재 제 분석 업무에서 Python을 사용하기 때문입니다. 확신이 들지 않을 때는 열정을 따르면 됩니다.
  2. 복잡한 데이터도 새로운 도구를 탐색하는 기회로 여기고 포용하십시오. 복잡한 데이터를 장애물로 여길 필요는 없습니다. 오히려 기회로 보십시오. 코딩, 데이터 스크래핑, 데이터 준비 또는 작업 자동화 능력을 향상하는 것은 즐거운 일이 될 수 있습니다. 동시에 이력서의 기술 섹션에 추가할 내용이 생긴다는 보상도 있습니다.
  3. 고유한 데이터 집합을 만드십시오. 이미 만들어져 있는 데이터 집합이 편리하기는 하지만, 하나의 아이디어가 적절한 데이터 집합을 추구하거나 작성하도록 이끌 수 있습니다. 데이터 집합의 작성은 훌륭한 학습 경험이 될 수 있고 비주얼리제이션이 고유한 스토리를 제공하는 데 기여할 수 있습니다.
  4. 언젠가 사용할 아이디어 및 프로젝트의 목록을 만드십시오. 저는 머리에 떠오르는 아이디어를 적은 아주 긴 목록을 제 휴대폰에 저장해 두고 있습니다. 어떤 것은 별 쓸모가 없을 수 있지만, 아이디어가 많으면 많을수록 데이터 집합을 찾겠다는 의욕은 더 쉽게 높아집니다.

많은 데이터가 나와 있습니다. 영감을 주는 데이터를 찾느라 애쓰고 계시다면 이 글이 좋은 시작 지점이 되기를 바랍니다. 이제 데이터는 있으니, Tableau Public 프로필을 만들고 시각화를 시작하여 작업 내용을 공유하시는 게 어떻겠습니까? 이제 시작해 보십시오.