지금 바로 무료로 분석할 수 있는 공개 데이터 집합 7개

데이터는 어디에나 있습니다. 아마도 누구나 알고 있는 사실일 텐데요, 성장하는 전문 분야로 뉴스에 계속 나오고, 데이터 기술이 인력 시장에서 그 가치가 계속 높아지고 있는 이 때에 이 사실을 못 보고 지나치기는 어려울 것입니다. 그런데, 데이터는 대기업만을 위한 것이 아니며, 분석에 쓰려고 나 자신의 데이터를 수집하지 않아도 됩니다. 공개 데이터 집합이 많이 있습니다.

데이터 분석 방법, 데이터 시각화를 만드는 방법, 또는 단순히 데이터 해독 능력을 강화하는 방법을 배우려 한다면, 공개 데이터 집합을 사용하는 것이 완벽한 출발점이 될 것입니다. 지금 바로 무료로 분석할 수 있는 공개 데이터 집합들이 있습니다. 발견한 사항을 형식화하는 데 도움이 필요하면, 팔로우할 수 있는 데이터 시각화 블로그 게시물과 영감을 얻을 수 있는 데이터 시각화 모범 사례도 있습니다.

1. Google Trends

큐레이션: Google
예제 데이터 집합: ‘컵케이크’ 검색 결과

분석하기에 가장 광범위하고 흥미로운 공개 데이터 집합 중 하나입니다. Google의 방대한 검색 엔진이 검색어 데이터를 추적해 사람들이 무엇을 언제 검색하는지 보여줍니다. 2004년 이후 거의 모든 검색어의 검색량 통계를 살펴볼 수 있습니다. Trends 웹 사이트 밖에서 분석하려면, 어떤 검색어 하나 또는 몇 개의 검색어를 입력하고 다운로드 버튼을 클릭하면 됩니다.

위치(전 세계 또는 국가별), 다양한 시간 범위, 범주, 심지어 특정 검색 유형(웹, 이미지, YouTube 검색 결과 비교)에 따라 추세를 더 세부적으로 보여주는 다양한 필터가 있습니다. 지금 인기 있는 주제와 현재 어떤 주제가 추세를 만들고 있는지 Trends 홈페이지에서 쉽게 볼 수 있습니다. Google은 또한 이 홈페이지에서 몇 가지 흥미로운 추세의 예를 데이터 시각화로 하이라이트합니다.

다른 Google 데이터에 관해 더 알고 싶으시면 Google 금융, Google Public DataGoogle Scholar를 살펴보십시오.

2. 미국 국립 기후 데이터 센터(National Climatic Data Center)

큐레이션: 미국 국립 환경 정보 센터(National Centers for Environmental Information, 이전 명칭: NOAA, 미국 해양대기청)
예제 데이터 집합: 지역 기후 데이터(Local Climatological Data, LCD)

날씨 및 기후 과학에 관심이 있다면, 국립 기후 데이터 센터(National Climatic Data Center)보다 상세한 정보를 얻을 수 있는 곳은 없을 것입니다. 미국 국립 해양 대기청(National Oceanic and Atmospheric Administration, NOAA) 데이터 센터가 국립 환경 정보 센터(National Centers for Environmental Information, NCEI)로 이름을 바꾸었습니다.

전 세계에서 가장 규모가 큰 환경 데이터 아카이브인, 미국 전역의 기후 및 날씨 데이터 집합 아카이브를 찾을 수 있습니다. 기상, 대양, 기후, 대기 및 지구 물리학 데이터를 포함한 모든 종류의 날씨 데이터에 대한 막대한 규모의 리소스입니다.

3. 세계 건강 관측소(Global Health Observatory) 데이터

큐레이션: 세계보건기구(World Health Organization, WHO)
예제 데이터 집합: 생식 보건에 대한 전 세계적인 접근

전 세계 건강 정보 개선이라는 핵심 목표의 일환으로 세계보건기구는 세계 건강 관측소(Global Health Observatory, GHO)를 통해 전 세계 건강 관련 데이터를 일반에 공개합니다. GHO는 건강 상황 및 중요한 주제에 액세스하여 분석할 수 있는 포털 역할을 합니다.

다양한 데이터 집합은 사망률, 의료 체계, 전염성 및 비전염성 질병, 의약품 및 백신, 건강상의 위험 등 주제에 따라 분류되어 있습니다. WHO의 보건 통계는 전 세계 건강 정보를 찾는 사람들이 자주 이용하는 출처이며 미국 질병통제예방센터의 작업에도 사용됩니다.

4. Data.gov.sg

큐레이션: 싱가포르 정부
예제 데이터 집합: 연령대, 인종 집단 및 성별에 따른 싱가포르 주민, 매년 6월말(Singapore Residents By Age Group, Ethnic Group And Gender, End June, Annual)(2017)

실제로 인터넷에는 유용한 정부 데이터 웹 사이트가 많이 있습니다. 대부분이 믿을 수 없을 만큼 데이터와 정보가 풍부합니다. 미국은 가장 많이 알려진 정부 웹 사이트 중 하나인 data.gov를 보유하고 있으며, 영국호주도 그에 해당하는 웹 사이트를 보유하고 있습니다. 이들 웹 사이트에 대규모 인구 표본까지 더하면 액세스 가능한 데이터가 많이 있습니다. 그런데 왜 싱가포르 사이트일까요?

실은, 싱가포르 정부 데이터 웹 사이트가 시각적으로 접근하기 쉽습니다. 홈페이지에는 각 데이터 집합의 스토리를 말해주는 작은 비주얼리제이션이 가득합니다. 데이터 시각화의 역할에는 정확하고 관련성 있는 형태로 정보를 표시하는 것뿐만 아니라 관심을 끌 만큼 흥미로운지 확인하는 것도 포함됩니다. 대부분의 정부 데이터 사이트는 이해하기 쉬운 방식으로 데이터를 전달하기에 필요한 정도로만 실용적이고 단순합니다. 하지만 싱가포르는 다채로운 색상의 비주얼리제이션, 그래프의 화사한 색채로 단조로움을 피하고, 모든 데이터 집합 밑에 ‘유사 데이터 집합’ 섹션을 넣어 독자가 더 많이 탐색하도록 유도합니다.

5. Earthdata

큐레이션: NASA
예제 데이터 집합: 대기 전기(번개)

Earthdata는 NASA 지구 과학 데이터 시스템(Earth Science Data Systems) 프로그램, 특히 지구 관측 시스템 데이터 및 정보 시스템(Earth Observing System Data and Information System, EOSDIS)에서 운영합니다. EOSDIS는 지구 관측 위성, 항공기 및 현장 측정에서 얻은 지구 과학 데이터를 처리하고 배포하는 역할을 합니다.

Earthdata를 통해 일반 대중이 NASA의 데이터, 뉴스 및 이벤트 정보에 액세스할 수 있습니다. 지구 대기, 태양광선, 지구 빙권(북극/얼음으로 덮인 지역), 대양, 지표(중력, 지구 자기학, 구조 지질학) 및 인간 환경의 데이터를 다룹니다.

6. Amazon Web Services 오픈 데이터 레지스트리

큐레이션: Amazon
예제 데이터 집합: 1000 유전체 프로젝트

점점 더 많은 조직에서 일반인이 접근하도록 데이터를 공개함에 따라 Amazon은 그러한 다양한 데이터 집합을 검색 및 공유할 수 있는 레지스트리를 만들었습니다. Amazon 레지스트리를 통해 지원되는 공개 데이터 집합은 50개 이상 있으며, 그 범위는 IRS 신고부터 NASA 위성 사진, DNA 배열 순서, 웹 크롤링에 이릅니다. 데이터 집합에는 다른 조직 및 단체에서 그 데이터를 이용하여 수행한 결과물을 보여주는 용례도 포함됩니다.

7. Pew Internet

큐레이션: Pew Research Center
예제 데이터 집합: 2018년 10대 청소년, 소셜 미디어 및 기술(Teens, Social Media & Technology 2018)

Pew Research Center의 사명은 전 세계의 데이터를 수집하여 분석하는 것입니다. 정치, 소셜 미디어, 저널리즘, 경제, 온라인 개인 정보 보호, 종교 및 인구통계학적 추세와 같은 모든 종류의 주제를 다룹니다. 초당파적이고 특정 노선을 따르지 않는 자체 연구 및 분석을 수행하는 한편, 모든 사람이 액세스할 수 있도록 원시 데이터를 제공합니다. 데이터에 액세스하려면 간단히 사이트에 등록하고, 수정 데이터 결론에 대해 Pew에 책임이 없다는 포기 조항과 함께 Pew Research Center를 데이터 출처로 명시해야 합니다.

어떤 의미에서, 데이터를 액세스할 수 있게 만드는 것이 Pew의 또 하나의 연구 프로젝트입니다. 자체 연구에 데이터를 어떻게 사용하는지에 대해서는 이미 모든 정보를 파악했으므로, 이제 다른 사람들이 Pew의 데이터를 어떻게 사용하는지 알아보고 싶어합니다. Pew가 요청하는 한 가지는, 여기서 획득한 데이터로 작업한 어떤 결과를 게시한다면 이메일로 연락해 달라는 것입니다.