두 가지 데이터 크라우드소싱 방법

TBD

저는 사람들이 저와 공유하는 데이터를 시각화하는 데 하루 중 대부분의 시간을 사용합니다. 하지만 늘 예기치 않은 상황이 발생하곤 합니다. 경고도 없이, 원시 데이터는 넘쳐나는데 빠르게 데이터를 이해해야 하는 상황에 직면하기도 합니다. 데이터 스토리가 존재하는 것을 알고 있는데 이를 종합할 단일 데이터 집합이 없는 경우도 있습니다. 탐색 및 시각화를 시작하려면 먼저 수백(수천 또는 수백만)의 데이터 요소를 수집해야 하는 경우 개인으로서 이 문제에 어떻게 접근하시겠습니까? 당연히, 데이터 집합을 크라우드소싱합니다.

데이터 집합을 크라우드소싱한다는 것은 다른 사람들과 함께 데이터 집합을 구축하는 것을 의미합니다. 모든 사람이 고유한 데이터 요소를 제공하여 다른 사람들이 사용할 데이터 집합을 만듭니다.

여성들의 행진으로 전 세계가 떠들썩한 중에 데이터 집합을 크라우드소싱해 보았습니다. 사람들이 행진하게 된 핵심 이슈가 무엇인지 궁금했습니다. 이를 알아내기 위해 데이터를 크라우드소싱하는 두 가지 방법 중 하나인 설문조사를 만들었습니다.

방법 1: 설문조사

생각해보면 설문조사는 큰 스토리의 한 부분을 각각 제공하는 개인들로부터 데이터를 수집하기 위해 사용하는 도구입니다. 과학자와 교수들은 수백 년간 설문조사 데이터를 사용해 왔습니다. John Snow는 설문조사를 사용한 최초의 사람들 중 한 명으로 런던에서 현장 조사를 통해 콜레라 유행에 대한 명확한 정보를 제시했습니다. John은 개인적으로 발병 지역 거주자들을 인터뷰하여 거주자가 공유한 데이터를 수집했습니다. 가구별 환자 수, 전체 환자 수, 투병 기간과 같은 그야말로 순전한 데이터입니다.

엄격한 과학 연구에서는 설문조사가 편견 없이 면밀하게 이루어져야 하지만 그렇다고 해서 빠르게 정보 제공용으로 시행되는 설문조사가 가치가 없다는 뜻은 아닙니다. 투표 데이터도 결국은 설문조사입니다. 또한 설문조사는 일반화된 데이터이며 이러한 일반화가 인사이트를 제공할 수도 있습니다.

Google Forms와 SurveyMonkey 같은 온라인 도구를 사용하면 빠르고 경제적인 방식으로 설문조사를 구성하고 배포할 수 있지만 예기치 않은 몇 가지 문제가 발생할 수도 있습니다. 지난 주말 저는 Google Forms에서 6개 문항으로 된 간단한 설문조사를 만들었습니다. 응답이 들어오면 업데이트되는 비주얼라이제이션을 만들고 싶었기 때문에 질문은 짧게 하고 답변은 간결하게 구성했습니다. 명확하고 시각화하기 쉬운 데이터 집합을 얻을 수 있는 설문조사를 구성했다고 생각했습니다. 제 생각은 잘못된 것이었습니다.

질문 구성 및 원하는 대로 선택할 수 있는 설문조사 옵션이 실패의 원인이었습니다. 전 세계의 여성 행진 참가자에게 다음 6가지를 질문했습니다.

  1. 행진에 참가하게 된 3가지 이슈를 선택해 주십시오. (목록에서 옵션을 3개까지 선택, '기타' 항목도 옵션임)
  2. 선거 후 국회의원에게 연락한 적이 있습니까? (예/아니오)
  3. 국회의원에게 연락한 경우 어떤 방법으로 연락했습니까? (목록에서 원하는 수만큼 옵션 선택, '기타' 항목도 옵션임)
  4. 선거 전에 국회의원에게 연락한 적이 있었습니까? (예/아니오)
  5. 몇 년대에 태어났습니까? (옵션 목록에서 하나 선택)
  6. 우편번호가 무엇입니까?

결과가 들어 있는 스프레드시트를 열었을 때 약간 놀랐습니다.

제 데이터는 많은 정리가 필요했습니다. 이유가 무엇일까요? 1번-3번 질문이 문제였습니다. 물론 이러한 질문은 제가 가장 관심을 가졌던 답변에 대한 질문이었습니다. 무엇이 잘못되었던 것일까요?

  • 다중 선택 질문(모든 항목 선택, 원하는 만큼 항목 선택 등)은 쉼표 또는 세미콜론으로 구분된 응답으로 된 단일 열을 만듭니다. 즉, 이 두 질문을 시각화하려면 먼저 응답을 서로 다른 열로 구분해야 하며, 이 질문들에 대한 비주얼라이제이션이 자동으로 업데이트되지 않는다는 것을 의미합니다. (반면 예/아니오 질문은 우편번호 및 출생 연도와 같이 문제없이 진행되었습니다.)
  • 응답을 여러 열로 구분하는 것에서도 문제가 발생합니다. 선택에 순서가 있다는 것을 의미하기 때문입니다(즉, 첫 번째로 선택된 항목, 두 번째로 선택된 항목, 세 번째로 선택된 항목). 각 응답자의 경로는 고유하므로(A, B, C는 B, C, A와 다름) 모든 응답자 사이에서 가장 공통된 선택 항목을 그룹화할 수 없다는 것을 의미합니다.
  • 사람들이 설문조사에 응할 때 되도록 제한이 없도록 하고 싶었기 때문에 '기타'도 자연스럽게 옵션으로 허용했습니다. 하지만 데이터를 다루는 사람으로서 '기타'는 부적절한 아이디어였습니다. 하나의 선택으로 '기타'를 허용한 것은 결국 이 기타 데이터 또한 다루어야 함을 의미하니깐요.

다중 선택 질문에 적합한 방법은 무엇입니까? 데이터를 피벗해야 했습니다. 즉, 각각의 응답이 단일 열에 포함되도록 데이터의 열을 늘리지 않고 데이터의 행을 늘려 '유사한' 데이터가 동일한 열에 포함되도록 해야 했습니다.

이렇게 하는 대신에

다음과 같이 해야 했습니다.

Steve Wexler가 작성한 Tableau에서 데이터 피벗 작업 관련 게시물에는 읽어 볼 가치가 있는 내용이 들어 있습니다.

설문조사를 구성한 방식 때문에 피벗 및 분석을 수행하는 동시에 Google Forms를 통해 라이브 데이터를 수집하려고 했습니다. 결국에는 정적 파일의 데이터를 캡처하여 데이터를 시각화했지만, 이 방법은 이상적인 방법이 아닙니다.

프로젝트가 많이 진행된 이후에는 설문조사에 대한 응답 수가 무려 456개였습니다. 이후로도 계속 증가하고 있습니다. 단일 응답 이슈를 필터링하여 제외한 후('기타' 항목이 있는 경우가 많았음), 환경 정책이 응답자에게 가장 큰 영향을 준 결정적 이슈였다는 데 약간 놀랐습니다. 제 고향인 태평양 연안 북서부에서 가장 많은 응답이 왔기 때문일 수 있습니다.

제 비주얼라이제이션은 여전히 계속 데이터를 수집하고 있는 설문조사와 완전히 분리되어 있습니다. 이렇게 되어 실망스럽지만 설문조사에서 질문을 구성하는 방법에 대한 중요한 교훈을 얻을 수 있었습니다. 다음에는 질문을 더욱 간소화하거나 다음 방법을 사용할 것입니다.

방법 2: 공유 스프레드시트

데이터 집합을 크라우드소싱하는 두 번째 방법은 스프레드시트 공유와 관련이 있습니다. 인터넷이 시작된 이후로 계속 이 방법을 사용해 왔지만, 활발히 사용된 것은 불과 지난 몇 년 사이의 일입니다. 설문조사를 통해 데이터를 수집할 때 Erica Chenoweth(@EricaChenoweth)와 Jeremy Pressman(@djpressman)은 아주 단순한 몇 가지 지침이 있는 공유 Google Sheet를 만들었습니다. 이들은 2017년 1월 21일 행진에 대한 예상 군중을 문의했습니다. 지침은 단순했습니다. 도시, 주(해당하는 경우), 국가와 함께 수치를 포함하되 확인 가능한 데이터 출처도 같이 포함하는 것이었습니다. 이들은 소셜 미디어를 통해 스프레드시트를 제공했고 시트는 널리 공유되었습니다. 전 세계의 사람들이 시트에 데이터를 추가했고 24시간도 안 되어 모든 사람이 사용할 수 있는 데이터 집합이 마련되었습니다.

데이터가 시각화하기에 완벽했습니까? 그렇지 않았습니다. 하지만 빠르고 간편하며 즉각적인 요구를 충족시키는 데 적합했습니다. 24시간도 채 안 돼 이 데이터를 충분히 정리하여 Tableau Public을 통해 선거 결과를 기초로 데이터를 시각화한 사람을 볼 수 있었습니다. 이렇게 빨리 미디어를 통해 데이터를 수집하리라곤 생각지 못했지만 데이터를 다루는 사람들은 이미 알고 있었습니다.

계속해서 논의

데이터 크라우드소싱의 가장 큰 장점 중 하나는 흥미를 일으킨다는 것입니다. 모든 사람이 데이터 제공자가 됩니다. 분야별 전문가, 오픈 데이터 조직, 데이터 과학자 모두 함께 협력하여 저 같은 사람이 데이터를 깊이 있게 탐색할 수 있도록 도와줍니다.

어떤 종류의 데이터와 프로젝트가 크라우드소싱을 통해 수집되고 진행됩니까? 이러한 유형의 데이터가 가지는 장점과 단점은 무엇입니까? 이미 다음에 사용할 크라우드소싱된 데이터 집합을 준비하고 있으므로 논의를 계속 이어나가도록 하겠습니다.