Tableau Prep을 사용한 데이터 준비 모범 사례

데이터는 매우 다양한 구조로 생성, 수집 및 저장될 수 있지만, 분석의 관점에서 보면 모든 데이터 형식이 동일하게 유용한 것은 아닙니다.

데이터 준비는 분석을 위해 더티 데이터를 정리하고, 잘못된 형식의 데이터를 다시 구조화하고, 여러 데이터 집합을 결합하는 프로세스입니다. 여기에는 행과 열 같은 데이터 구조의 변환, 데이터 유형 및 값 등을 정리하는 것이 포함됩니다. 데이터 준비 프로세스의 속도와 효율성은 인사이트를 발견하는 데 드는 시간에 직접적으로 영향을 줍니다. 분석하는 데이터의 범위를 이해하고 데이터의 변경 사항을 확인할 수 있다면 전체 프로세스를 가속화할 수 있습니다.

전체적으로 데이터 고려

시작하기 전에 지금 준비하고 있는 데이터를 사람들이 어떻게 사용할지에 대해 아는 것이 중요합니다. 이러한 맥락을 이해하는 것은 어느 데이터 집합을 사용할지, 데이터 준비 도구에 얼마나 많은 데이터를 가져올지, 그리고 궁극적으로 데이터를 어떻게 구조화하고 변형할지를 결정하는 데 도움이 됩니다. 시작하기 전에, 다음 기본적인 질문에 답해보십시오.

01

분석을 하는 사람은 누구입니까?

최종 데이터 집합의 최종 사용자를 고려하십시오. 예를 들어, 귀하가 완벽한 분석에 필요한 데이터의 모든 부분에 액세스하고 그것을 이해하는 유일한 사용자입니까? 아니면, 선별되고 식별된 메트릭에 근거하여 특정 캠페인이 어떻게 수행되고 있는지 알아야 하는 마케팅 관리자와 같은, 다른 업무를 맡은 누군가가 그 데이터 집합을 사용하게 됩니까? 후자의 경우라면, 데이터 집합을 줄여서 해당 측정값만 남기는 것이 좋습니다.

데이터 테이블에 제품 코드가 포함되어 있지만 마케팅 관리자가 제품 이름을 필요로 할 수 있습니다. 이런 경우에는, 그 정보를 얻을 수 있도록 데이터와 팩트 테이블을 조인해야 할 것입니다. 대시보드를 작성할 때와 마찬가지로, 데이터를 준비할 때에도 대상 사용자가 누구인지는 매우 중요합니다.

02

어떤 유형의 질문을 하고 답을 찾아야 합니까?

데이터 준비 프로세스에서 사람들이 최종 데이터 집합을 어떻게 사용하는지, 즉 복잡한 분석을 위해서인지, 아니면 간단한 요약을 위해서 사용하는지를 아는 것은 중요합니다. 이 요소는 노력의 양과 세부 사항을 모두 결정함으로 데이터 준비 프로세스에 큰 영향을 끼칩니다.

전략적 비즈니스 우선순위에 대한 이해를 기반으로 사람들이 일반적으로 질문할 수 있는 사항을 대체로 예측할 수 있지만, 예상치 못한 질문이 불쑥 나올 수도 있습니다. 데이터 집합을 준비할 때, 즉각적인 질문에 대한 지원과 심화된 탐색 사이에서 균형을 찾아야 합니다. 예를 들어, 누군가가 지난 6개월 동안 매출 동향을 보다가, 어떤 특정 주에 매출이 급증한 사실을 조사해보고 싶다면, 더 깊은 분석과 데이터의 일별 세부 수준이 필요할 것입니다.

03

데이터가 어디에 있습니까?

이 질문에 관해서는 몇 가지 기본적인 고려 사항이 있습니다. 예를 들어, 주어진 데이터 원본에 액세스할 적절한 사용 권한을 가지고 있는지, 그리고 그 데이터 원본이 적합한 형식으로 되어 있는지 여부입니다. 다시 말해, Tableau에서 해당 데이터 원본에 연결하여 원하는 분석을 수행할 수 있는지에 관한 것입니다. 준비 프로세스를 시작하기 전에 이러한 사항들을 생각해 보아야 합니다.

Tableau Desktop에서 분석하기에 적합한 데이터 구조에 대해 자세히 알아보려면, 온라인 도움말 페이지를 살펴보십시오.

일단 필요한 데이터에 액세스할 수 있게 되면, 그 데이터가 어디에 있는지 알 필요가 있습니다. 스스로에게 다음 질문을 해보십시오. 데이터가 단일 테이블에 있습니까, 아니면 단일 데이터베이스 내의 다중 테이블에 있습니까? 질문의 본질을 찾기 위해 다중 데이터베이스를 결합해야 할 수도 있습니다. 혹은 더 강력한 뷰가 필요할 경우, 외부 데이터 원본을 가져와야 할 수도 있습니다. 예를 들어, 거주 지역의 학생 시험 점수를 분석하고 사회 경제적 지위가 어떻게 영향을 주는지 보고자 인구 조사 데이터를 통합합니다. 완전한 스토리를 얻으려면 종종 외부의 데이터 원본을 가져올 필요가 있습니다.

데이터의 기본 구조 이해

데이터가 어떻게 사용될지, 누가 사용할지, 그리고 어디에 있는지 알았다면, 이제 그것이 어떤 구조로 되어 있는지 이해하는 것이 중요합니다. 하중을 견디는 내력벽의 위치를 먼저 확인하지 않고 집을 개조하지는 않을 것입니다. 마찬가지로, 어느 필드가 종속되어 있는지 또는 서로 관련되어 있는지, 데이터의 입력 방식이 수동인지 자동인지, 또는 세부 수준을 알아보지도 않고 데이터 준비를 시작하지는 않을 것입니다. 데이터의 구조를 이해하는 것은 데이터 준비 프로세스를 진행하기 전에 청사진을 그리게 해줍니다.

01

보는 것을 이해하기

데이터를 데이터 준비 도구에 가져오기 전에, 무엇을 가지고 작업하는지 이해하는 것이 중요합니다. 즉, 지금 보고 있는 것이 전체 데이터 집합인지, 하위 집합인지 알아야 합니다. 정리를 시작하기 전에 어느 정도의 데이터 탐색이 필요할 수도 있습니다.

02

샘플 크기 조정

규모가 큰 데이터 집합에 연결할 때는, 데이터 준비 프로세스의 속도를 높이고 성능을 최적화하기 위해 큰 데이터 집합을 데이터의 샘플로 제한하는 것이 좋습니다. 그러나, 어떤 경우에는 전체 데이터 집합이 필요합니다. Tableau Prep을 사용하면 이 두가지 필요에 모두 대응할 수 있습니다. 샘플로 데이터 준비 임무를 완수할 수 없다면, 다음을 수행할 수 있습니다.

  • 데이터 샘플 크기를 늘립니다. 입력 단계로 돌아가 샘플의 행 수를 조정합니다. 행 수를 늘리거나 모든 데이터를 포함할 수 있지만 성능이 저하될 수 있으므로 주의하시기 바랍니다. 한 가지 더 유의해야 할 점은, 고정된 수의 행을 사용하면 기초 데이터베이스가 요청된 행을 가장 신속하게 반환하는 기준으로 사용하는 행이 반환된다는 것입니다. 이 때 반환되는 것이 데이터베이스의 상위 1000행이라는 법은 없습니다.
  • 무작위 샘플링을 사용합니다. 기본적으로, Tableau Prep은 집합의 총 필드 수와 그 필드의 데이터 유형에 근거하여, 반환할 최적화된 행 수를 계산합니다. 무작위 샘플링은 데이터베이스 수준에서 이루어지며 요청된 행 수를 반환합니다. 데이터베이스가 각각의 행을 조회하여 샘플을 반환합니다. 이 옵션은 모든 데이터 원본에 사용 가능한 것은 아니며 성능에 영향을 끼칠 수 있습니다.
  • 입력 단계 필터를 추가합니다. 입력 단계에 필터를 추가하면 분석에 관련된 데이터를 데이터 집합으로 가져올 수 있게 됩니다. 이를 통해 성능에 미치는 영향을 최소화하면서 더 적절한 대표 샘플을 만들 수 있습니다.

03

데이터 탐색

먼저, 주어진 필드에서 고유 값의 수를 확인하는 것이 좋습니다. 아래 예에서, 열 머리글의 맨 위를 보면 데이터 집합에 나오는 주의 수가 표시됩니다. 또한, 데이터 이상값 또는 문제를 파악하기 위해 다양한 값들이 어떻게 관련되어 있는지 알아보는 것이 좋습니다. Tableau Prep에서 필드 간의 관계를 발견하는 데 하이라이트 기능을 사용할 수 있습니다. 프로필 패널에서 하나의 값을 클릭하면, 지정된 필드에서 해당 값을 갖는 레코드로 범위가 좁혀져 데이터 그리드 뷰에 표시됩니다. Tableau Prep은 필드 간의 값을 하이라이트하고 관련된 값을 파란색으로 표시합니다.



파란색은 선택한 값과 다른 필드 값 사이의 관계 분포를 표시합니다.

04

불필요한 데이터 제거

데이터 준비 프로세스의 전체적인 성능을 최적화하려면, Tableau Prep에 필드를 가져올 때 분석에 필요한 필드만 가져오도록 제한합니다.

회사의 매출 및 제품 데이터를 나타내는 데이터 집합을 준비한다고 가정해 보겠습니다. 나중에 이 데이터 집합을 Tableau로 가져와 연간 영업 실적을 분석에 사용할 계획입니다. 이 경우에, 모든 제품의 배송 날짜 관련 세부 정보를 포함할 필요가 없습니다. 배송 날짜 정보는 판매 또는 고객의 제품 구입 이유와 거의 연관성이 없기 때문입니다. 그것은 단지 제품의 출고 시점을 가리키는 것이므로 데이터 원본에서 제거할 수 있습니다. 준비 중에 어느 시점에서든지 더 이상 필요하지 않은 필드가 있다면 흐름에서 그 필드를 간단히 제거할 수 있습니다.

힌트: 준비 프로세스를 진행하는 동안, 필드를 분할하여 다중 열로 분리하는 작업을 시작할 수도 있습니다. 방금 분할한 원래 열은 필요 없을 것이므로 삭제하시면 됩니다.

데이터를 필터링하면 데이터 준비 프로세스 시간이 절약되고, 적절한 분석을 수행할 수 있습니다. 예를 들어, 최근 2년 간의 영업 데이터만 필요하다는 것을 알고 있다면, 범위 또는 기준 날짜 필터를 사용하여 데이터 필드를 해당 기간으로 필터링하십시오. 무관하거나 잘못된 정보가 포함된 데이터가 있다면, 간단하게 데이터 패널에서 값을 클릭해서 제외하면 됩니다. 흐름의 모든 시점에서 이 작업을 수행할 수 있습니다.

05

검토와 정리

Tableau에서 분석은 데이터 유형에 의해 영향을 받으므로, 시작하기 전에 각 필드를 적절하게 식별하는 것이 중요합니다. Tableau에서도 별칭을 편집하고, 데이터 유형을 바꾸고, 필드를 분할하고, 계산식을 쓸 수 있지만, 이 작업을 미리 수행하는 것이 훨씬 더 쉽습니다. 특히 다른 사람을 위해 데이터 집합을 생성하고 있다면 더욱 그렇습니다.

모든 필드의 데이터 품질을 아는 것은 매우 중요합니다. 예를 들어, 설문조사에서 수집된 전화 번호는 다양한 형식으로 되어 있을 수 있습니다. 세계 여러 나라 사람들이 대상이었다면 더욱 다양할 것입니다. 일관성을 위해 수천에서 수백만의 고유 값을 수동으로 검사하는 것은 종종 지루하고 오류를 유발하기 쉬운 작업입니다. 패턴을 식별하고 데이터를 일괄 업데이트하는 것은 잘 정리된 데이터 집합을 위해 중요합니다. 구두점, 숫자, 문자, 공백을 제거할 수 있는 빠른 정리 단계와 같은 Tableau Prep의 기본 제공 기능을 사용하여 이러한 변경을 수행하면 시간을 절약하고 정신적 수고도 덜 수 있습니다.

예를 들어, 주 필드에 'California'와 'CA'가 값으로 포함되어 있고 나머지 주는 전체 이름으로 포함되어 있다면, 'California' 레코드가 'CA' 인스턴스를 포함하도록 그 값을 직접 고치면 됩니다.

또한 데이터는 대체로 올바른 값을 포함하지만 가끔 예외적으로 잘못된 값이 포함되어 있는 경우가 있습니다. Tableau Prep은 스마트합니다. 힘겨운 업무를 처리할 수 있도록, 알고리즘을 활용하여 데이터 값의 표준화를 지원합니다. 고객이 출신 도시명을 입력한 데이터 열이 있다고 가정해 보겠습니다. 열을 재빨리 스크롤 해보니, 'Albuquerque' 도시의 철자가 잘못된 것이 여러 건 눈에 띕니다. 각각의 경우를 수동으로 고치는 대신, Tableau Prep은 공통 문자 및 발음을 기준으로 그룹화와 바꾸기 기능을 기본 제공합니다. 이러한 기능은 사용자의 작업량을 줄이기 위해 정리 프로세스를 단순화하는 알고리즘을 사용하고 있습니다. 혹은, 누락된 값이 있을 것으로 예상된다면, 흐름에서 전체 데이터 집합을 실행시킬 때 통합되도록 수동으로 추가할 수도 있습니다. 어떤 필드가 정리되거나 필터링되어야 하는 것을 알지만, 사용자 인터페이스에 없는 요소가 필요하다면 계산을 사용하면 됩니다.

06

최종적으로 출력할 데이터 이해

데이터 준비를 시작할 때, 최종 데이터 집합이 어떤 모습이어야 할지 결정하는 것은 만만치 않을 수 있습니다. Tableau가 제대로 평가할 수 있도록 여러 데이터 원본을 결합하거나 열에서 행으로 데이터를 피벗해야 할 수도 있습니다.

이 문제를 극복하는 한 가지 방법은 Tableau Desktop에서 데이터 패널이 어떻게 보여야 하는지를 마음속에 그려보는 것입니다. 같은 값을 갖는 여러 개의 열이 있습니까? 특정 제품의 열에 매출 거래가 그 아래 나열되어 있어야 합니까? 아니면 모든 제품이 단일 필드에, 매출은 별도의 열에 있어야 합니까? 대개 후자일 것이며, 이 경우, 피벗이 필요합니다.

두 테이블을 결합해야 한다면, 데이터를 유니온하거나 조인할 것입니다. 조인은 데이터 원본에 더 많은 필드를 추가하여 분석할 필드의 수를 늘릴 수 있습니다. 데이터 준비 흐름의 모든 시점에서 조인을 추가하는 것은 가능하지만, 더 일찍 적용할 수록 더 빨리 데이터 집합을 이해하고 즉각적인 주의를 요하는 영역을 파악하게 될 것입니다.

이와 비슷하게, 유니온으로 두 데이터 집합을 통합할 수 있습니다. 예를 들어, 각 시트에 다른 연도의 거래가 표시되어 있는 Excel 파일이 있습니다. 테이블을 조인하는 대신, 유니온을 쓰면 같은 구조를 유지하면서 행 수만 늘게 됩니다.

두 테이블을 조인하거나 유니온할 때는 세부 수준을 고려하십시오. 두 테이블을 적절하게 합치려면 세부 수준을 변경해야 할 수도 있습니다. 누락된 것이 있는 것 같으면, 집계를 해보십시오.

단계 추적

준비 프로세스 전체에 걸쳐 데이터를 잘 정리된 상태로 유지하는 것은 프로세스의 어떤 단계로 다시 돌아가 변경할 필요가 있을 때 매우 중요합니다. 실제로 자신이 이해할 수 있는 방식으로 데이터를 준비해야 하므로, 데이터를 정리하는 데 특정 지침을 따를 필요는 없지만, 어디서 변경을 했는지 안다면 데이터 준비 프로세스를 편집하고 업데이트하는 것이 훨씬 쉬워질 것입니다.

01
각자의 사고 방식에 맞게 준비

데이터 준비에는 다시 구조화하는 것에서부터 다시 포맷하고 정리하는 것까지 많은 구성 요소가 있는데, 여기에서 특정 순서를 지키도록 제약을 받아서는 안 됩니다. Tableau Prep은 사용자의 사고 방식에 맞게 데이터를 변경하고 업데이트하게 해줍니다. 어떤 사람은 데이터 피벗부터 시작하는 반면, 어떤 사람은 철자 오류나 누락된 데이터 정리부터 시작할 수 있습니다.

02

개별 단계로 분류하기

어떤 일련의 작업을 새로운 단계로 작성하면 흐름이 멋지고 깔끔하게 유지됩니다. 단계를 서류 보관 캐비닛의 폴더라고 생각해보십시오. 쉽게 찾을 수 있도록 주제별로 파일을 정리할 것입니다. 이와 같이, 흐름에서 단계는 특정 임무에 해당하는 일련의 변경 사항을 그룹화해야 합니다. 예를 들어, 고객 이름 정리에는 데이터 원본 출력에 적절한 고객 세분화가 이루어질 수 있도록 필드 분할, 대량 값 다시 매핑, 다른 필드에 필터 적용 등의 작업이 포함될 수 있습니다. 이러한 일련의 작업을 같은 단계에 포함할 때, 나중에 흐름을 이해하도록 도와주는 설명적인 이름을 추가할 수 있습니다. 이것은 데이터를 준비한 자신에게 도움이 될 뿐 아니라, 동료 분석가와 그 흐름을 공유할 경우에도 동료들이 같은 작업을 찾아 참고할 수 있게 해주므로 편집 또한 쉬워집니다.

각 단계의 작업 내용을 쉽게 추적할 수 있습니다. 수행한 작업을 되돌리고 싶다면 변경 패널에서 신속하게 제거하거나 편집할 수 있습니다.

전반적인 수시 점검

데이터를 정리 및 변경하는 과정에서 데이터에 무슨 일이 벌어지는지 인식하는 것은 중요합니다. 한참 진행한 후에야 잘못된 두 필드를 조인했다는 것을 알게 되는 경우는 피해야 합니다. 이것은 데이터를 이해하는 것과 관련이 있습니다. 데이터가 어떤 모습을 갖춰야 하는지에 대한 감이 있다면, 이러한 수시 점검을 통해 무언가 잘못되었을 때 더 쉽게 알아차릴 수 있습니다.

01

시각적 피드백 사용

분석을 시작하기 전에 데이터 간의 관계(예: 조인 후 집합의 행 수, 철자 오류 등)를 볼 수 있으면 데이터 준비는 훨씬 더 쉬워집니다. Tableau Prep도 Tableau Desktop과 동일하게 사람들이 데이터를 보고 이해할 수 있도록 지원한다는 Tableau의 사명에 따라 설계했습니다.



데이터 그리드

Tableau Prep에서 데이터를 확인하려면 데이터 그리드가 가장 적합한 방법입니다. 변경 후에 데이터가 어떻게 보이는지 확인하여 이상 현상을 재빨리 포착할 수 있습니다.

데이터 그리드
미니 맵

데이터가 티 하나 없이 깨끗하다고 생각할 때도 미니 맵을 사용하면 이상값 또는 누락된 레코드를 발견할 수도 있습니다. 미니 맵을 사용하여 이러한 문제를 포착하고 필요한 변경을 수행하십시오.

미니 맵
조인 이해하기

잘못된 필드를 실수로 조인하기 쉽습니다. 특히 여러 필드를 조인할 때 더욱 그렇습니다. Tableau Prep은 조인의 결과를 표시하는 데 시각적 피드백을 사용하여, 이상값이 있는지, 너무 많은 데이터가 반환되는지, 그리고 데이터가 올바른지 여부를 알 수 있도록 지원합니다.

조인 이해하기

02

계속해서 반복하기

데이터 준비는 지속적인 프로세스입니다. 철자 오류나 조인을 다 수정했다고 끝나는 것이 아닙니다. 데이터 집합이 업데이트되면, 질문이 바뀔 수 있고, 또 다른 필드를 추가해야 하는 것을 발견할 수도 있습니다. Tableau Prep의 'Tableau Desktop에서 샘플 열기' 기능을 통해, 전체 과정 중에 분석 단계가 진행되는 시점에서 데이터가 어떻게 보일지를 쉽고 원활하게 테스트할 수 있습니다.

흐름 실행 및 분석 시작

데이터 정리, 재구조화 및 필터링이 끝이 났다면 이제 그 의미를 이해할 차례입니다. 다른 많은 데이터 준비 도구와는 달리, Tableau Prep은 사용자의 전체 비즈니스 인텔리전스 플랫폼과 통합됩니다. Tableau Server 또는 Tableau Online에 추출을 게시하여 다른 사람이 분석을 시작할 수 있도록 합니다. Tableau Desktop으로 가져와서 질문을 시작하고 더 심도 있는 질문을 탐색합니다. 데이터 분석 프로세스에서 제일 손이 많이 가는 부분인 데이터 준비를 끝냈다면, 이제 그 노력의 열매인 인사이트를 활용할 때입니다.

Tableau Prep 체험

Tableau Prep 시작하기
Tableau Prep 온라인 도움말