Tableau의 출시 주기가 짧아지면서, 흥미로운 새 기능을 더 빨리 접하게 되는 반면 이전의 기본 기능이 새 기능에 대한 흥분 속에 묻힐 수 있습니다. 통계 관련 기능에 대한 수요는 그 어느 때보다 높습니다. 그러나 Tableau는 일반적으로 분석의 정밀함보다는 손쉬운 사용으로 더 잘 알려져 있습니다. 통계 도구라고 하면 복잡한 방정식과 계산의 이미지가 떠오르지만, Tableau는 이러한 계산의 많은 부분을 드래그 앤 드롭 방식으로 수행합니다.

이 게시물에서는 쉬우면서도 강력한 몇 가지 통계 분석 기능을 설명하고 올바른 분석을 통해 데이터를 최대한 활용할 수 있도록 추가 리소스를 제공합니다.

히스토그램: 단순한 막대 차트 이상의 기능

히스토그램은 대형 데이터 집합을 이해하는 데 강력한 기능을 발휘하는 도구로서, 데이터의 빈도를 동일한 크기의 여러 구간차원으로 나누어 표시합니다. 이 데이터를 배치하면 데이터가 정규 분포를 따르는지 아니면 치우쳐 있는지를 볼 수 있습니다.

Tableau에서는 클릭 두 번만으로 히스토그램을 만들 수 있습니다. 측정값을 오른쪽 버튼으로 클릭한 후 만들기 메뉴로 이동하여 구간차원, 매개 변수, 계산, 그룹 등을 손쉽게 만들 수 있다는 것을 아는 사용자는 많지 않습니다. 심지어, 구간차원의 크기까지도 제안해 줍니다.

히스토그램의 대표적인 예는 SAT 점수 분포입니다. 점수를 50점이나 100점 단위로 묶고, 막대는 해당 구간차원의 점수를 획득한 학생 수를 나타냅니다. 1600점은 극히 드물고, 대부분의 점수는 중간 범위에 배치됩니다.

나머지: 추세선은 실제로 얼마나 정확할까요?

나머지는 관찰한 실제 값과 예측 값 사이의 차이를 의미하며 오차라고도 합니다. 나머지 차트를 만들면 회귀 모델의 정확성을 시각적인 방법으로 판단할 수 있습니다. 물론, Tableau에서는 R 제곱 및 p-값도 검토할 수 있습니다.

Windows에서 Tableau를 사용하면 추세선이 있는 뷰에서 나머지를 내보낼 수 있습니다. 워크시트 메뉴에서 내보내기, 데이터로 이동하여 데이터 파일을 선택하면 나머지가 Access 파일로 저장됩니다. x축(이 예제에서는 Order Date(주문 날짜))에 있던 차원 및 측정값을 포함하는 이 새로운 데이터 원본에 직접 연결하여 예측과 나머지를 도출하도록 선택할 수도 있습니다. 나머지를 행으로 드래그하고 예측을 열로 드래그한 다음 차원을 세부 정보로 드래그합니다. 결과를 나타나는 분산형 차트에서 점의 분산도가 높을수록 모델의 정확도가 높습니다.

표준 편차: 내 데이터의 분산 정도

표준 편차는 고등학교에서 배운 식이지만, 졸업한 후에는 표준 편차에 대해 별로 생각해 본 적이 없을 것입니다. 표준 편차는 데이터가 평균값으로부터 얼마나 분산되어 있는지를 나타내는 값입니다. 이 값을 계산하는 데는 실제로 2가지 방법이 있습니다. 하나는 인구 계산용 방법이고, 또 하나는 샘플 계산용입니다. 이름에서 추측되는 그대로입니다. 전체 데이터 집합이 있는 경우 인구 방정식을 사용하고, 더 큰 데이터 집합의 샘플이 있는 경우 샘플 방정식을 사용합니다.

Tableau에서 표준 편차를 구하려면 측정값의 집계를 변경하기만 하면 됩니다. 인구 표준 편차와 샘플 표준 편차는 모두 기본으로 제공되는 집계 옵션입니다. 아래 예제에서 표준 편차는 맥락에 따라 평균값을 해석합니다. 복사기의 경우 평균 매출 값이 높고 표준 편차도 높습니다. 아래 차트에서는 아주 비싼 한 품목의 매출이 평균값을 높이고 있음을 볼 수 있습니다.

퀵 테이블 계산: 이동 평균 및 백분위수

테이블 계산은 Tableau에서 아주 많이 사용되는 기능이지만, 테이블 계산만큼 자주 사용되지 않는 계산들이 있습니다. 특히 이동 평균 및 백분위수가 이에 해당합니다.

이동 평균을 사용하면 데이터에서 일부 군더더기를 걸러낸 후 추세를 시각화할 수 있습니다. Tableau에서는 이동 평균 계산을 사용자 지정할 수 있습니다. 계산에 사용할 기간 수, 사용할 차원 등을 선택할 수 있으며 이동 평균 위에 다른 테이블 계산(예: 비율 차이)을 추가할 수도 있습니다.

백분위수라고 하면 어렸을 때 키가 연령 그룹의 90번째 백분위수에 들어간다고 소아과 의사에게 들은 이미지가 떠오를 수 있습니다. 하지만 백분위수는 마크(또는 집계)를 더 큰 규모의 분산과 비교하는 유용한 방법이 될 수 있습니다. 수치(예: 매출)를 눈으로만 보는 대신 백분위수 계산을 수행하면 데이터 요소가 분산 내의 어느 위치에 해당하는지 평가할 수 있습니다.

퀵 테이블 계산이 아닌 테이블 계산: 창 계산 및 참조 계산

LOOKUP(), PREVIOUS_VALUE() 및 FIRST() 같은 함수는 처음에는 너무 어려워 보일 수 있습니다. Tableau 블로그 게시물에서 복사한 계산식에서나 퀵 테이블 계산을 구현할 때 이 함수를 보았을 것입니다 LOOKUP() 함수는 비율 차이와 같이 수많은 계산의 기반이 됩니다.

이 함수를 사용하면 파티션의 다른 값을 지정된 오프셋만큼 참조할(또는 매개 변수를 사용하여 동적으로 만들) 수 있습니다. 간단한 변동 비율 계산은 대부분 퀵 테이블 계산을 통해 수행할 수 있지만, LOOKUP() 함수를 사용하는 것은 기본 함수의 작동 방식을 이해하는 데 매우 중요합니다. 논리문, 날짜 계산 등과 같은 더 복잡한 계산에 이 함수를 포함할 수 있습니다.

창 계산은 뷰에서 데이터를 요약하는 데 매우 효율적입니다. 이미 집계된 측정값 위에 집계를 추가할 수 있습니다. 예를 들어 WINDOW_AVG(SUM([Sales])) 함수는 뷰의 모든 매출 합계의 평균값(평균 라인을 더하여 반환되는 값과 동일한 값)을 반환합니다. 특히 창 계산은 큰 데이터 집합을 요약하는 값을 참조해야 할 경우에 적용됩니다. 아래 예제에서 Z 점수는 WINDOW_AVG와 WINDOW_STDEV를 사용하여 계산됩니다. 이 식은 평균값에서 떨어져 있는 (창에 있는 데이터의) 표준 편차 개수를 계산합니다.

추가 내용: R 및 Python 통합

통계 분석을 새로운 수준으로 끌어올리고 싶으십니까? R 서버에 연결하거나 TabPy를 설치하면 계산된 필드에서 R 또는 Python으로 스크립트를 작성할 수 있습니다. 백서 Tableau를 사용한 고급 분석에서 이러한 함수에 대해 자세히 알아보십시오.

고급 분석 기능을 사용할 준비가 되셨습니까?

Tableau는 사람들이 데이터를 보고 이해할 수 있도록 돕기 위해서 어떠한 기술 수준을 보유한 사용자에게든 다양한 기능을 제공해야 한다고 생각합니다. 간단한 주요 메트릭에서 고급 분석 기법에 이르기까지 Tableau는 데이터 과학자에게 필요한 심도 있는 분석 기능을 갖춘 유연한 프런트엔드를 데이터 탐색을 위해 제공합니다. 데이터 과학자는 Tableau에서 정교한 계산, R 및 Python 통합, 빠른 집단 분석, 예측 기능 등을 활용하여 복잡한 정량적 분석을 수행하고 시각적 결과를 공유하여 데이터에 대한 이해와 협업을 더욱 촉진할 수 있습니다.

#HardcoreAnalytics로 대화에 참여하여 다음과 같은 리소스를 통해 더욱 심도 있게 알아보십시오.

다음 내용도 확인해보는 것이 좋습니다.

새 댓글 추가 

블로그 구독