Tableau 및 Hadoop을 위한 5가지 모범 사례


개요 | 다음 내용을 설명합니다: 

Tableau는 여러 데이터 플랫폼에서 데이터를 실시간으로 활용할 수 있도록 설계되었습니다. 기존 도구가 업무에 방해가 되었다고 느낀 많은 비즈니스 사용자들은 이 작업 방식을 채택했습니다. 하지만 쿼리가 반환될 때까지 몇 초가 아닌 몇 시간 또는 몇 분을 기다려야 한다면 어떻게 될까요? '흐름'을 유지할 수 있을까요?

우리는 수백만 또는 수십억 개의 행으로 구성된 데이터를 사람이 손쉽게 분석할 수 있는 시대에 살고 있으며 사용자는 거의 즉각적으로 결과를 확인할 수 있기를 기대합니다. 사용자의 상호 작용 및 응답 시간이 2~3초 이상 걸리면 '시각적 분석의 흐름'에 방해가 됩니다. 따라서 사용자가 지속적으로 분석을 활용하고 구축된 빅 데이터에서 더 많은 통찰력을 얻을 수 있도록 빠른 쿼리 속도를 제공하는 것이 필수적입니다.

사용자는 빅 데이터 플랫폼에서 구축된 Tableau 비주얼라이제이션 및 대시보드의 성능을 극대화하기 위해 여러 모범 사례를 적용할 수 있습니다. 모범 사례는 크게 다음 5가지 활동으로 구분됩니다.

  1. 빠른 대화형 쿼리 엔진의 활용
  2. 라이브 연결 및 추출의 전략적 사용
  3. 데이터 레이크에서 데이터를 정리
  4. 추출 최적화
  5. 연결 성능 사용자 지정

백서의 첫 페이지 몇 장을 읽으실 수 있도록 발췌했습니다. 나머지 내용을 읽으려면 오른쪽에서 PDF를 다운로드하십시오.


1. 빠른 대화형 쿼리 엔진의 활용

Hadoop에서 MapReduce를 사용하여 실행되는 Hive 쿼리는 MapReduce 작업에 SQL 쿼리를 매핑하는 것과 관련된 오버헤드로 인해 근본적으로 속도가 느립니다. MapReduce의 Hive를 사용하면 내결함성이 우수하여 ETL 응용 프로그램과 같은 일괄 처리 작업에는 유용하지만 성능은 그다지 좋지 않습니다. Hive에 대한 개선 사항으로 Tez(대화형 쿼리 사용 가능) 및 Spark(인 메모리 처리 사용 가능)와 같은 새로운 응용 프로그램 프레임워크가 도입되었으며 이러한 프레임워크는 쿼리 속도를 크게 향상시켰습니다.

Hadoop에서 Hive를 사용하는 것 외에도 쿼리 속도를 높일 수 있는 여러 옵션이 있습니다. 최근 벤치마크에서는 Hadoop에서 Impala의 속도가 가장 빠른 것으로 알려졌습니다. 아직 개발 초기 단계에 있지만 Spark SQL은 빠른 데이터 처리 엔진으로서 우수한 잠재력을 보이고 있습니다. Spark SQL은 Hive Metastore에서 참조하는 Hadoop 또는 Spark Schema RDD에 저장된 데이터를 처리할 수 있습니다. Impala 및 Spark SQL은 둘 다 Tableau에서 지원하는 잘 알려진 커넥터입니다. Pivotal HAWQ, Presto 및 Apache Drill도 Hadoop에서의 성능에 대한 논의에서 일반적으로 거론되는 기술입니다.

또 다른 옵션은 Hadoop 이외의 솔루션을 살펴보는 것입니다. Actian Vector, HP Vertica, Teradata Aster Data, SAP Hana, ParAccel, Pivotal Greenplum 및 그 밖의 빠른 분석 데이터베이스는 Tableau 비즈니스 사용자가 Hadoop에서 처리된 지연 시간이 짧은 쿼리에 대한 데이터를 호스팅할 수 있는 좋은 장소가 될 수 있습니다. 클라우스에서 호스팅되는 인프라 서비스에 대한 인기도 지속적으로 증가하고 있습니다. Google BigQuery는 대규모 데이터 집합의 데이터와 쿼리를 빠르게 처리하는 데 뛰어난 Google의 대규모 인프라를 활용합니다. 반면에 Amazon Redshift는 빠른 데이터 액세스에 중점을 둔 완전 관리형 컬럼나 저장소 데이터 웨어하우스입니다. 마지막으로 신생 기업 및 오픈 소스 프로젝트에서 개발된 신기술이 있으며, 이들 기술은 Hadoop에서 OLAP 큐브(AtScale, eBay Kylin) 또는 인덱싱 엔진(JethroData)을 사용하며 10억 개 이상의 행을 짧은 지연 시간 내에 쿼리하는 기능을 제공합니다.

2. 라이브 연결 및 추출의 전략적 사용

Tableau의 하이브리드 데이터 아키텍처는 데이터 원본에 라이브로 연결하거나 인 메모리 추출을 통해 Tableau 데이터 엔진에 연결하여 사용자가 빅 데이터 작업에 유연하게 대처할 수 있도록 지원합니다. 빠른 쿼리 엔진을 사용할 수 없고 데이터 집합이 중소규모(수억 개의 행 이하)이거나 오프라인 분석이 필요한 상황에는 추출이 이상적입니다. 데이터 집합의 규모가 큰 경우 분산 실행으로 인해 Hadoop Hive 및 기타 쿼리 엔진이 Tableau보다 효율적으로 확장됩니다. 또한 빠른 데이터베이스 엔진을 사용할 수 있거나 실시간 분석이 필요한 경우 라이브 연결을 사용하는 것이 더 좋습니다.

자세한 내용을 읽어보시겠습니까? 백서의 나머지 부분을 다운로드하십시오!

계속 읽기…

다음 내용도 확인해보는 것이 좋습니다.