Tableau 的大数据愿景


概述 | 本文内容: 

Tableau 的使命是帮助用户看清并理解其数据。 为了完成这一使命,我们的基本信念是数据民主化,也就是“谁知道数据,谁就应该有权回答数据问题。” 无论数据位于何处,日常知识工作者都应该能够轻松访问其数据。 同样是这些知识工作者,他们还应该无需少数精英(数据科学家和 IT 开发人员)的帮助,就能分析数据并从中得出见解。

无论数据大小如何,可视化呈现数据都非常重要,因为可视化将信息转变为见解和行动。 可视化呈现大数据的方法尤为重要,因为存储、准备和查询数据的成本要高得多。 因此,组织必须利用架构良好的数据源,并严格应用最佳做法,让知识工作者直接查询大数据。 近几年来,大数据孕育了大量创新 - 因此我们会有很多选择,每种选择都有不同的优势。 Tableau 的愿景是,支持与用户越来越息息相关的大数据平台,帮助他们促进与数据的实时对话。

我们还提供了本白皮书的前几页供您试阅。 下载右侧的 PDF 即可阅读全文。


Tableau 的(大)数据战略

Tableau 的使命是帮助用户看清并理解其数据。 为了完成这一使命,我们的基本信念是数据民主化,也就是“谁知道数据,谁就应该有权回答数据问题。” 无论数据位于何处,日常知识工作者都应该能够轻松访问其数据。 同样是这些知识工作者,他们还应该无需少数精英(数据科学家和 IT 开发人员)的帮助,就能分析数据并从中得出见解。

无论数据大小如何,可视化呈现数据都非常重要,因为可视化将信息转变为见解和行动。 可视化呈现大数据的方法尤为重要,因为存储、准备和查询数据的成本要高得多。 因此,组织必须利用架构良好的数据源,并严格应用最佳做法,让知识工作者直接查询大数据。 近几年来,大数据孕育了大量创新 - 因此我们会有很多选择,每种选择都有不同的优势。 Tableau 的愿景是,支持与用户越来越息息相关的大数据平台,帮助他们促进与数据的实时对话。

为了实现这一大数据愿景,Tableau 将重点放在“六大支柱”上:

  1. 广泛访问大数据平台 - 我们的部分愿景是,无论大数据位于何处,使大数据分析成为可能。 Tableau 目前支持 40 多种不同的数据源,通过我们的扩展性选项,还可以支持无数其他数据源。 随着新数据源不断涌现,对用户的价值持续变得日益重要,我们将把这些数据源不断融入产品之中,进而减少访问数据的阻碍。 我们适用于大数据生态系统的命名连接器包括:
    • Hadoop:Cloudera Impala 和 Hive、Hortonworks Hive、MapR Hive、支持 Impala 和
    • Hive 的 Amazon EMR、Pivotal HAWQ、IBM BigInsights
    • NoSQL:MarkLogic、Datastax
    • Spark:Apache Spark SQL
    • 云:Amazon Redshift、Google BigQuery
    • 运营数据:Splunk
    • 快速分析数据库:Actian Vectorwise 与 ParAccel、Teradata Aster、HP Vertica、SAP Hana、SAP Sybase、Pivotal Greenplum、EXASOL EXASolution
  2. 面向业务用户的大数据自助式可视化 - 业务用户可使用拖放操作可视化其数据,而无需编写复杂的 SQL、Java 代码或 MapReduce 作业。 Tableau 简化了分析数据的任务 - 用户可比以前更快地从数据中发现形象可见的见解。
  3. 优化查询性能的混合数据体系结构 - Tableau 可实时连接到数据源,或将其调入内存。 在连接到快速交互式查询引擎和大数据集时,实时连接作用很大。 但是,我们还可以扩大和加快较慢的数据源,方法是创建数据提取,并将其调入内存中数据引擎。
  4. 用于执行跨数据源分析的数据混合 - 分布式数据通常是比大数据更大的难题。 分析师的数据极少令人满意地打包在一个地方 - 实际上,数据散布在各处,使用各不相同的技术,处于各不相同的平台。 Tableau 将大数据与其他数据源(如 Salesforce、MySQL、Excel 文件)混合,使用户能够跨越各种数据源存取数据,从而让组织将其数据资产保留在它们所在的地方。
  5. 总体平台查询性能 - 随着数据量的增长,Tableau 将不断在核心查询性能改进上作出投入,这样的改进有助于促进与数据的实时对话。 最近,这包括在并行查询、查询混合以及外部查询缓存等功能上的投入。 Tableau 现在还在支持向量化的处理器上利用向量化。
  6. 强大而统一的数据可视化接口 - Tableau 有具备多种功能的分析工具,这些功能包括使用简单操作筛选数据、运行预测以及执行趋势线分析。 它还会解释用户操作,并根据可视化最佳做法选择呈现数据的最佳方式。 在连接到数据后,Tableau 还会提供跨所有数据源都一致的单一数据可视化接口。

我们的愿景非常符合数据总体格局的发展。 新的常态是,很多客户要应付多种多样的大数据技术。 Hadoop 和 Spark 之类的技术因其存储和处理数据的能力,已经成为与数据仓库相提并论的数据体系结构的一部分。 与此同时,客户正在基于其 Hadoop 部署精简其数据仓库的规模。 客户经常选择 NoSQL 数据库作为应用程序后端,而不是选择关系数据库,因为前者的数据模型灵活、延迟低,并且其设计专门针对应用程序。 最后,云数据源无所不在,因为云 CRM 和 ERP 系统已成为管理业务流程的优先选择,“按需付费”消费模型正成为云存储和数据处理的流行消费模型。 由于后端如此多样和灵活,因此用户需要 Tableau 这样的前端工具灵活连接到各种大数据平台、云数据源和关系数据库,赋予用户分析数据所需要的敏捷性。

希望阅读更多内容? 下载白皮书其余部分!

继续阅读...

您可能会感兴趣的内容…