推陈出新

2003 年,Tableau 在斯坦福大学诞生,它脱胎于 VizQL™,一种彻底改变数据使用方式的技术,有了它,人们只需使用简单的拖放功能,即可创建复杂的可视化图表。 这项根本性的革新技术是一种获得专利的查询语言,它可将您的操作转换成数据库查询,然后通过图形表达响应。 随后的突破性创新是利用 Tableau 的数据引擎,在几秒之内即席分析数百万行数据。 数据引擎是电脑上的高性能分析数据库。 它具有传统内存中解决方案的速度优势,但是没有数据必须装入内存的局限性。 Tableau 的传统是让人人都能使用强大的工具,因此我们无需编写任何自定义脚本,就能使用他们的数据引擎。

VizQL™

本机可视化–因此更快。

Tableau 的核心是一种专有技术,它能将交互式数据可视化内容转变成理解数据所必不可少的一部分。 传统的分析工具迫使您在行和列中分析数据,选择要显示的数据子集,将这些数据组织成表,然后根据此表创建图表。 VizQL 跳过了这些繁琐步骤,立即就能为您的数据创建可视化表现形式,在您进行分析时就给出可视化反馈。 因此,与传统方法相比,您可以更深入地理解数据,更快速地展开工作 - 最高可以快到 100 倍。
VizQL 可以扩大可视化范围

新的数据语言意味着您可以发掘更多信息。

这种全新的体系结构对可视化形式数据交互所起的作用正是 SQL 对文本形式数据交互所起的作用。 VizQL 语句描述无限多的复杂多维可视化图表。 有了 VizQL,人们就可以只使用一个分析界面和数据库可视化工具,生成范围广泛的图形化汇总。 Tableau 可创建种类极广的可视化图表,从条形图和折线图,到地图和复杂的链接视图。 这种灵活性可让您以全新的方式理解数据。 它能让您发现在将数据硬塞进死板的图表模板时可能错失的见解。

支持思维的自然模式。

思维无疑是一种问答模式,它循序渐进,逐渐吸收新的信息。 在您开始某种分析时,您很少确切知道自己所要的目标。 而这却是传统 BI 工具所需要的。 有一种替代方法: VizQL 可让您以可视化方式浏览数据,并找到数据的最佳表示形式。 您边做边学,需要时添加更多数据,并最终获得更深入的见解。 我们将其称之为可视化分析循环。 在您遍历此循环的过程中,您可以更深入清晰地表达数据的意义。

全世界绝无仅有。

因为有了 VizQL,快速分析和可视化得以成为现实。 即使培训极少,甚至未经培训,人们也能以前所未有的方式,比以往更快地看清并理解数据。 而这正是最重要的与众不同之处。

数据引擎

专为克服局限而设计

数据引擎是突破性的分析数据库,它专为克服现有数据库和数据孤岛的局限性而设计,可真正支持可视化分析过程。 它旨在反映最新硬件和完整存储分层结构(从磁盘到 L1 缓存)的能力。 Tableau 的数据引擎改变了大数据与快速分析之间的曲线。
数据引擎:巨量数据的分析

大数据的演变

在过去几年间,数据库的发展突飞猛进。 传统数据库注重磁盘驻留数据和预计算。 虽然这比以前留出了更多计算能力,但是其反应缓慢的缺点要求用户在构建数据库之前就要知道他们想解答什么问题(他们的查询工作负载)。 更新型的数据库找到了提高性能的窍门,它们只使用存储分层结构最上面的几层,并要求所有数据都驻留在内存中。 这些“内存中”解决方案使得计算更加快速,但是其代价是,数据的大小受限于可用内存的大小。

Tableau 数据引擎的目标

我们设计数据引擎的目的是:
  1. 充分利用新一代的硬件,在企业笔记本电脑之类的日用硬件上实现即时响应对数亿行数据的查询
  2. 使所有查询的查询性能全都可预测且一致,无需知道查询工作负载,也无需预计算聚合或摘要,从而支持真正的即席查询
  3. 与现有企业数据仓库和基础结构无缝集成
  4. 不要求将整个数据集载入内存来实现其性能目标,因此也不受此局限
  5. 极快地加载并连接到数据源。

体系结构感知的设计

核心数据引擎结构是基于列的表示形式,它所使用的压缩技术支持无解压执行查询。 利用来自计算机图形学的新颖方法,经过精心设计的算法可以接近 L1 和 L2 缓存的最佳利用率、最少的中间结果数,以及用于管理磁盘数据流以避免吞吐量损失的突破性技术,充分利用现代处理器,使我们避免在分析之前就将数据集完全载入内存所带来的常见局限性。

在数据引擎与实时连接之间来回切换

数据引擎的设计是为了直接与 Tableau 的现有“实时连接”技术集成,让用户通过谨慎地匹配计算和整序语义,从与企业数据库的直接连接(发出高度调优、特定于平台的 SQL 查询)一键切换到查询载入数据引擎的那部分数据的提取(反之亦然)。 这种集成可以让公司先对数据样本 (GB) 执行分析,然后将此分析转向大规模并行数据仓库(如 Teradata),以对 PB 级的数据运行最终分析(或报告)。

真正的即席查询

在数据引擎的设计中,包含查询语言和查询优化器,设计它们是为了支持动态业务分析的典型查询。 在以思维的速度处理数据时,常常需要运行复杂查询(如非常庞大的多维筛选器)或复杂的并发查询。 现有数据库执行这些类型的查询通常性能糟糕,而数据引擎可以瞬间处理它们。

灵活的数据模型

与其他内存中解决方案相比,数据引擎的关键差异之一是,我们可以在数据仍处于磁盘上的数据库中时,直接操作数据。因此无需数据建模,也不需要编写脚本就能使用数据引擎。 数据引擎的一个强大之处是,您可以像任何其他关系数据库一样,定义新的计算列,也可以随时将其视作某种即席数据建模。

实例加载和连接时间

数据引擎之所以独特是因为,一旦数据载入数据引擎,其启动时间将极短。 我们只需要在查询实际接触的那部分数据中读取。 数据库中可能有很多与特定分析不相干的数据,您肯定不想等候数据引擎读取那些数据。