Tableau 9.0 预览:自动数据准备让数据分析应变而变

分析不只是为了漂亮的数据。Tableau 9.0(目前为 beta 版)可自动清理混乱的数据,尤其是 Excel 电子表格。这包括自动识别 Excel 文件结构的 Tableau 数据解释器、透视和拆分数据的新工具,以及快速操作元数据的新布局。这些新功能与已在 8.2 中发布的自动数据建模一起,共同帮助您快速准备数据以供分析。

使用 Tableau 真正的第一步,就是连接数据,然后您才能快速回答问题或使用全部分析功能,才能与 Web 用户和移动用户分享丰富的发现成果。

很多人都明白,分析不只是为了漂亮的数据。很多人经常使用专门的工具和脚本来处理数据,方便 Tableau 使用,或者花时间编写复杂的计算来修正数据问题。

Tableau 9.0 可自动完成很多清理混乱数据的苦差事,尤其是 Excel 电子表格中的数据。这方面的改进包括自动识别 Excel 文件结构的 Tableau 数据解释器、透视和拆分数据的新工具,以及快速操作元数据的新布局。这些新功能与已在 8.2 中发布的自动数据建模一起,共同帮助您快速准备数据以供分析。

Tableau 的数据准备理念是,让任何人可随时对其数据连接进行根本性更改。这意味着,为了使您实现相关操作,这些功能需要具备四个关键特性:

  • 智能 – 它们应该能够自动应用,并深度感知数据
  • 快速 – 它们需要几近实时地操作数据,甚至是大数据也不例外
  • 可重复 – 它们需要容许更改底层数据,如新增值、行和列
  • 灵活 – 它们需要在保留用户工作的同时,允许用户随时作出重大更改

在 Tableau 9.0 中,我们计划推出很多将使这一理念变成现实的新功能。大家不妨先睹为快:

Tableau 数据解释器
您的 Excel 是不是像下面这样?

Tableau 自动检测数据的位置(数据值从单元格 B8 开始)以及数据的结构(例如,跨单元格的复合标题),以便将数据转变为可供分析。

数据透视表
很多文本文件和 Excel 文件的列名都是实际有用的数据值。例如,下面的数据将年份和月份作为字段名称。

为了取得最佳分析体验,这些数据应该有一列名为“日期”,另一个列包含数据值,而不是有很多日期列。换句话说,我们需要透视部分数据集。只要选择我们需要的列,然后选择“数据透视表”即可:

拆分
有很多列包含复合信息,如电话号码(区号)、电子邮件地址、URL 以及可能是数据独有的很多其他构造。有了“拆分”功能,Tableau 就会自动取样数据、检测多种定界符,并为您创建新列。这里有一个将邮政编码和地点合并在一起的列。数据值类似于:90001 (33.973271508000494, -118.24896959899968)。想想看,为了解析出这三部分,必须编写多少令人抓狂的字符串计算。

正则表达式(使用正则表达式的功能)算是一种改进,现在 Tableau 也具备了这些功能。但是在这里编写正则表达式对很多人来说仍然遥不可及。但其实只要单击右键,然后选择“拆分”即可得到:

没有提示、无需选择,只留下三个清理得干干净净的列。如果自动拆分功能找不出字段的结构,它会要求您提供定界符(通常是逗号、空格和其他字符),您总是可以用简单的 SPLIT() 函数对得到的计算编辑。将列轻松拆分为只有您需要的部分有三种新方法。

元数据网格
在准备数据以供分析时,有时候字段列表要比数据预览更有用,所以我们增加了连接的“元数据”视图。

这种视图可以让我一目了然地更深入了解我的字段,快速重命名字段,并对所选字段执行批量操作。想要一下子隐藏很多字段吗?非常简单。选中它们,然后选择“隐藏”即可。

这些功能最厉害的地方是,无需按照任何特殊顺序就能应用它们。实际上,您可以在分析过程中随时单击新的“数据”选项卡,然后对连接进行更改。添加表、更改联接、编辑字段名称、执行任何新操作等等。然后在切换回分析后,马上就能看到更改的影响。这种能让您在分析过程中应变而变的功能是前所未有的。

当然,真正有意思的部分是进行美观有用的可视化分析,而所有这些数据准备都是这一切的基础。可能只有您知道清理数据的辛苦,但是与您的最终 Viz 交互的每一个人都会享受到这一成果带来的快乐。