借助 Tableau Data Server 提高数据可信度

想使用 Tableau Server 却不知如何着手?Tableau 专业大师 Lorena Vasquez 为您详细讲解如何通过 Tableau Server 提高数据可信度。

今天的嘉宾博客作者为 Cboe Global Markets 高级软件工程师 Lorena Vazquez。Lorena 既是商业智能和报告工程团队成员,也是 Tableau Server 管理员。

经理: “会计部门的人通过电子邮件给我发送了这些收入数据,但它们与您为季度业务总结提供的数据并不一致。您的数据是从哪里来的?为什么与他们的数据不同?”

分析师: “我的数据来自于根据 IT 部门的报告生成的电子表格。我不知道会计部门的数据是哪里来的。但我的数据是正确的。”

经理: “我们需要搞清楚来龙去脉。”

所有经理、分析师或 IT 人员都多少经历过类似的情况。我们怎样才能信任在不同部门和角色之间共享的数据??对我而言,答案就是 Tableau Data Server。

您会问:“什么是 Data Server?”这是 Tableau Server 的一个组件,用于在 Tableau Server 站点内部发布、共享和刷新数据源。根据我的经历,Tableau Data Server 不但具有上述用途,还可以提供其他功能。

  1. Tableau Data Server 可以提供经过认证的已发布数据源,消除重要数据(例如收入信息)中的不确定性风险。
  2. 数据源可以按计划刷新。您可以始终获得最新数据,不必再费心去手动更新和重新发布数据源。如果某个数据源出现故障,您一定会收到通知。
  3. 最重要的是,现在有了一组明确定义且清晰记录的维度、度量和计算,可以在后续的分析和仪表板中反复使用。
  4. 对我而言,Tableau Data Server 还有另一个好处:降低生产数据库系统的影响。利用数据提取,可以减少生产数据库系统需要处理的实时查询,减轻 IT 压力。

我是如何着手的呢?

首先是数据源。您可以通过设置数据源刷新计划来添加新数据,但 Data Server 同样可以处理静态数据源。那些从不发生更改并且/或者存在于数据库域之外的历史数据集,都是静态数据的用例。静态数据源是最简单的数据源,因为我们只需生成 Tableau 数据提取并将其发布到 Tableau Server。

要刷新数据源,我们需要在将数据源发布到 Server 之前就做好所有准备。刚开始的时候,我们遇到了一些问题(将在下文讨论),但最终我们创建了一个新数据源开发流程。

不管使用哪种数据源,您都必须确保 Tableau Server 能够访问您的数据源。如果是数据库服务器,应确保 Tableau Server 能够连接到数据库(IP 地址和端口)。我是 Tableau Server 管理员,因此我能够测试连接是否已经建立。随后,我联系 DBA 团队,确保 Tableau 通过适当的身份验证。我们在连接一个数据源时遇到了问题。发布数据源并设置刷新计划后,刷新未能成功运行,因为 Server 无法连接。我们通过联系 DBA 团队解决了这个问题,他们确认数据库服务器拒绝连接。此后 Tableau Server 获得了访问权限,我们的工作流因此得到了改善。

第二件事情是确保在 Tableau Server 上安装数据库驱动程序。您不用费心去维护多个版本的数据库驱动程序,因为现在只需在服务器上安装一个驱动程序即可 — 支持团队再也不需要通过在每个用户的计算机上安装数据库驱动程序来实现数据库访问。将数据源发布到 Tableau Server 之后,您只需指向该数据源,用户即可通过 Tableau Server 进行连接。作为 Tableau Server 管理员,我可以控制使用的数据源和驱动程序,确保使用 Tableau Server 支持的正确版本。同时确保 Desktop 用户计算机同样安装了正确的驱动程序。我们将自己使用的数据库驱动程序记录到一个列表中,并与 IT 帮助台团队共享这个列表。

实现数据库连接、网络连接和/或文件共享连接后,您就可以将数据源发布到 Tableau Server。这些步骤听起来有些繁琐,但考虑到经过整理和认证的数据源可以带来的巨大好处,为每个数据源进行的这种一次性设置是完全值得的。

真实应用

谈到让每个人都能访问数据,影子 IT 是一个很大的顾虑,即便对我而言也是如此。每个人都有自己的数据副本,并且使用不同的术语来表示同样的维度或度量,对于整体数据管控而言,这无疑是一个噩梦。Tableau Data Server 可以驱除这个噩梦,让您高枕无忧。至少对我而言是这样的。

让我们来谈谈 Tableau Data Server 如何提供数据管控,包括数据质量。

数据管控

回到我们开头讲的那个故事。您现在已经知道我们可以提供经过整理和认证的数据集,那么,Tableau Data Server 会让上面那段对话发生怎样的改变?

分析师:“我与自己的团队合作,在 Tableau Server 上提供了那些数据。我再也不用担心遇到陈旧数据了,因为这些数据每天都会更新!更妙的是,会计团队已经停止使用手动电子表格了,因此我们可以从相同的位置引用他们的信息。”

经理:“你的意思是,我们不会再遇到不一致的数据?太好了!”

通过在 Tableau Server 上发布数据源,我们可以为访问相关数据集的所有人提供一致的数据。其中的维度和度量都经过整理和定义,并带有所有人都可以看到的说明。Tableau Server 甚至让我们能够将这样的数据源标记为已认证数据源。如果不做这些事情,您在处理已发布数据源时就可能步入陷阱。如果您在发布数据源时遗漏了说明,使用了随机或者毫无意义的度量/维度名称,并且/或者没有建立数据工作流程,您的数据就可能让人们产生困惑或怀疑,让整个数据管理工作陷入非常糟糕的局面。我就遇到过这种情况。我们发布了一个数据源但没有提供任何说明,最终用户非常困惑。

我们是如何解决问题的?我们制定了在 Tableau Server 上创建数据源的工作流程。您可以根据需要创建简单或复杂的流程。但根据我的经验,它应该至少满足以下标准:

  1. 使用公司的业务语言明确定义维度和度量。
  2. 使用适当的名称来表示计算,并添加必要的注释。(您不应该将一个计算称为“合计”,然后将另一个计算称为“合计合计”。)
  3. 如果维度的名称本身无法提供足够的信息,则应该添加说明。您可以添加关于上游应用程序数据源的信息,例如网站表单或订单。
  4. 完成这些步骤后,将您的数据源标记为已认证。它告诉用户,这些数据是可以信任的。

与您的团队和 CoE 合作,确定该流程会对您的部门产生怎样的影响。这方面的整合工作需要一些时间,但记住,这些工作有助于全面了解 Tableau Server 上的数据。

数据质量

确保数据质量是数据管控的一个方面。如何确保您手上的数据正确无误?在这个故事中,分析师提到,将数据发布到 Tableau Server 后,这些数据每天都会刷新。Tableau Data Server 让您可以使用各种不同的频率(包括每小时一次)为数据提取设定刷新计划。

在为数据源设置计划时要提防一个潜在陷阱:遗漏数据提取运行时尚不可用的数据。我们可以在验证数据质量时执行一个额外步骤:创建一个仪表板来查询您的已发布数据源和您的原始数据源,并对记录总数进行比较。借助数据驱动型通知功能,您可以在数据源未能保持同步时收到通知。我每天都会使用此功能来监测一些比较重要的数据源。

此外,开发人员还可以使用 Tableau Server REST API 和 Tableau 数据提取命令行实用工具来创建“推送作业”,在原始数据源有数据可用时刷新 Tableau Server 上的数据。使用推送作业(Tableau Server 计划之外)时,Tableau Server 不会按照它自己的计划从原始数据库中拉取数据;在为 Tableau Server 运行刷新数据提取作业之前,相关数据必须已经存储在源数据库中。这种方法仅在您能够访问计划程序时有效。与负责将数据加载到数据库的开发团队或数据团队合作,了解您可以如何添加这项作业。

宣传

如果准备好所有这些已发布数据源和流程,但却不对这些信息进行共享,那么所有努力都是毫无意义。下一个步骤是进行宣传,鼓励人们使用 Tableau Server 以及 Data Server 上的已发布数据源。考虑在每月的新闻通讯中共享这些新数据源,通过举办培训来指导人们探索新数据源,甚至可以根据组织具体情况,制作关于如何使用这些数据源的教学视频。最重要的是收集反馈。确保用户理解相关维度和度量以及数据源的用例。您与用户的互动越多,用户就越愿意使用 Tableau Server。

前进

现在,您对 Data Server 有了更为深入的了解,我建议您先联系自己的 CoE、国际 Tableau 用户群或 Tableau 大使,了解您可以如何利用 Tableau Data Server。想想您可以如何使用 Data Server 来改进您当前的各种流程。大家都在搜寻相关并且有用的数据;我们应该确保仅有一个事实来源。

通过此处的 Tableau Data Server SlideShare 了解更多信息。