Tipps und Tricks: Alternativen zur Berechnung der eindeutigen Anzahl

Eindeutige Zahlen sind ein entscheidender Faktor für Analytics, ob es sich um die Zählung der einzelnen Patienten in einem Krankenhaus, um die Anzahl der eindeutigen Transaktionen im Einzelhandel oder um die Anzahl der Flugzeuge einer Flugflotte handelt. Die Ermittlung eindeutiger Werte in Tableau geht spielend leicht. Sie können mit einem Klick im Handumdrehen die Gesamtwerte für die eindeutige Anzahl ändern. Allerdings handelt es sich dabei auch um eher umfangreiche Berechnungen, die oft sehr langsam ausgeführt werden, vor allem bei großen Datenmengen. Ich möchte nun einige Alternativen vorstellen, die zu den gleichen Ergebnissen führen wie die Ermittlung der eindeutigen Anzahl.

Eindeutige Zahlen sind ein entscheidender Faktor für Analytics, ob es sich um die Zählung der einzelnen Patienten in einem Krankenhaus, um die Anzahl der eindeutigen Transaktionen im Einzelhandel oder um die Anzahl der Flugzeuge einer Flugflotte handelt. Die Ermittlung eindeutiger Werte in Tableau geht spielend leicht. Sie können mit einem Klick im Handumdrehen die Gesamtwerte für die eindeutige Anzahl ändern. Allerdings handelt es sich dabei auch um eher umfangreiche Berechnungen, die oft sehr langsam ausgeführt werden, vor allem bei großen Datenmengen. Ich möchte nun einige Alternativen vorstellen, die zu den gleichen Ergebnissen führen wie die Ermittlung der eindeutigen Anzahl.

Vorab aber soll kurz die Funktionsweise der Berechnung der eindeutigen Anzahl erläutert werden. Um festzustellen, wie viele eindeutige Elemente in einem Datenbestand vorhanden sind, muss jeder einzelne Datensatz mit allen anderen Datensätzen verglichen werden. Dies kann, wenn der Datenbestand sehr groß ist, mühsam sein, vor allem, wenn Textfelder und Zeichenfolgen verglichen werden müssen.

Im Folgenden sind acht weitere Möglichkeiten aufgeführt, um die eindeutige Anzahl zu ermitteln. Jede Methode hat auch Nachteile, aber je nach den jeweiligen Umständen kann das damit verbundene Vorgehen der schnellere Weg sein. Zur Veranschaulichung dieser Tipps wird im Folgenden für die Dimension, für die die eindeutige Anzahl ermittelt werden soll, der Name „Dimension X“ verwendet. Am Ende finden Sie eine Arbeitsmappe mit je einem Beispiel für alle acht Möglichkeiten.

  1. Visueller Notizzettel: Ziehen Sie „Dimension X“ auf „Detail“, fügen Sie dann das Feld „Anzahl der Datensätze“ zu „Zeilen“ hinzu und ändern Sie den Wert dafür in „Minimum“ (oder MAX, AVG bzw. Median). Daraufhin wird eine Reihe kleiner Leisten erstellt und zwar jeweils eine für jede Instanz von „Dimension X“. Wenn diese dann gestapelt zusammengefasst werden, entspricht der Gesamtwert der eindeutigen Anzahl von „Dimension X“.

  2. Extrahieren und Aggregieren: Verwenden Sie einen Extrakt Ihrer Daten und aggregieren Sie diesen anhand der Vorkommen von „Dimension X“. Sie können dann eine einfache Anzahl anstatt einer eindeutigen Anzahl ermitteln. Diese lässt sich sehr viel einfacher berechnen.

  3. Verwenden von SIZE(): Dies entspricht der ersten dargestellten Möglichkeit, ist aber visuell ansprechender und flexibler in Verbindung mit anderen Analysen. Die Tabellenberechnung SIZE() ermittelt die Anzahl der Zeilen in einer Partition. Geben Sie dazu einfach „SIZE()“ in ein berechnetes Feld ein, ziehen Sie es in Ihr Arbeitsblatt und lassen Sie es anhand von „Dimension X“ berechnen. „Dimension X“ muss zuvor nach „Detail“ gezogen werden.

  4. Filtern für eine eindeutige Liste: Dies ist eine einfache Methode, vorausgesetzt, Sie können alle Instanzen von „Dimension X“ bis auf eine filtern. Idealerweise bedeutet dies auch, dass „Dimension X“ immer gleich oft vorkommt. Beispielswiese muss in einer Umfrage jeder Befragte die gleiche Anzahl an Fragen beantworten. Statt nun die eindeutige Anzahl der Befragten zu ermitteln, können Sie zuerst nach einer Frage filtern und dann eine einfache Zählung durchführen.

  5. Verschmelzen einer eindeutigen Liste: Stellen Sie eine neue Datenverbindung zu „Dimension X“ her, sodass jede Instanz einfach eine Zeile bildet. Anschließend verschmelzen Sie diese Daten mit Ihrer ersten Datenquelle und verwenden das Feld „Anzahl der Datensätze“ der zweiten Datenquelle. Dafür ist Tableau Desktop 8.0 erforderlich.

  6. Schreiben mathematischer Berechnungen: Wie der Begriff es schon nahelegt, wird hier eine Berechnung erstellt, die „Dimension X“ an die Häufigkeit des Vorkommens anpasst. In der Beispielarbeitsmappe finden Sie ein entsprechendes Beispiel.

  7. Ändern des Datenmodells: Dies erfordert eine Änderung der eigentlichen Daten, sodass der vierte Tipp zu einer Option wird. Fügen Sie dem ersten Vorkommen von „Dimension X“ eine Spalte oder eine Art Kennzeichen bzw. Indikator zu. Wenn Sie die Daten wieder mit Tableau verbinden und die eindeutige Anzahl ermitteln möchten, filtern Sie einfach nach dem hinzugefügten Indikator und führen eine einfache Zählung durch.

  8. Benutzerdefiniertes SQL: Dies ist die am wenigsten flexible Option. Hier müssen Sie in der Lage sein, in SQL zu programmieren. Das kann je nach Situation sehr komplex werden. Verwenden Sie zunächst testweise die Funktion COUNTD, um zu prüfen, ob es den Aufwand rechtfertigt.

In dieser Beispielarbeitsmappe ist für alle acht Optionen jeweils ein Arbeitsbeispiel enthalten (mit freundlicher Genehmigung von Marc Rueter).