Conseils et astuces : solutions alternatives au calcul du total distinct

La notion de total distinct est essentielle en analytique, qu'il s'agisse de compter le nombre de patients dans un hôpital, le nombre de transactions uniques dans la vente au détail, ou encore le nombre d'avions dans une flotte. Le calcul de total distinct dans Tableau est très simple, et un clic suffit pour modifier l'agrégation du calcul. Néanmoins, il s'agit également d'un calcul très exigeant, qui prendra plus de temps si les données sont très volumineuses. Je vais vous présenter des solutions alternatives pour obtenir la même réponse qu'avec un calcul de total distinct.

La notion de total distinct est essentielle en analytique, qu'il s'agisse de compter le nombre de patients dans un hôpital, le nombre de transactions uniques dans la vente au détail, ou encore le nombre d'avions dans une flotte. Le calcul de total distinct dans Tableau est très simple, et un clic suffit pour modifier l'agrégation du calcul. Néanmoins, il s'agit également d'un calcul très exigeant, qui prendra plus de temps si les données sont très volumineuses. Je vais vous présenter des solutions alternatives pour obtenir la même réponse qu'avec un calcul de total distinct.

Tout d'abord, rappelons comment fonctionne le total distinct. Pour déterminer le nombre d'éléments uniques dans un ensemble de données, il est nécessaire de comparer chaque enregistrement avec tous les autres. Ce processus est déjà pénible avec des chiffres si l'ensemble de données est volumineux, et particulièrement problématique lorsqu'il s'agit de comparer des chaînes et des champs de texte.

Voici 8 manières différentes d'obtenir un total distinct. Chacune de ces manières présente des inconvénients, mais peut permettre d'accélérer le calcul selon le contexte. Pour les besoins de ces astuces, je vais appeler « dimension X » la dimension pour laquelle vous souhaitez calculer un total distinct. Je mets également à disposition un classeur qui contient des exemples de ces 8 solutions.

  1. Aide visuelle : Faites glisser la dimension X sur Détails, puis placez le champ Nombre d'enregistrements sur Lignes, et choisissez l'agrégation Minimum (ou Maximum, Moyenne ou Médiane). Vous obtiendrez ainsi une série de barres empilées (une pour chaque instance de dimension X), qui mises ensemble donnent le même résultat que le total distinct de dimension X.

  2. Extrait et agrégation : Prenez un extrait de vos données, et agrégez-le en fonction des occurrences de dimension X. Il vous suffit maintenant de compter, au lieu de calculer le total distinct.

  3. Utilisez la fonction SIZE() : Cette astuce est similaire à la première, mais est visuellement plus efficace et est plus flexible avec les autres analyses. Le calcul de table SIZE() compte le nombre de lignes dans une partition. Il vous suffit de saisir « SIZE() » dans un champ calculé et de placer ce champ dans votre feuille de calcul, pour que le calcul s'effectue sur votre dimension X (que vous devez placer sur Détails).

  4. Appliquez un filtre pour obtenir une liste unique : Cette méthode est assez simple, et part du principe que vous pouvez filtrer chaque instance de votre dimension X, sauf une. Dans l'idéal, cela signifie également que la dimension X apparaît également le même nombre de fois. Par exemple, dans une enquête, chaque participant doit donner le même nombre de réponses. Au lieu de calculer le total distinct de participants, vous pouvez appliquer un filtre pour obtenir une seule question, et ensuite compter simplement le nombre de participants qui y ont répondu.

  5. Appliquez une fusion pour obtenir une liste unique : Créez une nouvelle connexion de données pour la dimension X, de manière à ce que chaque instance ne soit qu'une seule ligne. Ensuite, fusionnez les données avec la première source de données, et utilisez le champ Nombre d'enregistrements pour la deuxième source de données. Pour ce faire, vous devez disposer de Tableau Desktop 8.0.

  6. Écrivez le calcul mathématique à la main : Vous avez bien lu : il suffit d'écrire un calcul qui ajuste la dimension X selon le nombre de fois où elle apparaît. Vous trouverez un exemple de cette fonction dans le classeur fourni.

  7. Modifiez le modèle de données : Pour cela, vous devez modifier vous-même les données, pour que la 4e astuce devienne possible. Ajoutez une colonne, ou un indicateur, à la première occurrence de votre dimension X. Une fois que vous vous connectez à ces données dans Tableau, il suffit d'appliquer un filtre sur cet indicateur, pour ensuite compter simplement les occurrences.

  8. SQL personnalisé : Il s'agit là de l'option la moins flexible et vous devez savoir écrire des fonctions SQL, ce qui peut être assez complexe suivant les cas. Essayez en premier lieu d'utiliser la fonction COUNTD de Tableau, pour vérifier si l'opération en vaut la peine.

Voici un classeur, créé par Marc Rueter, qui contient des exemples fonctionnels de ces 8 options.