資料準備 101:彙總函數是什麼,以及該如何組合已彙總的資料?

什麼是彙總函數?

系統會以許多不同的細微度等級產生與分析資料。細微度是資料詳細的程度。例如,查看畢業資料時,細微度就會說明資料集中的資料列代表的是大學中的單一人士或是畢業班級。

但是如果您要的是學生資訊的資料集,並且要將該畢業班級視為整體的一個值時 (意即降低細微度),您該怎麼做?彙總與細微度是相輔相成的概念。彙總是數學運算,會擷取多個值並傳回單一值:例如總和、平均、計數或最小值等運算。這會使資料的細微度變低 (亦即較高層級的細節)。

瞭解彙總有時取決於您要實現的內容而定。請跳至下文,瞭解如何組合已彙總資料,或造訪線上說明以瞭解如何在 Tableau Prep 中彙總值

查看在 Tableau Prep 中彙總步驟的免費訓練影片

彙總的建構方式

若您的分析需要彙總,您需考量以下兩件事:

  1. 結果的結構方式:考量新的細微度,亦即資料列要代表的事項。如果查看的是投票率,是否是以政黨層級來看?還是以政黨與選區來看? 或是以政黨、選區、年齡層與性別來看?決定資料列組成的欄位是分組欄位 (在 Tableau Prep 中)。
  2. 如何將多個值彙總成單一值:例如,我們是否將每種顏色的襯衫數量加總來算出襯衫的總數?我們是否採用一整天中每小時最高溫度的讀數來提供每日最高溫度?我們是否使用點擊網頁的 IP 位址獨特計數來測量出獨特的頁面瀏覽數?

根據所需的結果,數字欄位可以各式各樣的數學運算彙總。請參閱這份完整清單。這包含:

  • 總和
  • 平均值或中位數
  • 計數或獨特計數
  • 最小值或最大值
  • 或各式各樣的統計運算都能用來執行,例如方差或標準差。

日期與文字型欄位可以彙總為計數、獨特計數、最大值或最小值 (若為文字,最大值與最小值會以排序順序為依據)。

組合已彙總的資料

通常在不同細微度層級的資料都需要組合。例如,若要提供全面的地理空間分析檢視,通常需要將城市級資料與國家/地區級資料組合。

聯接是用來組合資料的常見方式。但如果我們在不同細微度層級聯接時,便無可避免地會面臨到資料複製或遺失的問題。

假設我們有兩個資料表格,一個表格中有每年各種顏色野餐墊的數量,另一個表格中則是一年中看到的螞蟻數量。以下就是該資料呈現的樣子:

如果我們聯接這兩個表格,就會發生以下任一情況:

  1. 重複每張野餐墊上看見的螞蟻數量,或者
  2. 遺失顏色層級的資訊

如果我們不希望發生以上兩種情況,可以選擇不要聯接表格,並獨立為這兩個表格進行分析。

1.重複每張野餐墊上看見的螞蟻數量:如果我們要聯接這些表格,只要複製在指定年份中看見的螞蟻數量到野餐墊表格中的每個資料列即可。那麼結果資料將會呈現如下:

用此方法建構資料並不完美,因為每年的螞蟻數量都會重複。這表示在分析中,如果只帶出「年份」以及「螞蟻數量」(做為總和),螞蟻數量會多四倍。為了避免這個情況,我們需要使用不同的彙總方式 (例如平均值或是最小值),或使用 LOD 運算式來固定每年的螞蟻數量,以避免意外地重複計數:{FIXED [年份] : MIN([螞蟻數量])}。

如上表的資料結構也有可能造成誤導,因為您很容易會假設,由於在 2015 年有 18 張野餐墊,因此這 18 張野餐墊上會看到 52,056 隻螞蟻。大多數看起來如此的資料集都已妥善建立結構,因此每個資料列都是獨立觀察,這就可能在情況不是這樣時導致解讀錯誤。

2.遺失顏色層級的資訊:為了避免此情況,我們可以彙總野餐墊的數量,在聯接前先將顏色資訊放在一旁,形成具有關於螞蟻與野餐墊年度資訊的單一資料集。

現在資料不會重複或可能遭到錯誤解讀,但我們將完全失去顏色的細分資訊。提示:請記住,細節層級的變更僅適用於加上更多彙總的情況,並不適用於加上更多細微度。如果這麼做,會完全失去顏色資訊。

最後一個替代方案是不要聯接資料,並保持每個表格獨立,在野餐墊顏色或螞蟻上執行分析,但不要合併為單一資料集。

總結

現在我們可以瞭解彙總之所以重要的原因,我們可以選擇如何正確彙總、組合與建構資料來進行分析。若要瞭解如何在 Tableau Prep 執行彙總,請查看彙總步驟中的免費訓練影片

Tableau Prep 協助每個人快速且自信地組合、整理與清理要用於分析的資料。深入瞭解 Tableau Prep 或免費試用

訂閱部落格