Chapter 5 你真的看懂雙標圖嗎 ?

PCA 大概是資料視覺化最常用的工具之一了,儘管 Autoencoder 的出現讓 kernel PCA 變成一個很雞肋的方法,傳統的 PCA 分析至今也有很多人在使用。最常見的視覺化方法是取 PCA 前兩大主成分進行點散圖的分析,不過這樣我們就不能在圖表上觀察到行與行之間的相關信息,雙標圖正是用來解決這一問題而提出的方法

5.1 PCA 怎麼做

很多人學習 PCA 都只學表像,其實 PCA 遠比你想的複雜,假設我們有資料矩陣 \(X_{n\times p}\),最常見的看法是最大資料變異,也就是找到一個新空間 \(a\),使得資料投影上去後變異最大 (這裡假設資料已做過行中心化)

\[ \max_a \text{Var}(Xa) = \frac{1}{n}\max_a \frac{a^\top X^\top Xa}{a^\top a} \]

該式的解可以透過 Rayleigh quotient 解得 \(a\)\(\frac{1}{n}X^\top X\) 最大特徵值對應的特徵向量,其實在最大變異的同時也在最小空間重構誤差 (詳見 MDS),故常見的 PCA 有以下觀點

  • 降維後最大化資料之間的變異
  • 降維後空間的投影誤差最小,同 MDS

最後一種看法是用 SVD 分解的角度看 PCA,根據 SVD 分解,我們有 \(X=U\Sigma V^\top\),其中 \(U\) 矩陣蒐集了 \(X^\top X\) 的特徵向量,\(V^\top\) 矩陣蒐集了 \(X X^\top\) 矩陣的特徵向量,其對應的奇異值被記錄在矩陣 \(\Sigma\) 裡,所以事實上一個 PCA 包含了三個物件

  • 行間的特徵向量 (\(X^\top X\))
  • 列間的特徵向量 (\(XX^\top\))
  • 代表重要性的奇異值

資料處理手法

不同的資料前處理手法也會導致結果不同,常用的有五種,以下令 \(H=I_n - \frac{1}{n}J_n\),其中 \(J_n\) 為全 1 矩陣

  • \(X:\) 不做處理,通常會抓到 \([E(X)]^2 + E(X^2)\)
    • 如果資料之間的差距非常大,則 PC1 會因為平方關係一家獨大
  • \(XH:\) 列中心化
    • 一般使特徵料投影變異最大方法
  • \(HX:\) 行中心化
    • 一般使資料投影變異最大方法,也是最常用的 PCA
  • \(HXH:\) 列行中心化
    • 其實就是 MDS,重點在還原距離
  • \(X - \frac{1}{n}1^\top X1:\) 全中心化
    • 同不做處理,資料之間差距非常大也會影響圖表造成只有 PC1 重要

之後我們可以再決定要不要除上標準差。

注意!! 除上標準差的 PCA 會因為尺度縮減導致解釋變異比平均較為分散到所有主成分

5.2 Biplot

雙標圖是一種結合 PCA 降維結果以及原始資料行之間與主成分線性組合關係的圖表,綜上所述,不同的資料前處理手法也會影響雙標圖的呈現結果

怎麼畫

我們首先畫出降維後資料的點散圖,我們通常會乘以一個縮放係數來確保資料的範圍不會差異太大,最後我們知道 PCA 主成分其實是原始空間的線性組合,所以我們可以把原資料在前兩主成分的係數畫在 PC1 vs PC2 上,當然係數絕對值越大代表該特徵越顯著,具體步驟如下

  • 降維資料建立點散圖
  • 縮放資料 (除上資料的全距)
  • 根據原資料在主成分上的座標 (線性組合),畫出 arrow

除此之外,雙標圖還有很好的內積性質,arrow 之間的夾角代表相似度,可以想像是餘弦值

  • 垂直\(:\) 無關
  • \(<90:\) 正相關,角度越小越相關
  • \(>90:\) 負相關,角度越大越不相關

進階圖表

有些雙標圖會新增一些物件來幫助判讀更多信息

  • 多邊形: 沿著 biplot arrow 距離原點最遠的點連成的多邊形 (資料降維範圍)
  • 平均線: 畫上 biplot arrow 的平均線 (線性組合平均趨勢)
  • 平均位置: 畫上 biplot arrow 的平均點 (線性組合重心)

如和判斷 biplot 的顯著性

當然,這個部分與 PCA 息息相關,回想我們怎麼判斷 PCA 的好壞? 我們是透過降維資料的特徵值累積變異來判斷一個主成分是否重要,同樣的,biplot 也是用相同的判斷手法,我們研究主成分之間的解釋變異比例來決定 biplot 的顯著性

Biplot 表格

biplot 不僅能繪製圖表,也可把圖表資訊儲存成一個表格,我們可以計算 biplot arrow 的餘弦值或者相關係數來做成表個,概念同相關係數矩陣。也有統計學家用原資料做 t 檢定來看資料的顯著性