PLS-SEM
PLS-SEM 是一種驗證假設、數據化概念的工具,本篇將解釋其中的意義和用法。
參照
本篇參照 「Partial Least Squares Structural Equation Modeling (PLS-SEM) Using R: A Workbook」。
作者:Joseph F. Hair Jr., G. Tomas M. Hult, Christian M. Ringle, Marko Sarstedt, Nicholas P. Danks, Soumya Ray
結構說明¶
左右兩邊各有一個模型,稱作 測量模型(measurement model),
每個模型由構面(Y1
到 Y4
,construct)和變數(x1
到 x10
,variable)組成。
中間的模型則稱作 結構模型(structural model)。
x1
到 x10
都是一種指標變數(或潛在變數、項目,indicator variable, indicator, latent variable, item):
- 用來「解釋」(或預測)構面的變數(
x1
到x6
)稱為形成性指標 (或外生潛在變數,formative indicator, exogenous latent variable); - 用來「計算」(或共變,covariation)構面的變數(
x7
到x9
)稱為反映性指標 (或內生潛在變數,reflective indicator, endogenous latent variable)。
由上關係而得的左邊模型就是 形成性測量模型(formative measurement model)、 右邊則是 反映性測量模型(reflective measurement model)。
形成性測量模型中構面和變數都會被用來解釋,例如 x1
到 x3
用來解釋 Y1
、Y1
用來解釋 Y2
;
反之,反映性測量模型亦如是。而相對
當構面或變數需要和其他項目共變時,就會有誤差(error terms,e7
到 e9
和 z3
到 z4
),
這是因為在嘗試「計算」(或共變)時,必然會因為多筆數據間的差異而產生誤差。
而形成性測量模型因為是用來解釋構面,所以最終產生的是各個變數解釋構面時的重要性。
換句話說,形成性測量模型的變數彼此是獨立的所以不會產生誤差,
而反映性測量模型的變數彼此是相依的所以會產生誤差。
最後 Y4
因為只有一個指標所以指標和構面的關係並非單向的,而是同時用來「解釋」和「計算」。
測量理論¶
測量理論(measurement variable)就是針對「如何計算出變數和構面」而發展的理論。
當假設建立時,究竟要使用反映性或形成性構面,還有要使用多個或單個變數時,是建立模型時的基礎。 換句話說,構面的順序和位置是依賴於假設或者研究員的經驗和知識。
比較 CB-SEM¶
來源
這段提到了很多「研究表明」,還有預設性言論,例如「許多來源都會導致計量不確定性」, 建議參照論文中 1.3 章「PLS-SEM and CB-SEM」的相關連結。
感想
個人認為這段是這篇文章的重點,PLS-SEM 有很多工具可以實現,網路上也有很多如何操作的說明, 但是其核心的價值代表著什麼?
這也是本段落嘗試說明的東西。
PLS-SEM 和 CB-SEM 之間的一個關鍵概念差異在於每種方法處理模型中潛在變數的方式。
CB-SEM 代表了一種基於共同因子的 SEM 方法,其將構面視為解釋相關指標之間共變的共同因子。 這種方法與反映性測量模型的理念一致,換句話說,指標及其共變被視為構面的表現形式。 原則上,CB-SEM 也可以設計成形成性測量模型,然而,要達成這個目的,需要施加特定限制。 如學者所指出的:「這些限制通常與理論考量相矛盾,因此會引發出一個問題:模型設計是否應該引導假設或理論,反之亦然」。
另一方面,PLS-SEM 感興趣的假設可以作為組合進行測量,這就是為什麼 PLS 被認為是一種基於組合的 SEM 方法。 在 PLS-SEM 中,模型估計是以線性組合方式整合指標並依此測量模型, 這些組合的指摽是對構面的完整代表,因此成為了假設的有效代理。 基於組合的方法與形成性測量的測量理念一致,但這並不意味著 PLS-SEM 僅能夠估計形成的構面。 原因在於估計觀點(即形成組合以代表概念)不應與測量理論觀點(即指定模型為反映性或形成性)混淆。
由此可知,PLS 釋放了 CB-SEM 的強假設,即所有指標集之間的共變由一個共同因子解釋。 同時,使用指標的加權組合有助於考慮測量誤差, 因此使得 PLS-SEM 比使用總分的多元迴歸(multiple regression using sum scores)更優越,其中每個指標都被等同加權。
值得注意的是,PLS-SEM 產生的組合並不被假定為與它們所代表的理論概念相同,它們被明確地視為近似值。 因此,一些學者認為 CB-SEM 是一種更直接和精確的方法來實證測量理論概念,而 PLS-SEM 則提供了近似值。 然而,其他學者卻不認同,因為在 CB-SEM 中衍生的共同因子也不一定等同於研究的理論概念, 研究也表明,共同因子模型可能存在相當大的計量不確定性(metrological uncertainty)。
計量不確定性是指可以歸因於被測量的對象或概念的測量值的分散程度。 許多來源都會導致計量不確定性,如定義性的不確定或與設計測量尺度時的限制,這遠遠超出了 CB-SEM 分析所產生的簡單標準誤差。 因此,不確定性是驗證測量合法性的威脅,對研究結果的可重複性產生不良影響。
雖然不確定性也適用於基於組合的SEM,但研究人員在 CB-SEM 分析中處理模型的方式通常會導致不確定性明顯增加。 更確切地說,為了改善模型適配度,研究人員通常會減少每個構面的指標數量,這反過來會增加不確定性。
這些問題不一定意味著組合模型更優越, 但它們對於某些研究人員認為 CB-SEM 在衡量不可觀察概念時能夠建構出標準的假設,提出了相當大的質疑。 事實上,各個科學領域的研究人員逐漸意識到,共同因子可能並不總是衡量概念的正確方法。 同樣地,研究表明,使用總分可以顯著增加計量不確定度,這對這種測量方法提出了質疑。
除了在測量哲學上的差異之外,潛在變數的不同處理,更具體地說,構面分數的可用性也對方法的應用範圍產生了後果。 具體而言,在 CB-SEM 框架內估計潛在變數分數是可能的,但這些估計分數並不是唯一的。 也就是說,可能有無限多種不同的潛在變數分數集合,它們同樣適用於模型。 這種因素(分數)的不確定性的一個關鍵結果是,共同因子與模型之外的任何變數之間的相關性本身就是不確定的。 因此,這種限制使得 CB-SEM 非常不適合於預測。
相反,PLS-SEM的一個主要優勢是,一旦建立了指標權重,它總是為每個組合生成單一特定的(即確定的)分數。 這些確定的分數是被測量的理論的代理,就像共同因子是 CB-SEM 中概念的代理一樣。
什麼是「不確定性」
當數值每次計算結果都不一樣時,稱為不確定性(indeterminancy),反之則稱為確定性(determinancy)。
利用這些代理作為輸入,PLS-SEM 使用最小平方迴歸(least squares regression)的方法, 目標是最小化內生構面的誤差項(即殘差方差)。 簡而言之,PLS-SEM 通過估計係數(即模型中的路徑關係)的方法,旨在最大化內生構面(即理論的目標)的 \(R^2\) 值。 這個特性實現了 PLS-SEM 的(樣本內)預測目標,因此當研究目標是理論發展和解釋變異(構面的預測)時,PLS-SEM 是首選方法。 因此,PLS-SEM 也被認為是一種基於變異的 SEM 方法。 具體而言,PLS-SEM 方法的邏輯是使用所有指標的變異來估計模型關係,特別注重對依賴變數 (例如這篇) 的預測。
相比之下,CB-SEM 將總變異拆分為三種類型:共同、唯一和誤差變異。 但僅利用共同變異(即與同一模型中其他指標共享的變異)進行模型估計。 也就是說,CB-SEM 僅解釋測量和結構模型指標之間的協變,並不專注於預測構面的依賴變數。
PLS 迴歸
PLS-SEM 與另一種流行的多變量數據分析技術,PLS 迴歸,相似但並不相等。 PLS 迴歸是一種基於迴歸的方法,它探索多個自變數與單個或多個因變數之間的線性關係。 然而,PLS 迴歸與常規迴歸有所不同,因為在開發迴歸模型時,該方法透過主要的多自變數組合分析中推導出組合因子。 而 PLS-SEM 依賴於預先指定的構面與構面和構面與變數之間的關係網絡。
下表比較了 PLS-SEM 和 CB-SEM 之間的主要差異:
特徵 | PLS-SEM | CB-SEM |
---|---|---|
哲學 | 基於組合 | 基於共同因子 |
測量模型 | 構面分數被視為近似值 | 構面被視為共同因子 |
模型估計 | 最小平方迴歸 | 最大概似估計 |
分析方法 | 變異量分析 | 共變量分析 |
資料類型 | 無分佈要求 | 常態分佈 |
理論發展 | 對變異的解釋和預測 | 對於潛在概念的精確測量 |
理論方向 | 應用於預測和理論發展 | 主要用於測量模型的驗證和精確測量 |
變異解釋 | 重視對內生構造的變異的解釋 | 較少關注解釋變異,更多關注模型的適配和結構方程式模型 |
模型複雜度 | 對於複雜模型提供較強的適用性 | 在複雜模型中可能會導致計算上的挑戰 |
注意事項¶
設計 PLS-SEM 模型時主要有四個方向的考量:
- 資料特性,選用和收集原始資料時,要注意什麼;
- 模型特性,針對假設進行模型的建置時,要注意什麼;
- 參數特性,進行演算法的設計和效率調校時,要注意什麼;
- 評估模型,最終針對結果進行評估時,要注意什麼。
資料特性¶
選用和收集原始資料時,要注意什麼。
- 樣本大小:
- 少量樣本能達到高水準的分析能力,但是採樣的群體需和母體結構相似;
- 樣本的數量能提高準確性(換句話說,兩個樣本群組分析結果能保持一致);
- 有研究表明 10 倍的形成性指標數量,即是最低樣本數,也有研究表明, 最低樣本數須以模型最低係數和假說的顯著性差異為參考訂定出來, 即 \({\left (C/P_{min} \right )}^2\),其中 C 為根據顯著水準的定值, (例如 \(5%\) 的顯著水準且計算後的最低係數為 0.2 時,最低樣本數為 \({\left (2.486/0.2 \right )}^2=154.505\))。 若最低係數太低,導致需要的樣本數不現實,可以根據模型是否應關注那些影響力不大的參數去選擇較大的參數。 這方法可以透過回顧模型的方式,比第一次計算當作補足樣本數後的第二次計算的基準。
- 資料分布:
- 無分佈要求,可以接受非對稱分佈;
- 有影響力的異常值和共線性的樣本可能會影響結果,應評估並避免。
- 資料缺失:
- 只要缺失的比例在合理範圍內(小於 5%),仍能維持相當水準。
- 可以透過刪除資料或使用平均、最近資料、最大化期望值等方法補足
- 只要缺失的比例在合理範圍內(小於 5%),仍能維持相當水準。
- 測量尺度:
- 適用於度量資料(等距或等比)和次序的準度量資料;
- 可以接受二元資料(例如是或否、有或無), 但在將它們用作控制變因、調節變因以及分析時,需要設計成針對二元資料的模型。
- 二手資料:
- 因 PLS-SEM 可以處理不同種類的資料和測量模型,所以適合針對二手資料做其他類別的分析。
測量尺度
統計學上通常會關注一個變數或指標的測量尺度(levels of measurement)是多少, 這之中通常會有四個種類:
- 名目(nominal),例如男女分別代表 1 和 0,但是並沒有大小差距的意義;
- 次序(ordinal),例如工作滿意度從 1 到 5,只會知道 2 大於 1,並不會知道大多少, 換句話說,比較 1、2 和 9、10 的差距是沒意義的;
- 等距(interval),例如室溫 20 度 C,我們可以知道 10、20 和 30、40 度的差距是相等的;
- 等比(ratio),與等距相似,但是有一個代表無的零,例如絕對溫度、長度和重量。
模型特性¶
針對假設進行模型的建置時,要注意什麼。
- 構面的測量模型需要的變數:
- 可接受單一或多個變數。
- 構面和指標的關係:
- 可輕易整合形成性和反映性的模型,也可以依此延伸特殊模型,例如高權重的構面。
- 建構複雜的模型:
- 可透過整合多個結構的模型,來建立複雜的理論。
- 模型的建立:
- 若有因果迴圈,即 A 解釋 B、B 解釋 C 最後 C 被用來解釋 A,則需要調整演算法。
參數特性¶
進行演算法的設計和效率調校時,要注意什麼。
- 目標:
- 最大化反映性模型變數的方差量(即 \(R^2\))。
- 效率
- 收斂數次迭代後達到局部或全域最優解(即使複雜模型和大量資料),即是有效率的。
- 構面的本質
- 針對研究的潛在變數的代理,通常多組構面複合形成一個理論。
- 構面的分數計算
- 透過來源指標的線性組合來計算,換句話說,他們是確定性的;
- 用途為預測相關理論;
- 可以被拿來當作模型後續的輸入;
- 受到數據不足的影響較小。
- 權重的計算
- 與使用公因子模型資料相比,結構模型關係通常被低估,測量模型關係通常被高估;
- 從複合模型計算出的結果不會偏頗且一致;
- 統計能力優於其他模型,例如 CB-SEM 和 PLS 迴歸。 統計能力優秀代表更容易在整體的資料中找出特定關係(例如 A 變因容易傾向理論 B)。
評估模型¶
針對結果進行評估時,有什麼指標可以注意的:
- 整體模型的評估
- CB-SEM 中定義的擬合(fit)概念不適用於 PLS-SEM。 模型擬合測量(model fit measure)通常被證明是無效的;
- 測量模型的評估
- 反映性測量模型根據指標信度(indicator reliability)、 內部一致性信度(internal consistency reliability)、 收斂穩定度( convergent validity)和 區別效度( discriminant validity)進行分析;
- 形成性測量模型根據收斂穩定度( convergent validity)、 指標共線性(indicator collinearity)和 指標權重的顯著性和相關性(significance and relevance of indicator weights)進行分析。
- 結構模型的評估
- 多個預測性構面的共線性;
- 路徑權重的顯著性和相關性;
- 針對樣本內的資料進行解釋(explanatory)的能力;
- 針對樣本外的資料進行預測能力(\(PLS_predict\))。
- 額外的分析
- 隨著 PLS-SEM 的發展,越來越多進階的模型建置、評估、分析手段被開發出來,例如:
- 確認性四元分析(confirmatory tetrad analysis)
- 確認性組合分析(confirmatory composite analysis)
- 離散選擇建模(discrete choice modeling)
- 內生性評估(endogeneity assessment)
- 高階構面(higher-order constructs)
- 潛在類別分析(latent class analysis)
- 測量模型不變性(measurement model invariance)
- 中介分析(mediation analysis)
- 模型選擇(model selection)
- 調節效應(moderating effects),包括調節中介(moderated mediation)
- 多組分析(multi-group analysis)
- 必要條件分析(necessary condition analysis)
- 非線性效應(nonlinear effects)
- 隨著 PLS-SEM 的發展,越來越多進階的模型建置、評估、分析手段被開發出來,例如:
很多很雜,我們接下來根據各模型適用的評估來討論。
反映性測量模型的評估¶
依序進行四種評估:
- 指標信度(indicator reliability):該指標的變異數受到構面影響的程度,越高代表這個指摽越有價值。
- 內部一致性信度:(internal consistency reliability)
- 收斂穩定度:(convergent validity)
- 區別效度:(discriminant validity)
指標信度¶
指標信度可以透過指標負載(indicator loading)的平方來算出, 指標負載代表著指標和構面的變異數相關性:
其中 \(\text{Cov}(Y, \eta)\) 代表指標和指標變數的共變數、\(\text{Var}(\eta)\) 代表指標變數的變異數。 一般來說,都會期望指標負載高於 0.708,這樣指標信度(平方後的結果)就會因此大於 0.5。 那過低的指標負載該怎麼辦?
如果小於 0.4 的指標,因為相關性太低,可以移除。 但是如果大於 0.4 小於 0.7,就建議只有在刪除後可以提高內部一致性信度或收斂穩定度提高到一定閥值後,才能刪除。 也因為其條件下,低信度的指標通常仍被保留著。