相關不等於因果：心理學研究方法的紀律

從冰淇淋與溺水的假關係出發，理解實驗法、相關研究，以及如何識破潛伏在每個研究角落的偏誤。

大學入門到研究所 · 約 15 分鐘 ·#研究方法#實驗法#相關研究#因果推論#研究偏誤#信度效度

為什麼「吃冰淇淋的人比較容易溺水」？

某個夏天，一位市府官員看著一份統計報表，皺起了眉頭：每當冰淇淋的銷量上升，溺水死亡的人數也跟著上升；冰淇淋賣得越多，淹死的人越多。難道冰淇淋裡藏著某種讓人四肢無力的成分？要不要立法管制夏天的冰淇淋攤？

聽起來很荒謬，但這正是心理學研究方法最想教會你的第一課。冰淇淋與溺水確實「一起變動」（co-vary），但沒有人會相信吃冰淇淋會害你淹死。真正的解釋藏在第三個變項裡：氣溫。天氣一熱，人們既想吃冰，也想下水游泳，於是兩件事同時上升——它們之間有相關（correlation），卻沒有因果（causation）。

研究方法，說穿了就是一整套幫助我們分辨「真的有關係」與「只是看起來有關係」的紀律。心理現象往往看不見、摸不著、又容易被我們的直覺誤導，因此心理學家比任何人都更需要這套紀律。這篇文章會帶你走過實驗法、相關法，以及那些潛伏在每個研究角落、隨時準備愚弄我們的偏誤（bias）。

研究方法概念示意圖

從問題到證據：研究的基本骨架

任何一項研究都從一個假設（hypothesis）開始。假設不是隨口猜測，而是一個可被否證（falsifiable）的陳述——這是哲學家波柏（Karl Popper）留給科學最重要的遺產。「多睡覺會讓記憶更好」是個好假設，因為我們能設計實驗去推翻它；「宇宙充滿無法被偵測的能量」則不是科學假設，因為它怎麼測都測不出來，永遠無法被證明為錯。

為了讓假設可以被檢驗，我們必須把抽象概念變成可測量的操作型定義（operational definition）。「焦慮」這個構念（construct）看不見，但我們可以操作化成「心跳速率」「狀態焦慮量表（State-Trait Anxiety Inventory, STAI）的得分」或「手心出汗的皮膚電導反應」。操作型定義的好壞，直接決定了研究能不能被別人重複驗證。

研究中我們關心的東西稱為變項（variable）。在實驗裡，研究者主動操弄的是自變項（independent variable, IV），被測量的結果是依變項（dependent variable, DV）。例如要研究「睡眠是否影響記憶」，睡眠時數是自變項，隔天的記憶測驗分數是依變項。其餘所有可能干擾結果、卻不是我們研究焦點的因素，則統稱混淆變項（confounding variable）——它們是研究者的頭號敵人。

實驗法：唯一能談因果的方法

如果你真的想知道「A 是否導致 B」，目前人類擁有的最強工具就是實驗法（experimental method）。它之所以能談因果，靠的是三根支柱。

第一根支柱：操弄自變項。 研究者主動製造差異，而不是被動觀察。想知道咖啡因是否提升專注力，就主動給一組人咖啡因、給另一組人安慰劑，而不是去問「平常喝咖啡的人專注力如何」。

第二根支柱：設置控制組。 接受實驗操弄的是實驗組（experimental group），作為比較基準的是控制組（control group）。沒有控制組，你就無法知道改變是來自你的操弄，還是時間、成熟、或單純的測量誤差。

第三根支柱、也是最關鍵的：隨機分派。 隨機分派（random assignment）是把參與者用隨機方式分到各組。它的魔力在於：當人數夠多時，所有已知與未知的混淆變項——年齡、智商、動機、昨晚睡得好不好——都會在兩組之間大致均勻分布。於是兩組唯一系統性的差異，就只剩下研究者操弄的自變項。這就是為什麼實驗法能下因果結論，而其他方法不能。

請特別注意：隨機分派（random assignment，分組用）和隨機抽樣（random sampling，從母群選人用）是兩件不同的事。前者保障內在效度（internal validity，因果推論是否成立），後者保障外在效度（external validity，結果能否推廣到母群）。一個研究可以兩者兼具，也可能只有其一。

看一個例子：安慰劑與雙盲設計

想像我們要檢驗一種號稱能改善睡眠的新藥。最天真的做法是給一群失眠者吃藥，然後問他們睡得好不好。但這樣完全無法下結論——因為安慰劑效應（placebo effect）會搗亂：光是「相信自己吃了有效的藥」這個信念，就足以讓人感覺好轉。

正確做法是設兩組：實驗組吃真藥，控制組吃外觀一模一樣、但毫無藥效的安慰劑。更進一步，我們採用雙盲設計（double-blind design）：不只參與者不知道自己吃的是真藥還是安慰劑，連發藥、評分的研究人員也不知道。為什麼研究人員也要被蒙在鼓裡？因為實驗者期望效應（experimenter expectancy effect）會讓研究者在不自覺中,以更溫暖的語氣、更多的鼓勵對待「吃真藥」那組，污染了結果。羅森塔爾（Robert Rosenthal）著名的「聰明的漢斯」（Clever Hans）與課堂期望研究，正是揭示了這種微妙卻強大的污染。

雙盲，就是用設計把人類的期望從方程式裡剔除掉。

相關研究：當你無法（或不該）做實驗

實驗法雖然強大，卻不是萬能。有許多問題你根本不能做實驗：你不能為了研究吸菸是否致癌，就隨機分派一群人去抽二十年的菸；你也不能為了研究童年創傷的影響，故意去傷害一群兒童。這時候，相關研究（correlational study）就登場了。

相關研究測量兩個自然發生的變項，看它們是否一起變動。相關係數（correlation coefficient, r）的範圍從 −1 到 +1：

正相關（positive correlation, r 接近 +1）：一個變項上升，另一個也上升。例如讀書時間與成績。
負相關（negative correlation, r 接近 −1）：一個上升，另一個下降。例如缺課次數與成績。
零相關（r 接近 0）：兩者沒有線性關係。例如鞋子尺碼與智商。

相關的強度由絕對值大小決定，方向由正負號決定。r = −0.8 的關係，其實比 r = +0.3 更強。

但相關研究有一條鐵律，必須刻在每個研究者的心上：相關不等於因果（correlation does not imply causation）。當我們發現 A 與 B 相關，至少有三種可能：

A 導致 B；
B 導致 A（方向問題，directionality problem）；
有第三變項 C 同時導致 A 與 B（第三變項問題，third-variable problem）。

冰淇淋與溺水的例子，正是第三變項（氣溫）在作怪。再舉一個常被誤讀的例子：研究發現「自尊高的人成績好」。是高自尊讓人成績好（A→B）？還是成績好讓人有自尊（B→A）？抑或良好的家庭環境同時養出了自尊與成績（C→A、C→B）？單憑相關，我們無從分辨。

動手試試：辨認那個躲起來的第三變項

下面三組「相關」都是真實存在的統計關係，請你試著找出可能的第三變項，再往下看：

某地區教堂的數量，與該地區的犯罪案件數呈正相關。
孩子的鞋子越大，閱讀能力越強。
家裡藏書越多的孩子，學業成就越高。

想好了嗎？

第三變項是人口數。人多的城市，教堂和罪犯都比較多。
第三變項是年齡。孩子年紀越大，腳越大，識字也越多。
這個比較微妙。藏書多通常反映家庭社經地位與教育氛圍——是這些背景因素同時帶來了藏書與成就，光買書堆在家裡並不會自動讓孩子變聰明。

這個練習的目的，是訓練你看到任何「X 與 Y 有關」的新聞標題時，第一反應不是「原來如此」，而是「等等，會不會有個 Z 躲在後面？」

偏誤：研究路上的陷阱清單

即使設計再嚴謹，研究仍可能被各種偏誤（bias）扭曲。認識它們，是成為清醒研究者與清醒讀者的必修課。

抽樣偏誤（sampling bias）。 如果你的樣本無法代表母群，結論就站不住腳。二戰後心理學長期被批評過度依賴 WEIRD 樣本——來自西方（Western）、受教育（Educated）、工業化（Industrialized）、富裕（Rich）、民主（Democratic）社會的大學生。Henrich 等人（2010）指出，這群人其實是全人類中相當「非典型」的一群，卻被當成「人類心智」的代表。

確認偏誤（confirmation bias）。 我們傾向尋找、記住、解讀那些支持自己既有信念的證據，而忽略反例。研究者若不警覺，會不自覺地只挑對自己假設有利的分析方式。

需求特徵（demand characteristics）。 參與者常會猜測「研究者想要什麼」，然後配合演出（或故意作對）。這就是為什麼許多研究會用掩護故事（cover story）隱藏真正目的。

社會期許偏誤（social desirability bias）。 在問卷上，人們傾向給出「看起來體面」的答案。問「你一週運動幾次」，得到的數字往往比真實情況漂亮。

霍桑效應（Hawthorne effect）。 人們在意識到自己被觀察時，行為會改變。這個名稱來自 1920 年代霍桑工廠的生產力研究——後續分析顯示原始詮釋有爭議，但「被觀察就會改變行為」這個現象本身已被廣泛接受。

發表偏誤（publication bias）。 期刊偏好刊登「有顯著結果」的研究，導致「沒發現效果」的研究被塞進檔案櫃——這稱為檔案抽屜問題（file-drawer problem）。後果是：文獻整體會系統性地高估某個效應的真實大小。

信度與效度：好測量的兩把尺

一個研究的測量工具，必須同時通過兩個檢驗。

信度（reliability）指測量的一致性。同一個人重複測量，結果應該穩定（再測信度）；量表中題目之間應該彼此呼應（內部一致性，常用 Cronbach's α 評估）。一把每次量同一張桌子卻得到不同數字的尺，是不可靠的。

效度（validity）指測量的準確性——你是不是真的測到了你想測的東西。一份號稱測「批判思考」的考卷，如果實際上只在測「閱讀速度」，那它信度再高也沒用。

經典的比喻是射箭：信度是每箭都射在同一個點（穩定），效度是那個點正好是靶心（準確）。一個工具可以很可靠卻無效（每次都穩定地射偏），但不可能無信度卻有效——因為連穩定都做不到，就談不上準確命中。

重點回顧

相關不等於因果：兩個變項一起變動，可能是 A→B、B→A，或被第三變項同時驅動。看到「X 與 Y 有關」就先找躲起來的 Z。
只有實驗能談因果：靠操弄自變項、設置控制組、以及最關鍵的隨機分派，把混淆變項在組間均勻化，才能下因果結論。
隨機分派 ≠ 隨機抽樣：前者保障內在效度（因果是否成立），後者保障外在效度（能否推廣）。
用設計擋住偏誤：安慰劑控制與雙盲設計排除安慰劑效應與實驗者期望；掩護故事減輕需求特徵；代表性樣本對抗 WEIRD 與抽樣偏誤。
信度與效度缺一不可：信度是一致（每次都射同一點），效度是準確（那一點是靶心）。可靠不保證有效，但無信度必然無效。

深入探討（研究所視角）

進入研究所後，你會發現上述「乾淨」的二分法在真實研究中變得更精緻、也更糾結。

因果推論的反事實框架。 現代統計學用 Rubin 的潛在結果模型（potential outcomes / counterfactual framework）重新定義因果：個體 i 接受處理的結果 Y_i(1) 與不接受的結果 Y_i(0) 之差，就是該個體的因果效應。問題在於，同一個人不可能同時接受與不接受處理——這是因果推論的根本問題（fundamental problem of causal inference）。隨機分派之所以神奇，正是因為它讓處理組與控制組的潛在結果分布在期望上相等，使得可觀測的組間差異成為平均因果效應（average treatment effect, ATE）的不偏估計。當無法隨機化時，準實驗設計（quasi-experimental design）如斷點迴歸（regression discontinuity）、差異中的差異（difference-in-differences）、工具變項（instrumental variables）試圖在觀察資料中逼近這個理想；Pearl 的因果圖（causal DAG）與 do-運算則提供了在何種假設下相關才能升格為因果的形式語言。

心理學的可重複性危機。 2015 年「開放科學合作」（Open Science Collaboration）重做 100 項心理學發表研究，僅約 36% 能成功複製，效果量也普遍縮水。這場可重複性危機（replication crisis）的根源之一是研究者自由度（researcher degrees of freedom）——Simmons 等人（2011）所稱的 p-hacking：在資料分析中反覆嘗試不同變項組合、排除值、停止規則，直到 p < 0.05 出現。配合發表偏誤，文獻於是充斥著被誇大甚至不存在的效應。

方法學的改革回應。 應對之道包括：預先註冊（pre-registration）在收資料前就鎖定假設與分析計畫，杜絕事後編故事（HARKing, Hypothesizing After Results are Known）；註冊報告（registered reports）讓期刊在看到結果前就依方法品質決定是否接受，從源頭瓦解發表偏誤；以及從虛無假設顯著性檢定（NHST）的二分法思維，轉向重視效果量（effect size）與信賴區間（confidence interval）的估計取向，乃至貝氏推論（Bayesian inference）對證據強度的連續刻畫。這些主題會在你的進階統計與研究設計課程中與「優統計」單元緊密接軌。

跨領域的延伸。 因果推論的語言如今橫跨流行病學、計量經濟學與機器學習；而 WEIRD 樣本的反省，則推動了跨文化心理學與更具生態效度（ecological validity）的研究設計。當你日後在 Uedu 這類教育科技平台分析多模態學習資料時，這些方法學的警覺——區分相關與因果、防範混淆、誠實面對不確定性——將不只是考試重點，而是讓你的研究真正站得住腳的根基。

量到的是「那個東西」嗎？測量、檢定力與機制推論的進階紀律

--

5

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定