Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
問卷中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

5

UG26 CISOSE26
中原大學 AQI 58 30°C PM2.5 15

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

研究方法

相關不等於因果:心理學研究方法的紀律

從冰淇淋與溺水的假關係出發,理解實驗法、相關研究,以及如何識破潛伏在每個研究角落的偏誤。

為什麼「吃冰淇淋的人比較容易溺水」?

某個夏天,一位市府官員看著一份統計報表,皺起了眉頭:每當冰淇淋的銷量上升,溺水死亡的人數也跟著上升;冰淇淋賣得越多,淹死的人越多。難道冰淇淋裡藏著某種讓人四肢無力的成分?要不要立法管制夏天的冰淇淋攤?

聽起來很荒謬,但這正是心理學研究方法最想教會你的第一課。冰淇淋與溺水確實「一起變動」(co-vary),但沒有人會相信吃冰淇淋會害你淹死。真正的解釋藏在第三個變項裡:氣溫。天氣一熱,人們既想吃冰,也想下水游泳,於是兩件事同時上升——它們之間有相關(correlation),卻沒有因果(causation)。

研究方法,說穿了就是一整套幫助我們分辨「真的有關係」與「只是看起來有關係」的紀律。心理現象往往看不見、摸不著、又容易被我們的直覺誤導,因此心理學家比任何人都更需要這套紀律。這篇文章會帶你走過實驗法、相關法,以及那些潛伏在每個研究角落、隨時準備愚弄我們的偏誤(bias)。

研究方法概念示意圖

從問題到證據:研究的基本骨架

任何一項研究都從一個假設(hypothesis)開始。假設不是隨口猜測,而是一個可被否證(falsifiable)的陳述——這是哲學家波柏(Karl Popper)留給科學最重要的遺產。「多睡覺會讓記憶更好」是個好假設,因為我們能設計實驗去推翻它;「宇宙充滿無法被偵測的能量」則不是科學假設,因為它怎麼測都測不出來,永遠無法被證明為錯。

為了讓假設可以被檢驗,我們必須把抽象概念變成可測量的操作型定義(operational definition)。「焦慮」這個構念(construct)看不見,但我們可以操作化成「心跳速率」「狀態焦慮量表(State-Trait Anxiety Inventory, STAI)的得分」或「手心出汗的皮膚電導反應」。操作型定義的好壞,直接決定了研究能不能被別人重複驗證。

研究中我們關心的東西稱為變項(variable)。在實驗裡,研究者主動操弄的是自變項(independent variable, IV),被測量的結果是依變項(dependent variable, DV)。例如要研究「睡眠是否影響記憶」,睡眠時數是自變項,隔天的記憶測驗分數是依變項。其餘所有可能干擾結果、卻不是我們研究焦點的因素,則統稱混淆變項(confounding variable)——它們是研究者的頭號敵人。

實驗法:唯一能談因果的方法

如果你真的想知道「A 是否導致 B」,目前人類擁有的最強工具就是實驗法(experimental method)。它之所以能談因果,靠的是三根支柱。

第一根支柱:操弄自變項。 研究者主動製造差異,而不是被動觀察。想知道咖啡因是否提升專注力,就主動給一組人咖啡因、給另一組人安慰劑,而不是去問「平常喝咖啡的人專注力如何」。

第二根支柱:設置控制組。 接受實驗操弄的是實驗組(experimental group),作為比較基準的是控制組(control group)。沒有控制組,你就無法知道改變是來自你的操弄,還是時間、成熟、或單純的測量誤差。

第三根支柱、也是最關鍵的:隨機分派。 隨機分派(random assignment)是把參與者用隨機方式分到各組。它的魔力在於:當人數夠多時,所有已知與未知的混淆變項——年齡、智商、動機、昨晚睡得好不好——都會在兩組之間大致均勻分布。於是兩組唯一系統性的差異,就只剩下研究者操弄的自變項。這就是為什麼實驗法能下因果結論,而其他方法不能。

請特別注意:隨機分派(random assignment,分組用)和隨機抽樣(random sampling,從母群選人用)是兩件不同的事。前者保障內在效度(internal validity,因果推論是否成立),後者保障外在效度(external validity,結果能否推廣到母群)。一個研究可以兩者兼具,也可能只有其一。

看一個例子:安慰劑與雙盲設計

想像我們要檢驗一種號稱能改善睡眠的新藥。最天真的做法是給一群失眠者吃藥,然後問他們睡得好不好。但這樣完全無法下結論——因為安慰劑效應(placebo effect)會搗亂:光是「相信自己吃了有效的藥」這個信念,就足以讓人感覺好轉。

正確做法是設兩組:實驗組吃真藥,控制組吃外觀一模一樣、但毫無藥效的安慰劑。更進一步,我們採用雙盲設計(double-blind design):不只參與者不知道自己吃的是真藥還是安慰劑,連發藥、評分的研究人員也不知道。為什麼研究人員也要被蒙在鼓裡?因為實驗者期望效應(experimenter expectancy effect)會讓研究者在不自覺中,以更溫暖的語氣、更多的鼓勵對待「吃真藥」那組,污染了結果。羅森塔爾(Robert Rosenthal)著名的「聰明的漢斯」(Clever Hans)與課堂期望研究,正是揭示了這種微妙卻強大的污染。

雙盲,就是用設計把人類的期望從方程式裡剔除掉。

相關研究:當你無法(或不該)做實驗

實驗法雖然強大,卻不是萬能。有許多問題你根本不能做實驗:你不能為了研究吸菸是否致癌,就隨機分派一群人去抽二十年的菸;你也不能為了研究童年創傷的影響,故意去傷害一群兒童。這時候,相關研究(correlational study)就登場了。

相關研究測量兩個自然發生的變項,看它們是否一起變動。相關係數(correlation coefficient, r)的範圍從 −1 到 +1:

  • 正相關(positive correlation, r 接近 +1):一個變項上升,另一個也上升。例如讀書時間與成績。
  • 負相關(negative correlation, r 接近 −1):一個上升,另一個下降。例如缺課次數與成績。
  • 零相關(r 接近 0):兩者沒有線性關係。例如鞋子尺碼與智商。

相關的強度由絕對值大小決定,方向由正負號決定。r = −0.8 的關係,其實比 r = +0.3 更強。

但相關研究有一條鐵律,必須刻在每個研究者的心上:相關不等於因果(correlation does not imply causation)。當我們發現 A 與 B 相關,至少有三種可能:

  1. A 導致 B;
  2. B 導致 A(方向問題,directionality problem);
  3. 有第三變項 C 同時導致 A 與 B(第三變項問題,third-variable problem)。

冰淇淋與溺水的例子,正是第三變項(氣溫)在作怪。再舉一個常被誤讀的例子:研究發現「自尊高的人成績好」。是高自尊讓人成績好(A→B)?還是成績好讓人有自尊(B→A)?抑或良好的家庭環境同時養出了自尊與成績(C→A、C→B)?單憑相關,我們無從分辨。

動手試試:辨認那個躲起來的第三變項

下面三組「相關」都是真實存在的統計關係,請你試著找出可能的第三變項,再往下看:

  1. 某地區教堂的數量,與該地區的犯罪案件數呈正相關。
  2. 孩子的鞋子越大,閱讀能力越強。
  3. 家裡藏書越多的孩子,學業成就越高。

想好了嗎?

  1. 第三變項是人口數。人多的城市,教堂和罪犯都比較多。
  2. 第三變項是年齡。孩子年紀越大,腳越大,識字也越多。
  3. 這個比較微妙。藏書多通常反映家庭社經地位與教育氛圍——是這些背景因素同時帶來了藏書與成就,光買書堆在家裡並不會自動讓孩子變聰明。

這個練習的目的,是訓練你看到任何「X 與 Y 有關」的新聞標題時,第一反應不是「原來如此」,而是「等等,會不會有個 Z 躲在後面?」

偏誤:研究路上的陷阱清單

即使設計再嚴謹,研究仍可能被各種偏誤(bias)扭曲。認識它們,是成為清醒研究者與清醒讀者的必修課。

抽樣偏誤(sampling bias)。 如果你的樣本無法代表母群,結論就站不住腳。二戰後心理學長期被批評過度依賴 WEIRD 樣本——來自西方(Western)、受教育(Educated)、工業化(Industrialized)、富裕(Rich)、民主(Democratic)社會的大學生。Henrich 等人(2010)指出,這群人其實是全人類中相當「非典型」的一群,卻被當成「人類心智」的代表。

確認偏誤(confirmation bias)。 我們傾向尋找、記住、解讀那些支持自己既有信念的證據,而忽略反例。研究者若不警覺,會不自覺地只挑對自己假設有利的分析方式。

需求特徵(demand characteristics)。 參與者常會猜測「研究者想要什麼」,然後配合演出(或故意作對)。這就是為什麼許多研究會用掩護故事(cover story)隱藏真正目的。

社會期許偏誤(social desirability bias)。 在問卷上,人們傾向給出「看起來體面」的答案。問「你一週運動幾次」,得到的數字往往比真實情況漂亮。

霍桑效應(Hawthorne effect)。 人們在意識到自己被觀察時,行為會改變。這個名稱來自 1920 年代霍桑工廠的生產力研究——後續分析顯示原始詮釋有爭議,但「被觀察就會改變行為」這個現象本身已被廣泛接受。

發表偏誤(publication bias)。 期刊偏好刊登「有顯著結果」的研究,導致「沒發現效果」的研究被塞進檔案櫃——這稱為檔案抽屜問題(file-drawer problem)。後果是:文獻整體會系統性地高估某個效應的真實大小。

信度與效度:好測量的兩把尺

一個研究的測量工具,必須同時通過兩個檢驗。

信度(reliability)指測量的一致性。同一個人重複測量,結果應該穩定(再測信度);量表中題目之間應該彼此呼應(內部一致性,常用 Cronbach's α 評估)。一把每次量同一張桌子卻得到不同數字的尺,是不可靠的。

效度(validity)指測量的準確性——你是不是真的測到了你想測的東西。一份號稱測「批判思考」的考卷,如果實際上只在測「閱讀速度」,那它信度再高也沒用。

經典的比喻是射箭:信度是每箭都射在同一個點(穩定),效度是那個點正好是靶心(準確)。一個工具可以很可靠卻無效(每次都穩定地射偏),但不可能無信度卻有效——因為連穩定都做不到,就談不上準確命中。

重點回顧

  • 相關不等於因果:兩個變項一起變動,可能是 A→B、B→A,或被第三變項同時驅動。看到「X 與 Y 有關」就先找躲起來的 Z。
  • 只有實驗能談因果:靠操弄自變項、設置控制組、以及最關鍵的隨機分派,把混淆變項在組間均勻化,才能下因果結論。
  • 隨機分派 ≠ 隨機抽樣:前者保障內在效度(因果是否成立),後者保障外在效度(能否推廣)。
  • 用設計擋住偏誤:安慰劑控制與雙盲設計排除安慰劑效應與實驗者期望;掩護故事減輕需求特徵;代表性樣本對抗 WEIRD 與抽樣偏誤。
  • 信度與效度缺一不可:信度是一致(每次都射同一點),效度是準確(那一點是靶心)。可靠不保證有效,但無信度必然無效。

深入探討(研究所視角)

進入研究所後,你會發現上述「乾淨」的二分法在真實研究中變得更精緻、也更糾結。

因果推論的反事實框架。 現代統計學用 Rubin 的潛在結果模型(potential outcomes / counterfactual framework)重新定義因果:個體 i 接受處理的結果 Y_i(1) 與不接受的結果 Y_i(0) 之差,就是該個體的因果效應。問題在於,同一個人不可能同時接受與不接受處理——這是因果推論的根本問題(fundamental problem of causal inference)。隨機分派之所以神奇,正是因為它讓處理組與控制組的潛在結果分布在期望上相等,使得可觀測的組間差異成為平均因果效應(average treatment effect, ATE)的不偏估計。當無法隨機化時,準實驗設計(quasi-experimental design)如斷點迴歸(regression discontinuity)、差異中的差異(difference-in-differences)、工具變項(instrumental variables)試圖在觀察資料中逼近這個理想;Pearl 的因果圖(causal DAG)與 do-運算則提供了在何種假設下相關才能升格為因果的形式語言。

心理學的可重複性危機。 2015 年「開放科學合作」(Open Science Collaboration)重做 100 項心理學發表研究,僅約 36% 能成功複製,效果量也普遍縮水。這場可重複性危機(replication crisis)的根源之一是研究者自由度(researcher degrees of freedom)——Simmons 等人(2011)所稱的 p-hacking:在資料分析中反覆嘗試不同變項組合、排除值、停止規則,直到 p < 0.05 出現。配合發表偏誤,文獻於是充斥著被誇大甚至不存在的效應。

方法學的改革回應。 應對之道包括:預先註冊(pre-registration)在收資料前就鎖定假設與分析計畫,杜絕事後編故事(HARKing, Hypothesizing After Results are Known);註冊報告(registered reports)讓期刊在看到結果前就依方法品質決定是否接受,從源頭瓦解發表偏誤;以及從虛無假設顯著性檢定(NHST)的二分法思維,轉向重視效果量(effect size)與信賴區間(confidence interval)的估計取向,乃至貝氏推論(Bayesian inference)對證據強度的連續刻畫。這些主題會在你的進階統計與研究設計課程中與「優統計」單元緊密接軌。

跨領域的延伸。 因果推論的語言如今橫跨流行病學、計量經濟學與機器學習;而 WEIRD 樣本的反省,則推動了跨文化心理學與更具生態效度(ecological validity)的研究設計。當你日後在 Uedu 這類教育科技平台分析多模態學習資料時,這些方法學的警覺——區分相關與因果、防範混淆、誠實面對不確定性——將不只是考試重點,而是讓你的研究真正站得住腳的根基。

AI 共讀助教正在陪你讀:相關不等於因果:心理學研究方法的紀律
嗨!我是這篇文章的共讀助教,只根據〈相關不等於因果:心理學研究方法的紀律〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。