看不見的心智如何被「測準」：心理學的構念、效度與複製危機

從操作型定義到 WEIRD 樣本與 p-hacking，拆解心理學如何對一個無法直接觀測的對象建立可被推翻的科學知識

進階 · 約 16 分鐘 ·#心理學#研究方法#構念效度#複製危機#測量理論

如果「心智」看不見、摸不著，心理學憑什麼說它知道？

你已經知道心理學是研究行為與心理歷程的科學。但如果停下來追問一句，會浮現一個尷尬的處境：物理學家可以測量電子的軌跡，化學家可以稱量反應物的質量，而心理學家想研究的「焦慮」「工作記憶容量」「外向性」——這些東西沒有一個能被直接看到、直接秤重、直接讀取。我們永遠只能觀察到外顯的指標（按鈕反應、問卷勾選、皮膚電導），再從這些指標反推那個藏在背後、無法直接觸及的心理構念（construct）。

這就是心理學最深的方法論挑戰，也是它和「常識談心」真正分道揚鑣的地方：如何對一個原則上無法直接觀測的對象，建立可累積、可檢驗、可被推翻的知識？ 入門篇談的是心理學「研究什麼、有哪些取向」；這一篇要談的，是它在認識論層次上「怎麼可能知道」。這牽涉到構念效度、操作型定義、測量理論、推論的層次，以及為什麼這門科學會週期性地陷入信任危機。

心理學導論進階概念示意圖

從構念到指標：操作型定義的雙面刃

心理學處理的核心對象是潛在構念（latent construct）——它存在於理論之中，本身不可觀測，只能透過一組可觀測的指標（indicator）來間接接近。為了讓構念能進入研究，研究者必須給它一個操作型定義（operational definition）：用具體、可重複的測量程序來界定它。

舉例來說，「焦慮」這個構念可以被操作化為「貝克焦慮量表（Beck Anxiety Inventory）上的得分」、「公開演講前的心率變異性下降幅度」，或「面對威脅圖片時杏仁核的血氧反應」。注意：這三者都是焦慮的「指標」，但沒有一個就是焦慮本身。

操作型定義是心理學科學化的關鍵發明，卻是一把雙面刃。它讓抽象概念變得可測量、可溝通、可重複——這是優點。但它同時帶來兩個危險：

第一是操作主義的陷阱（operationism trap）。極端的操作主義會說「智力就是智力測驗測到的東西」，把構念完全等同於某一種測量。這在邏輯上很乾淨，卻讓理論失去意義：如果智力只是某份測驗的分數，那「這份測驗測得準不準」這個問題就無從問起了。健康的做法是承認構念超越任何單一測量，而每個測量都只是它的不完美映射。

第二是多重操作化的必要性。因為單一指標永遠夾帶與構念無關的雜訊（method variance，方法變異），嚴謹的研究會用多重操作化（multiple operationalization）：用問卷、行為任務、生理訊號三種方法都指向同一構念，若三者收斂，我們對「測到的確實是該構念」才更有信心。這正是 Uedu 的 Educational Omics 多模態整合在方法論上的深層理由——不是為了資料多而多，而是因為任何單一模態都不足以穩定地定位一個心理構念。

效度的四重結構：測量到底準不準？

承上，最核心的問題變成：我們怎麼知道一個操作型定義「測對了東西」？這就是效度（validity） 的問題。Cronbach 與 Meehl 在 1955 年的經典論文奠定了建構效度（construct validity） 的框架，現代測量理論把效度拆成幾個彼此關聯的面向：

內容效度（content validity）：測量是否涵蓋了構念的完整內涵。一份只考加減的數學測驗，無法宣稱測到了「數學能力」這個更廣的構念。
效標關聯效度（criterion-related validity）：測量分數能否預測一個外在效標。例如大學入學測驗能否預測大一成績（這同時牽涉同時效度與預測效度）。
聚斂與區辨效度（convergent & discriminant validity）：與理論上應該相關的測量正相關（聚斂），與理論上應該無關的測量不相關（區辨）。Campbell 與 Fiske 提出的多特質多方法矩陣（multitrait-multimethod matrix, MTMM） 就是同時檢驗這兩者的工具。
建構效度（construct validity）：上述所有證據匯聚起來，支持「這個測量確實對應到理論構念」的整體判斷。

這裡有個容易被忽略的關鍵：效度不是測量工具的固有屬性，而是針對「特定用途、特定母體下的特定推論」的證據累積。同一份壓力量表，用在大學生身上效度良好，搬到失智長者身上可能完全失效。所以嚴謹的說法不是「這個量表有效」，而是「有證據支持，把它用於 X 母體、做出 Y 推論，是合理的」。

別忘了還有信度（reliability） 這個前提：測量是否穩定、可重複。信度是效度的必要非充分條件——一把刻度錯位的尺，每次量都得到一致（高信度）但系統性偏差（低效度）的結果。一個測量可以很可靠地測錯東西。

推論的三道關卡：從資料到結論的脆弱鏈條

即使測量本身沒問題，從資料走到「我發現了某個心理規律」這個結論，還要通過三道效度關卡。Cook 與 Campbell 的經典架構把研究的可信度分解成四種效度，這裡聚焦最關鍵的三道：

內部效度（internal validity） 問的是：自變項與依變項之間的關係，真的是因果嗎，還是被混淆變項（confound）污染了？這是入門篇「相關不等於因果」的進階版。隨機分派之所以是實驗的靈魂，是因為它在機率意義上把所有已知與未知的混淆變項都平均分散到各組——這是觀察研究永遠做不到的。沒有隨機分派的研究（準實驗、相關研究），內部效度天生脆弱。

外部效度（external validity） 問的是：這個結論能推廣到別的人、別的情境、別的時間嗎？這裡有一個讓整個學科尷尬的事實：Henrich 等人 2010 年指出，心理學的大量「人類普遍規律」其實建立在 WEIRD 樣本（Western, Educated, Industrialized, Rich, Democratic——西方、受過教育、工業化、富裕、民主社會）之上，而且常常是大學部修通識課的學生。在許多基本知覺與認知任務上，WEIRD 受試者甚至是全球分布裡的極端值而非代表值。這意味著很多被當成「人性」的發現，可能只是「某一小群特定人類」的特性。

統計結論效度（statistical conclusion validity） 問的是：我們宣稱的關係，在統計上站得住腳嗎？這牽涉檢定力（statistical power）、效果量（effect size）、以及多重比較等問題——而這正是複製危機的引爆點。

看一個例子：兩個變項都「顯著」，結論卻可能相反

假設一個研究宣稱「使用某學習 App 的學生，期末成績顯著較高（p < .05）」。在通過效度檢核之前，讓我們把這條推論鏈拆開檢查。

先問內部效度：學生是被隨機分派去用或不用 App 的，還是「自己選擇」用？如果是後者，那麼會主動去用學習 App 的學生，很可能本來就更自律、動機更強——這個自我選擇偏誤（self-selection bias） 才是成績的真正推手，App 只是搭了便車。

再問統計結論效度：這個「顯著」是來自一個 N=2000 的大樣本，還是 N=24 的小樣本？小樣本下的顯著結果，可能只是抽樣波動；而且如果研究者其實比較了成績、出席率、作業分數、滿意度……十幾個依變項，只挑出唯一顯著的那個來報告，那麼 p < .05 早已失去意義（這就是下一節要談的 p-hacking）。

最後問外部效度：受試者全是某一所大學、某一門課的學生。換一個學科、換一個學習階段、換一個文化，效果還在嗎？

同一句「顯著較高」，經過三道關卡的審問，可能從「強力證據」降格為「值得進一步研究的線索」。學會這套拆解，就是研究所訓練的核心。

複製危機的機制：問題不在運氣，在誘因結構

入門篇提到了複製危機（replication crisis），這裡要進一步追問它為什麼會發生——因為理解機制，才談得上修補。

問題的根源不是個別研究者作惡，而是一整套誘因結構（incentive structure）。期刊偏好發表「顯著、新奇、漂亮」的結果，於是出現發表偏誤（publication bias），又稱檔案抽屜問題（file-drawer problem）：得到「無顯著差異」的研究被默默塞進抽屜，從未見光。結果是，已發表文獻系統性地高估了效果——你看到的全是中獎的彩券，看不到滿地的廢票。

更隱蔽的是研究者自由度（researcher degrees of freedom） 帶來的 p-hacking。在分析資料時，研究者有大量看似合理的選擇：要不要排除離群值？用哪個共變項？比較哪幾組？資料蒐集到 N=30 還是再多收一點看看？每個選擇單獨看都無傷大雅，但如果研究者（哪怕是無意識地）朝著「讓 p 值跨過 .05」的方向做這些選擇，就會把純粹的雜訊雕琢成「顯著發現」。Simmons 等人 2011 年用模擬證明：只要靈活運用幾種常見的研究者自由度，幾乎能讓任何假設達到統計顯著。

這也暴露了 p 值 本身被長期誤解。p 值是「假設虛無為真時，觀察到目前或更極端結果的機率」，它不是「假設為真的機率」，也不是「結果重要的程度」。一個 p = .04 的微小效果，配上巨大樣本，可能毫無實務意義；而一個 p = .06 的大效果，可能反而值得追究。

修補的方向因此也是針對誘因的：預先註冊（pre-registration） 把假設與分析計畫在看資料前就鎖定，封死了 p-hacking 的空間；註冊報告（registered reports） 讓期刊在看到結果之前就決定是否刊登，從根本上瓦解發表偏誤；強調效果量與信賴區間而非只看 p 值；以及推動資料與程式碼公開，讓任何人都能重跑分析。這套開放科學（open science）實踐，本質上是一場關於科學社群如何重新設計自身誘因的制度工程。

動手試試：聞出「研究者自由度」的味道

下次讀到一篇心理學研究報導，試著當一次審稿人，問這幾個問題：

這個假設是事前提出，還是看完資料才「發現」的？ 若論文讀起來像是「我們本來想看 A，結果意外發現 B 很顯著」，要提高警覺——事後假設（HARKing, Hypothesizing After Results are Known）會嚴重灌水。
報告了多少個依變項與分組？ 比較的東西越多，至少一個「碰巧顯著」的機率越高。有沒有做多重比較校正？
樣本數是預先決定的嗎？ 「邊收資料邊看 p 值、顯著了就停」（optional stopping）會大幅膨脹偽陽性。
效果量多大？ 不要只看「有沒有顯著」，要看「差多少」。Cohen's d = 0.1 的「顯著」差異，在真實世界裡幾乎感覺不到。

養成這套提問，你讀到的每一則「科學研究顯示……」都會自動配上一個合理的折扣率。

重點回顧

心理學研究的核心對象是不可直接觀測的潛在構念，只能透過可觀測指標間接接近；操作型定義讓構念可測量，但構念永遠超越任何單一測量。
效度不是工具的固有屬性，而是針對「特定母體、特定用途、特定推論」的證據累積；建構效度需聚斂與區辨證據共同支持，且信度是效度的必要非充分條件。
從資料到結論要通過內部效度（因果是否被混淆污染）、外部效度（能否推廣，WEIRD 樣本是重大限制）、統計結論效度三道關卡。
複製危機的根源是誘因結構：發表偏誤（檔案抽屜問題）與研究者自由度造成的 p-hacking，而非個別研究者的運氣或惡意。
p 值不是假設為真的機率，也不是效果重要性；預先註冊、註冊報告、效果量、資料公開是針對誘因的制度性修補。

深入探討（研究所視角）

到了研究所層次，「心理學如何建立知識」會從方法論清單，上升為對科學哲學、解釋層次與測量本體論的反思。

測量的本體論：構念是被發現的，還是被建構的？ 物理測量背後有相對穩固的本體論——長度、質量被視為世界的客觀屬性。心理測量則站在一個更微妙的位置。一派（實在論，realism）主張智力、外向性等構念對應到真實的、有因果效力的心理或神經實體；另一派（建構論，constructivism）主張這些構念在相當程度上是研究社群為了組織觀察而建構的有用範疇。這場爭論不只是哲學遊戲：它直接影響我們如何詮釋因素分析（factor analysis）抽出的潛在因素——那個數學上的「共同因素」，是反映了一個真實的心理機制，還是僅僅是相關矩陣的便利摘要？Borsboom 等人對效度理論的重構就主張，一個測量有效，當且僅當該構念確實存在且因果地造成了測量分數的變異——把效度問題從「相關證據的累積」重新錨定到「因果與本體論」之上，是當代測量理論的重要轉向。

解釋層次與 Tinbergen 的四問。 入門篇談過化約論與 Marr 的三層次。在比較與演化取向裡，Tinbergen 的四個問題（four questions） 提供了另一套正交的解釋框架：對任何行為，可以分別追問它的機制（近因，proximate mechanism）、發展（個體發生，ontogeny）、功能（適應價值，adaptive function）與演化史（系統發生，phylogeny）。關鍵洞見是：這四個問題彼此不競爭、不可互相取代。「為什麼人會焦慮」用神經傳導物質回答（機制）與用「威脅偵測在演化上有適應價值」回答（功能），是對不同問題的回答，把它們當成互斥的對手是典型的層次混淆（level confusion）。許多看似激烈的理論之爭，拆解後其實是雙方在回答不同層次的問題。

理論的貧瘠與形式化轉向。 一個對心理學日益尖銳的批評是：相較於物理學，許多心理學「理論」其實是語意鬆散的言語陳述，預測力薄弱、難以嚴格否證——Meehl 早在數十年前就警告，心理學常用「拒絕一個本來就不太可能完全為真的虛無假設」來假裝驗證了理論，這是邏輯上極弱的推論。當代的回應是形式化／計算建模（computational modeling） 的轉向：把理論寫成明確的數學或生成模型，讓它做出精確、可量化、可被資料定量否證的預測，而不只是「A 與 B 正相關」這種方向性陳述。這也與貝氏推論、模型比較（如以資訊準則權衡擬合度與複雜度）等工具結合，推動心理學從「尋找顯著差異」轉向「比較哪個生成機制更能解釋資料」。

回到本平台的研究價值。 上述每一個議題，都在學習分析（learning analytics）的真實場景裡有了著力點。多重操作化呼應 Educational Omics 跨模態整合——用 Cognomics、Linguomics、PhysioNeuromics 多個獨立指標三角驗證同一學習構念，正是對抗單一指標效度脆弱的方法論實踐。外部效度與 WEIRD 問題提醒我們，在地化、跨校、跨學科的真實資料尤其珍貴。而複製危機的教訓，則直接要求學習科技平台在設計研究時就內建預先註冊、效果量報告與資料治理。最後別忘了倫理層次：當測量對象是學生的生理與學習歷程這類敏感構念時，知情同意與隱私保護不是研究的外加程序，而是 Ethicomics 維度下、效度與正當性的一部分——一個侵犯受試者信任而取得的測量，無論統計多漂亮，在科學與倫理上都是有瑕疵的。

← 上一篇

心理學是什麼？從考場焦慮看行為與心理歷程的科學

--

5

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定