如果動機是一道方程式，大腦在偷偷算什麼？動機與情緒的計算機制

從期望—價值公式、獎賞預測誤差到評價理論，拆解動機與情緒背後的運算邏輯

進階 · 約 14 分鐘 ·#動機#情緒#強化學習#評價理論#獎賞預測誤差#決策

如果動機是一道方程式，大腦在偷偷算什麼？

你終於坐到書桌前，打算讀那本一直拖著的原文書。三分鐘後，手已經滑開了手機。我們在入門篇談過「推力」與「拉力」、談過獎勵可能適得其反——但那些描述停在「現象」的層次。一個更尖銳的問題是：當你在「讀書」與「滑手機」之間搖擺的那一瞬間，大腦究竟在計算什麼？它憑什麼決定把行動的資源投向哪一邊？

進階地看待動機與情緒，意味著不再滿足於「人有哪些需求」「情緒有哪些種類」這類分類學，而是追問運算的機制：價值是怎麼被估計的、預期落空時系統如何更新、情緒訊號又如何回頭改寫下一次的估計。這篇文章假設你已經熟悉驅力理論、Yerkes-Dodson、自我決定論與情緒二因論。我們要往下挖一層，進入決策計算、目標動力學與評價理論（appraisal theory）的核心——這也是當代動機與情緒科學真正交火的戰場。

把動機寫成算式：期望 × 價值

最早把動機「公式化」的嘗試之一，是 John Atkinson 與後來教育心理學的期望—價值理論（expectancy-value theory）。它的骨架簡潔得驚人：

動機 ≈ 成功的期望（expectancy） × 該結果對你的價值（value）

兩個因子是相乘而非相加，這個細節至關重要。只要其中一項趨近於零，整個動機就崩塌。你或許非常重視「讀完這本書」（價值高），但若你深信「我根本讀不懂」（期望趨零），乘積仍然接近零——於是手機贏了。反過來，一件你十拿九穩卻毫不在乎的事，動機同樣低落。

動機與情緒進階概念示意圖

Jacquelynne Eccles 與 Allan Wigfield 進一步把「價值」拆解成四個成分，這對教育現場特別有用：內在價值（interest，做這件事本身有趣）、達成價值（attainment，做好它對我的身份認同重要）、效用價值（utility，它對我的其他目標有用），以及成本（cost，付出的時間、精力與機會代價）。注意成本被獨立列出——許多看似「沒動機」的學生，其實是成本知覺過高（焦慮、怕丟臉、犧牲社交），而非不重視目標。對症下藥時，降低成本往往比空泛地「提升興趣」更有效。

這套框架也解釋了入門篇提過的拖延：拖延常不是懶惰，而是期望（自我效能）偏低、或成本知覺被當下的負面情緒放大的結果。Albert Bandura 的自我效能（self-efficacy）概念正好補上「期望」這一格——相信自己能做到，本身就是可被經驗、回饋與他人示範逐步建立的。

大腦的學習訊號：獎賞預測誤差

期望—價值理論告訴我們「價值」會驅動行為，但價值本身是怎麼學來的？這就要進入計算層次。入門篇曾提到多巴胺編碼「獎賞預測誤差」，這裡我們把它講透。

核心概念是獎賞預測誤差（reward prediction error, RPE）：

RPE ＝實際得到的獎賞 − 原本預期的獎賞

Wolfram Schultz 對清醒猴子的單一神經元紀錄揭示了一個漂亮的規律。訓練初期，當猴子意外得到果汁時，中腦多巴胺神經元爆發性放電（正向 RPE，「比預期好」）。隨著猴子學會「燈亮→果汁」的關聯，放電時機往前移到燈亮的那一刻——因為此時果汁已可被預測，不再是驚喜。而一旦預期的果汁沒有出現，多巴胺神經元在原本該得到獎賞的時點出現抑制（負向 RPE，「比預期差」）。

換句話說，多巴胺不報告「我有多快樂」，而報告「世界比我以為的好/差了多少」。獎賞若完全可被預測，便不再產生學習訊號——這正是為什麼新奇、不確定的刺激（社群媒體的隨機推播、遊戲的隨機獎勵）如此抓人：它們把 RPE 維持在持續波動的狀態，讓多巴胺系統一再被點燃。

兩種決策系統：習慣 vs. 計畫

RPE 屬於一種被稱為無模型（model-free）的學習：它不需要理解世界如何運作，只要反覆試誤、累積「哪個動作平均帶來多少獎賞」的快取值（cached value）。這套系統反應快、省力，卻僵化——環境一變就容易出錯。

與之相對的是有模型（model-based）的學習：大腦建立一張關於「動作如何改變世界、世界又如何給出獎賞」的內在地圖，臨場才推演（plan）出最佳選擇。這套系統靈活、能應對新情境，但耗費認知資源、速度慢。

這個二分對應到我們的日常經驗：早上自動走向便利商店買同一款咖啡，是無模型的習慣；得知那家店關了、臨時規劃另一條路線，則切換到有模型的計畫。Anthony Dickinson 的動物實驗以「結果貶值（outcome devaluation）」巧妙區分兩者——若先讓動物對某食物吃到膩（貶值），再觀察牠是否還會去按取得該食物的桿。目標導向（有模型）的個體會立刻減少按桿，習慣（無模型）的個體則繼續機械式地按。

理解這個架構，對「為什麼明知不該卻照做」有了更深的解釋：許多看似「意志力薄弱」的行為，其實是無模型的習慣系統在主導，而有模型的計畫系統反應太慢、來不及介入。改變行為的關鍵，往往不在於「更努力地對抗」，而在於改造觸發習慣的情境線索，讓計畫系統有機會搶先一步。

看一個例子：把拖延拆成算式

回到開頭那位拖延讀原文書的學生。我們用進階框架逐項拆解，而不只是說「他沒動機」：

期望偏低：過去讀原文書屢屢卡關，自我效能受損 → 乘積被壓低。
成本知覺過高：一想到要查單字、怕讀不完的焦慮，當下的負面情緒把「成本」這一格放大。
無模型習慣佔上風：書桌＋手機在手的情境，過去無數次以「滑手機」收場並獲得即時的小獎賞（RPE 正向），這條捷徑已被快取。
有模型的「讀完書對未來有用」雖然價值高，卻反應慢、又被遠期化（延遲折扣，delayed discounting）打了折。

對策因此清楚了：與其用意志力硬扛，不如提高期望（把任務切到「只讀兩頁」的可達成單位，創造正向 RPE 重建自我效能）、降低成本（移除手機這個情境線索）、並讓計畫系統提前介入（前一晚就決定好時間地點，這在心理學上稱為「執行意圖，implementation intention」）。動機不是一種你「有或沒有」的人格特質，而是一組可被工程化調整的參數。

情緒不只是被解讀的喚起：評價理論

入門篇的情緒二因論強調「生理喚起＋認知標籤」，但它把生理喚起當成未分化的一團，認為情緒的差異全靠事後貼標籤。這個觀點受到評價理論（appraisal theory）的有力修正。

Richard Lazarus 主張，情緒的核心不在於喚起，而在於我們對情境的評價（appraisal）——而且這個評價可以快到無需意識參與。他區分了初級評價（primary appraisal，這件事與我的目標相關嗎？是好是壞？）與次級評價（secondary appraisal，我有資源應對嗎？）。同一個刺激，評價不同，情緒就不同：一場期末考，若評價為「威脅（我會搞砸）」會引發焦慮，若評價為「挑戰（我能藉此證明自己）」則引發興奮與專注。注意，這裡的差別不在喚起量的多寡，而在評價的內容——這正是評價理論超越二因論之處。

Klaus Scherer 的成分歷程模型（component process model）把評價拆得更細，提出一連串快速的「刺激評估檢核（stimulus evaluation checks）」：新奇性、愉悅性、目標相關性、應對潛能、規範相容性……不同的檢核組合，動態地「組裝」出不同的情緒。在這個觀點下，情緒不是一個被觸發的開關，而是一條評價的歷程。

評價理論的力量在於它可介入：既然情緒源於評價，改變評價就能改變情緒——這正是入門篇提過的「認知再評估（reappraisal）」之所以有效的理論根源，也是認知行為治療（CBT）的核心機制。

情緒回頭影響決策：情感即訊息

到此我們談的多半是「認知如何產生情緒」。但箭頭也指向反方向：情緒會回頭塑造我們的判斷與動機。

Norbert Schwarz 與 Gerald Clore 的情感即訊息（affect-as-information）假說指出，人們常把當下的情緒狀態當成判斷的線索——「我感覺如何」被誤讀為「事情如何」。他們的經典研究發現，在晴天接受電話訪問的人，對「整體生活滿意度」的評分顯著高於陰雨天受訪者——因為好天氣帶來的好心情被錯置為「我的人生不錯」。但若先提醒受訪者注意天氣，這個效應就消失了：一旦情緒的真正來源被點明，它就不再被當成生活品質的訊息。這與入門篇的「喚起錯誤歸因」是同一邏輯的延伸，只是這次被錯置的是心情的效價（valence），而非喚起的強度。

更精細的研究還區分了整合性情感（integral affect，由決策對象本身引發）與附帶性情感（incidental affect，來自無關來源、卻溢出影響當前決策）。考前因為塞車而煩躁（附帶性），可能讓你在考場上對模稜兩可的題目做出更悲觀的判讀。研究者甚至發現，不同情緒對風險判斷有特定而非籠統的影響：恐懼讓人傾向悲觀、規避風險；憤怒卻讓人樂觀、更願冒險——這是 Jennifer Lerner 與 Dacher Keltner 的評價傾向框架（appraisal-tendency framework），它說明「負面情緒」之間的差異，往往比「正負」之分更能預測行為。

重點回顧

動機可被公式化：期望—價值理論以「期望 × 價值」的相乘結構，解釋了為何任一因子趨零都會讓動機崩塌；價值還可細分為內在、達成、效用與成本四成分。
多巴胺報告誤差而非快樂：獎賞預測誤差（RPE）＝實際 − 預期；可被完全預測的獎賞不再產生學習訊號，這解釋了不確定性為何如此誘人。
大腦有兩套決策系統：無模型的習慣系統快而僵化，有模型的計畫系統靈活卻耗資源；許多「明知故犯」是習慣系統搶先所致。
評價先於情緒：評價理論主張情緒的差異來自對情境的評價內容（威脅 vs. 挑戰），而非僅靠事後貼標籤，這也是再評估與 CBT 的理論基礎。
情緒回頭影響判斷：情感即訊息與評價傾向框架顯示，附帶性情緒會溢出影響決策，且不同負面情緒（恐懼 vs. 憤怒）對風險判斷有相反效果。

深入探討（研究所視角）

進入研究所層次，動機與情緒的計算化、整合化趨勢提供了若干值得深究的前沿與爭議。

強化學習作為共同語言。 RPE 與時序差分學習（temporal difference, TD learning）的對應，使得 Sutton 與 Barto 的強化學習（reinforcement learning）成為連結行為、神經與人工智慧的共同形式語言。在這個框架下，價值函數 V(s)、折扣因子 γ、學習率 α 都有了可測量的神經對應物。近年的延伸更引人入勝：分布式強化學習（distributional RL）主張多巴胺神經元群並非編碼單一的期望值，而是編碼整個獎賞分布——Dabney 等人（2020）在 Nature 報告，不同多巴胺神經元有不同的「樂觀/悲觀」程度，集體刻畫出未來獎賞的機率分布。這把計算神經科學與深度強化學習的最新進展直接接通，是當前最熱的交叉領域之一。

控制的代價與認知努力的經濟學。 有模型的計畫系統「耗資源」這件事，催生了認知努力的成本—效益模型。早期 Roy Baumeister 的自我耗竭（ego depletion）假說——意志力像會耗盡的肌肉——曾廣為流傳，但大規模多實驗室重複（如 Hagger 等人 2016 的註冊報告）未能穩定複製，使其成為「複製危機（replication crisis）」的代表案例之一。取而代之的是更精緻的觀點：Shenhav、Botvinick 與 Cohen 的期望價值控制（expected value of control, EVC）理論，主張投入認知控制與否，是大腦對「控制能帶來的預期報酬」與「控制本身的內在成本」所做的理性權衡。「我累了不想動腦」未必是資源真的見底，而可能是系統判定此刻投入控制不划算。

內感受、預測與動機的整合。 入門篇談過 Barrett 的情緒建構論與內感受（interoception）。研究所視角下，更具野心的整合來自 allostasis（動態調適） 與主動推論（active inference）框架：大腦不只被動維持體內平衡（homeostasis），而是預測性地提前調動資源以因應未來需求，而動機與情緒正是這套預測性身體調節的外顯。Karl Friston 的自由能原理（free energy principle）試圖把感知、情緒、動機統一為「最小化預測誤差」的同一個目標——既宏大又備受爭議，其可否證性（falsifiability）至今仍是哲學與神經科學交界的論辯焦點。

測量與生態效度的張力。 方法上，情緒與動機研究正從實驗室的離散量測，走向真實情境中的連續追蹤：經驗取樣法（experience sampling）、穿戴式生理訊號（HRV、皮膚電導、EDA）、臉部與語音情感運算。在 Educational Omics 的 PhysioNeuromics 與 Cognomics 維度整合下，研究者可望在真實學習歷程中，動態檢驗期望—價值波動、RPE 式的回饋學習、以及挑戰/威脅評價如何耦合到表現。但須警惕兩個陷阱：其一是反向推論（從 HRV 上升反推「學生很投入」在邏輯上並不成立）；其二是生理化約論——把豐富的、文化與意義浸潤的情緒與動機，過度壓縮為幾條生理曲線。最好的研究，是讓計算模型的精確與人文層次的厚描互相校準，而非彼此取代。動機與情緒終究是多重決定、情境鑲嵌、且具能動性（agency）的人類歷程——對其複雜性保持謙遜，本身就是一種研究上的成熟。

← 上一篇

為什麼半夜兩點，你還是爬起來吃了那塊蛋糕？動機與情緒的科學

--

5

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定

如果動機是一道方程式，大腦在偷偷算什麼？動機與情緒的計算機制