我們與「顯著」的距離：P值是判斷研究成敗的過時指標嗎？

統計檢定是不是顯著，或者p值是不是小到可以接受的水準，是多數自然科學與社會科學的學術工作者們，分析資料判斷能否更新知識的工具。也是開發機器學習模型的數據分析人員，用來判斷收集到的資料，能不能支持想驗證的假設之常見指標。自從重要奠基者Roland Fisher、Jerzy Neyman與Egon Pearson分別發表p值以及推論犯錯率的重要概念與數學推導（Ref. 12），二次世界大戰後許多科學研究者，習慣用少於0.05的p值，推論獲得或發現預期的結果。統計推論的使用策略發展到21世紀的前10年，每個運用統計的科學領域已經累積不少批判與反省統計推論與p值的意見。

2005年統計學者John Ioannidis發表批判生物醫學領域充斥偽陽性結果的經典論文（Ref. 3），到2010年起心理學界密集爆發學術不端事件，以及高影響力期刊接受無法再現的爭議研究事件（Ref. 4），讓科學家誤用p值的問題浮現。除了各領域學者集結推出各種改良方案與行動（Ref. 5、6），2016年美國統計學會（ASA）理事會發表聲明（Ref. 7），提出6點建議給需要運用統計推論做出結論的科學家們，如何正確使用與解讀p值。

ASA的建議公開的時候，台灣也有不少學者關注後續的影響。美國德州大學奧斯汀分校的林澤民教授，於個人部落格分享當時的在台演講「p值的陷阱」（Ref. 8），獲得華文知識圈廣大迴響。到了2019年3月，2016年代表ASA撰寫聲明的Ronald Wasserstein，將2016年參與ASA主辦的主題研討會學者發表的評論與建議，一共43篇論文集結於ASA專刊（Ref. 9）。參與其中2篇專文的3位學者Valentin Amrhein、Sander Greenland與Blake McShane，於專刊發表同日，在自然期刊發表主張，響應ASA的專刊主題（Ref. 10）。3位作者提到完成這份主張的初稿時，曾將預印本公佈於網路並收集連署，一星期內就獲得來自800多位統計學及自然與社會科學領域的學者響應。因此自然期刊公上網後，也吸引全球各地關心統計推論誤用問題人士的注目。

最初看到Amrhein等人的主張，我就留意過去幾年投入提昇心理學研究品質的學者，一面倒地批判他們的建議做法：放棄p值的判斷閾限，提倡運用信賴區間評估實際結果與預期結果的相容性。主要的批判意見是這些學者提出的建議，都是指點科學家們要做什麼，或者不要做什麼，而非討論為什麼該這麼做或不該這麼做。我看了幾天各方意見交流，也有自己的看法時，就收到林澤民教授的私訊，詢問有沒有興趣寫篇科普文章，向有興趣的讀者說明這幾年各界批評統計推論濫用的聲浪，帶來什麼訊息。

當下我決定做個非正式調查，了解一下林教授「p值的陷阱」發佈3年後，華文圈的統計使用者正確了解p值人們有多少，還有探討誤解存在的原因。非正式的調查結果促成我寫作這篇文章的主要動機。2019年4月1日，我在個人臉書發佈下圖的動態訊息，建議第一次看到這則訊息的朋友，請自己先想想看，以你現在所知選擇你認為正確的答案：

p值是什麼？

回首林教授「p值的陷阱」，林教授的解釋如下：

p值是什麼？我想在座有很多專家比我都懂，但是也有一些同學在場，所以還是稍微解釋一下。p值是由Ronald Fisher在1920年代發展出來的，已將近100年。p值檢定最開始，是檢定在一個model之下，實驗出來的data跟model到底吻合不吻合。這個被檢定的model，我們把它叫做虛無假設（null hypothesis），一般情況下，這個被檢定的model，是假設實驗並無系統性效應的，即效應是零，或是隨機狀態。在這個虛無假設之下，得到一個統計值，然後要算獲得這麼大（或這麼小）的統計值的機率有多少，這個機率就是p值。

ASA的2016年聲明中，有關p值的解釋也是短短的一句話：

Informally, a p-value is the probability under a specified statistical model that a statistical summary of the data （e.g., the sample mean difference between two compared groups） would be equal to or more extreme than its observed value.

看過以上解釋，有仔細思考的讀者應該會把想選擇的答案縮小到3與4兩個選項。但是不太熟悉機率的讀者應該會困惑，p值是個什麼樣的機率？林教授說的「在這個虛無假設之下，得到一個統計值，然後要算獲得這麼大（或這麼小）的統計值的機率有多少」，以及ASA的解釋「the probability under a specified statistical model that a statistical summary of the data…」。兩種解釋都說明p值是一種條件機率。

借用Deborah Mayo寫的書《Statistical inference as severe testing: how to get beyond the statistics wars》（Ref. 11）所記的公式，告訴我們p值是這樣的條件機率：

Pr（X≥x₀∣H₀）=p（x₀）

公式裡的H₀，代表虛無假設的統計模型（statistical model），X代表實際資料的隨機變數，x₀代表虛無假設統計模型的隨機變數，一般來說X與x₀分別指實際資料的平均值與統計模型估計的期望值（Ref. 12）。X與x₀之間的差異越小，表示實際資料越符合虛無假設統計模型，得到的p值會越大，反之實際資料越不符合虛無假設統計模型，p值會越小。實際資料符合虛無假設統計模型的機率越小，表示實際資料有可能符合其他統計模型。虛無假設統計模型通常代表沒有效果的預期結果，所以科學家通常希望得到的p值越小越好。

為何許多人會誤解p值

這次非正式調查列出的選項，最正確的是4，選項5要加上前提「具備高考驗力的條件時」才是正確。但是我發現許多只選一項的網友選擇3，部分網友表示3、4都有可能，這些網友身份從老師到學生都有，公佈答案時沒有人只選擇4。選項3所指是另一種條件機率：

Pr（H₀∣X≥x₀）=p（H₀）

我們想讓你知道的是

p值是什麼？

為何許多人會誤解p值

最新發展：

拋棄「統計顯著性」，代表科學界不再追求「確定性」嗎？ 4年前

Tags：

再現危機

p值

數學

統計學

研究

顯著

可容性區間

信賴區間

心理學

超過6成壯世代吃錯蛋白質！權威醫師提醒「蛋白質幫助肌肉生長的關鍵是胺基酸組成」！及早儲存「肌本」，老出好成肌！

我們想讓你知道的是

壯世代追求精彩人生下半場，首重「維持健康與擁有好體力」

迷思一：要有好肌肉好體力，只要多運動？

迷思二：所有蛋白質的營養價值都一樣？

迷思三：每個人需求的蛋白質營養都一樣？

探索新人生階段：以科學營養陪伴壯世代往健康邁進

Tags：

優質蛋白質

營養素

百仕可

市場調查

蛋白質

老出好成肌

胺基酸

支鏈胺基酸

肌肉

保護胺基酸

營養

必需胺基酸

EAA

HMB

百仕可復易佳

復易佳

壯世代

肌少症

保健食品

【影評】《但願人長久》：我看過最爛的家庭通俗劇本，除了吳慷仁的演技之外毫無可看性

投資最怕過度交易：如何利用「I型人」的內向優勢，強化交易紀律？

對14歲的禰豆子喊「我婆」：一邊罵黃子佼，一邊生活在幼態審美的台灣社會

習大大說中國是「馬克思主義國家」，但老馬恐怕不這麼認為

在日本尋找南洋味：來自馬來西亞的她，在東京以Omakase再現家鄉風味

台灣YouTuber為何決定跨足Bilibili成為UP主？B站的業配與分潤好賺嗎？

【專訪】《留下來的人》作者康舒雅：「癌症村」回歸平淡，「作穡人」怎麼變得「無路用」？

「成也流量、敗也流量」的統神與老高：建立一個品牌可能得花10年，但要毀掉只需10秒

為什麼花蓮7.2強震幾乎沒有大跳電？這25年來台電做了什麼改變

沒有中國用語的一年（2024第14週）：「小姐姐」這詞在90年代台灣其實就出現過？

我們與「顯著」的距離：P值是判斷研究成敗的過時指標嗎？

p值是什麼？

為何許多人會誤解p值

最新發展：

拋棄「統計顯著性」，代表科學界不再追求「確定性」嗎？ 4年前

Tags： 再現危機 p值 數學 統計學 研究 顯著 可容性區間 信賴區間 心理學

超過6成壯世代吃錯蛋白質！權威醫師提醒「蛋白質幫助肌肉生長的關鍵是胺基酸組成」！及早儲存「肌本」，老出好成肌！

壯世代追求精彩人生下半場，首重「維持健康與擁有好體力」

迷思一：要有好肌肉好體力，只要多運動？

迷思二：所有蛋白質的營養價值都一樣？

迷思三：每個人需求的蛋白質營養都一樣？

探索新人生階段：以科學營養陪伴壯世代往健康邁進

Tags： 優質蛋白質 營養素 百仕可 市場調查 蛋白質 老出好成肌 胺基酸 支鏈胺基酸 肌肉 保護胺基酸 營養 必需胺基酸 EAA HMB 百仕可復易佳 復易佳 壯世代 肌少症 保健食品

【影評】《但願人長久》：我看過最爛的家庭通俗劇本，除了吳慷仁的演技之外毫無可看性

投資最怕過度交易：如何利用「I型人」的內向優勢，強化交易紀律？

對14歲的禰豆子喊「我婆」：一邊罵黃子佼，一邊生活在幼態審美的台灣社會

習大大說中國是「馬克思主義國家」，但老馬恐怕不這麼認為

在日本尋找南洋味：來自馬來西亞的她，在東京以Omakase再現家鄉風味

台灣YouTuber為何決定跨足Bilibili成為UP主？B站的業配與分潤好賺嗎？

【專訪】《留下來的人》作者康舒雅：「癌症村」回歸平淡，「作穡人」怎麼變得「無路用」？

「成也流量、敗也流量」的統神與老高：建立一個品牌可能得花10年，但要毀掉只需10秒

為什麼花蓮7.2強震幾乎沒有大跳電？這25年來台電做了什麼改變

沒有中國用語的一年（2024第14週）：「小姐姐」這詞在90年代台灣其實就出現過？

Tags：

再現危機

p值

數學

統計學

研究

顯著

可容性區間

信賴區間

心理學

Tags：

優質蛋白質

營養素

百仕可

市場調查

蛋白質

老出好成肌

胺基酸

支鏈胺基酸

肌肉

保護胺基酸

營養

必需胺基酸

EAA

HMB

百仕可復易佳

復易佳

壯世代

肌少症

保健食品