我們與「顯著」的距離:P值是判斷研究成敗的過時指標嗎?

我們與「顯著」的距離:P值是判斷研究成敗的過時指標嗎?
圖片來源:https://esajournals.onlinelibrary.wiley.com/doi/pdf/10.1890/13-1402.1#accessDenialLayout

我們想讓你知道的是

如果讀者讀完這篇文章,準備要做統計分析寫報告,開始擔心自己是不是用錯誤的觀念與方法操作統計工具,那麼這篇文章就起了作用。

統計檢定是不是顯著,或者p值是不是小到可以接受的水準,是多數自然科學與社會科學的學術工作者們,分析資料判斷能否更新知識的工具。也是開發機器學習模型的數據分析人員,用來判斷收集到的資料,能不能支持想驗證的假設之常見指標。自從重要奠基者Roland Fisher、Jerzy Neyman與Egon Pearson分別發表p值以及推論犯錯率的重要概念與數學推導(Ref. 12),二次世界大戰後許多科學研究者,習慣用少於0.05的p值,推論獲得或發現預期的結果。統計推論的使用策略發展到21世紀的前10年,每個運用統計的科學領域已經累積不少批判與反省統計推論與p值的意見。

2005年統計學者John Ioannidis發表批判生物醫學領域充斥偽陽性結果的經典論文(Ref. 3),到2010年起心理學界密集爆發學術不端事件,以及高影響力期刊接受無法再現的爭議研究事件(Ref. 4),讓科學家誤用p值的問題浮現。除了各領域學者集結推出各種改良方案與行動(Ref. 5、6),2016年美國統計學會(ASA)理事會發表聲明(Ref. 7),提出6點建議給需要運用統計推論做出結論的科學家們,如何正確使用與解讀p值。

ASA的建議公開的時候,台灣也有不少學者關注後續的影響。美國德州大學奧斯汀分校的林澤民教授,於個人部落格分享當時的在台演講「p值的陷阱」(Ref. 8),獲得華文知識圈廣大迴響。到了2019年3月,2016年代表ASA撰寫聲明的Ronald Wasserstein,將2016年參與ASA主辦的主題研討會學者發表的評論與建議,一共43篇論文集結於ASA專刊(Ref. 9)。參與其中2篇專文的3位學者Valentin Amrhein、Sander Greenland與Blake McShane,於專刊發表同日,在自然期刊發表主張,響應ASA的專刊主題(Ref. 10)。3位作者提到完成這份主張的初稿時,曾將預印本公佈於網路並收集連署,一星期內就獲得來自800多位統計學及自然與社會科學領域的學者響應。因此自然期刊公上網後,也吸引全球各地關心統計推論誤用問題人士的注目。

最初看到Amrhein等人的主張,我就留意過去幾年投入提昇心理學研究品質的學者,一面倒地批判他們的建議做法:放棄p值的判斷閾限,提倡運用信賴區間評估實際結果與預期結果的相容性。主要的批判意見是這些學者提出的建議,都是指點科學家們要做什麼,或者不要做什麼,而非討論為什麼該這麼做或不該這麼做。我看了幾天各方意見交流,也有自己的看法時,就收到林澤民教授的私訊,詢問有沒有興趣寫篇科普文章,向有興趣的讀者說明這幾年各界批評統計推論濫用的聲浪,帶來什麼訊息。

當下我決定做個非正式調查,了解一下林教授「p值的陷阱」發佈3年後,華文圈的統計使用者正確了解p值人們有多少,還有探討誤解存在的原因。非正式的調查結果促成我寫作這篇文章的主要動機。2019年4月1日,我在個人臉書發佈下圖的動態訊息,建議第一次看到這則訊息的朋友,請自己先想想看,以你現在所知選擇你認為正確的答案:

p值是什麼?

回首林教授「p值的陷阱」,林教授的解釋如下:

p值是什麼?我想在座有很多專家比我都懂,但是也有一些同學在場,所以還是稍微解釋一下。p值是由Ronald Fisher在1920年代發展出來的,已將近100年。p值檢定最開始,是檢定在一個model之下,實驗出來的data跟model到底吻合不吻合。這個被檢定的model,我們把它叫做虛無假設(null hypothesis),一般情況下,這個被檢定的model,是假設實驗並無系統性效應的,即效應是零,或是隨機狀態。在這個虛無假設之下,得到一個統計值,然後要算獲得這麼大(或這麼小)的統計值的機率有多少,這個機率就是p值。

ASA的2016年聲明中,有關p值的解釋也是短短的一句話:

Informally, a p-value is the probability under a specified statistical model that a statistical summary of the data (e.g., the sample mean difference between two compared groups) would be equal to or more extreme than its observed value.

看過以上解釋,有仔細思考的讀者應該會把想選擇的答案縮小到3與4兩個選項。但是不太熟悉機率的讀者應該會困惑,p值是個什麼樣的機率?林教授說的「在這個虛無假設之下,得到一個統計值,然後要算獲得這麼大(或這麼小)的統計值的機率有多少」,以及ASA的解釋「the probability under a specified statistical model that a statistical summary of the data…」。兩種解釋都說明p值是一種條件機率。

借用Deborah Mayo寫的書《Statistical inference as severe testing: how to get beyond the statistics wars》(Ref. 11)所記的公式,告訴我們p值是這樣的條件機率:

Pr(X≥x0∣H0)=p(x0

公式裡的H0,代表虛無假設的統計模型(statistical model),X代表實際資料的隨機變數,x0代表虛無假設統計模型的隨機變數,一般來說X與x0分別指實際資料的平均值與統計模型估計的期望值(Ref. 12)。X與x0之間的差異越小,表示實際資料越符合虛無假設統計模型,得到的p值會越大,反之實際資料越不符合虛無假設統計模型,p值會越小。實際資料符合虛無假設統計模型的機率越小,表示實際資料有可能符合其他統計模型。虛無假設統計模型通常代表沒有效果的預期結果,所以科學家通常希望得到的p值越小越好。

為何許多人會誤解p值

這次非正式調查列出的選項,最正確的是4,選項5要加上前提「具備高考驗力的條件時」才是正確。但是我發現許多只選一項的網友選擇3,部分網友表示3、4都有可能,這些網友身份從老師到學生都有,公佈答案時沒有人只選擇4。選項3所指是另一種條件機率:

Pr(H0∣X≥x0)=p(H0