作者|Sneha Kulkami
P值廣泛用來作為原假設檢驗的基礎,向來被視為統計效度的“黃金標準”,不過許多專家對於 P 值的使用還有 <0.05 代表顯著的門檻存有異議,理由是 P 值很容易被人為操作,許多研究人員即使數據不夠有力,也能用 P 值來支持研究結果,不支持 P 值的專家們也提到 P 值很“圓滑”,不容易複製。
縱使有這些爭議,P 值仍是眾多研究的組成要素,Basic and Applied Social Psychology 期刊(BASA)為了凸顯 P 值使用上的問題,宣佈禁用 NHSTP(null hypothesis significance testing procedure,原假設顯著性檢驗程序)以及相關的統計程序,代表編輯部說明新政策的 David Trafimow 編輯和 Michael Marks 副編輯提到,期刊先前已經聲明過作者不需要操作 NHSTP,現在進一步宣佈全面禁止使用,值得注意的是,Trafimow 表示他不知道有甚麼樣的統計方法可以取代 P 值。
BASP 進一步釐清,作者還是可以投稿有 P 值還有其他 NHSTP 統計方法的論文,他們會在發表前刪除相關內容,此外,他們特別提到了雖然推斷統計程序非必要,但期刊需要包含效應量的描述性統計,「我們也鼓勵加上頻率或分布式數據,也鼓勵使用比一般心理學研究更大量的樣本數,因為隨著樣本數的增加,描述性統計會更穩定,抽樣誤差也不會是太大的問題。」
BASP 的決定引來正反兩極的反應,德國比勒費爾德大學(Bielefeld University)知名科學家 Jan de Ruiter 同意 NHST 不可靠,但不用它們也可能是錯誤的,他表示:「搞科學不能沒有推論統計。」除此之外,BASP 的使用大量樣本數的政策也可能對年輕研究人員在進行初步研究時形成挑戰,為了避免這個情況,期刊可能考慮針對初步和驗證性研究制定另外的發表規則。
為了維持科學的精確性,有些研究人員提議用統計討論或貝氏定理來補充 P 值,但目前 BASP 不傾向採用貝氏定理。雖然禁用 P 值的決定在科研界引起爭論,BASP 的新政策使大家開始關注過度依賴 P 值的問題。