星問: 科學的界限六：重現性危機

在心理學只有40%的研究結果可以重複，癌症醫學更只有10%。有超過一半的科學家認為科學界正面臨重現性危機（replication crisis）。

理想中的科學，是100個人在100個不同的地方做一樣的實驗，結果都會一樣，但現實並非如此，尤其是在生物學、醫學、心理學和經濟學。這是因為生物系統太複雜，總是有許多無法控制的變因和測量誤差影響實驗結果，無法一翻兩瞪眼判斷假說是否正確，而必須用複雜的統計分析，來推測結果「比較可能」是支持還是否定某個假說。但即使用了統計學，還是有許多原因會讓我們誤以為，某個錯誤的假說很可能是正確的。

以生醫實驗為例，人類有大約兩萬個基因，假設其中100個會影響癌症好了（我們不知道），而我們想要把它們找出來。依常見的實驗方法，假陽性（不影響癌症但我們以為它會）的機率是5%，假陰性（會影響癌症但我們沒發現）的機率不一定，我們假設是20%好了。我們研究了所有兩萬個基因座。假陽性的基因座會有995個（(20000-100)×5%），正確找出來沒有變成假陰性的則有80個（100×(1-20%)）。所以我們找出來的1075個我們認為會影響癌症的基因中，只有80個是真的會影響癌症的，而且另外有20個沒找到。

實際上假陽性的機率遠高於5%，原因之一是重複實驗和發表偏誤：假設有五個團隊在測試同樣的假說，每個團隊各自做了四種不同的實驗，就算他們測試的假說是錯的，也會有一次實驗結果因為巧合，而在統計上告訴研究人員這個假說可能是對的，然後這一組結果會發表在期刊上；另外19組實驗不會，因為不管從科學家的觀點還是期刊的觀點，成功證實某件事都比沒有證明有趣多了。

因為上述這些原因，有人估計那些發表在期刊上的研究有大半都是錯的。我要強調一點：以上是說就算沒有人造假，而且每個人都用很嚴謹很正確的方式做研究，還會有大半的研究結果是錯的。而實際上研究有瑕疵的頻率可能不低。

無意間出錯的機會很高，有時候是很簡單的小粗心，像是樣本搞混、核磁共振的左右弄反、Excel表格選錯格。有時候是意外的變因沒有控制，例如實驗用的器材品質不佳汙染結果、或是男性研究員造成實驗鼠的壓力。

還有些是訓練不足造成的，像統計方法用錯、把「沒有資料」當成「數值是零」、或是程式碼寫錯等等也都常發生。這些失誤有時候會在同儕審查時發現，但有時候那些無償幫忙的審查員沒時間看仔細。而且如果是實驗過程中的失誤、或是沒有公開的資料，那根本無法審查。

還有些錯誤是有意的，可能的動機很多。很多時候因為研究人員的壓力和訓練不足，會為了得出某個想要的結果而重複做實驗、改實驗、換統計方法、挑除不好看的數據，直到出現想要的結果。然後，說服自己那些不符預期的結果，都是因為操作有誤或是樣本不正常。

這其實就是造假，但因為許多學校並不會在研究方法和統計學的課程中明確指出這是錯的，許多人都以為只要沒有直接捏造數據就不是造假。於是，研究生要畢業、要滿足指導教授的期望；教授要升等、要幫實驗室爭取到研究經費；期刊要發表吸引人的結果，就造成許多人做這種事。

當然，直接造假也有。常見的是膠體電泳或顯微鏡照片中，兩個不同情況的實驗結果卻長得一模一樣，所以被抓到是修圖。但不難想像有更多數據造假是沒被抓到的。

以上的各種問題如果有其他團隊的人重複實驗，通常會因為無法複製相同的結果，而得知研究有問題。但是很少有人會重複做別人的實驗，因為那一點也不有趣。就算有人想要重複實驗，常常也很困難：實驗人員很容易覺得某個細節大家都知道，或是不會影響結果，而沒有紀錄下來，然而該細節其實至關重要。也有些研究人員會為了保持領先，故意把一部份的流程寫得模糊或是不分享。

就算不打算重複實驗，光是取得原始資料來檢查分析過程有無出錯，有時就已經很困難。不管是電子還是紙本資料，管理起來都不容易。尤其是數十年前己經發表在期刊上的研究，研究者沒什麼動機要妥善保存那些資料，常常教授退休或學生畢業後資料就找不到了（我同事的研究發現，「社會學習」這個主題的資料保存的半衰期約五年半）。

現在大多期刊會要求把資料上傳保存，但是期刊不會把關這些資料，如果資料有缺、有誤、或是說明不完整造成無法解讀，也不會被要求改正。常見的錯誤之一是Excel自動把SEPT2和MARCH1等基因名稱改成日期格式，造成資料無法讀取，有五分之一已發表的研究資料中有這種問題。如果研究中用到人，也常因為隱私權的問題無法公開原始數據，所以無法檢查。

就算發現了研究結果錯誤，要更正也很難。期刊和研究員常常為了自己的名譽，而拒絕承認錯誤。就算撤回了某篇研究，它也可能已經被許多人引用，許多人不會得知原本的研究有誤，甚至可能已經影響政策。例如2010年的一篇研究主張國債對經濟有不好的影響，於是各國採取了財政撙節政策。三年後有人發現那結果完全是錯的，研究者在Excel中選錯格子，但是財政撙節已經實施了。

這篇文章不是叫大家不要相信科學，也不是說不要做研究。上面提到的這些問題，科學界正在熱烈討論，找尋舒緩這些問題的方法。我想要透過這系列文章強調：科學不是萬能，其背後的哲學基礎有我們還不明白的地方，而且科學的進展非常複雜，會受到統計學限制、文化和各種人為失誤影響。科學進展的過程中會產生很多錯誤的研究，要從中單獨挑選幾篇文章來支持錯誤的論點也很容易，但長期下來我相信科學會帶我們走上正確的道路。科學確實是已知最能有效取得知識的方法之一，給了我們便宜的糧食、方便的智慧手機、救人無數的現代醫學……。我相信科學可以帶給我們很多利益和知識，但同時，我們也必須時常提醒自己要適度地在不疑處有疑。

參考資料：

Chapman CA, Bicca-Marques JC, Calvignac-Spencer S. et al. (2019) Games academics play and their consequences: how authorship, h-index and journal impact factors are shaping the future of academia. Proceedings of the Royal Society B, 286(1916):20192047.
Glen DR, Taylor PA, Buchsbaum BR, Cox RW, Reynolds RC (2019) Beware (surprisingly common) left-right flips in your MRI data:an efficient and robust method to check using AFNI medRxiv.
Herndon T, Ash M, Pollin R (2014) Does high public debt consistently stifle economic growth? A critique of Reinhart and Rogoff. Cambridge Journal of Economics 38(2):257-279
Ioannidis JPA (2005) Why Most Published Research Findings Are False. PLoS Medicine 2(8):e124.
Minocher, R., Atmaca, S., Bavero, C., McElreath, R., & Beheim, B. A. (2020). Reproducibility of social learning research declines exponentially over 63 years of publication. PsyArXiv
Sorge R, Martin L, Isbester K. et al. (2014) Olfactory exposure to males, including men, causes stress and related analgesia in rodents.Nature Methods 11:629-632
Ziemann M, Eren Y, El-Osta A (2016) Gene name errors are widespread in the scientific literature.Genome Biol 17:17

星問

2020-03-05

科學的界限六：重現性危機

沒有留言:

張貼留言