經濟諾獎得主評今年諾獎：隨機對照實驗方法有侷限 -6parkbbs.com

2019年諾貝爾經濟學獎揭曉，獲獎者爲阿比吉特·班納吉（Abhijit Banerjee）、埃斯特·迪弗洛（Esther Duflo）和邁克爾·克雷默（Michael Kremer），以表彰他們“在減輕全球貧困方面的實驗性做法”。三位諾獎得主率先在經濟學中使用“隨機對照實驗”，但該種實驗方法在經濟學家中掀起爭議。

　　本文改編自《有關隨機對照實驗的訪談》（Experimental Conversations： Perspectives on Randomized Trials in Development Economics）一書的一章，該書由麻省理工學院出版社於2016年出版。該書收集了在發展經濟學中使用隨機評估和實地實驗對學術界和政策領袖的訪談。原文是英文訪談稿，採訪人爲蒂姆·奧格登（Timothy N． Ogden），受訪者是2015年諾貝爾經濟學獎得主、美國普林斯頓大學微觀經濟學家安格斯·迪頓（Angus Deaton），由張亞聲（美國加州大學洛杉磯分校經濟學系博士生）翻譯，王勇（清華大學經濟學研究所副所長，清華大學民生經濟研究院執行副院長）整理成介紹性短文，張維迎（北京大學國家發展研究院教授）修改定稿。

　　一、隨機對照實驗是樣本太小的局部性研究

　　許多觀察性研究都使用全國代表性的數據，如超過2000萬個人口普查的數據。而隨機對照實驗（Randomised controlled trials，RCT）是樣本太小的局部性研究，這是其最大問題所在。

　　我認爲現在的發展經濟學家，有點像五十年代的做回歸分析的經濟學家。在上個世紀50、60年代，經濟學家們剛剛開始藉助回歸分析進行計量研究。在他們眼中，回歸分析是一個“神奇工具”（magic tool），可以揭示幾乎所有事情。他們將對各種事物進行多變量回歸，並以一種因果關係框架內對其進行解釋，儘管按照今天的標準，這完全不合理。後來，經濟學家和其他學者瞭解到，這樣的計量研究存在種種問題。在今天的計量經濟學課程中，已經不再強調回歸分析這種魔法性，而會着重強調回歸分析存在的種種毛病。

　　在現在的發展經濟學家們看來，他們現在也有一個“神奇工具”——隨機對照實驗（RCT），但對這個工具的弊端還不甚瞭解。當然其他任何估計（estimation）方法也都有其優點和缺點。但我認爲RCT的弊端很大，很少能達到人們日益對其高漲的預期。人們之所以選擇RCT，是因爲他們厭倦了關於外生性、工具變量和樣本選取（sample selection）等等的爭論。但是，所有這些問題其實在RCT中都以不同的形式重新出現。因此，我沒有看到RCT帶來研究的質量有什麼提升，壞的研究仍然層出不窮。

　　好的實驗研究在很大程度上取決於細節。在30到40年前，實驗經濟學剛剛開始發展時，學者們一開始並沒有注重細節，做了不少無效的實驗，得到了很多教訓。對此，儘管很多事情也已經被遺忘了，但仍然有很多學者記着這些教訓，比如像查克·曼斯基（Chuck Manski）和吉姆·赫克曼（Jim Heckman）等人。

　　在曼斯基的最新著作（《Public Policy in an Uncertain World》， 2013， Harvard University Press）中，對RCT的實驗方法中細節問題進行了頗爲仔細的研究，特別棒的是，他指出了RCT中的一些隱含假設。儘管喜歡使用RCT的學者們對此爭辯說，進行RCT研究並不需要假設。但實際上，當人們去推廣使用根據RCT研究得出結論或建議，就需要考慮這些隱含假設。

　　特別是，當把局部實驗得出結論進行推廣使用時，人們需要考慮內部和外部有效性問題（（internal and external validity））。如果你去閱讀70年代和80年代當時的研究，就會發現人們常常思考如何從一個實驗中獲得結果以及如何將這個結果應用於其他地方。在當今的發展經濟學文獻中，我幾乎看不到這樣的思考。也許我錯過了一些東西，但是當我讀J-PAL實驗室[1]網頁的時候，我認爲他們就是在表示那些估算值幾乎可以在任何地方使用它們。這真是怪異的做法了。因爲，因果關係是具有局部性的，即使在某地進行的RCT研究發現了因果關係，也並不意味着這種因果關係會在其他地方發揮作用，即使在別的地方也存在這種因果關係，也不意味着效果的大小是一樣。

　　二、RCT方法無法確保因果關係的建立，不應誇大該方法的優點

　　其實，RCT這一方法在發展經濟學之外，如美國的社會政策實驗等領域已經運用很長時間了。並且直到今天仍然還在繼續使用。其中有不少高質量的研究。並且這些高質量的研究都對RCT的優點和侷限性有着認真的思考和清醒的認識。但可惜的是，在發展經濟學領域，人們把這一方法神化了。這像是對魔法的信仰，讓RCT具有它們不具備的屬性。

　　例如，不少發展經濟學認爲 RCT可以確保因果關係的建立。但這種觀點是荒謬的。首先，RCT研究中會存在標準誤差（standard errors），並且在很多情況下很難正確地處理標準誤差。即使我們發現因果關係，我們也需要論述因果關係可以在其他某個地方以相同的方式起作用，更不用說這種因果關係的一般性了。

　　其次，RCT應該自覺想法設法保證實驗組和對照組之間的平衡。人們經常性地誤認爲RCT具有很高的信度（reliability）或者無偏性（unbiasedness）。但這是對統計學的錯誤理解。信度與精度（precision）有關。而RCT本身就是RCT，它對精度沒有任何作用。但是，不少經濟學的文獻認爲RCT可以提高信度的主張。其實，在無偏估計量中，我們獲得不了任何關於信度的信息。

　　我們從統計學中學到的第一件事就是，無偏性可能是人們想要的，但無偏並不像接近事實那麼重要。因此，如果類似字典序偏好那樣（lexicographic preference）偏愛RCT方法，把其置於所有的研究方法前面，看成是“黃金標準”論據，這其實就像我們要將無偏性推崇至其他所有統計學性質之上。而這正是統計學第一課告訴我們不應該做的事情。

　　在其他領域的RCT文獻中，比如醫學，人們經常使用這種黃金標準論據，來說明我們只需要考慮隨機對照實驗的估計值，或至少將其優先考慮。而在發展經濟學中，我們經常看到一些隨機對照實驗，每個實驗組只有少量觀察結果，並且存在巨大的標準誤差。但RCT的推崇者似乎覺得這比那些使用了1億個數據但存在潛在偏倚性的研究更可取。這根本沒有道理。每個研究都必須被單獨地考慮和分析。RCT很好，但是它們只是衆多工具中用來發現事物的技術之一。

　　我認爲，目前文獻對RCT的好處誇大太多。這不僅會造成對該方法的應用不當，而且建立一種錯誤的信念，認爲這種方法可以做一些無法做到的事情。這是用魔法的思維代替了統計學。

　　三、 RCT方法同樣存在大樣本統計分析的問題

　　在我看來，過去這四五十年來，經濟學家們對進行大樣本數據分析已經非常厭倦了，因爲需要對樣本選擇（sample selection）、識別（identification）、偏差（bias）和統計有效性（validity）等統計分析問題進行非常繁雜的處理。這種厭倦導致了RCT方法在發展經濟學領域得到了人們的追捧，以致於產生了RCT運動。

　　但上述統計分析問題在RCT研究中也是無法避免的；實際上，無論使用哪種方法，都必須以一種或另一種方式面對它們。儘管如此，還是有不少人認爲，RCT研究可以讓政策制定者可以更好的理解和接受研究結論，因爲RCT研究直觀展示出實驗組和對照組的平均值的差別。

　　但這只是他們的希望。Kremer和Miguel（2004）藉助RCT研究瞭如何如何幫助肯尼亞貧困兒童驅蟲（預防和治療蛔蟲）的研究。他們發現向學生髮放驅蟲藥物的效果是最好的，而對學生進行衛生預防教育幾乎沒什麼效果。後來，Miguel和Bobonis（2006）在印度重複（replicate）了該研究，得出了類似的結論。這兩項研究讓一家名爲“Evidence Action“的慈善機構設立“爲世界兒童驅蟲項目“（Deworm the World）來將驅蟲行動進一步擴大到世界範圍。但是，另一家慈善機構，Cochrane Collaborations，調查了這一項目的效果，發佈了一份長達150頁的報告《 Cochrane Review》，報告指出，該項目沒有得到和Kremer和Miguel的研究一致（consistent）或明顯的效果。我並不是Cochrane Collaborations這家慈善機構的粉絲，也不熱衷於元分析（meta-analysis），對於驅蟲這件事也沒有特別的見解，我只是想借這件事情說明，RCT並不能消除爭議。

　　現在我不知道誰是對的，這也不是我在這裏想談論的。但是，當你考慮了一會兒以後，可能就會意識到也許這些研究和報告裏面就不存在對的。在一個地方起作用的東西可能在另一地方不起作用，特別是對於諸如驅蟲這樣複雜的事情而言，它取決於環境和衛生條件，還取決於孩子是否穿鞋，傳播程度以及所有類似的東西。也許Cochrane Collaborations Review試圖在尋找一些根本不存在的東西。我也瞭解到Michael和Ted正在對Cochrane Collaborations的分析提出質疑。

　　但這正是回到了我們開始這類研究之前的狀況。不同的研究給出了不同的結果，而沒有人能夠真正解決這些差異。我認爲這是一個非常好的例子，它表明隨着我們獲得更多結果，我們依然不會得到一個清晰的解決方案，因爲即使我們正確並精準地完成了這些實驗，有時結果也會遍地開花。RCT與大樣本統計分析之間的差異不僅僅是無偏性和有偏性的問題！

　　在我看來，RCT倡導者們曾以爲他們將解決一個我認爲無法解決的問題。沒有萬能的子彈（magic bullet）。這就是事實。應該讓這些RCT倡導者來解釋一下爲什麼他們不更多地談論60、70年代所做的研究，這應該很有趣。讓他們解釋一下爲什麼那些研究並沒有改變世界，以及爲什麼它們讓學者中失去了動力。

　　四、大規模調查數據具有廣泛有用的信息，是偉大思想的來源

　　我非常喜歡US Financial Diaries（一個關於美國家庭金融數據的研究項目）的工作，並且從中學到了很多東西。另外，我目前正在處理的美國人口普查數據（American Community Survey）。這些數據集中有2000萬個觀測值，涉及成百上千個問題。對我而言，它們比針對某一主題的一系列隨機實驗更爲有用，因爲它們具有許多廣泛有用的信息。我可以自己思考它們的代表性和隨機性，我也沒有被那種除非是RCT否則就沒價值的瘋狂想法矇蔽雙眼。

　　當然，獲得這些大規模的調查數據需要花費不少錢，但它們的成本在很大程度上取決於提出的問題以及詢問方式。如果1000個人都想添加一個問題，而如果你放開讓人們去做，它將完全失去控制。另外，還存在其他形式的成本，如官僚系統擔任低效率，以及在美國，這些調查（尤其是通過電話進行的調查）很難讓人們通電話超過20分鐘。因此，進行獲取這些大規模的數據普查成本確實存在真實的約束。不過，在印度或肯尼亞這樣的國家，進行數據普查所需要的成本會大幅下降，特別是美元在這些國家的真實匯率（按照購買力平價，ppp）往往高於名義匯率，按照真實匯率換算成美元以後，成本其實會更低。

　　儘管處理蒐集這些數據面臨這樣或那樣的限制，但這就是智慧的開始。做科學研究非常困難。如果有一臺神奇機器（magic machine），那麼我們都會變得容易得多。但並沒有。對US Financial Diaries這一類大規模數據進行深入的研究非常重要。過去100年中，社會科學中的大多數偉大的思想都是來自這類研究。

　　五、基於RCT研究進行的政策調整讓人感到不安，需要建立RCT的可移植性理論

　　我認爲政策調整是一件非常複雜的事情，通常很慢，涉及很多的政治因素。前幾天，我讀了戴維·格林伯格（David Greenberg）和馬克·史羅德（Mark Shroder）的一本書，社會實驗概要（The Digest of Social Experiments），書中寫到，他們研究的數百份1999年的社會實驗，有75%的實驗是富人對窮人所做的。從那以後，相比較於發達國家，人們在發展中國家進行了更多的實驗，因此百分比只會變得更糟。我對此感覺不是很舒服。特別是，如果RCT背後隱含着的政策變化理論是家長制（paternalism），那我將非常反對。

　　我讀過Judith Gueron 與 Howard Rolston合寫的一本書，《爲可靠性證據而奮戰》（Fighting for Reliable Evidence）。Judith Gueron是MDRC（一個美國慈善研究機構）的總裁，這本書討論了哪些研究可以成爲制定政策的可靠依據。許多經濟學家都曾在早期參與其中，但此後的參與人數卻很少，但MDRC，Abt和Mathematica等機構從那時起就繼續進行這些實驗性研究，爲了聯邦政府，州政府以及加拿大的政府做這些實驗。因此，我對它們在政策領域的運作方式感到好奇。

　　我不認爲這些實驗的結果會對學術知識產生太大影響，但我認爲那些實驗能夠解決不同政治觀點之間的爭執。當一個新的政府產生後，他們會說：“所有原來的這些政策都應該廢除”，或者，“如果我們讓人們去上班，然後再給他們福利，這將使他們自己賺錢併爲政府節約成本”之類的。在美國，此類爭論必須由國會預算辦公室（Congressional Budget Office，CBO）來承擔。CBO必須估計那些擬議的政策調整產生的財務預測是否靠譜。當里根當政時，他們根本不熱衷於進行任何實驗，但是當CBO不同意他們的估計時，他們便成爲了實驗的支持者，因爲他們相信實驗將表明他們是對的。這樣以來，這些實驗主要研究政策調整對各州和聯邦政府預算的影響。他們承擔着大量的工作，而且他們通常不關心窮人的福祉，更關心政府預算。RCT對此很有用，因爲它提供了平均成本。而在這種情況下，平均成本就是你想要了解的。它解決了爭端。

　　但是，在不瞭解其機制的情況下，該平均值通常無法在其他地方使用。MDRC從一開始就與尋找機制的問題作鬥爭，但他們從未能解決這個問題。他們認爲，通過深入研究細節，他們可以找到可以推廣或傳播的機制，而他們從未設法做到這一點。使用RCT無法做到這一點。你必須將它們與理論和觀測的數據結合起來，但這樣你也就回到了一開始的起點。

　　因此，在基於RCT進行政策調整之前，需要先建立RCT的可移植性（transportability）的理論，該理論需要回答RCT在這裏起作用，爲何也能在那裏起作用？通常，那些研究RCT的人只是假設這些數字能夠適用，而很少討論如何將這些研究結果從一個地方移植到另一個地方。

　　六、RCT運動會衰落，不會爲消除貧困提供長期解決方案

　　經濟學是一個非常開放的職業。與許多以老年人爲主導的學術領域相比，那些有好主意的年輕人受到了很多關注。儘管肯定會有諮詢公司爲特定目的進行RCT，例如事後基準評估，但我認爲[RCT運動]可能會以30年前的衰落相同的方式衰落。隨着對RCT存在的問題的更好理解，學術屆對它的興趣將消退。我不否認RCT在經濟學家工具箱中的地位將比20年前要更高，並且與其他方法論一樣，我們將對RCT在何種情況下適用有更清晰和成熟的認知。工具當然越多越好，但我不認爲其中一種工具是魔法，或者說它是我們唯一需要的工具。人們還將繼續進行RCT以及其他研究。

　　我認爲RCT不會提供任何長期解決方案。我們當然不會以這種方式消除世界貧困。我們應該更多地考慮政治而不是微觀細節研究。在這一點上，我和達隆·阿西莫格魯（Daron Acemoglu）和吉姆·羅賓遜（Jim Robinson）觀點基本相同，處在同一條船上。正如我在書中所說的那樣，援助正在使情況變得更糟，而不是更好。有可能的情況是，某時某地我們發現了一個奇妙的援助系統，這個系統能告訴我們應該如何發放援助。這可能會使當地情況變得更好，可以挽救生命，可以使人們接受教育，但不會消除世界貧困，因爲這與政治有關，與金錢無關。知識當然可以提供幫助，但同樣的，這是一個關於知識可移植性的問題。如何將其從一個地方帶到另一個地方，必須有一些理論，這需要理論、歸納和某種結構模型。它們不一定是跨期動態範式（intertemporal dynamic programs），儘管該範式在當今被認爲是發展經濟學中的主要結構。

　　我認爲，在政治方面在擺脫貧困還有很多事情要做。例如，不支持橫徵暴斂的獨裁統治。至於個體研究人員參與其中，也有其必要性，但是它必須是局部性的。由MIT或NYU的人員組成團隊在某個地方進行實驗，其結果主要在當地比較適用，不應該將其交給世界銀行以便在其他地方實施。麻省理工學院或紐約大學或其他任何地方的團隊實際上要做的是幫助人們理解那些機制。我總是舉一個例子，法國和美國人一起發現了艾滋病是一種通過性傳播的疾病，並瞭解了它是如何起作用的。這對於全世界，尤其是在東非和疫情非常嚴重的地方，是非常有用的信息。我們需要做的也是類似的事情。當學生來找我，問我：“我應該如何幫助世界窮人，我應該去孟加拉國，我應該去非洲嗎？”我說：“不，你應該去華盛頓。當然，這不是對美國窮人，而是對全世界的窮人。

　　（原標題：2015年諾貝爾經濟學獎得主安格斯·迪頓對隨機對照實驗方法的批評

所有跟帖: ( 主贴楼主有权删除不文明回复，拉黑不受欢迎的用户 )

打开微信，扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主本栏目热帖推荐：

中国经济--印钞救市、旧城改造 01/20/24
70岁美国人平均有这么多储蓄，你呢？ 08/16/23
中国高铁关键零部件仍依赖进口，被外资割韭菜 09/18/22
华尔街最准分析师：美股要跌到10月，2023年交易策略来了 09/17/22
价投大佬：为“史诗级”结局做准备，美股“超级泡沫”待破灭 09/04/22
美联储QT本周开始加速，市场要感受“缩表”寒意了 09/04/22
3.5%是不是美联储的心理关口？ 09/04/22
华尔街最大空头：预期美股年内跌至新低，表现“前所未有” 09/04/22
衰退已来：全球经济闪现大幅放缓的警告 08/24/22
Fed大幅升息，9月可能是最后一次 08/24/22
高盛首席经济学家：鲍威尔不是沃尔克，下月加息会放缓 08/24/22
德国经济对中国依赖加速，“短期赚钱太吸引人了” 08/19/22

>>>>查看更多楼主社区动态...