機(jī)器學(xué)習(xí)對于經(jīng)濟(jì)學(xué)應(yīng)用研究的適用性
作者:檢測狗 發(fā)表時(shí)間:2020-09-09 16:00:48 瀏覽次數(shù):160
-
碩博初稿查重系統(tǒng) 498.00元/篇? 語種:中文,英文,小語種? 適用:雜志社投稿,職稱論文? 簡介:碩博初稿檢測(一般習(xí)慣叫做碩博預(yù)審版),論文查重檢測上千萬篇中文文獻(xiàn),超百萬篇各類獨(dú)家文獻(xiàn),超百萬港澳臺(tái)地區(qū)學(xué)術(shù)文獻(xiàn)過千...開始檢測
-
維普查重(大學(xué)生版) 4.00元/千字? 語種:中文,英文? 適用:雜志社投稿,職稱論文? 簡介:學(xué)位論文查重,維普大學(xué)生版論文查重系統(tǒng):高校,雜志社指定系統(tǒng),可檢測期刊發(fā)表,大學(xué)生,碩博等論文。檢測報(bào)告支持PDF、網(wǎng)...開始檢測
-
本科高校內(nèi)部版系統(tǒng) 288.00元/篇? 語種:中文,英文,小語種? 適用:雜志社投稿,職稱論文? 簡介:比定稿版少大學(xué)生聯(lián)合比對庫,其他數(shù)據(jù)庫一致。出結(jié)果快,價(jià)格相對低廉,不支持驗(yàn)證,適合在修改中期使用,定稿推薦PMLC?!?..開始檢測
-
萬方論文查重系統(tǒng) 4.00元/千字? 語種:中文? 適用:雜志社投稿,職稱論文? 簡介:畢業(yè)論文查重,萬方查重系統(tǒng),涵蓋期刊、學(xué)位論文、學(xué)術(shù)成果、學(xué)術(shù)會(huì)議論文的大型網(wǎng)絡(luò)數(shù)據(jù)庫;比肩中國知網(wǎng)的學(xué)術(shù)數(shù)據(jù)庫。最多支...開始檢測
摘要:機(jī)器學(xué)習(xí)以數(shù)據(jù)、文本、圖片等現(xiàn)實(shí)經(jīng)驗(yàn)信息為研究對象,通過計(jì)算機(jī)與人工智能相結(jié)合的算法進(jìn)行深度挖掘,對經(jīng)驗(yàn)現(xiàn)實(shí)進(jìn)行建模與預(yù)測。因其對高維、復(fù)雜、大樣本數(shù)據(jù)的模型選擇和預(yù)測優(yōu)勢,應(yīng)用于經(jīng)濟(jì)學(xué)研究,尤其是微觀經(jīng)濟(jì)學(xué)、能源經(jīng)濟(jì)和金融市場領(lǐng)域。機(jī)器學(xué)習(xí)在數(shù)據(jù)發(fā)現(xiàn)與變量創(chuàng)造、預(yù)測、因果推斷、政策評估、理論檢驗(yàn)等領(lǐng)域有較好的應(yīng)用,但其在經(jīng)濟(jì)學(xué)應(yīng)用研究中的作用與局限是值得注意的問題。
關(guān)鍵詞:機(jī)器學(xué)習(xí);經(jīng)濟(jì)研究;方法論;作用與局限;
Abstract:Asafieldconcerningdata-drivenalgorithm,MachineLearningtakesrealexperienceinformationsuchasdata,text,andpicturesasresearchobjects,andperformsdeepminingthroughalgorithmscombiningcomputersandartificialintelligencetomodelandpredictempiricalreality.Duetoitsmodelselectionandpredictionadvantagesforhigh-dimensional,complexandlargesampledata,itisgeneratingnewopportunitiesforinnovativeresearchineconomics,especiallyinthefieldsofmicroeconomics,energyeconomyandfinancialmarkets.Machinelearninghasagoodapplicationinthefieldsofdatadiscoveryandvariablecreation,prediction,causalinference,policyevaluation,andtheoreticaltesting,butitsroleandlimitationsinappliedeconomicsresearcharealsonoteworthy.
Keyword:machinelearning;economicresearch;economicsmethodology;capabilitiesandlimitations;
隨著人工智能的興起,機(jī)器學(xué)習(xí)(MachineLearning)最初作為人工智能的一個(gè)分支,在各個(gè)領(lǐng)域迅速崛起,其對巨量、復(fù)雜信息的處理、預(yù)測能力和基于數(shù)據(jù)科學(xué)的各種算法體系,使其成為數(shù)字經(jīng)濟(jì)時(shí)代的創(chuàng)新驅(qū)動(dòng)力之一。互聯(lián)網(wǎng)及大數(shù)據(jù)模式下的經(jīng)濟(jì)活動(dòng)促使了更多高維、復(fù)雜經(jīng)驗(yàn)數(shù)據(jù)的產(chǎn)生,機(jī)器學(xué)習(xí)在科學(xué)研究領(lǐng)域的應(yīng)用為新范式下的經(jīng)濟(jì)研究提供了新型的研究方法,進(jìn)而促使經(jīng)濟(jì)學(xué)研究由當(dāng)前的線性、低維、有限樣本、抽象模型向非線性、高維、大樣本、復(fù)雜模型的轉(zhuǎn)向。經(jīng)濟(jì)學(xué)實(shí)證研究及計(jì)量經(jīng)濟(jì)學(xué)模型理論研究中對機(jī)器學(xué)習(xí)的應(yīng)用及相關(guān)文獻(xiàn)的出現(xiàn),是這次轉(zhuǎn)向的主要標(biāo)志。2016年美國經(jīng)濟(jì)學(xué)年會(huì)上,蘇珊·艾西(SusanAthey)1首次提出機(jī)器學(xué)習(xí)方法對經(jīng)濟(jì)研究的影響,進(jìn)一步引發(fā)了學(xué)界對機(jī)器學(xué)習(xí)的廣泛關(guān)注。應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行實(shí)證研究的英文文獻(xiàn)主要出現(xiàn)于微觀經(jīng)濟(jì)學(xué)、能源經(jīng)濟(jì)學(xué)和金融市場領(lǐng)域,隨著近兩年機(jī)器學(xué)習(xí)算法的不斷開發(fā),機(jī)器學(xué)習(xí)也開始嘗試應(yīng)用于宏觀領(lǐng)域的失業(yè)、通貨膨脹等問題。但應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行經(jīng)濟(jì)學(xué)實(shí)證研究的中文文獻(xiàn)還非常少,仍處于初始起步階段。
機(jī)器學(xué)習(xí)范式作為一種新興數(shù)據(jù)驅(qū)動(dòng)的模型體系,引起經(jīng)濟(jì)學(xué)界廣泛關(guān)注。機(jī)器學(xué)習(xí)模型體系與傳統(tǒng)的數(shù)理統(tǒng)計(jì)及計(jì)量經(jīng)濟(jì)學(xué)模型方法有何不同,其適用領(lǐng)域及在具體應(yīng)用實(shí)踐中的作用如何?本文致力于對以上問題作出回答,并嘗試從更宏觀的方法論層面來理解機(jī)器學(xué)習(xí)范式的本質(zhì)及其在經(jīng)濟(jì)研究中的作用與局限。
一、機(jī)器學(xué)習(xí)的內(nèi)涵界定
機(jī)器學(xué)習(xí)的內(nèi)涵較為廣泛,目前對機(jī)器學(xué)習(xí)的內(nèi)涵有多種界定,包括廣義的和狹義的兩方面。廣義的機(jī)器學(xué)習(xí)認(rèn)為,機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)的一些分支領(lǐng)域的集合,也是機(jī)器一系列在計(jì)算機(jī)科學(xué)、工程學(xué)、統(tǒng)計(jì)學(xué)尤其是社會(huì)科學(xué)中發(fā)展和使用。由于機(jī)器學(xué)習(xí)算法廣泛應(yīng)用于不同學(xué)科,不同領(lǐng)域或?qū)W科對機(jī)器學(xué)習(xí)的界定也不同。2狹義的機(jī)器學(xué)習(xí)則來自各個(gè)學(xué)科對機(jī)器學(xué)習(xí)的分別界定。如計(jì)算機(jī)科學(xué)認(rèn)為,機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的核心,是現(xiàn)代人工智能的本質(zhì),機(jī)器學(xué)習(xí)簡單來說就是涵蓋了統(tǒng)計(jì)推斷的人工智能。工業(yè)和工程學(xué)等領(lǐng)域認(rèn)為,機(jī)器學(xué)習(xí)是對能基于現(xiàn)有經(jīng)驗(yàn)自動(dòng)改進(jìn)計(jì)算機(jī)算法的研究[1](P1-2),這種算法對人工智能的發(fā)展具有關(guān)鍵的促進(jìn)作用。統(tǒng)計(jì)學(xué)認(rèn)為,機(jī)器學(xué)習(xí)是從數(shù)據(jù)中挖掘出有價(jià)值的信息,是更高層次、更智能化的數(shù)據(jù)挖掘方法。統(tǒng)計(jì)學(xué)對機(jī)器學(xué)習(xí)三個(gè)層次的劃分是基于計(jì)算機(jī)視覺理論創(chuàng)始人馬爾(Marr)關(guān)于計(jì)算機(jī)視覺的三級論定義的,他并將機(jī)器學(xué)習(xí)分為初級、中級和高級三個(gè)層次。[2](P19-45)初級機(jī)器學(xué)習(xí)是獲取數(shù)據(jù)和提取數(shù)據(jù)特征;中級機(jī)器學(xué)習(xí)是數(shù)據(jù)處理與分析,包括應(yīng)用問題導(dǎo)向的模型和方法的應(yīng)用,也就是數(shù)據(jù)挖掘,但機(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘更強(qiáng)調(diào)問題導(dǎo)向,重在提出和發(fā)展模型、方法及算法,并探討其背后的數(shù)學(xué)原理或理論基礎(chǔ);高級機(jī)器學(xué)習(xí)是通過統(tǒng)計(jì)推斷而達(dá)到某種智能與認(rèn)知。統(tǒng)計(jì)學(xué)認(rèn)為,機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘具有相同的本質(zhì),只是數(shù)據(jù)挖掘更偏向于數(shù)據(jù)端,而機(jī)器學(xué)習(xí)則偏向于智能端。計(jì)量經(jīng)濟(jì)學(xué)認(rèn)為,機(jī)器學(xué)習(xí)是一種應(yīng)用計(jì)量經(jīng)濟(jì)學(xué)研究方法[3],是傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)研究方法在數(shù)據(jù)處理與預(yù)測領(lǐng)域的一種進(jìn)步,是大數(shù)據(jù)背景下計(jì)量經(jīng)濟(jì)學(xué)回歸分析及預(yù)測方法的發(fā)展,機(jī)器學(xué)習(xí)基于計(jì)算機(jī)的算法,其本質(zhì)是對計(jì)量經(jīng)濟(jì)學(xué)工具箱的一種豐富。經(jīng)濟(jì)學(xué)認(rèn)為,機(jī)器學(xué)習(xí)是一個(gè)領(lǐng)域,旨在開發(fā)應(yīng)用于數(shù)據(jù)集的算法,這些算法主要集中于回歸(預(yù)測)、分類和聚類任務(wù),分為有監(jiān)督機(jī)器學(xué)習(xí)和無監(jiān)督機(jī)器學(xué)習(xí)兩類:有監(jiān)督的機(jī)器學(xué)習(xí)是在樣本數(shù)據(jù)或向量預(yù)先設(shè)定好“標(biāo)簽”(一系列的預(yù)先假定,如分類的標(biāo)準(zhǔn))的前提下,總結(jié)出樣本向量的映射關(guān)系,如正則化回歸和分類;無監(jiān)督的機(jī)器學(xué)習(xí)是在沒有對樣本數(shù)據(jù)或向量設(shè)定任何“標(biāo)簽”的情況下,從數(shù)據(jù)中識(shí)別出其內(nèi)部蘊(yùn)含關(guān)系的一種“挖掘”工作3,聚類是典型的無監(jiān)督機(jī)器學(xué)習(xí)。
從機(jī)器學(xué)習(xí)的算法出現(xiàn)及其學(xué)科應(yīng)用來看,機(jī)器學(xué)習(xí)具有計(jì)算機(jī)與人工智能的學(xué)科背景,涵蓋部分統(tǒng)計(jì)學(xué)學(xué)科內(nèi)容,研究方法具有高度兼容性,可應(yīng)用于各個(gè)領(lǐng)域、學(xué)科門類,對機(jī)器學(xué)習(xí)泛泛的廣義界定或基于某個(gè)領(lǐng)域、學(xué)科門類的狹義界定,都是不恰當(dāng)?shù)?。因此,基于對機(jī)器學(xué)習(xí)的研究對象、學(xué)科主旨、學(xué)科特點(diǎn)和方法論基礎(chǔ),我們對機(jī)器學(xué)習(xí)的內(nèi)涵作出如下界定:機(jī)器學(xué)習(xí)是旨在通過數(shù)據(jù)、文本、圖片等現(xiàn)實(shí)經(jīng)驗(yàn)信息,通過計(jì)算機(jī)算法來進(jìn)行深度挖掘,進(jìn)而對經(jīng)驗(yàn)現(xiàn)實(shí)進(jìn)行建模及預(yù)測的一門科學(xué)。機(jī)器學(xué)習(xí)強(qiáng)大的數(shù)據(jù)、文本、圖片處理功能,基于計(jì)算機(jī)和人工智能的深度挖掘功能和基于數(shù)據(jù)、文本、圖像等高度復(fù)雜經(jīng)驗(yàn)信息的模型選擇及預(yù)測功能,使其廣泛應(yīng)用于現(xiàn)實(shí)世界的各個(gè)領(lǐng)域,并與各個(gè)領(lǐng)域現(xiàn)有研究方法相結(jié)合,演化并生成了適合各個(gè)領(lǐng)域獨(dú)特研究的系列機(jī)器學(xué)習(xí)算法,并伴隨著各領(lǐng)域的發(fā)展而不斷進(jìn)化生成新的算法體系,這使得機(jī)器學(xué)習(xí)成為一門以多學(xué)科交叉共融為其首要特點(diǎn)的經(jīng)驗(yàn)科學(xué)。
從機(jī)器學(xué)習(xí)本身的學(xué)科特征看,機(jī)器學(xué)習(xí)以現(xiàn)實(shí)的經(jīng)驗(yàn)信息為研究對象,以計(jì)算機(jī)和人工智能相結(jié)合的算法為研究方法,以數(shù)據(jù)科學(xué)、人工智能為算法邏輯基礎(chǔ),以對現(xiàn)實(shí)復(fù)雜的經(jīng)驗(yàn)信息進(jìn)行系統(tǒng)化表達(dá)與準(zhǔn)確預(yù)測為學(xué)科宗旨,以多領(lǐng)域的交叉共融的高度兼容性和進(jìn)步性為學(xué)科特點(diǎn)。
從機(jī)器學(xué)習(xí)學(xué)科的方法論基礎(chǔ)看,機(jī)器學(xué)習(xí)以邏輯實(shí)證主義為其方法論基礎(chǔ),以數(shù)據(jù)導(dǎo)向的研究模式為其研究范式,以模型與經(jīng)驗(yàn)信息的一致為其模型體系的特征。
二、機(jī)器學(xué)習(xí)對于經(jīng)濟(jì)學(xué)應(yīng)用研究的適用性
(一)經(jīng)濟(jì)研究領(lǐng)域的機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)的研究方法主要包括有監(jiān)督機(jī)器學(xué)習(xí)和無監(jiān)督機(jī)器學(xué)習(xí)兩類。經(jīng)濟(jì)學(xué)研究領(lǐng)域,有監(jiān)督機(jī)器學(xué)習(xí)通常需要使用一組特征或變量(X)來預(yù)測結(jié)果(Y),具體操作就是將數(shù)據(jù)集分為訓(xùn)練集和測試集,訓(xùn)練集用來發(fā)現(xiàn)映射關(guān)系,測試集則用來檢驗(yàn)訓(xùn)練集中總結(jié)出的映射關(guān)系。訓(xùn)練集中的觀測變量是設(shè)定了“標(biāo)簽”(假定)的,通過構(gòu)造X的估計(jì)值μx(μx=E[Y|X=x])的一個(gè)估計(jì)量,在獨(dú)立數(shù)據(jù)集中估計(jì)Y的真實(shí)值,這里假定觀測是獨(dú)立的、訓(xùn)練集與測試集中的X與Y具有相同的聯(lián)合分布。有監(jiān)督的機(jī)器學(xué)習(xí)方法主要包括回歸和分類,兩者主要特點(diǎn)是,回歸算法中的“標(biāo)簽”一般是連續(xù)的值,而分類算法中的標(biāo)簽一般是離散的值?;貧w,如預(yù)測房屋價(jià)值或油價(jià),一般要根據(jù)房屋地理位置、房屋條件等標(biāo)簽或市場行情、油價(jià)歷史波動(dòng)等標(biāo)簽,這里的房屋價(jià)值或油價(jià)是連續(xù)的數(shù)值。分類,如垃圾郵件篩選,標(biāo)簽為(1,-1),分別表示垃圾郵件和非垃圾郵件,是非連續(xù)的。這里的回歸指正則化回歸,如套索估計(jì)(LASSO)、嶺回歸和彈性網(wǎng),分類包括隨機(jī)森林、回歸樹、支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)、矩陣分解等[4],有監(jiān)督機(jī)器學(xué)習(xí)還包括模型平均方法等。這里,套索估計(jì)、嶺回歸等作為高維回歸方法,已經(jīng)開始在經(jīng)濟(jì)研究中受到較大關(guān)注。
無監(jiān)督機(jī)器學(xué)習(xí)主要涉及尋找具有相似變量的觀測聚類,也可解釋為“降維”,常用于視頻、圖像或文本樣本。典型的無監(jiān)督機(jī)器學(xué)習(xí)模型是對系列觀測的一種分區(qū),分區(qū)沒有“標(biāo)簽”的監(jiān)督,只有某些聚類特征,如每個(gè)子區(qū)間中的元素在某種度量方式上具有相似特征,概率向量或權(quán)重向量也可作為聚類特征,根據(jù)概率向量和權(quán)重向量進(jìn)行分區(qū)。4無監(jiān)督機(jī)器學(xué)習(xí)將所有經(jīng)驗(yàn)信息輸入系統(tǒng)化為樣本信息,以數(shù)據(jù)驅(qū)動(dòng)的方式,在巨大的信息中識(shí)別并挖掘出有用信息,進(jìn)而創(chuàng)造出可用于經(jīng)濟(jì)分析的解釋變量或被解釋變量。經(jīng)濟(jì)學(xué)研究中常用的無監(jiān)督機(jī)器學(xué)習(xí)包括K-平均算法、主題建模、社區(qū)發(fā)現(xiàn)等。
(二)機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)、計(jì)量經(jīng)濟(jì)學(xué)
經(jīng)濟(jì)學(xué)領(lǐng)域中,機(jī)器學(xué)習(xí)的應(yīng)用常會(huì)與統(tǒng)計(jì)學(xué)、計(jì)量經(jīng)濟(jì)學(xué)相混淆,因而,首先將機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)、計(jì)量經(jīng)濟(jì)學(xué)相對照,有利于我們更好地了解機(jī)器學(xué)習(xí)及其在經(jīng)濟(jì)學(xué)研究中的獨(dú)特適用性。
作為多學(xué)科的交叉與融合,機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)在很多研究內(nèi)容上都有重合。拉瑞·瓦瑟曼(LarryWasserman)認(rèn)為:“這兩門學(xué)科(機(jī)器學(xué)習(xí)和數(shù)理統(tǒng)計(jì))關(guān)心的是同一件事,即我們能從數(shù)據(jù)中學(xué)到什么”,并指出統(tǒng)計(jì)學(xué)中的評估、分類器、數(shù)據(jù)點(diǎn)、回歸與分類、協(xié)變量、響應(yīng)理念可分別對應(yīng)于機(jī)器學(xué)習(xí)中的學(xué)習(xí)、假設(shè)、用例、有監(jiān)督學(xué)習(xí)、特征、標(biāo)記理念,認(rèn)為兩個(gè)學(xué)科的這些詞匯在含義上是等同的。[5]機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)都致力于從數(shù)據(jù)中獲取信息或規(guī)律,但是,這兩門學(xué)科的研究方法卻具有本質(zhì)的區(qū)別。首先,機(jī)器學(xué)習(xí)源于計(jì)算機(jī)科學(xué)與人工智能,它更多地關(guān)心如何構(gòu)建一個(gè)系統(tǒng)去分析數(shù)據(jù),也更注重模型的預(yù)測效果;源于數(shù)學(xué)的統(tǒng)計(jì)學(xué)是以數(shù)據(jù)為基礎(chǔ),利用數(shù)學(xué)方程式來探究變量變化規(guī)律,更注重模型的可解釋性。其次,機(jī)器學(xué)習(xí)并不必須對有關(guān)變量之間的潛在關(guān)系提出先驗(yàn)假設(shè),只需通過算法識(shí)別數(shù)據(jù)中潛在規(guī)律,并應(yīng)用規(guī)律于新數(shù)據(jù)進(jìn)行預(yù)測;統(tǒng)計(jì)學(xué)則必須了解數(shù)據(jù)的生成過程、分布規(guī)律、估計(jì)量的統(tǒng)計(jì)特征和期望參數(shù)的類型。最后,機(jī)器學(xué)習(xí)對復(fù)雜數(shù)據(jù)處理的能力,使其可適用于高維數(shù)據(jù)和復(fù)雜的高維模型,統(tǒng)計(jì)建模通常適用于相對低維的數(shù)據(jù)和低維模型。
與計(jì)量經(jīng)濟(jì)學(xué)相比,機(jī)器學(xué)習(xí)旨在產(chǎn)生準(zhǔn)確可行的預(yù)測,而計(jì)量經(jīng)濟(jì)學(xué)旨在建立可靠的因果關(guān)系。計(jì)量經(jīng)濟(jì)學(xué)的主要目的是揭示變量間的因果關(guān)系,如μx或Pr(Y=k|X=x)估計(jì)量的結(jié)構(gòu)或表達(dá),重點(diǎn)探討其他條件不變的前提下,變量X變化對Y的影響。相比之下,機(jī)器學(xué)習(xí)旨在對經(jīng)驗(yàn)數(shù)據(jù)(數(shù)據(jù))或經(jīng)驗(yàn)事實(shí)(文本、圖像)做出準(zhǔn)確的模型選擇和預(yù)測,重點(diǎn)不是估計(jì)量的結(jié)構(gòu),而是最小化預(yù)測結(jié)果與真實(shí)結(jié)果之間的偏差,實(shí)現(xiàn)更為精確的擬合與預(yù)測。
雖然機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)、計(jì)量經(jīng)濟(jì)學(xué)側(cè)重點(diǎn)不同,但這并不妨礙機(jī)器學(xué)習(xí)與其他兩個(gè)框架的協(xié)同,這種協(xié)同與互補(bǔ)使機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)的應(yīng)用研究中獨(dú)具適用性。首先,發(fā)現(xiàn)數(shù)據(jù)方面,機(jī)器學(xué)習(xí)可以發(fā)現(xiàn)數(shù)據(jù),進(jìn)而用于創(chuàng)造計(jì)量模型估計(jì)中的被解釋變量(Y)。如Athey等在研究西班牙谷歌新聞的關(guān)閉對消費(fèi)者閱讀新聞?lì)愋偷挠绊憰r(shí),將被閱讀的不同類別新聞份額設(shè)定為被解釋變量,應(yīng)用無監(jiān)督學(xué)習(xí)對新聞進(jìn)行分類,使用網(wǎng)絡(luò)理論中的社區(qū)檢測技術(shù)進(jìn)行分析。[6]其次,模型設(shè)定與選擇方面,機(jī)器學(xué)習(xí)適用于復(fù)雜、高維的大數(shù)據(jù)分析,與計(jì)量經(jīng)濟(jì)學(xué)相結(jié)合,可以構(gòu)建高維的復(fù)雜計(jì)量模型,機(jī)器學(xué)習(xí)的模型選擇方法也可用于規(guī)避不當(dāng)?shù)挠?jì)量模型設(shè)定。最后,模型估計(jì)方面,計(jì)量經(jīng)濟(jì)學(xué)模型應(yīng)用機(jī)器學(xué)習(xí)技術(shù)可以估計(jì)更逼近經(jīng)驗(yàn)現(xiàn)實(shí)的復(fù)雜模型。如可以使用機(jī)器學(xué)習(xí)方法,對超多種商品進(jìn)行分析,研究消費(fèi)者對商品組合的偏好,進(jìn)而探討幾萬種組合可能性。
(三)機(jī)器學(xué)習(xí)的優(yōu)勢與實(shí)現(xiàn)
機(jī)器學(xué)習(xí)最突出的優(yōu)勢在于對大樣本、高維度數(shù)據(jù)的處理與預(yù)測,其靈活的功能形式能夠適應(yīng)不同的數(shù)據(jù)結(jié)構(gòu),更好地預(yù)測樣本。有監(jiān)督的機(jī)器學(xué)習(xí)算法致力于獲取對Y的更好預(yù)測,如基于N個(gè)樣本的觀測特征X來預(yù)測Y,機(jī)器學(xué)習(xí)會(huì)設(shè)定損失函數(shù)L(y^,y),并在數(shù)據(jù)中找到具有較低期望預(yù)期(E(y,x)[L(y^,y)])的損失函數(shù)f^,用于樣本的預(yù)測。如一個(gè)住房調(diào)查的應(yīng)用研究顯示,套索、回歸樹、隨機(jī)森林、機(jī)器學(xué)習(xí)集成法等機(jī)器學(xué)習(xí)方法樣本內(nèi)與樣本外的預(yù)測都更優(yōu)于普通最小二乘法,在中等規(guī)模樣本和有限變量的情況下機(jī)器學(xué)習(xí)的預(yù)測仍保有優(yōu)勢。[7]
此外,機(jī)器學(xué)習(xí)的模型檢驗(yàn)范式主要采用交叉驗(yàn)證法,K折交叉驗(yàn)證法的應(yīng)用最為廣泛。交叉驗(yàn)證的基本思路是在數(shù)據(jù)量不足的情況下,通過切分給定數(shù)據(jù)集,將數(shù)據(jù)集重新組合為訓(xùn)練集與測試集,重復(fù)使用數(shù)據(jù)進(jìn)行訓(xùn)練、測試和模型選擇。交叉驗(yàn)證即使在小樣本下都顯示出良好的性能,對于大樣本,有效性就更為凸顯。
三、機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)中的應(yīng)用
(一)數(shù)據(jù)發(fā)現(xiàn)與變量創(chuàng)造
隨著網(wǎng)絡(luò)與人工智能的發(fā)展,經(jīng)濟(jì)學(xué)研究尤其是微觀經(jīng)濟(jì)學(xué)研究日趨大數(shù)據(jù)化,機(jī)器學(xué)習(xí)可以處理高維非常規(guī)數(shù)據(jù)、圖像和文本信息,進(jìn)而發(fā)現(xiàn)新數(shù)據(jù)、創(chuàng)造新變量。如機(jī)器學(xué)習(xí)對衛(wèi)星圖像的處理就提供了有意義的經(jīng)濟(jì)數(shù)據(jù),不僅可以科學(xué)探討夜間燈光度與經(jīng)濟(jì)產(chǎn)出之間的關(guān)系[8],還可以根據(jù)衛(wèi)星圖像來預(yù)估未來農(nóng)產(chǎn)品產(chǎn)出規(guī)模[9],引出了一系列關(guān)于衛(wèi)星數(shù)據(jù)的經(jīng)濟(jì)增長研究。
在缺乏相對可靠的經(jīng)濟(jì)產(chǎn)出數(shù)據(jù)的情況下,新數(shù)據(jù)顯得尤為重要,尤其是對發(fā)展中國家貧困問題的研究,機(jī)器學(xué)習(xí)提供了大量的可追蹤數(shù)據(jù)。[10]機(jī)器學(xué)習(xí)還可以通過識(shí)別文本信息來提供新數(shù)據(jù)來源。如通過識(shí)別網(wǎng)上消費(fèi)者對產(chǎn)品或服務(wù)的在線文本評價(jià)來獲得相關(guān)消費(fèi)者消費(fèi)偏好的數(shù)據(jù)信息,也可通過在線評價(jià)數(shù)據(jù)來對餐廳的受歡迎程度、衛(wèi)生達(dá)標(biāo)程度等進(jìn)行預(yù)測。[11]
機(jī)器學(xué)習(xí)還可以用來創(chuàng)造新變量,如研究西班牙谷歌新聞的關(guān)閉對消費(fèi)者閱讀新聞?lì)愋偷挠绊懀@里被閱讀的不同類別新聞?wù)急仁潜唤忉屪兞?。[6]使用無監(jiān)督機(jī)器學(xué)習(xí)創(chuàng)建變量還有一個(gè)優(yōu)點(diǎn),就是不需要解釋變量,如樣本分割法的模型設(shè)定與調(diào)整,與傳統(tǒng)的計(jì)量經(jīng)濟(jì)學(xué)基于解釋變量來調(diào)整模型設(shè)定不同,樣本分割的模型調(diào)整是基于一個(gè)樣本的,進(jìn)而會(huì)減少解釋變量與被解釋變量之間“偽回歸”問題的產(chǎn)生。
(二)預(yù)測
機(jī)器學(xué)習(xí)的宗旨是獲得準(zhǔn)確的預(yù)測。與統(tǒng)計(jì)學(xué)不同,機(jī)器學(xué)習(xí)不需對函數(shù)形式、變量間的相互作用和參數(shù)的統(tǒng)計(jì)分布來做先驗(yàn)假定,機(jī)器學(xué)習(xí)更注重的是對結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)做出準(zhǔn)確預(yù)測。這使得機(jī)器學(xué)習(xí)算法更適用于能源價(jià)格的預(yù)測。因?yàn)槟茉瓷唐穬r(jià)格具有非線性、滯后依賴、非平穩(wěn)性和波動(dòng)性聚類等復(fù)雜特性,這使得簡單的傳統(tǒng)模型預(yù)測具有挑戰(zhàn)性,機(jī)器學(xué)習(xí)方法在處理復(fù)雜的內(nèi)部動(dòng)態(tài)時(shí)具有更高的靈活性,因而具有更卓越的預(yù)測性能。支持向量機(jī)(SVM),人工神經(jīng)網(wǎng)絡(luò)(ANN)和遺傳算法(GA)是能源經(jīng)濟(jì)學(xué)研究中最常用的方法,用于預(yù)測能源商品價(jià)格、預(yù)測或模擬能源消費(fèi)及需求。為了提高預(yù)測的準(zhǔn)確性,多種機(jī)器學(xué)習(xí)算法被組合使用,如基于經(jīng)驗(yàn)?zāi)J椒纸猓‥MD)的神經(jīng)網(wǎng)絡(luò)集成學(xué)習(xí)(NNEL)方法。
機(jī)器學(xué)習(xí)與傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)方法的結(jié)合成為經(jīng)濟(jì)學(xué)應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行預(yù)測的一個(gè)趨勢,如動(dòng)態(tài)非線性自回歸模型(NARX),集合經(jīng)驗(yàn)?zāi)J椒纸饽P停‥EMD),由最小二乘支持向量機(jī)模型(LeastSquareSVM)和粒子群優(yōu)化模型(PSO)結(jié)合產(chǎn)生的LSSVM-PSO模型,廣義自回歸條件異方差模型(GARCH)等,都是機(jī)器學(xué)習(xí)與計(jì)量經(jīng)濟(jì)學(xué)模型的結(jié)合使用。此外,傳統(tǒng)的計(jì)量經(jīng)濟(jì)學(xué)時(shí)間序列向量自回歸(VAR)模型也與隨機(jī)森林相結(jié)合使用,可以克服原來VAR模型中的弱點(diǎn),提高預(yù)測能力。
此外,幾種機(jī)器學(xué)習(xí)方法混合起來使用也是一種新趨勢?;旌鲜褂脮?huì)顯著提高預(yù)測的準(zhǔn)確性,也具有更高的通用性和實(shí)用性。如螢火蟲算法(FA)與最小二乘SVR(LSSVR)混合使用形成的FA-LSSVR算法,統(tǒng)計(jì)上證實(shí)FA-LSSVR模型比其他機(jī)器學(xué)習(xí)算法單獨(dú)使用,或比現(xiàn)有傳統(tǒng)計(jì)量經(jīng)濟(jì)模型、AI模型,在預(yù)測的精確性方面更有優(yōu)勢。[12]
機(jī)器學(xué)習(xí)方法強(qiáng)大的樣本外預(yù)測能力,對異構(gòu)數(shù)據(jù)和大規(guī)模數(shù)據(jù)的處理能力,如深度學(xué)習(xí)(DL)對異構(gòu)數(shù)據(jù)的處理能力,對數(shù)據(jù)質(zhì)量的低敏感度的處理,使得機(jī)器學(xué)習(xí)在經(jīng)濟(jì)研究中具有“更好地讓數(shù)據(jù)說話”的功能。
(三)因果推斷
有監(jiān)督機(jī)器學(xué)習(xí)的模型選擇是以對測試樣本的最優(yōu)擬合為基礎(chǔ)的,其目標(biāo)是準(zhǔn)確預(yù)測。因此,機(jī)器學(xué)習(xí)用于因果推斷,需要改變原有的目標(biāo)函數(shù)。因果推斷是經(jīng)濟(jì)學(xué)應(yīng)用研究的重要方面,近兩年,機(jī)器學(xué)習(xí)也越來越多地被應(yīng)用于因果推斷。
機(jī)器學(xué)習(xí)用于因果推斷的一個(gè)方面是處理效應(yīng),包括非混淆假設(shè)下平均處理效應(yīng)的估計(jì)和處理效應(yīng)異質(zhì)性的估計(jì)。[13]正則化回歸的雙選方法是機(jī)器學(xué)習(xí)最早應(yīng)用于因果推斷的算法,用于處理存在多個(gè)協(xié)變量、結(jié)果模型“稀疏”的情況,最近雙重機(jī)器學(xué)習(xí)算法也被用來估計(jì)非混淆假設(shè)下的平均處理效應(yīng)。
因果樹(causaltrees)和因果森林(causalforests)被應(yīng)用于處理效應(yīng)異質(zhì)性的估計(jì),這里異質(zhì)性指的是觀察到的協(xié)變量的異質(zhì)性。因果樹算法應(yīng)用于經(jīng)濟(jì)學(xué)田野實(shí)驗(yàn),產(chǎn)生了關(guān)于異質(zhì)性的可信的和可解釋的結(jié)果。因果樹也與計(jì)量經(jīng)濟(jì)學(xué)方法結(jié)合使用,如與高斯混合模型(GMM模型)共同使用,用于建立GMM模型中異質(zhì)性的分類樹。因果森林本質(zhì)上是基于不同樣本的因果樹的均值,某種角度上可以被看作為一種最近鄰匹配方法,技術(shù)上是通過構(gòu)建漸進(jìn)正太性獲得用于預(yù)測的隨機(jī)森林,再將結(jié)果拓展到因果推斷。近年來,因果森林框架又拓展至模型的非參數(shù)異質(zhì)性,這里的“模型”指所有可通過GMM方法進(jìn)行參數(shù)估計(jì)的模型,這種“廣義隨機(jī)森林”[14]可以作為傳統(tǒng)方法的替代方法,如局部廣義矩方法或局部最大似然法。
機(jī)器學(xué)習(xí)還可以應(yīng)用于矩陣完成和結(jié)構(gòu)模型,進(jìn)行因果關(guān)系的探討。當(dāng)觀測數(shù)據(jù)矩陣存在缺失,如地區(qū)或時(shí)期數(shù)據(jù)缺失,機(jī)器學(xué)習(xí)方法可以使用兩個(gè)或多個(gè)低秩矩陣來逼近存在數(shù)據(jù)缺失的復(fù)雜矩陣。結(jié)構(gòu)模型中,機(jī)器學(xué)習(xí)算法可應(yīng)用于消費(fèi)者選擇領(lǐng)域中,大數(shù)據(jù)條件下的貝葉斯類模型估計(jì)。
四、機(jī)器學(xué)習(xí)在應(yīng)用中需注意的問題
為了更好地理解機(jī)器學(xué)習(xí)在經(jīng)濟(jì)研究中的地位和作用,我們將機(jī)器學(xué)習(xí)置于更宏大的框架——經(jīng)濟(jì)學(xué)方法論框架下,客觀認(rèn)識(shí)機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)研究中的方法論本質(zhì),進(jìn)而從一個(gè)更清晰的視閾來看待機(jī)器學(xué)習(xí)范式在經(jīng)濟(jì)研究中的作用與局限,以便更科學(xué)地使用機(jī)器學(xué)習(xí)研究方法。
(一)機(jī)器學(xué)習(xí)的方法論本質(zhì)
1.方法論基礎(chǔ)上,機(jī)器學(xué)習(xí)是邏輯實(shí)證主義的一種深化
機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)研究中的應(yīng)用,究其方法論實(shí)質(zhì),是與計(jì)量經(jīng)濟(jì)學(xué)同源的邏輯實(shí)證主義方法論。5邏輯實(shí)證主義認(rèn)為,源于經(jīng)驗(yàn)數(shù)據(jù)的歸納推理是知識(shí)的重要來源,知識(shí)是由數(shù)學(xué)、邏輯學(xué)思維和經(jīng)驗(yàn)觀測組成,人類對知識(shí)的認(rèn)知應(yīng)以經(jīng)驗(yàn)事實(shí)為基礎(chǔ)、運(yùn)用邏輯工具將其體系化,進(jìn)而從現(xiàn)有體系推演出新的結(jié)論,并以經(jīng)驗(yàn)觀測的方式進(jìn)行驗(yàn)證。機(jī)器學(xué)習(xí)以觀測數(shù)據(jù)、文本或圖片等經(jīng)驗(yàn)觀測信息為研究對象,以計(jì)算機(jī)和人工智能相結(jié)合的邏輯算法為研究方法,具體操作時(shí)將觀測分為訓(xùn)練集和測試集,訓(xùn)練集針對觀測進(jìn)行推理歸納,測試集針對歸納結(jié)果進(jìn)行檢驗(yàn)。從具體應(yīng)用方式及過程來看,機(jī)器學(xué)習(xí)研究范式是對邏輯實(shí)證主義的再現(xiàn)。
同時(shí),機(jī)器學(xué)習(xí)更是邏輯實(shí)證主義在人工智能和大數(shù)據(jù)時(shí)期的一種深化。首先,從研究對象來看,機(jī)器學(xué)習(xí)能夠處理更大規(guī)模、更復(fù)雜情況的經(jīng)驗(yàn)觀測,相對于計(jì)量經(jīng)濟(jì)學(xué)或數(shù)理統(tǒng)計(jì)模型方法,機(jī)器學(xué)習(xí)對經(jīng)驗(yàn)觀測的處理更具優(yōu)勢,其模型選擇更逼近經(jīng)驗(yàn)現(xiàn)實(shí);其次,從對知識(shí)認(rèn)知的體系化過程來看,機(jī)器學(xué)習(xí)也是以經(jīng)驗(yàn)事實(shí)為基礎(chǔ)并運(yùn)用邏輯工具將其體系化,但機(jī)器學(xué)習(xí)對經(jīng)驗(yàn)事實(shí)的觀測、推理和歸納,是基于計(jì)算機(jī)和人工智能的結(jié)合,是對復(fù)雜經(jīng)驗(yàn)事實(shí)(數(shù)據(jù))的推理、歸納和運(yùn)算,是數(shù)學(xué)、邏輯學(xué)思維的高度體系化。最后,機(jī)器學(xué)習(xí)采用交叉驗(yàn)證的方式,即將原始觀測分成訓(xùn)練集和測試集,將訓(xùn)練集歸納的結(jié)果在測試集進(jìn)行檢驗(yàn),多次劃分,循環(huán)驗(yàn)證,是邏輯實(shí)證主義經(jīng)驗(yàn)觀測驗(yàn)證的深化。
2.研究范式上,機(jī)器學(xué)習(xí)是數(shù)據(jù)導(dǎo)向研究范式的一種優(yōu)化
機(jī)器學(xué)習(xí)對經(jīng)驗(yàn)信息(數(shù)據(jù)、文本或圖像)的處理,是通過計(jì)算機(jī)及人工智能將經(jīng)驗(yàn)信息系統(tǒng)化為數(shù)據(jù)信息,并以數(shù)據(jù)為驅(qū)動(dòng),基于經(jīng)驗(yàn)數(shù)據(jù)的模型選擇及預(yù)測是機(jī)器學(xué)習(xí)的突出優(yōu)勢。機(jī)器學(xué)習(xí)這一特征,與計(jì)量經(jīng)濟(jì)學(xué)及數(shù)理經(jīng)濟(jì)學(xué)的研究范式一致,同屬于數(shù)據(jù)導(dǎo)向的研究范式。數(shù)據(jù)導(dǎo)向的研究范式強(qiáng)調(diào)“讓數(shù)據(jù)說話”,將數(shù)據(jù)關(guān)系作為模型設(shè)定基礎(chǔ),并根據(jù)數(shù)據(jù)關(guān)系決定其所表述的經(jīng)濟(jì)主體之間的關(guān)系。但數(shù)據(jù)僅是經(jīng)濟(jì)活動(dòng)主體之間現(xiàn)實(shí)關(guān)系的映射,是結(jié)果而非原因,只有在充分分析經(jīng)濟(jì)主體現(xiàn)實(shí)關(guān)系的基礎(chǔ)上探討數(shù)據(jù)關(guān)系,才能準(zhǔn)確地確定模型形式。因此,經(jīng)濟(jì)學(xué)研究又轉(zhuǎn)向了理論與數(shù)據(jù)綜合的關(guān)系導(dǎo)向研究范式。6
將機(jī)器學(xué)習(xí)置于經(jīng)濟(jì)學(xué)研究范式的發(fā)展歷程來看,可以較為明顯地判斷出,機(jī)器學(xué)習(xí)屬于數(shù)據(jù)導(dǎo)向的研究范式,其諸多算法在發(fā)現(xiàn)數(shù)據(jù)、創(chuàng)造變量、更好地圍繞大規(guī)模復(fù)雜數(shù)據(jù)進(jìn)行模型選擇方面的貢獻(xiàn),是對數(shù)據(jù)導(dǎo)向研究范式的一種偏向數(shù)據(jù)端的優(yōu)化。同樣,也可較明顯地發(fā)現(xiàn),機(jī)器學(xué)習(xí)研究范式體系里缺少了相應(yīng)的“理論”及“關(guān)系”部分的分析內(nèi)容。
3.模型體系上,機(jī)器學(xué)習(xí)是模型與經(jīng)驗(yàn)數(shù)據(jù)的一致
基于現(xiàn)實(shí)復(fù)雜、高維、動(dòng)態(tài)數(shù)據(jù)進(jìn)行模型選擇,在模型體系方面,機(jī)器學(xué)習(xí)的模型體系充分體現(xiàn)了模型與經(jīng)驗(yàn)數(shù)據(jù)的一致。模型方法一直是經(jīng)濟(jì)學(xué)應(yīng)用研究中的主要方法,模型體系中,經(jīng)濟(jì)模型與經(jīng)濟(jì)理論、經(jīng)驗(yàn)現(xiàn)實(shí)的“三位一體”是經(jīng)濟(jì)學(xué)模型方法科學(xué)性的重要體現(xiàn)。模型是真實(shí)世界的結(jié)構(gòu)表示,修辭學(xué)清楚地對理論模型與經(jīng)驗(yàn)?zāi)P妥鞒隽私缍?,理論模型代表理論,?jīng)驗(yàn)?zāi)P痛碚鎸?shí)世界,科學(xué)的經(jīng)濟(jì)研究模型,要求理論模型與經(jīng)驗(yàn)?zāi)P鸵恢?,?jīng)驗(yàn)?zāi)P团c數(shù)據(jù)一致,也就是理論、模型與經(jīng)驗(yàn)現(xiàn)實(shí)三者的一致。[15](P121-122)機(jī)器學(xué)習(xí)的模型體系中,數(shù)據(jù)更加大規(guī)?;?、復(fù)雜化,模型更加高維化,模型選擇取決于數(shù)據(jù)特征。因此,機(jī)器學(xué)習(xí)模型體系中,模型與數(shù)據(jù)的一致性要高于數(shù)理經(jīng)濟(jì)學(xué)和計(jì)量經(jīng)濟(jì)學(xué)中的模型方法,基本實(shí)現(xiàn)了模型與經(jīng)驗(yàn)數(shù)據(jù)的一致。但這里也存在一個(gè)較為明顯的方面,科學(xué)的經(jīng)濟(jì)學(xué)模型體系要求模型與經(jīng)濟(jì)理論、經(jīng)驗(yàn)現(xiàn)實(shí)的“三位一體”,機(jī)器學(xué)習(xí)模型體系中缺少了經(jīng)濟(jì)理論這一部分。
(二)機(jī)器學(xué)習(xí)的作用與局限
從機(jī)器學(xué)習(xí)方法論的本質(zhì)可見,機(jī)器學(xué)習(xí)模型最大的優(yōu)勢體現(xiàn)在強(qiáng)大的數(shù)據(jù)端功能上,可以更好地“讓數(shù)據(jù)說話”,可以基于對更大規(guī)模、更復(fù)雜的數(shù)據(jù)建立更貼近經(jīng)驗(yàn)現(xiàn)實(shí)的模型體系,更好地發(fā)揮經(jīng)驗(yàn)數(shù)據(jù)的映射作用。經(jīng)濟(jì)模型是經(jīng)濟(jì)活動(dòng)經(jīng)驗(yàn)現(xiàn)實(shí)的似真與近律,數(shù)理統(tǒng)計(jì)模型和計(jì)量經(jīng)濟(jì)學(xué)模型基于經(jīng)驗(yàn)數(shù)據(jù)的建模過程中,從可能機(jī)制到經(jīng)驗(yàn)?zāi)P屯茖?dǎo)的過程并不正式、經(jīng)驗(yàn)?zāi)P团c經(jīng)驗(yàn)數(shù)據(jù)生成過程也并不嚴(yán)格一致,模型方法存在著方法論上固有的非精確性。[16]傳統(tǒng)的數(shù)理統(tǒng)計(jì)模型和計(jì)量經(jīng)濟(jì)學(xué)模型對復(fù)雜數(shù)據(jù)的處理能力相對較低,使其模型與經(jīng)驗(yàn)現(xiàn)實(shí)的似真程度也就相對較低。機(jī)器學(xué)習(xí)則在這方面獨(dú)具優(yōu)勢,進(jìn)而模型體系在經(jīng)濟(jì)研究中能更好地逼近經(jīng)驗(yàn)現(xiàn)實(shí)。
機(jī)器學(xué)習(xí)在方法論本質(zhì)上的優(yōu)勢,同時(shí)也是其方法論層面固有的局限。從方法論基礎(chǔ)來看,邏輯實(shí)證主義的顯著特征體現(xiàn)在重視觀測和證實(shí),但反對因果、不重視解釋。[17](P139-150)對經(jīng)驗(yàn)數(shù)據(jù)的重視和復(fù)雜觀測的處理能力是機(jī)器學(xué)習(xí)毋庸置疑的優(yōu)勢,但邏輯實(shí)證主義的不足在機(jī)器學(xué)習(xí)范式上也體現(xiàn)得較為明顯:首先,先驗(yàn)假設(shè)方面,機(jī)器學(xué)習(xí)沒有像統(tǒng)計(jì)學(xué)或計(jì)量經(jīng)濟(jì)學(xué)那樣重視假設(shè),導(dǎo)致對數(shù)據(jù)生成過程方面的探討不夠充分,雖然決策樹之類的算法能夠識(shí)別每個(gè)特征的影響以及特征之間的線性和非線性關(guān)系,但還有一些機(jī)器學(xué)習(xí)方法,如人工神經(jīng)網(wǎng)絡(luò)(ANN)和支持向量機(jī)(SVM),仍是“黑盒子”范式,與更透明的線性回歸模型相比,其結(jié)果的獲得過程更難以理解。其次,因果關(guān)系方面,因果關(guān)系不是機(jī)器學(xué)習(xí)探討的重點(diǎn),這也是其與計(jì)量經(jīng)濟(jì)學(xué)較明顯的差異。最后,模型可解釋性方面,機(jī)器學(xué)習(xí)不重視模型可解釋性,這是其與統(tǒng)計(jì)學(xué)較大的差異。
從研究范式和模型體系來看,機(jī)器學(xué)習(xí)的研究范式和模型體系中都缺少了經(jīng)濟(jì)研究中的核心內(nèi)容:經(jīng)濟(jì)理論。對于經(jīng)濟(jì)研究而言,理論的高度決定了研究的高度。數(shù)理模型或計(jì)量模型對經(jīng)濟(jì)理論的探討主要通過基于經(jīng)濟(jì)理論的先驗(yàn)假定、理論模型設(shè)定和因果影響(參數(shù))的估計(jì)來實(shí)現(xiàn)的。機(jī)器學(xué)習(xí)通過開發(fā)新算法和與傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)方法相結(jié)合,來探討因果推斷問題,但機(jī)器學(xué)習(xí)對因果推斷的探討偏重于算法的創(chuàng)新,因果關(guān)系或結(jié)構(gòu)關(guān)系的研究還未成為機(jī)器學(xué)習(xí)范式的主要內(nèi)容。同時(shí),機(jī)器學(xué)習(xí)仍偏重于數(shù)據(jù)驅(qū)動(dòng)環(huán)節(jié),其模型體系暫時(shí)還未實(shí)現(xiàn)經(jīng)驗(yàn)數(shù)據(jù)、模型與經(jīng)濟(jì)理論的“三位一體”。對于經(jīng)濟(jì)學(xué)應(yīng)用研究,需要明確的是,無論在研究的方法論層面還是具體實(shí)踐層面,思想相比于工具都是更重要的。
因此,在應(yīng)用機(jī)器學(xué)習(xí)研究范式之前要先確定研究的目的是什么,是預(yù)測、解釋還是因果關(guān)系,如果是后兩者,則在使用機(jī)器學(xué)習(xí)范式的同時(shí),更應(yīng)致力于了解經(jīng)濟(jì)活動(dòng)背后的可能理論體系,了解數(shù)據(jù)所映射的經(jīng)濟(jì)現(xiàn)實(shí)中真實(shí)經(jīng)濟(jì)主體之間的關(guān)系,使機(jī)器學(xué)習(xí)范式在更好的發(fā)揮“數(shù)據(jù)端”作用的同時(shí),進(jìn)一步提升機(jī)器學(xué)習(xí)研究范式的科學(xué)性。
(三)應(yīng)用中的一些具體問題
在理解機(jī)器學(xué)習(xí)范式的方法論本質(zhì),進(jìn)而明了其在經(jīng)濟(jì)研究中的作用與局限的基礎(chǔ)上,具體應(yīng)用時(shí),還應(yīng)注意一些細(xì)節(jié)問題,了解機(jī)器學(xué)習(xí)算法的優(yōu)缺點(diǎn),以便正確地使用機(jī)器學(xué)習(xí)范式,確保其研究結(jié)果的科學(xué)性與可信性。
關(guān)于機(jī)器學(xué)習(xí)范式中經(jīng)濟(jì)理論的缺位,機(jī)器學(xué)習(xí)模型體系缺少經(jīng)濟(jì)理論的指導(dǎo)和先驗(yàn)假定的約束。經(jīng)濟(jì)思想的探討是經(jīng)濟(jì)研究的核心,數(shù)量經(jīng)濟(jì)研究的主旨之一是通過數(shù)量的精確性來解釋、闡述和證明理論及思想的正確性,從這一角度來說,機(jī)器學(xué)習(xí)范式是一種工具,一種說明、闡釋和證偽的工具。因此,在應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行經(jīng)濟(jì)研究時(shí),不能舍本逐末,只專注于算法的創(chuàng)新而忽視研究要展示的主題和思想。理論的高度決定研究的高度,講清楚問題與機(jī)制也需要有經(jīng)濟(jì)理論,因此,使用機(jī)器學(xué)習(xí)算法,應(yīng)注重理論與實(shí)證的結(jié)合。
關(guān)于機(jī)器學(xué)習(xí)結(jié)果的精確性,幾乎所有的機(jī)器學(xué)習(xí)或深度學(xué)習(xí)都存在一定程度的誤判率,誤判率幾乎是無法消除的,只能在使用過程中盡可能地正確使用每種方法,將誤判率降到最低;傳統(tǒng)機(jī)器學(xué)習(xí)中回歸、分類這些算法里都有一個(gè)要把獲取到的數(shù)據(jù)集分成訓(xùn)練集和測試集的過程。用訓(xùn)練集數(shù)據(jù)來做訓(xùn)練、歸納關(guān)系,用測試集數(shù)據(jù)來做驗(yàn)證、避免過度擬合,訓(xùn)練集與測試集的樣本量劃分,通常會(huì)按總樣本量的8∶2或7∶3進(jìn)行劃分,沒有確定的標(biāo)準(zhǔn),劃分上主觀性較強(qiáng),一定程度上可能會(huì)影響機(jī)器學(xué)習(xí)結(jié)果的精確性。
關(guān)于機(jī)器學(xué)習(xí)模型的可解釋性,在具體應(yīng)用時(shí)常會(huì)在模型的可解釋性和過度擬合的風(fēng)險(xiǎn)之間進(jìn)行權(quán)衡,當(dāng)模型包含變量相對樣本大小過多時(shí)就會(huì)有過度擬合問題。[3]存在過度擬合問題時(shí),選用模型在訓(xùn)練集的擬合良好程度會(huì)明顯優(yōu)于其在獨(dú)立測試集的擬合表現(xiàn)。具體應(yīng)用時(shí)可以使用交叉驗(yàn)證方法來避免過度擬合問題,或通過最小化均方誤差來確定模型的復(fù)雜程度,或是對多種不同模型取平均,有時(shí)是對每個(gè)子樣本進(jìn)行估計(jì)(如隨機(jī)森林)。
關(guān)于機(jī)器學(xué)習(xí)的穩(wěn)健性,機(jī)器學(xué)習(xí)算法專注于非線性和動(dòng)態(tài)特性,這也使得它們在模型設(shè)定和訓(xùn)練集估計(jì)方面不那么穩(wěn)健。因此具體應(yīng)用中,在設(shè)置和校準(zhǔn)機(jī)器學(xué)習(xí)算法時(shí)需要特別注意這個(gè)問題,因?yàn)閿?shù)據(jù)集中的任一微小變化可能會(huì)導(dǎo)致不同的結(jié)果。由于此屬性,建議應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行模型設(shè)定和模型選擇時(shí),進(jìn)行多種模型設(shè)定檢驗(yàn)和穩(wěn)健性檢驗(yàn),使用驗(yàn)證數(shù)據(jù)集校準(zhǔn)模型,并且只有在校準(zhǔn)模型后,才使用測試數(shù)據(jù)集對其進(jìn)行評估。
關(guān)于機(jī)器學(xué)習(xí)的樣本要求,機(jī)器學(xué)習(xí)算法通常需要大樣本對大量觀察進(jìn)行適當(dāng)?shù)赜?xùn)練和測試,尤其是復(fù)雜模型。對樣本的要求,也是在宏觀經(jīng)濟(jì)學(xué)等領(lǐng)域應(yīng)用機(jī)器學(xué)習(xí)的一個(gè)主要限制,宏觀經(jīng)濟(jì)領(lǐng)域的觀測數(shù)量相對有限,通常是50到100個(gè)觀測的樣本量。機(jī)器學(xué)習(xí)需要充分的數(shù)據(jù)來對數(shù)據(jù)分布特征進(jìn)行正確地表示,不過當(dāng)數(shù)據(jù)相對不足時(shí),幾種機(jī)器學(xué)習(xí)方法的混合使用,可以一定程度上降低數(shù)據(jù)缺乏引發(fā)的模型選擇風(fēng)險(xiǎn)。[18]此外,還應(yīng)將經(jīng)濟(jì)理論作為模型變量的選擇指南,尤其是宏觀經(jīng)濟(jì)領(lǐng)域的研究,如通貨膨脹、失業(yè)等問題及數(shù)據(jù)頻率不高時(shí)的能源消費(fèi)問題的研究,在模型選擇時(shí)更應(yīng)注重經(jīng)濟(jì)理論。
關(guān)于機(jī)器學(xué)習(xí)在經(jīng)濟(jì)研究應(yīng)用中的趨勢,機(jī)器學(xué)習(xí)方法與計(jì)量經(jīng)濟(jì)學(xué)模型方法、數(shù)理統(tǒng)計(jì)學(xué)模型方法雖然源自不同分支,但三者之間的差距正在不斷縮小,呈現(xiàn)出顯著的相互學(xué)習(xí)和借鑒的趨勢,機(jī)器學(xué)習(xí)方法正與傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)方法相結(jié)合,互相補(bǔ)充,應(yīng)用于經(jīng)濟(jì)學(xué)應(yīng)用研究。大數(shù)據(jù)及人工智能提供了前所未有的數(shù)據(jù)量和不斷創(chuàng)新的研究方法,隨著數(shù)據(jù)科學(xué)的發(fā)展,未來三者之間的聯(lián)系將會(huì)更加緊密,甚至逐漸通過互補(bǔ)而趨同。同時(shí),由于機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)應(yīng)用研究中的進(jìn)一步使用,經(jīng)濟(jì)學(xué)研究內(nèi)容上也將更具包容性,更趨向于跨學(xué)科或多學(xué)科交叉研究。
參考文獻(xiàn)
[1]MitchellT.MachineLearning[M].NewYork:McGrawHillHigherEducation,1997.
[2]Marr,D.Vision:AComputationalApproach[M].SanFrancisco:Freeman&Co,1982.
[3]SendhilMullainathanandJannSpiess.MachineLearning:AnAppliedEconometricApproach[J].JournalofEconomicPerspectives,2017(2).
[4]H.R.Varian.BigData:NewTricksforEconometrics[J].TheJournalofEconomicPerspectives,2014(2).
[5]LarryWasserman.ThoughtsonStatisticsandMachineLearning[EB/OL].https://normaldeviate.wordpress.com/,2013-12-16.
[6]SAthey,MMMobiusandJPal.TheImpactofAggregatorsonInternetNewsConsumption[EB/OL].https://www.gsb.stanford.edu/gsb-cmis/gsb-cmis-download-auth/406636,2017-10-31.
[7]Ludwig,Jens,SendhilMullainathanandJannSpiess.MachineLearningTestsforEffectsonMultipleOutcomes[EB/OL].https://ui.adsabs.harvard.edu/abs/2017arXiv170701473L/abstract,2017-07-10.
[8]Henderson,JVernon,AdamStoreygardandDavidNWeil.MeasuringEconomicGrowthfromOuterSpace[J].AmericanEconomicReview,2012(2).
[9]Lobell,DavidB.TheUseofSatelliteDataforCropYieldGapAnalysis[J].FieldCropsResearch,2013(143).
[10]Jean,Neal,MarshallBurke,MichaelXie,WMatthewDavis,DavidBLobellandStefanoErmon.CombiningSatelliteImageryandMachineLearningtoPredictPoverty[J].Science,2016(353).
[11]Kang,JunSeok,PolinaKuznetsova,MichaelLuca,andYejinChoi.WhereNottoEat?ImprovingPublicPolicybyPredictingHygieneInspectionsUsingOnlineReviews[EB/OL].https://www.aclweb.org/anthology/D13-1150,2013-10-10.
[12]Tang,L,Wang,Z,Li,X,Yu,L,Zhang,G.ANovelHybridFA-BasedLSSVRLearningParadigmforHydropowerConsumptionForecasting[J].JournalofSystemsScience&Complexity,2015(5).
[13]SAtheyandGWImbens.TheStateofAppliedEconometrics:CausalityandPolicyEvaluation[J].TheJournalofEconomicPerspectives,2017(2).
[14]SAthey,JTibshirani,andSWager.GeneralizedRandomForests[EB/OL].https://ui.adsabs.harvard.edu/abs/2016arXiv161001271A/abstract,2018-05-10.
[15]劉麗艷.計(jì)量經(jīng)濟(jì)學(xué)方法論研究[M].北京:人民出版社,2014.
[16]劉麗艷.計(jì)量經(jīng)濟(jì)學(xué)精確性研究[J].財(cái)經(jīng)問題研究,2014(8).
[17]Hacking,I.LogicofStatisticalInference[M].Cambridge:CambridgeUniversityPress,1965.
[18]Dietterich,TG..EnsembleMethodsinMachineLearning[EB/OL].https://link.springer.com/chapter/10.1007/3-540-45014-9_1,2000-12-01.
注釋
1蘇珊·艾西(SusanAthey),斯坦福大學(xué)經(jīng)濟(jì)學(xué)院教授,第一位獲得克拉克獎(jiǎng)的女性經(jīng)濟(jì)學(xué)家,機(jī)器學(xué)習(xí)應(yīng)用研究領(lǐng)域的重要學(xué)者。
2蘇珊·艾西認(rèn)為,對于機(jī)器學(xué)習(xí)的探討涉及很多領(lǐng)域和方面,人們可以寫一整篇文章來探討機(jī)器學(xué)習(xí)的概念;認(rèn)為機(jī)器學(xué)習(xí)和和人工智能之間也有非常多的重合領(lǐng)域,是否涵蓋統(tǒng)計(jì)學(xué)內(nèi)容是二者的重要的區(qū)別。具體請參閱:SusanAthey.TheEconomicsofArtificialIntelligence:AnAgenda.Chicago:UniversityofChicagoPress,2019,pp.510.
3(1)過程中除了設(shè)置一些必要的“超參數(shù)”(Hyper-parameter)以外,不對樣本做任何映射關(guān)系標(biāo)記甚或過程干預(yù)。
4(1)也并不是所有的降維都涉及聚類,比較傳統(tǒng)的如主成分分析方法也可以用來降維,較新的方法包括矩陣分解(用兩個(gè)低維矩陣去近似一個(gè)更大的矩陣),矩陣范數(shù)正則化,分層泊松分解和神經(jīng)網(wǎng)絡(luò)等。
5(1)機(jī)器學(xué)習(xí)的方法論基礎(chǔ),本質(zhì)上是與數(shù)理統(tǒng)計(jì)、計(jì)量經(jīng)濟(jì)學(xué)同源的,數(shù)理統(tǒng)計(jì)和計(jì)量經(jīng)濟(jì)學(xué)也是產(chǎn)生于邏輯實(shí)證主義的方法論基礎(chǔ)。
6(1)關(guān)系論導(dǎo)向研究范式強(qiáng)調(diào)理論與數(shù)據(jù)的結(jié)合,強(qiáng)調(diào)應(yīng)以現(xiàn)實(shí)中經(jīng)濟(jì)主體之間的關(guān)系為導(dǎo)向進(jìn)行模型設(shè)定。具體請參見馮燮剛、李子奈:《經(jīng)濟(jì)學(xué)的關(guān)系論轉(zhuǎn)向》,《經(jīng)濟(jì)學(xué)動(dòng)態(tài)》2006年第7期。
本站聲明:網(wǎng)站內(nèi)容來源于網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系我們,我們將及時(shí)刪除處理。
