機(jī)器學(xué)習(xí)對于經(jīng)濟(jì)學(xué)應(yīng)用研究的適用性

作者：檢測狗發(fā)表時(shí)間：2020-09-09 16:00:48 瀏覽次數(shù)：160

碩博初稿查重系統(tǒng) 498.00元/篇

? 語種：中文,英文,小語種? 適用：雜志社投稿，職稱論文? 簡介：碩博初稿檢測（一般習(xí)慣叫做碩博預(yù)審版），論文查重檢測上千萬篇中文文獻(xiàn)，超百萬篇各類獨(dú)家文獻(xiàn)，超百萬港澳臺(tái)地區(qū)學(xué)術(shù)文獻(xiàn)過千...
開始檢測
維普查重(大學(xué)生版） 4.00元/千字

? 語種：中文,英文? 適用：雜志社投稿，職稱論文? 簡介：學(xué)位論文查重,維普大學(xué)生版論文查重系統(tǒng)：高校，雜志社指定系統(tǒng)，可檢測期刊發(fā)表，大學(xué)生，碩博等論文。檢測報(bào)告支持PDF、網(wǎng)...
開始檢測
本科高校內(nèi)部版系統(tǒng) 288.00元/篇

? 語種：中文,英文,小語種? 適用：雜志社投稿，職稱論文? 簡介：比定稿版少大學(xué)生聯(lián)合比對庫，其他數(shù)據(jù)庫一致。出結(jié)果快，價(jià)格相對低廉，不支持驗(yàn)證，適合在修改中期使用，定稿推薦PMLC?！?..
開始檢測
萬方論文查重系統(tǒng) 4.00元/千字

? 語種：中文? 適用：雜志社投稿，職稱論文? 簡介：畢業(yè)論文查重,萬方查重系統(tǒng)，涵蓋期刊、學(xué)位論文、學(xué)術(shù)成果、學(xué)術(shù)會(huì)議論文的大型網(wǎng)絡(luò)數(shù)據(jù)庫；比肩中國知網(wǎng)的學(xué)術(shù)數(shù)據(jù)庫。最多支...
開始檢測

摘要：機(jī)器學(xué)習(xí)以數(shù)據(jù)、文本、圖片等現(xiàn)實(shí)經(jīng)驗(yàn)信息為研究對象，通過計(jì)算機(jī)與人工智能相結(jié)合的算法進(jìn)行深度挖掘，對經(jīng)驗(yàn)現(xiàn)實(shí)進(jìn)行建模與預(yù)測。因其對高維、復(fù)雜、大樣本數(shù)據(jù)的模型選擇和預(yù)測優(yōu)勢，應(yīng)用于經(jīng)濟(jì)學(xué)研究，尤其是微觀經(jīng)濟(jì)學(xué)、能源經(jīng)濟(jì)和金融市場領(lǐng)域。機(jī)器學(xué)習(xí)在數(shù)據(jù)發(fā)現(xiàn)與變量創(chuàng)造、預(yù)測、因果推斷、政策評估、理論檢驗(yàn)等領(lǐng)域有較好的應(yīng)用，但其在經(jīng)濟(jì)學(xué)應(yīng)用研究中的作用與局限是值得注意的問題。

關(guān)鍵詞：機(jī)器學(xué)習(xí);經(jīng)濟(jì)研究;方法論;作用與局限;

Abstract：Asafieldconcerningdata-drivenalgorithm,MachineLearningtakesrealexperienceinformationsuchasdata,text,andpicturesasresearchobjects,andperformsdeepminingthroughalgorithmscombiningcomputersandartificialintelligencetomodelandpredictempiricalreality.Duetoitsmodelselectionandpredictionadvantagesforhigh-dimensional,complexandlargesampledata,itisgeneratingnewopportunitiesforinnovativeresearchineconomics,especiallyinthefieldsofmicroeconomics,energyeconomyandfinancialmarkets.Machinelearninghasagoodapplicationinthefieldsofdatadiscoveryandvariablecreation,prediction,causalinference,policyevaluation,andtheoreticaltesting,butitsroleandlimitationsinappliedeconomicsresearcharealsonoteworthy.

Keyword：machinelearning;economicresearch;economicsmethodology;capabilitiesandlimitations;

隨著人工智能的興起，機(jī)器學(xué)習(xí)（MachineLearning）最初作為人工智能的一個(gè)分支，在各個(gè)領(lǐng)域迅速崛起，其對巨量、復(fù)雜信息的處理、預(yù)測能力和基于數(shù)據(jù)科學(xué)的各種算法體系，使其成為數(shù)字經(jīng)濟(jì)時(shí)代的創(chuàng)新驅(qū)動(dòng)力之一。互聯(lián)網(wǎng)及大數(shù)據(jù)模式下的經(jīng)濟(jì)活動(dòng)促使了更多高維、復(fù)雜經(jīng)驗(yàn)數(shù)據(jù)的產(chǎn)生，機(jī)器學(xué)習(xí)在科學(xué)研究領(lǐng)域的應(yīng)用為新范式下的經(jīng)濟(jì)研究提供了新型的研究方法，進(jìn)而促使經(jīng)濟(jì)學(xué)研究由當(dāng)前的線性、低維、有限樣本、抽象模型向非線性、高維、大樣本、復(fù)雜模型的轉(zhuǎn)向。經(jīng)濟(jì)學(xué)實(shí)證研究及計(jì)量經(jīng)濟(jì)學(xué)模型理論研究中對機(jī)器學(xué)習(xí)的應(yīng)用及相關(guān)文獻(xiàn)的出現(xiàn)，是這次轉(zhuǎn)向的主要標(biāo)志。2016年美國經(jīng)濟(jì)學(xué)年會(huì)上，蘇珊·艾西（SusanAthey)1首次提出機(jī)器學(xué)習(xí)方法對經(jīng)濟(jì)研究的影響，進(jìn)一步引發(fā)了學(xué)界對機(jī)器學(xué)習(xí)的廣泛關(guān)注。應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行實(shí)證研究的英文文獻(xiàn)主要出現(xiàn)于微觀經(jīng)濟(jì)學(xué)、能源經(jīng)濟(jì)學(xué)和金融市場領(lǐng)域，隨著近兩年機(jī)器學(xué)習(xí)算法的不斷開發(fā)，機(jī)器學(xué)習(xí)也開始嘗試應(yīng)用于宏觀領(lǐng)域的失業(yè)、通貨膨脹等問題。但應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行經(jīng)濟(jì)學(xué)實(shí)證研究的中文文獻(xiàn)還非常少，仍處于初始起步階段。

機(jī)器學(xué)習(xí)范式作為一種新興數(shù)據(jù)驅(qū)動(dòng)的模型體系，引起經(jīng)濟(jì)學(xué)界廣泛關(guān)注。機(jī)器學(xué)習(xí)模型體系與傳統(tǒng)的數(shù)理統(tǒng)計(jì)及計(jì)量經(jīng)濟(jì)學(xué)模型方法有何不同，其適用領(lǐng)域及在具體應(yīng)用實(shí)踐中的作用如何？本文致力于對以上問題作出回答，并嘗試從更宏觀的方法論層面來理解機(jī)器學(xué)習(xí)范式的本質(zhì)及其在經(jīng)濟(jì)研究中的作用與局限。

一、機(jī)器學(xué)習(xí)的內(nèi)涵界定

機(jī)器學(xué)習(xí)的內(nèi)涵較為廣泛，目前對機(jī)器學(xué)習(xí)的內(nèi)涵有多種界定，包括廣義的和狹義的兩方面。廣義的機(jī)器學(xué)習(xí)認(rèn)為，機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)的一些分支領(lǐng)域的集合，也是機(jī)器一系列在計(jì)算機(jī)科學(xué)、工程學(xué)、統(tǒng)計(jì)學(xué)尤其是社會(huì)科學(xué)中發(fā)展和使用。由于機(jī)器學(xué)習(xí)算法廣泛應(yīng)用于不同學(xué)科，不同領(lǐng)域或?qū)W科對機(jī)器學(xué)習(xí)的界定也不同。2狹義的機(jī)器學(xué)習(xí)則來自各個(gè)學(xué)科對機(jī)器學(xué)習(xí)的分別界定。如計(jì)算機(jī)科學(xué)認(rèn)為，機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的核心，是現(xiàn)代人工智能的本質(zhì)，機(jī)器學(xué)習(xí)簡單來說就是涵蓋了統(tǒng)計(jì)推斷的人工智能。工業(yè)和工程學(xué)等領(lǐng)域認(rèn)為，機(jī)器學(xué)習(xí)是對能基于現(xiàn)有經(jīng)驗(yàn)自動(dòng)改進(jìn)計(jì)算機(jī)算法的研究[1](P1-2），這種算法對人工智能的發(fā)展具有關(guān)鍵的促進(jìn)作用。統(tǒng)計(jì)學(xué)認(rèn)為，機(jī)器學(xué)習(xí)是從數(shù)據(jù)中挖掘出有價(jià)值的信息，是更高層次、更智能化的數(shù)據(jù)挖掘方法。統(tǒng)計(jì)學(xué)對機(jī)器學(xué)習(xí)三個(gè)層次的劃分是基于計(jì)算機(jī)視覺理論創(chuàng)始人馬爾（Marr）關(guān)于計(jì)算機(jī)視覺的三級論定義的，他并將機(jī)器學(xué)習(xí)分為初級、中級和高級三個(gè)層次。[2](P19-45）初級機(jī)器學(xué)習(xí)是獲取數(shù)據(jù)和提取數(shù)據(jù)特征；中級機(jī)器學(xué)習(xí)是數(shù)據(jù)處理與分析，包括應(yīng)用問題導(dǎo)向的模型和方法的應(yīng)用，也就是數(shù)據(jù)挖掘，但機(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘更強(qiáng)調(diào)問題導(dǎo)向，重在提出和發(fā)展模型、方法及算法，并探討其背后的數(shù)學(xué)原理或理論基礎(chǔ)；高級機(jī)器學(xué)習(xí)是通過統(tǒng)計(jì)推斷而達(dá)到某種智能與認(rèn)知。統(tǒng)計(jì)學(xué)認(rèn)為，機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘具有相同的本質(zhì)，只是數(shù)據(jù)挖掘更偏向于數(shù)據(jù)端，而機(jī)器學(xué)習(xí)則偏向于智能端。計(jì)量經(jīng)濟(jì)學(xué)認(rèn)為，機(jī)器學(xué)習(xí)是一種應(yīng)用計(jì)量經(jīng)濟(jì)學(xué)研究方法[3]，是傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)研究方法在數(shù)據(jù)處理與預(yù)測領(lǐng)域的一種進(jìn)步，是大數(shù)據(jù)背景下計(jì)量經(jīng)濟(jì)學(xué)回歸分析及預(yù)測方法的發(fā)展，機(jī)器學(xué)習(xí)基于計(jì)算機(jī)的算法，其本質(zhì)是對計(jì)量經(jīng)濟(jì)學(xué)工具箱的一種豐富。經(jīng)濟(jì)學(xué)認(rèn)為，機(jī)器學(xué)習(xí)是一個(gè)領(lǐng)域，旨在開發(fā)應(yīng)用于數(shù)據(jù)集的算法，這些算法主要集中于回歸（預(yù)測）、分類和聚類任務(wù)，分為有監(jiān)督機(jī)器學(xué)習(xí)和無監(jiān)督機(jī)器學(xué)習(xí)兩類：有監(jiān)督的機(jī)器學(xué)習(xí)是在樣本數(shù)據(jù)或向量預(yù)先設(shè)定好“標(biāo)簽”（一系列的預(yù)先假定，如分類的標(biāo)準(zhǔn)）的前提下，總結(jié)出樣本向量的映射關(guān)系，如正則化回歸和分類；無監(jiān)督的機(jī)器學(xué)習(xí)是在沒有對樣本數(shù)據(jù)或向量設(shè)定任何“標(biāo)簽”的情況下，從數(shù)據(jù)中識(shí)別出其內(nèi)部蘊(yùn)含關(guān)系的一種“挖掘”工作3，聚類是典型的無監(jiān)督機(jī)器學(xué)習(xí)。

從機(jī)器學(xué)習(xí)的算法出現(xiàn)及其學(xué)科應(yīng)用來看，機(jī)器學(xué)習(xí)具有計(jì)算機(jī)與人工智能的學(xué)科背景，涵蓋部分統(tǒng)計(jì)學(xué)學(xué)科內(nèi)容，研究方法具有高度兼容性，可應(yīng)用于各個(gè)領(lǐng)域、學(xué)科門類，對機(jī)器學(xué)習(xí)泛泛的廣義界定或基于某個(gè)領(lǐng)域、學(xué)科門類的狹義界定，都是不恰當(dāng)?shù)?。因此，基于對機(jī)器學(xué)習(xí)的研究對象、學(xué)科主旨、學(xué)科特點(diǎn)和方法論基礎(chǔ)，我們對機(jī)器學(xué)習(xí)的內(nèi)涵作出如下界定：機(jī)器學(xué)習(xí)是旨在通過數(shù)據(jù)、文本、圖片等現(xiàn)實(shí)經(jīng)驗(yàn)信息，通過計(jì)算機(jī)算法來進(jìn)行深度挖掘，進(jìn)而對經(jīng)驗(yàn)現(xiàn)實(shí)進(jìn)行建模及預(yù)測的一門科學(xué)。機(jī)器學(xué)習(xí)強(qiáng)大的數(shù)據(jù)、文本、圖片處理功能，基于計(jì)算機(jī)和人工智能的深度挖掘功能和基于數(shù)據(jù)、文本、圖像等高度復(fù)雜經(jīng)驗(yàn)信息的模型選擇及預(yù)測功能，使其廣泛應(yīng)用于現(xiàn)實(shí)世界的各個(gè)領(lǐng)域，并與各個(gè)領(lǐng)域現(xiàn)有研究方法相結(jié)合，演化并生成了適合各個(gè)領(lǐng)域獨(dú)特研究的系列機(jī)器學(xué)習(xí)算法，并伴隨著各領(lǐng)域的發(fā)展而不斷進(jìn)化生成新的算法體系，這使得機(jī)器學(xué)習(xí)成為一門以多學(xué)科交叉共融為其首要特點(diǎn)的經(jīng)驗(yàn)科學(xué)。

從機(jī)器學(xué)習(xí)本身的學(xué)科特征看，機(jī)器學(xué)習(xí)以現(xiàn)實(shí)的經(jīng)驗(yàn)信息為研究對象，以計(jì)算機(jī)和人工智能相結(jié)合的算法為研究方法，以數(shù)據(jù)科學(xué)、人工智能為算法邏輯基礎(chǔ)，以對現(xiàn)實(shí)復(fù)雜的經(jīng)驗(yàn)信息進(jìn)行系統(tǒng)化表達(dá)與準(zhǔn)確預(yù)測為學(xué)科宗旨，以多領(lǐng)域的交叉共融的高度兼容性和進(jìn)步性為學(xué)科特點(diǎn)。

從機(jī)器學(xué)習(xí)學(xué)科的方法論基礎(chǔ)看，機(jī)器學(xué)習(xí)以邏輯實(shí)證主義為其方法論基礎(chǔ)，以數(shù)據(jù)導(dǎo)向的研究模式為其研究范式，以模型與經(jīng)驗(yàn)信息的一致為其模型體系的特征。

二、機(jī)器學(xué)習(xí)對于經(jīng)濟(jì)學(xué)應(yīng)用研究的適用性

（一）經(jīng)濟(jì)研究領(lǐng)域的機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)的研究方法主要包括有監(jiān)督機(jī)器學(xué)習(xí)和無監(jiān)督機(jī)器學(xué)習(xí)兩類。經(jīng)濟(jì)學(xué)研究領(lǐng)域，有監(jiān)督機(jī)器學(xué)習(xí)通常需要使用一組特征或變量（X）來預(yù)測結(jié)果（Y），具體操作就是將數(shù)據(jù)集分為訓(xùn)練集和測試集，訓(xùn)練集用來發(fā)現(xiàn)映射關(guān)系，測試集則用來檢驗(yàn)訓(xùn)練集中總結(jié)出的映射關(guān)系。訓(xùn)練集中的觀測變量是設(shè)定了“標(biāo)簽”（假定）的，通過構(gòu)造X的估計(jì)值μx（μx=E[Y|X=x]）的一個(gè)估計(jì)量，在獨(dú)立數(shù)據(jù)集中估計(jì)Y的真實(shí)值，這里假定觀測是獨(dú)立的、訓(xùn)練集與測試集中的X與Y具有相同的聯(lián)合分布。有監(jiān)督的機(jī)器學(xué)習(xí)方法主要包括回歸和分類，兩者主要特點(diǎn)是，回歸算法中的“標(biāo)簽”一般是連續(xù)的值，而分類算法中的標(biāo)簽一般是離散的值?；貧w，如預(yù)測房屋價(jià)值或油價(jià)，一般要根據(jù)房屋地理位置、房屋條件等標(biāo)簽或市場行情、油價(jià)歷史波動(dòng)等標(biāo)簽，這里的房屋價(jià)值或油價(jià)是連續(xù)的數(shù)值。分類，如垃圾郵件篩選，標(biāo)簽為（1,-1），分別表示垃圾郵件和非垃圾郵件，是非連續(xù)的。這里的回歸指正則化回歸，如套索估計(jì)（LASSO）、嶺回歸和彈性網(wǎng)，分類包括隨機(jī)森林、回歸樹、支持向量機(jī)（SVM）、神經(jīng)網(wǎng)絡(luò)、矩陣分解等[4]，有監(jiān)督機(jī)器學(xué)習(xí)還包括模型平均方法等。這里，套索估計(jì)、嶺回歸等作為高維回歸方法，已經(jīng)開始在經(jīng)濟(jì)研究中受到較大關(guān)注。

無監(jiān)督機(jī)器學(xué)習(xí)主要涉及尋找具有相似變量的觀測聚類，也可解釋為“降維”，常用于視頻、圖像或文本樣本。典型的無監(jiān)督機(jī)器學(xué)習(xí)模型是對系列觀測的一種分區(qū)，分區(qū)沒有“標(biāo)簽”的監(jiān)督，只有某些聚類特征，如每個(gè)子區(qū)間中的元素在某種度量方式上具有相似特征，概率向量或權(quán)重向量也可作為聚類特征，根據(jù)概率向量和權(quán)重向量進(jìn)行分區(qū)。4無監(jiān)督機(jī)器學(xué)習(xí)將所有經(jīng)驗(yàn)信息輸入系統(tǒng)化為樣本信息，以數(shù)據(jù)驅(qū)動(dòng)的方式，在巨大的信息中識(shí)別并挖掘出有用信息，進(jìn)而創(chuàng)造出可用于經(jīng)濟(jì)分析的解釋變量或被解釋變量。經(jīng)濟(jì)學(xué)研究中常用的無監(jiān)督機(jī)器學(xué)習(xí)包括K-平均算法、主題建模、社區(qū)發(fā)現(xiàn)等。

（二）機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)、計(jì)量經(jīng)濟(jì)學(xué)

經(jīng)濟(jì)學(xué)領(lǐng)域中，機(jī)器學(xué)習(xí)的應(yīng)用常會(huì)與統(tǒng)計(jì)學(xué)、計(jì)量經(jīng)濟(jì)學(xué)相混淆，因而，首先將機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)、計(jì)量經(jīng)濟(jì)學(xué)相對照，有利于我們更好地了解機(jī)器學(xué)習(xí)及其在經(jīng)濟(jì)學(xué)研究中的獨(dú)特適用性。

作為多學(xué)科的交叉與融合，機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)在很多研究內(nèi)容上都有重合。拉瑞·瓦瑟曼（LarryWasserman）認(rèn)為：“這兩門學(xué)科（機(jī)器學(xué)習(xí)和數(shù)理統(tǒng)計(jì)）關(guān)心的是同一件事，即我們能從數(shù)據(jù)中學(xué)到什么”，并指出統(tǒng)計(jì)學(xué)中的評估、分類器、數(shù)據(jù)點(diǎn)、回歸與分類、協(xié)變量、響應(yīng)理念可分別對應(yīng)于機(jī)器學(xué)習(xí)中的學(xué)習(xí)、假設(shè)、用例、有監(jiān)督學(xué)習(xí)、特征、標(biāo)記理念，認(rèn)為兩個(gè)學(xué)科的這些詞匯在含義上是等同的。[5]機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)都致力于從數(shù)據(jù)中獲取信息或規(guī)律，但是，這兩門學(xué)科的研究方法卻具有本質(zhì)的區(qū)別。首先，機(jī)器學(xué)習(xí)源于計(jì)算機(jī)科學(xué)與人工智能，它更多地關(guān)心如何構(gòu)建一個(gè)系統(tǒng)去分析數(shù)據(jù)，也更注重模型的預(yù)測效果；源于數(shù)學(xué)的統(tǒng)計(jì)學(xué)是以數(shù)據(jù)為基礎(chǔ)，利用數(shù)學(xué)方程式來探究變量變化規(guī)律，更注重模型的可解釋性。其次，機(jī)器學(xué)習(xí)并不必須對有關(guān)變量之間的潛在關(guān)系提出先驗(yàn)假設(shè)，只需通過算法識(shí)別數(shù)據(jù)中潛在規(guī)律，并應(yīng)用規(guī)律于新數(shù)據(jù)進(jìn)行預(yù)測；統(tǒng)計(jì)學(xué)則必須了解數(shù)據(jù)的生成過程、分布規(guī)律、估計(jì)量的統(tǒng)計(jì)特征和期望參數(shù)的類型。最后，機(jī)器學(xué)習(xí)對復(fù)雜數(shù)據(jù)處理的能力，使其可適用于高維數(shù)據(jù)和復(fù)雜的高維模型，統(tǒng)計(jì)建模通常適用于相對低維的數(shù)據(jù)和低維模型。

與計(jì)量經(jīng)濟(jì)學(xué)相比，機(jī)器學(xué)習(xí)旨在產(chǎn)生準(zhǔn)確可行的預(yù)測，而計(jì)量經(jīng)濟(jì)學(xué)旨在建立可靠的因果關(guān)系。計(jì)量經(jīng)濟(jì)學(xué)的主要目的是揭示變量間的因果關(guān)系，如μx或Pr(Y=k|X=x）估計(jì)量的結(jié)構(gòu)或表達(dá)，重點(diǎn)探討其他條件不變的前提下，變量X變化對Y的影響。相比之下，機(jī)器學(xué)習(xí)旨在對經(jīng)驗(yàn)數(shù)據(jù)（數(shù)據(jù)）或經(jīng)驗(yàn)事實(shí)（文本、圖像）做出準(zhǔn)確的模型選擇和預(yù)測，重點(diǎn)不是估計(jì)量的結(jié)構(gòu)，而是最小化預(yù)測結(jié)果與真實(shí)結(jié)果之間的偏差，實(shí)現(xiàn)更為精確的擬合與預(yù)測。

雖然機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)、計(jì)量經(jīng)濟(jì)學(xué)側(cè)重點(diǎn)不同，但這并不妨礙機(jī)器學(xué)習(xí)與其他兩個(gè)框架的協(xié)同，這種協(xié)同與互補(bǔ)使機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)的應(yīng)用研究中獨(dú)具適用性。首先，發(fā)現(xiàn)數(shù)據(jù)方面，機(jī)器學(xué)習(xí)可以發(fā)現(xiàn)數(shù)據(jù)，進(jìn)而用于創(chuàng)造計(jì)量模型估計(jì)中的被解釋變量（Y）。如Athey等在研究西班牙谷歌新聞的關(guān)閉對消費(fèi)者閱讀新聞?lì)愋偷挠绊憰r(shí)，將被閱讀的不同類別新聞份額設(shè)定為被解釋變量，應(yīng)用無監(jiān)督學(xué)習(xí)對新聞進(jìn)行分類，使用網(wǎng)絡(luò)理論中的社區(qū)檢測技術(shù)進(jìn)行分析。[6]其次，模型設(shè)定與選擇方面，機(jī)器學(xué)習(xí)適用于復(fù)雜、高維的大數(shù)據(jù)分析，與計(jì)量經(jīng)濟(jì)學(xué)相結(jié)合，可以構(gòu)建高維的復(fù)雜計(jì)量模型，機(jī)器學(xué)習(xí)的模型選擇方法也可用于規(guī)避不當(dāng)?shù)挠?jì)量模型設(shè)定。最后，模型估計(jì)方面，計(jì)量經(jīng)濟(jì)學(xué)模型應(yīng)用機(jī)器學(xué)習(xí)技術(shù)可以估計(jì)更逼近經(jīng)驗(yàn)現(xiàn)實(shí)的復(fù)雜模型。如可以使用機(jī)器學(xué)習(xí)方法，對超多種商品進(jìn)行分析，研究消費(fèi)者對商品組合的偏好，進(jìn)而探討幾萬種組合可能性。

（三）機(jī)器學(xué)習(xí)的優(yōu)勢與實(shí)現(xiàn)

機(jī)器學(xué)習(xí)最突出的優(yōu)勢在于對大樣本、高維度數(shù)據(jù)的處理與預(yù)測，其靈活的功能形式能夠適應(yīng)不同的數(shù)據(jù)結(jié)構(gòu)，更好地預(yù)測樣本。有監(jiān)督的機(jī)器學(xué)習(xí)算法致力于獲取對Y的更好預(yù)測，如基于N個(gè)樣本的觀測特征X來預(yù)測Y，機(jī)器學(xué)習(xí)會(huì)設(shè)定損失函數(shù)L(y^,y），并在數(shù)據(jù)中找到具有較低期望預(yù)期（E(y,x)[L(y^,y）]）的損失函數(shù)f^，用于樣本的預(yù)測。如一個(gè)住房調(diào)查的應(yīng)用研究顯示，套索、回歸樹、隨機(jī)森林、機(jī)器學(xué)習(xí)集成法等機(jī)器學(xué)習(xí)方法樣本內(nèi)與樣本外的預(yù)測都更優(yōu)于普通最小二乘法，在中等規(guī)模樣本和有限變量的情況下機(jī)器學(xué)習(xí)的預(yù)測仍保有優(yōu)勢。[7]

此外，機(jī)器學(xué)習(xí)的模型檢驗(yàn)范式主要采用交叉驗(yàn)證法，K折交叉驗(yàn)證法的應(yīng)用最為廣泛。交叉驗(yàn)證的基本思路是在數(shù)據(jù)量不足的情況下，通過切分給定數(shù)據(jù)集，將數(shù)據(jù)集重新組合為訓(xùn)練集與測試集，重復(fù)使用數(shù)據(jù)進(jìn)行訓(xùn)練、測試和模型選擇。交叉驗(yàn)證即使在小樣本下都顯示出良好的性能，對于大樣本，有效性就更為凸顯。

三、機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)中的應(yīng)用

（一）數(shù)據(jù)發(fā)現(xiàn)與變量創(chuàng)造

隨著網(wǎng)絡(luò)與人工智能的發(fā)展，經(jīng)濟(jì)學(xué)研究尤其是微觀經(jīng)濟(jì)學(xué)研究日趨大數(shù)據(jù)化，機(jī)器學(xué)習(xí)可以處理高維非常規(guī)數(shù)據(jù)、圖像和文本信息，進(jìn)而發(fā)現(xiàn)新數(shù)據(jù)、創(chuàng)造新變量。如機(jī)器學(xué)習(xí)對衛(wèi)星圖像的處理就提供了有意義的經(jīng)濟(jì)數(shù)據(jù)，不僅可以科學(xué)探討夜間燈光度與經(jīng)濟(jì)產(chǎn)出之間的關(guān)系[8]，還可以根據(jù)衛(wèi)星圖像來預(yù)估未來農(nóng)產(chǎn)品產(chǎn)出規(guī)模[9]，引出了一系列關(guān)于衛(wèi)星數(shù)據(jù)的經(jīng)濟(jì)增長研究。

在缺乏相對可靠的經(jīng)濟(jì)產(chǎn)出數(shù)據(jù)的情況下，新數(shù)據(jù)顯得尤為重要，尤其是對發(fā)展中國家貧困問題的研究，機(jī)器學(xué)習(xí)提供了大量的可追蹤數(shù)據(jù)。[10]機(jī)器學(xué)習(xí)還可以通過識(shí)別文本信息來提供新數(shù)據(jù)來源。如通過識(shí)別網(wǎng)上消費(fèi)者對產(chǎn)品或服務(wù)的在線文本評價(jià)來獲得相關(guān)消費(fèi)者消費(fèi)偏好的數(shù)據(jù)信息，也可通過在線評價(jià)數(shù)據(jù)來對餐廳的受歡迎程度、衛(wèi)生達(dá)標(biāo)程度等進(jìn)行預(yù)測。[11]

機(jī)器學(xué)習(xí)還可以用來創(chuàng)造新變量，如研究西班牙谷歌新聞的關(guān)閉對消費(fèi)者閱讀新聞?lì)愋偷挠绊懀@里被閱讀的不同類別新聞?wù)急仁潜唤忉屪兞?。[6]使用無監(jiān)督機(jī)器學(xué)習(xí)創(chuàng)建變量還有一個(gè)優(yōu)點(diǎn)，就是不需要解釋變量，如樣本分割法的模型設(shè)定與調(diào)整，與傳統(tǒng)的計(jì)量經(jīng)濟(jì)學(xué)基于解釋變量來調(diào)整模型設(shè)定不同，樣本分割的模型調(diào)整是基于一個(gè)樣本的，進(jìn)而會(huì)減少解釋變量與被解釋變量之間“偽回歸”問題的產(chǎn)生。

（二）預(yù)測

機(jī)器學(xué)習(xí)的宗旨是獲得準(zhǔn)確的預(yù)測。與統(tǒng)計(jì)學(xué)不同，機(jī)器學(xué)習(xí)不需對函數(shù)形式、變量間的相互作用和參數(shù)的統(tǒng)計(jì)分布來做先驗(yàn)假定，機(jī)器學(xué)習(xí)更注重的是對結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)做出準(zhǔn)確預(yù)測。這使得機(jī)器學(xué)習(xí)算法更適用于能源價(jià)格的預(yù)測。因?yàn)槟茉瓷唐穬r(jià)格具有非線性、滯后依賴、非平穩(wěn)性和波動(dòng)性聚類等復(fù)雜特性，這使得簡單的傳統(tǒng)模型預(yù)測具有挑戰(zhàn)性，機(jī)器學(xué)習(xí)方法在處理復(fù)雜的內(nèi)部動(dòng)態(tài)時(shí)具有更高的靈活性，因而具有更卓越的預(yù)測性能。支持向量機(jī)（SVM），人工神經(jīng)網(wǎng)絡(luò)（ANN）和遺傳算法（GA）是能源經(jīng)濟(jì)學(xué)研究中最常用的方法，用于預(yù)測能源商品價(jià)格、預(yù)測或模擬能源消費(fèi)及需求。為了提高預(yù)測的準(zhǔn)確性，多種機(jī)器學(xué)習(xí)算法被組合使用，如基于經(jīng)驗(yàn)?zāi)Ｊ椒纸猓‥MD）的神經(jīng)網(wǎng)絡(luò)集成學(xué)習(xí)（NNEL）方法。

機(jī)器學(xué)習(xí)與傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)方法的結(jié)合成為經(jīng)濟(jì)學(xué)應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行預(yù)測的一個(gè)趨勢，如動(dòng)態(tài)非線性自回歸模型（NARX），集合經(jīng)驗(yàn)?zāi)Ｊ椒纸饽Ｐ停‥EMD），由最小二乘支持向量機(jī)模型（LeastSquareSVM）和粒子群優(yōu)化模型（PSO）結(jié)合產(chǎn)生的LSSVM-PSO模型，廣義自回歸條件異方差模型（GARCH）等，都是機(jī)器學(xué)習(xí)與計(jì)量經(jīng)濟(jì)學(xué)模型的結(jié)合使用。此外，傳統(tǒng)的計(jì)量經(jīng)濟(jì)學(xué)時(shí)間序列向量自回歸（VAR）模型也與隨機(jī)森林相結(jié)合使用，可以克服原來VAR模型中的弱點(diǎn)，提高預(yù)測能力。

此外，幾種機(jī)器學(xué)習(xí)方法混合起來使用也是一種新趨勢?；旌鲜褂脮?huì)顯著提高預(yù)測的準(zhǔn)確性，也具有更高的通用性和實(shí)用性。如螢火蟲算法（FA）與最小二乘SVR(LSSVR）混合使用形成的FA-LSSVR算法，統(tǒng)計(jì)上證實(shí)FA-LSSVR模型比其他機(jī)器學(xué)習(xí)算法單獨(dú)使用，或比現(xiàn)有傳統(tǒng)計(jì)量經(jīng)濟(jì)模型、AI模型，在預(yù)測的精確性方面更有優(yōu)勢。[12]

機(jī)器學(xué)習(xí)方法強(qiáng)大的樣本外預(yù)測能力，對異構(gòu)數(shù)據(jù)和大規(guī)模數(shù)據(jù)的處理能力，如深度學(xué)習(xí)（DL）對異構(gòu)數(shù)據(jù)的處理能力，對數(shù)據(jù)質(zhì)量的低敏感度的處理，使得機(jī)器學(xué)習(xí)在經(jīng)濟(jì)研究中具有“更好地讓數(shù)據(jù)說話”的功能。

（三）因果推斷

有監(jiān)督機(jī)器學(xué)習(xí)的模型選擇是以對測試樣本的最優(yōu)擬合為基礎(chǔ)的，其目標(biāo)是準(zhǔn)確預(yù)測。因此，機(jī)器學(xué)習(xí)用于因果推斷，需要改變原有的目標(biāo)函數(shù)。因果推斷是經(jīng)濟(jì)學(xué)應(yīng)用研究的重要方面，近兩年，機(jī)器學(xué)習(xí)也越來越多地被應(yīng)用于因果推斷。

機(jī)器學(xué)習(xí)用于因果推斷的一個(gè)方面是處理效應(yīng)，包括非混淆假設(shè)下平均處理效應(yīng)的估計(jì)和處理效應(yīng)異質(zhì)性的估計(jì)。[13]正則化回歸的雙選方法是機(jī)器學(xué)習(xí)最早應(yīng)用于因果推斷的算法，用于處理存在多個(gè)協(xié)變量、結(jié)果模型“稀疏”的情況，最近雙重機(jī)器學(xué)習(xí)算法也被用來估計(jì)非混淆假設(shè)下的平均處理效應(yīng)。

因果樹（causaltrees）和因果森林（causalforests）被應(yīng)用于處理效應(yīng)異質(zhì)性的估計(jì)，這里異質(zhì)性指的是觀察到的協(xié)變量的異質(zhì)性。因果樹算法應(yīng)用于經(jīng)濟(jì)學(xué)田野實(shí)驗(yàn)，產(chǎn)生了關(guān)于異質(zhì)性的可信的和可解釋的結(jié)果。因果樹也與計(jì)量經(jīng)濟(jì)學(xué)方法結(jié)合使用，如與高斯混合模型（GMM模型）共同使用，用于建立GMM模型中異質(zhì)性的分類樹。因果森林本質(zhì)上是基于不同樣本的因果樹的均值，某種角度上可以被看作為一種最近鄰匹配方法，技術(shù)上是通過構(gòu)建漸進(jìn)正太性獲得用于預(yù)測的隨機(jī)森林，再將結(jié)果拓展到因果推斷。近年來，因果森林框架又拓展至模型的非參數(shù)異質(zhì)性，這里的“模型”指所有可通過GMM方法進(jìn)行參數(shù)估計(jì)的模型，這種“廣義隨機(jī)森林”[14]可以作為傳統(tǒng)方法的替代方法，如局部廣義矩方法或局部最大似然法。

機(jī)器學(xué)習(xí)還可以應(yīng)用于矩陣完成和結(jié)構(gòu)模型，進(jìn)行因果關(guān)系的探討。當(dāng)觀測數(shù)據(jù)矩陣存在缺失，如地區(qū)或時(shí)期數(shù)據(jù)缺失，機(jī)器學(xué)習(xí)方法可以使用兩個(gè)或多個(gè)低秩矩陣來逼近存在數(shù)據(jù)缺失的復(fù)雜矩陣。結(jié)構(gòu)模型中，機(jī)器學(xué)習(xí)算法可應(yīng)用于消費(fèi)者選擇領(lǐng)域中，大數(shù)據(jù)條件下的貝葉斯類模型估計(jì)。

四、機(jī)器學(xué)習(xí)在應(yīng)用中需注意的問題

為了更好地理解機(jī)器學(xué)習(xí)在經(jīng)濟(jì)研究中的地位和作用，我們將機(jī)器學(xué)習(xí)置于更宏大的框架——經(jīng)濟(jì)學(xué)方法論框架下，客觀認(rèn)識(shí)機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)研究中的方法論本質(zhì)，進(jìn)而從一個(gè)更清晰的視閾來看待機(jī)器學(xué)習(xí)范式在經(jīng)濟(jì)研究中的作用與局限，以便更科學(xué)地使用機(jī)器學(xué)習(xí)研究方法。

（一）機(jī)器學(xué)習(xí)的方法論本質(zhì)

1.方法論基礎(chǔ)上，機(jī)器學(xué)習(xí)是邏輯實(shí)證主義的一種深化

機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)研究中的應(yīng)用，究其方法論實(shí)質(zhì)，是與計(jì)量經(jīng)濟(jì)學(xué)同源的邏輯實(shí)證主義方法論。5邏輯實(shí)證主義認(rèn)為，源于經(jīng)驗(yàn)數(shù)據(jù)的歸納推理是知識(shí)的重要來源，知識(shí)是由數(shù)學(xué)、邏輯學(xué)思維和經(jīng)驗(yàn)觀測組成，人類對知識(shí)的認(rèn)知應(yīng)以經(jīng)驗(yàn)事實(shí)為基礎(chǔ)、運(yùn)用邏輯工具將其體系化，進(jìn)而從現(xiàn)有體系推演出新的結(jié)論，并以經(jīng)驗(yàn)觀測的方式進(jìn)行驗(yàn)證。機(jī)器學(xué)習(xí)以觀測數(shù)據(jù)、文本或圖片等經(jīng)驗(yàn)觀測信息為研究對象，以計(jì)算機(jī)和人工智能相結(jié)合的邏輯算法為研究方法，具體操作時(shí)將觀測分為訓(xùn)練集和測試集，訓(xùn)練集針對觀測進(jìn)行推理歸納，測試集針對歸納結(jié)果進(jìn)行檢驗(yàn)。從具體應(yīng)用方式及過程來看，機(jī)器學(xué)習(xí)研究范式是對邏輯實(shí)證主義的再現(xiàn)。

同時(shí)，機(jī)器學(xué)習(xí)更是邏輯實(shí)證主義在人工智能和大數(shù)據(jù)時(shí)期的一種深化。首先，從研究對象來看，機(jī)器學(xué)習(xí)能夠處理更大規(guī)模、更復(fù)雜情況的經(jīng)驗(yàn)觀測，相對于計(jì)量經(jīng)濟(jì)學(xué)或數(shù)理統(tǒng)計(jì)模型方法，機(jī)器學(xué)習(xí)對經(jīng)驗(yàn)觀測的處理更具優(yōu)勢，其模型選擇更逼近經(jīng)驗(yàn)現(xiàn)實(shí)；其次，從對知識(shí)認(rèn)知的體系化過程來看，機(jī)器學(xué)習(xí)也是以經(jīng)驗(yàn)事實(shí)為基礎(chǔ)并運(yùn)用邏輯工具將其體系化，但機(jī)器學(xué)習(xí)對經(jīng)驗(yàn)事實(shí)的觀測、推理和歸納，是基于計(jì)算機(jī)和人工智能的結(jié)合，是對復(fù)雜經(jīng)驗(yàn)事實(shí)（數(shù)據(jù)）的推理、歸納和運(yùn)算，是數(shù)學(xué)、邏輯學(xué)思維的高度體系化。最后，機(jī)器學(xué)習(xí)采用交叉驗(yàn)證的方式，即將原始觀測分成訓(xùn)練集和測試集，將訓(xùn)練集歸納的結(jié)果在測試集進(jìn)行檢驗(yàn)，多次劃分，循環(huán)驗(yàn)證，是邏輯實(shí)證主義經(jīng)驗(yàn)觀測驗(yàn)證的深化。

2.研究范式上，機(jī)器學(xué)習(xí)是數(shù)據(jù)導(dǎo)向研究范式的一種優(yōu)化

機(jī)器學(xué)習(xí)對經(jīng)驗(yàn)信息（數(shù)據(jù)、文本或圖像）的處理，是通過計(jì)算機(jī)及人工智能將經(jīng)驗(yàn)信息系統(tǒng)化為數(shù)據(jù)信息，并以數(shù)據(jù)為驅(qū)動(dòng)，基于經(jīng)驗(yàn)數(shù)據(jù)的模型選擇及預(yù)測是機(jī)器學(xué)習(xí)的突出優(yōu)勢。機(jī)器學(xué)習(xí)這一特征，與計(jì)量經(jīng)濟(jì)學(xué)及數(shù)理經(jīng)濟(jì)學(xué)的研究范式一致，同屬于數(shù)據(jù)導(dǎo)向的研究范式。數(shù)據(jù)導(dǎo)向的研究范式強(qiáng)調(diào)“讓數(shù)據(jù)說話”，將數(shù)據(jù)關(guān)系作為模型設(shè)定基礎(chǔ)，并根據(jù)數(shù)據(jù)關(guān)系決定其所表述的經(jīng)濟(jì)主體之間的關(guān)系。但數(shù)據(jù)僅是經(jīng)濟(jì)活動(dòng)主體之間現(xiàn)實(shí)關(guān)系的映射，是結(jié)果而非原因，只有在充分分析經(jīng)濟(jì)主體現(xiàn)實(shí)關(guān)系的基礎(chǔ)上探討數(shù)據(jù)關(guān)系，才能準(zhǔn)確地確定模型形式。因此，經(jīng)濟(jì)學(xué)研究又轉(zhuǎn)向了理論與數(shù)據(jù)綜合的關(guān)系導(dǎo)向研究范式。6

將機(jī)器學(xué)習(xí)置于經(jīng)濟(jì)學(xué)研究范式的發(fā)展歷程來看，可以較為明顯地判斷出，機(jī)器學(xué)習(xí)屬于數(shù)據(jù)導(dǎo)向的研究范式，其諸多算法在發(fā)現(xiàn)數(shù)據(jù)、創(chuàng)造變量、更好地圍繞大規(guī)模復(fù)雜數(shù)據(jù)進(jìn)行模型選擇方面的貢獻(xiàn)，是對數(shù)據(jù)導(dǎo)向研究范式的一種偏向數(shù)據(jù)端的優(yōu)化。同樣，也可較明顯地發(fā)現(xiàn)，機(jī)器學(xué)習(xí)研究范式體系里缺少了相應(yīng)的“理論”及“關(guān)系”部分的分析內(nèi)容。

3.模型體系上，機(jī)器學(xué)習(xí)是模型與經(jīng)驗(yàn)數(shù)據(jù)的一致

基于現(xiàn)實(shí)復(fù)雜、高維、動(dòng)態(tài)數(shù)據(jù)進(jìn)行模型選擇，在模型體系方面，機(jī)器學(xué)習(xí)的模型體系充分體現(xiàn)了模型與經(jīng)驗(yàn)數(shù)據(jù)的一致。模型方法一直是經(jīng)濟(jì)學(xué)應(yīng)用研究中的主要方法，模型體系中，經(jīng)濟(jì)模型與經(jīng)濟(jì)理論、經(jīng)驗(yàn)現(xiàn)實(shí)的“三位一體”是經(jīng)濟(jì)學(xué)模型方法科學(xué)性的重要體現(xiàn)。模型是真實(shí)世界的結(jié)構(gòu)表示，修辭學(xué)清楚地對理論模型與經(jīng)驗(yàn)?zāi)Ｐ妥鞒隽私缍?，理論模型代表理論，?jīng)驗(yàn)?zāi)Ｐ痛碚鎸?shí)世界，科學(xué)的經(jīng)濟(jì)研究模型，要求理論模型與經(jīng)驗(yàn)?zāi)Ｐ鸵恢?，?jīng)驗(yàn)?zāi)Ｐ团c數(shù)據(jù)一致，也就是理論、模型與經(jīng)驗(yàn)現(xiàn)實(shí)三者的一致。[15](P121-122）機(jī)器學(xué)習(xí)的模型體系中，數(shù)據(jù)更加大規(guī)?；?、復(fù)雜化，模型更加高維化，模型選擇取決于數(shù)據(jù)特征。因此，機(jī)器學(xué)習(xí)模型體系中，模型與數(shù)據(jù)的一致性要高于數(shù)理經(jīng)濟(jì)學(xué)和計(jì)量經(jīng)濟(jì)學(xué)中的模型方法，基本實(shí)現(xiàn)了模型與經(jīng)驗(yàn)數(shù)據(jù)的一致。但這里也存在一個(gè)較為明顯的方面，科學(xué)的經(jīng)濟(jì)學(xué)模型體系要求模型與經(jīng)濟(jì)理論、經(jīng)驗(yàn)現(xiàn)實(shí)的“三位一體”，機(jī)器學(xué)習(xí)模型體系中缺少了經(jīng)濟(jì)理論這一部分。

（二）機(jī)器學(xué)習(xí)的作用與局限

從機(jī)器學(xué)習(xí)方法論的本質(zhì)可見，機(jī)器學(xué)習(xí)模型最大的優(yōu)勢體現(xiàn)在強(qiáng)大的數(shù)據(jù)端功能上，可以更好地“讓數(shù)據(jù)說話”，可以基于對更大規(guī)模、更復(fù)雜的數(shù)據(jù)建立更貼近經(jīng)驗(yàn)現(xiàn)實(shí)的模型體系，更好地發(fā)揮經(jīng)驗(yàn)數(shù)據(jù)的映射作用。經(jīng)濟(jì)模型是經(jīng)濟(jì)活動(dòng)經(jīng)驗(yàn)現(xiàn)實(shí)的似真與近律，數(shù)理統(tǒng)計(jì)模型和計(jì)量經(jīng)濟(jì)學(xué)模型基于經(jīng)驗(yàn)數(shù)據(jù)的建模過程中，從可能機(jī)制到經(jīng)驗(yàn)?zāi)Ｐ屯茖?dǎo)的過程并不正式、經(jīng)驗(yàn)?zāi)Ｐ团c經(jīng)驗(yàn)數(shù)據(jù)生成過程也并不嚴(yán)格一致，模型方法存在著方法論上固有的非精確性。[16]傳統(tǒng)的數(shù)理統(tǒng)計(jì)模型和計(jì)量經(jīng)濟(jì)學(xué)模型對復(fù)雜數(shù)據(jù)的處理能力相對較低，使其模型與經(jīng)驗(yàn)現(xiàn)實(shí)的似真程度也就相對較低。機(jī)器學(xué)習(xí)則在這方面獨(dú)具優(yōu)勢，進(jìn)而模型體系在經(jīng)濟(jì)研究中能更好地逼近經(jīng)驗(yàn)現(xiàn)實(shí)。

機(jī)器學(xué)習(xí)在方法論本質(zhì)上的優(yōu)勢，同時(shí)也是其方法論層面固有的局限。從方法論基礎(chǔ)來看，邏輯實(shí)證主義的顯著特征體現(xiàn)在重視觀測和證實(shí)，但反對因果、不重視解釋。[17](P139-150）對經(jīng)驗(yàn)數(shù)據(jù)的重視和復(fù)雜觀測的處理能力是機(jī)器學(xué)習(xí)毋庸置疑的優(yōu)勢，但邏輯實(shí)證主義的不足在機(jī)器學(xué)習(xí)范式上也體現(xiàn)得較為明顯：首先，先驗(yàn)假設(shè)方面，機(jī)器學(xué)習(xí)沒有像統(tǒng)計(jì)學(xué)或計(jì)量經(jīng)濟(jì)學(xué)那樣重視假設(shè)，導(dǎo)致對數(shù)據(jù)生成過程方面的探討不夠充分，雖然決策樹之類的算法能夠識(shí)別每個(gè)特征的影響以及特征之間的線性和非線性關(guān)系，但還有一些機(jī)器學(xué)習(xí)方法，如人工神經(jīng)網(wǎng)絡(luò)（ANN）和支持向量機(jī)（SVM），仍是“黑盒子”范式，與更透明的線性回歸模型相比，其結(jié)果的獲得過程更難以理解。其次，因果關(guān)系方面，因果關(guān)系不是機(jī)器學(xué)習(xí)探討的重點(diǎn)，這也是其與計(jì)量經(jīng)濟(jì)學(xué)較明顯的差異。最后，模型可解釋性方面，機(jī)器學(xué)習(xí)不重視模型可解釋性，這是其與統(tǒng)計(jì)學(xué)較大的差異。

從研究范式和模型體系來看，機(jī)器學(xué)習(xí)的研究范式和模型體系中都缺少了經(jīng)濟(jì)研究中的核心內(nèi)容：經(jīng)濟(jì)理論。對于經(jīng)濟(jì)研究而言，理論的高度決定了研究的高度。數(shù)理模型或計(jì)量模型對經(jīng)濟(jì)理論的探討主要通過基于經(jīng)濟(jì)理論的先驗(yàn)假定、理論模型設(shè)定和因果影響（參數(shù)）的估計(jì)來實(shí)現(xiàn)的。機(jī)器學(xué)習(xí)通過開發(fā)新算法和與傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)方法相結(jié)合，來探討因果推斷問題，但機(jī)器學(xué)習(xí)對因果推斷的探討偏重于算法的創(chuàng)新，因果關(guān)系或結(jié)構(gòu)關(guān)系的研究還未成為機(jī)器學(xué)習(xí)范式的主要內(nèi)容。同時(shí)，機(jī)器學(xué)習(xí)仍偏重于數(shù)據(jù)驅(qū)動(dòng)環(huán)節(jié)，其模型體系暫時(shí)還未實(shí)現(xiàn)經(jīng)驗(yàn)數(shù)據(jù)、模型與經(jīng)濟(jì)理論的“三位一體”。對于經(jīng)濟(jì)學(xué)應(yīng)用研究，需要明確的是，無論在研究的方法論層面還是具體實(shí)踐層面，思想相比于工具都是更重要的。

因此，在應(yīng)用機(jī)器學(xué)習(xí)研究范式之前要先確定研究的目的是什么，是預(yù)測、解釋還是因果關(guān)系，如果是后兩者，則在使用機(jī)器學(xué)習(xí)范式的同時(shí)，更應(yīng)致力于了解經(jīng)濟(jì)活動(dòng)背后的可能理論體系，了解數(shù)據(jù)所映射的經(jīng)濟(jì)現(xiàn)實(shí)中真實(shí)經(jīng)濟(jì)主體之間的關(guān)系，使機(jī)器學(xué)習(xí)范式在更好的發(fā)揮“數(shù)據(jù)端”作用的同時(shí)，進(jìn)一步提升機(jī)器學(xué)習(xí)研究范式的科學(xué)性。

（三）應(yīng)用中的一些具體問題

在理解機(jī)器學(xué)習(xí)范式的方法論本質(zhì)，進(jìn)而明了其在經(jīng)濟(jì)研究中的作用與局限的基礎(chǔ)上，具體應(yīng)用時(shí)，還應(yīng)注意一些細(xì)節(jié)問題，了解機(jī)器學(xué)習(xí)算法的優(yōu)缺點(diǎn)，以便正確地使用機(jī)器學(xué)習(xí)范式，確保其研究結(jié)果的科學(xué)性與可信性。

關(guān)于機(jī)器學(xué)習(xí)范式中經(jīng)濟(jì)理論的缺位，機(jī)器學(xué)習(xí)模型體系缺少經(jīng)濟(jì)理論的指導(dǎo)和先驗(yàn)假定的約束。經(jīng)濟(jì)思想的探討是經(jīng)濟(jì)研究的核心，數(shù)量經(jīng)濟(jì)研究的主旨之一是通過數(shù)量的精確性來解釋、闡述和證明理論及思想的正確性，從這一角度來說，機(jī)器學(xué)習(xí)范式是一種工具，一種說明、闡釋和證偽的工具。因此，在應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行經(jīng)濟(jì)研究時(shí)，不能舍本逐末，只專注于算法的創(chuàng)新而忽視研究要展示的主題和思想。理論的高度決定研究的高度，講清楚問題與機(jī)制也需要有經(jīng)濟(jì)理論，因此，使用機(jī)器學(xué)習(xí)算法，應(yīng)注重理論與實(shí)證的結(jié)合。

關(guān)于機(jī)器學(xué)習(xí)結(jié)果的精確性，幾乎所有的機(jī)器學(xué)習(xí)或深度學(xué)習(xí)都存在一定程度的誤判率，誤判率幾乎是無法消除的，只能在使用過程中盡可能地正確使用每種方法，將誤判率降到最低；傳統(tǒng)機(jī)器學(xué)習(xí)中回歸、分類這些算法里都有一個(gè)要把獲取到的數(shù)據(jù)集分成訓(xùn)練集和測試集的過程。用訓(xùn)練集數(shù)據(jù)來做訓(xùn)練、歸納關(guān)系，用測試集數(shù)據(jù)來做驗(yàn)證、避免過度擬合，訓(xùn)練集與測試集的樣本量劃分，通常會(huì)按總樣本量的8∶2或7∶3進(jìn)行劃分，沒有確定的標(biāo)準(zhǔn)，劃分上主觀性較強(qiáng)，一定程度上可能會(huì)影響機(jī)器學(xué)習(xí)結(jié)果的精確性。

關(guān)于機(jī)器學(xué)習(xí)模型的可解釋性，在具體應(yīng)用時(shí)常會(huì)在模型的可解釋性和過度擬合的風(fēng)險(xiǎn)之間進(jìn)行權(quán)衡，當(dāng)模型包含變量相對樣本大小過多時(shí)就會(huì)有過度擬合問題。[3]存在過度擬合問題時(shí)，選用模型在訓(xùn)練集的擬合良好程度會(huì)明顯優(yōu)于其在獨(dú)立測試集的擬合表現(xiàn)。具體應(yīng)用時(shí)可以使用交叉驗(yàn)證方法來避免過度擬合問題，或通過最小化均方誤差來確定模型的復(fù)雜程度，或是對多種不同模型取平均，有時(shí)是對每個(gè)子樣本進(jìn)行估計(jì)（如隨機(jī)森林）。

關(guān)于機(jī)器學(xué)習(xí)的穩(wěn)健性，機(jī)器學(xué)習(xí)算法專注于非線性和動(dòng)態(tài)特性，這也使得它們在模型設(shè)定和訓(xùn)練集估計(jì)方面不那么穩(wěn)健。因此具體應(yīng)用中，在設(shè)置和校準(zhǔn)機(jī)器學(xué)習(xí)算法時(shí)需要特別注意這個(gè)問題，因?yàn)閿?shù)據(jù)集中的任一微小變化可能會(huì)導(dǎo)致不同的結(jié)果。由于此屬性，建議應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行模型設(shè)定和模型選擇時(shí)，進(jìn)行多種模型設(shè)定檢驗(yàn)和穩(wěn)健性檢驗(yàn)，使用驗(yàn)證數(shù)據(jù)集校準(zhǔn)模型，并且只有在校準(zhǔn)模型后，才使用測試數(shù)據(jù)集對其進(jìn)行評估。

關(guān)于機(jī)器學(xué)習(xí)的樣本要求，機(jī)器學(xué)習(xí)算法通常需要大樣本對大量觀察進(jìn)行適當(dāng)?shù)赜?xùn)練和測試，尤其是復(fù)雜模型。對樣本的要求，也是在宏觀經(jīng)濟(jì)學(xué)等領(lǐng)域應(yīng)用機(jī)器學(xué)習(xí)的一個(gè)主要限制，宏觀經(jīng)濟(jì)領(lǐng)域的觀測數(shù)量相對有限，通常是50到100個(gè)觀測的樣本量。機(jī)器學(xué)習(xí)需要充分的數(shù)據(jù)來對數(shù)據(jù)分布特征進(jìn)行正確地表示，不過當(dāng)數(shù)據(jù)相對不足時(shí)，幾種機(jī)器學(xué)習(xí)方法的混合使用，可以一定程度上降低數(shù)據(jù)缺乏引發(fā)的模型選擇風(fēng)險(xiǎn)。[18]此外，還應(yīng)將經(jīng)濟(jì)理論作為模型變量的選擇指南，尤其是宏觀經(jīng)濟(jì)領(lǐng)域的研究，如通貨膨脹、失業(yè)等問題及數(shù)據(jù)頻率不高時(shí)的能源消費(fèi)問題的研究，在模型選擇時(shí)更應(yīng)注重經(jīng)濟(jì)理論。

關(guān)于機(jī)器學(xué)習(xí)在經(jīng)濟(jì)研究應(yīng)用中的趨勢，機(jī)器學(xué)習(xí)方法與計(jì)量經(jīng)濟(jì)學(xué)模型方法、數(shù)理統(tǒng)計(jì)學(xué)模型方法雖然源自不同分支，但三者之間的差距正在不斷縮小，呈現(xiàn)出顯著的相互學(xué)習(xí)和借鑒的趨勢，機(jī)器學(xué)習(xí)方法正與傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)方法相結(jié)合，互相補(bǔ)充，應(yīng)用于經(jīng)濟(jì)學(xué)應(yīng)用研究。大數(shù)據(jù)及人工智能提供了前所未有的數(shù)據(jù)量和不斷創(chuàng)新的研究方法，隨著數(shù)據(jù)科學(xué)的發(fā)展，未來三者之間的聯(lián)系將會(huì)更加緊密，甚至逐漸通過互補(bǔ)而趨同。同時(shí)，由于機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)應(yīng)用研究中的進(jìn)一步使用，經(jīng)濟(jì)學(xué)研究內(nèi)容上也將更具包容性，更趨向于跨學(xué)科或多學(xué)科交叉研究。

參考文獻(xiàn)

[1]MitchellT.MachineLearning[M].NewYork:McGrawHillHigherEducation,1997.
[2]Marr,D.Vision:AComputationalApproach[M].SanFrancisco:Freeman&Co,1982.
[3]SendhilMullainathanandJannSpiess.MachineLearning:AnAppliedEconometricApproach[J].JournalofEconomicPerspectives,2017(2).
[4]H.R.Varian.BigData:NewTricksforEconometrics[J].TheJournalofEconomicPerspectives,2014(2).
[5]LarryWasserman.ThoughtsonStatisticsandMachineLearning[EB/OL].https://normaldeviate.wordpress.com/，2013-12-16.
[6]SAthey,MMMobiusandJPal.TheImpactofAggregatorsonInternetNewsConsumption[EB/OL].https://www.gsb.stanford.edu/gsb-cmis/gsb-cmis-download-auth/406636,2017-10-31.
[7]Ludwig,Jens,SendhilMullainathanandJannSpiess.MachineLearningTestsforEffectsonMultipleOutcomes[EB/OL].https://ui.adsabs.harvard.edu/abs/2017arXiv170701473L/abstract,2017-07-10.
[8]Henderson,JVernon,AdamStoreygardandDavidNWeil.MeasuringEconomicGrowthfromOuterSpace[J].AmericanEconomicReview,2012(2).
[9]Lobell,DavidB.TheUseofSatelliteDataforCropYieldGapAnalysis[J].FieldCropsResearch,2013(143).
[10]Jean,Neal,MarshallBurke,MichaelXie,WMatthewDavis,DavidBLobellandStefanoErmon.CombiningSatelliteImageryandMachineLearningtoPredictPoverty[J].Science,2016(353).
[11]Kang,JunSeok,PolinaKuznetsova,MichaelLuca,andYejinChoi.WhereNottoEat?ImprovingPublicPolicybyPredictingHygieneInspectionsUsingOnlineReviews[EB/OL].https://www.aclweb.org/anthology/D13-1150,2013-10-10.
[12]Tang,L,Wang,Z,Li,X,Yu,L,Zhang,G.ANovelHybridFA-BasedLSSVRLearningParadigmforHydropowerConsumptionForecasting[J].JournalofSystemsScience&Complexity,2015(5).
[13]SAtheyandGWImbens.TheStateofAppliedEconometrics:CausalityandPolicyEvaluation[J].TheJournalofEconomicPerspectives,2017(2).
[14]SAthey,JTibshirani,andSWager.GeneralizedRandomForests[EB/OL].https://ui.adsabs.harvard.edu/abs/2016arXiv161001271A/abstract,2018-05-10.
[15]劉麗艷.計(jì)量經(jīng)濟(jì)學(xué)方法論研究[M].北京：人民出版社，2014.
[16]劉麗艷.計(jì)量經(jīng)濟(jì)學(xué)精確性研究[J].財(cái)經(jīng)問題研究，2014(8).
[17]Hacking,I.LogicofStatisticalInference[M].Cambridge:CambridgeUniversityPress,1965.
[18]Dietterich,TG..EnsembleMethodsinMachineLearning[EB/OL].https://link.springer.com/chapter/10.1007/3-540-45014-9_1,2000-12-01.

注釋

1蘇珊·艾西（SusanAthey），斯坦福大學(xué)經(jīng)濟(jì)學(xué)院教授，第一位獲得克拉克獎(jiǎng)的女性經(jīng)濟(jì)學(xué)家，機(jī)器學(xué)習(xí)應(yīng)用研究領(lǐng)域的重要學(xué)者。
2蘇珊·艾西認(rèn)為，對于機(jī)器學(xué)習(xí)的探討涉及很多領(lǐng)域和方面，人們可以寫一整篇文章來探討機(jī)器學(xué)習(xí)的概念；認(rèn)為機(jī)器學(xué)習(xí)和和人工智能之間也有非常多的重合領(lǐng)域，是否涵蓋統(tǒng)計(jì)學(xué)內(nèi)容是二者的重要的區(qū)別。具體請參閱：SusanAthey.TheEconomicsofArtificialIntelligence:AnAgenda.Chicago:UniversityofChicagoPress,2019,pp.510.
3(1)過程中除了設(shè)置一些必要的“超參數(shù)”（Hyper-parameter）以外，不對樣本做任何映射關(guān)系標(biāo)記甚或過程干預(yù)。
4(1)也并不是所有的降維都涉及聚類，比較傳統(tǒng)的如主成分分析方法也可以用來降維，較新的方法包括矩陣分解（用兩個(gè)低維矩陣去近似一個(gè)更大的矩陣），矩陣范數(shù)正則化，分層泊松分解和神經(jīng)網(wǎng)絡(luò)等。
5(1)機(jī)器學(xué)習(xí)的方法論基礎(chǔ)，本質(zhì)上是與數(shù)理統(tǒng)計(jì)、計(jì)量經(jīng)濟(jì)學(xué)同源的，數(shù)理統(tǒng)計(jì)和計(jì)量經(jīng)濟(jì)學(xué)也是產(chǎn)生于邏輯實(shí)證主義的方法論基礎(chǔ)。
6(1)關(guān)系論導(dǎo)向研究范式強(qiáng)調(diào)理論與數(shù)據(jù)的結(jié)合，強(qiáng)調(diào)應(yīng)以現(xiàn)實(shí)中經(jīng)濟(jì)主體之間的關(guān)系為導(dǎo)向進(jìn)行模型設(shè)定。具體請參見馮燮剛、李子奈：《經(jīng)濟(jì)學(xué)的關(guān)系論轉(zhuǎn)向》，《經(jīng)濟(jì)學(xué)動(dòng)態(tài)》2006年第7期。

劉麗艷,朱成全.機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)中的應(yīng)用研究[J].天津師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2020(02):51-58.

本站聲明:網(wǎng)站內(nèi)容來源于網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系我們,我們將及時(shí)刪除處理。

上一篇: 拉林公路對林芝旅游業(yè)發(fā)展的影響分析下一篇: 德育開題報(bào)告模板

論文寫作相關(guān)資訊

學(xué)術(shù)不端查重入口

碩博初稿查重系統(tǒng)

檢查語種：中文,英文,小語種預(yù)計(jì)時(shí)間：2小時(shí)-6小時(shí)

系統(tǒng)說明碩博初稿檢測（一般習(xí)慣叫做碩博預(yù)審版），論文查重檢測上千萬篇中文文獻(xiàn)，超百萬篇各類獨(dú)家文獻(xiàn)，超百萬港澳臺(tái)地區(qū)學(xué)術(shù)文獻(xiàn)過千萬篇英文文獻(xiàn)資源，數(shù)億個(gè)中英文互聯(lián)網(wǎng)資源是全國高校用來檢測碩博論文的系統(tǒng)，檢測范圍廣，數(shù)據(jù)來源真實(shí)，檢測算法合理!本系統(tǒng)含有（學(xué)術(shù)庫與源碼庫）。（限制字符數(shù)30萬）

檢查范圍碩士、博士論文初稿【誤差一般在3%左右，不支持真?zhèn)悟?yàn)證】

498.00元/篇

立即檢測

維普查重(大學(xué)生版）

檢查語種：中文,英文預(yù)計(jì)時(shí)間：60分鐘

系統(tǒng)說明學(xué)位論文查重,維普大學(xué)生版論文查重系統(tǒng)：高校，雜志社指定系統(tǒng)，可檢測期刊發(fā)表，大學(xué)生，碩博等論文。檢測報(bào)告支持PDF、網(wǎng)頁格式，性價(jià)比高！

檢查范圍本/專科畢業(yè)論文

4.00元/千字

立即檢測

本科高校內(nèi)部版系統(tǒng)

檢查語種：中文,英文,小語種預(yù)計(jì)時(shí)間：2小時(shí)-6小時(shí)

系統(tǒng)說明比定稿版少大學(xué)生聯(lián)合比對庫，其他數(shù)據(jù)庫一致。出結(jié)果快，價(jià)格相對低廉，不支持驗(yàn)證，適合在修改中期使用，定稿推薦PMLC?！恢С烛?yàn)證?。?！

檢查范圍本/?？飘厴I(yè)論文

288.00元/篇

立即檢測

萬方論文查重系統(tǒng)

檢查語種：中文預(yù)計(jì)時(shí)間：60分鐘

系統(tǒng)說明畢業(yè)論文查重,萬方查重系統(tǒng)，涵蓋期刊、學(xué)位論文、學(xué)術(shù)成果、學(xué)術(shù)會(huì)議論文的大型網(wǎng)絡(luò)數(shù)據(jù)庫；比肩中國知網(wǎng)的學(xué)術(shù)數(shù)據(jù)庫。最多支持10萬字符。僅支持中文。

檢查范圍學(xué)位論文

4.00元/千字

立即檢測

本科定稿查重系統(tǒng)

檢查語種：中文,英文,小語種預(yù)計(jì)時(shí)間：24小時(shí)-72小時(shí)

系統(tǒng)說明本科定稿查重版（一般習(xí)慣叫本科終評版），論文抄襲檢測系統(tǒng)，專用于大學(xué)生專、本科等論文檢測的系統(tǒng)，大多數(shù)專、本科院校使用此檢測系統(tǒng)。（限制字符數(shù)6萬）

檢查范圍本科論文檢測【是提交學(xué)校前進(jìn)行的一次摸底評估，基本一致】

388.00元/篇

立即檢測

維普查重大學(xué)生版(小于1萬字符)

檢查語種：中文,英文預(yù)計(jì)時(shí)間：80分鐘

系統(tǒng)說明學(xué)位論文查重,維普查重系統(tǒng)是國內(nèi)知名數(shù)據(jù)公司。本系統(tǒng)含有碩博庫、期刊庫和互聯(lián)網(wǎng)資源等。支持中文、英文、繁體、小語種論文檢測，最多支持1萬字符。--不支持指定院校?。?！

檢查范圍畢業(yè)論文、期刊發(fā)表

40.00元/篇

立即檢測

PaperPass論文檢測

檢查語種：中文預(yù)計(jì)時(shí)間：60分鐘

系統(tǒng)說明論文查重平臺(tái),PaperPass的比對指紋數(shù)據(jù)庫由超過9000萬的學(xué)術(shù)期刊和學(xué)位論文，以及一個(gè)超過10億數(shù)量的互聯(lián)網(wǎng)網(wǎng)頁數(shù)據(jù)庫組成。指紋庫是指提取的文章關(guān)鍵性特征信息，并非全文。

檢查范圍學(xué)術(shù)期刊和學(xué)位論文

3.00元/千字

立即檢測

職稱論文查重系統(tǒng)

檢查語種：中文,英文,小語種預(yù)計(jì)時(shí)間：1小時(shí)-24小時(shí)

系統(tǒng)說明amlc期刊系統(tǒng)是雜志社專用系統(tǒng)，針對編輯部來稿、已發(fā)表文獻(xiàn)、學(xué)校、事業(yè)單位業(yè)務(wù)報(bào)告、職稱等論文的重復(fù)率檢測系統(tǒng)。

檢查范圍職稱論文/學(xué)術(shù)發(fā)表

3.00元/千字

立即檢測

格子達(dá)論文查重

檢查語種：中文預(yù)計(jì)時(shí)間：60分鐘

系統(tǒng)說明格子達(dá)依托學(xué)術(shù)期刊庫收錄了海量對比資源，其中包括中國論文庫、中文學(xué)術(shù)期刊庫、中國學(xué)位論文庫等國內(nèi)齊全的論文庫以及數(shù)億級網(wǎng)絡(luò)資源，同時(shí)本地資源庫以每月100萬篇的速度增加，是目前中文文獻(xiàn)資源涵蓋全面的論文檢測系統(tǒng)，可檢測中文、英文兩種語言的論文文本。

檢查范圍畢業(yè)論文、期刊發(fā)表

4.00元/千字

立即檢測

萬方職稱查重（論文請注明發(fā)表日期）

檢查語種：中文預(yù)計(jì)時(shí)間：1小時(shí)-24小時(shí)

系統(tǒng)說明萬方職稱論文檢測系統(tǒng)，適用于職稱發(fā)表/未發(fā)表論文查重，注：上傳論文請標(biāo)注發(fā)表日期，如無則使用論文正式發(fā)表時(shí)間；如未公開發(fā)表的，則用論文完成時(shí)間作為發(fā)表日期。

檢查范圍職稱論文

6.00元/千字

立即檢測

9999亚洲男人的天堂-午夜福利片一区二区三区-免费精品无码自慰一区二区-超碰在线免费中文字幕

機(jī)器學(xué)習(xí)對于經(jīng)濟(jì)學(xué)應(yīng)用研究的適用性

論文寫作相關(guān)資訊

學(xué)術(shù)不端查重入口