日本一道综在合线,好紧好爽水真多18p,久久久久99精品成人片三人毛片

前言：想要寫出一篇引人入勝的文章？我們特意為您整理了多源數(shù)據(jù)下多維企業(yè)信用風(fēng)險評估范文，希望能給你帶來靈感和參考，敬請閱讀。

多源數(shù)據(jù)下多維企業(yè)信用風(fēng)險評估

［提要］本研究針對多源數(shù)據(jù)融合場景下多維的企業(yè)信用風(fēng)險評估，探索有效的模型學(xué)習(xí)方法。根據(jù)實驗結(jié)果與分析，可以得出結(jié)論：XGBOOST能夠較好適應(yīng)多源數(shù)據(jù)分布不一致性和多維場景指標數(shù)量繁多的特點，同時該方法不需要對數(shù)據(jù)細節(jié)進行較深入的處理，因此能夠快速調(diào)整模型，適應(yīng)市場監(jiān)管動態(tài)變化的特點。

關(guān)鍵詞：企業(yè)信用風(fēng)險；多源多維；XGBOOST

政府部門作為社會企業(yè)的主要監(jiān)管機構(gòu)，職責涉及海量企業(yè)的大量信用指標、安全指標、合法合規(guī)指標的監(jiān)督和抽查，為企業(yè)的公平穩(wěn)健發(fā)展和社會的和諧文明與穩(wěn)定提供了最堅實的保障。此外，將各部門負責的不同指標聯(lián)合用于對企業(yè)整體風(fēng)險的考察，不僅有利于對部門工作任務(wù)和工作流程的優(yōu)化，而且能起到及時預(yù)警作用，防患于未然?，F(xiàn)有對于企業(yè)信用風(fēng)險評估的研究工作多從開展評估的主體的不同業(yè)務(wù)角度出發(fā)，如信貸業(yè)務(wù)、電力業(yè)務(wù)、供應(yīng)鏈金融、醫(yī)藥等角度，相關(guān)研究所使用的評估指標具有較高針對性、專業(yè)性，指標數(shù)量有限。從開展評估所用到的評估模型或算法進行劃分：統(tǒng)計學(xué)習(xí)方法，如Logistic回歸模型、結(jié)構(gòu)方程模型；現(xiàn)代機器學(xué)習(xí)方法，如SVM、隨機森林、XGBOOST；深度學(xué)習(xí)算法，如CNN模型。其中，現(xiàn)代機器學(xué)習(xí)方法由于模型性能較好、便于進行適應(yīng)性算法優(yōu)化與集成，成為目前信用風(fēng)險評估的主流方法；回歸模型結(jié)果可解釋性強，但該算法對數(shù)據(jù)分布有一定要求；深度學(xué)習(xí)方法在其他領(lǐng)域應(yīng)用廣泛，但信用風(fēng)險評估數(shù)據(jù)集通常呈現(xiàn)極大的類別不平衡、缺失值現(xiàn)象，難以直接應(yīng)用深度學(xué)習(xí)算法，但也有學(xué)者組合其他算法來解決類別不平衡現(xiàn)象，從而促進深度學(xué)習(xí)算法的應(yīng)用。本文從多業(yè)務(wù)多維度指標出發(fā)進行企業(yè)信用風(fēng)險評估，模型所覆蓋的指標種類較多，類別不平衡與缺失值現(xiàn)象更為嚴重，難以保證多源數(shù)據(jù)分布的一致性。因此，本文重點觀察數(shù)據(jù)整體對評估性能的影響，提升模型泛化性；模型具有目標傾向性，減少“第Ⅱ類錯誤”（高風(fēng)險公司未被識別）。本研究減少對各指標下數(shù)據(jù)細節(jié)的考慮，重點研究對比了不同機器學(xué)習(xí)算法，從中選出針對當前數(shù)據(jù)特點與任務(wù)場景效果最優(yōu)、方法最適合的模型。針對多源多維度企業(yè)信用風(fēng)險評估，借鑒大數(shù)據(jù)場景數(shù)據(jù)挖掘思想，考察數(shù)據(jù)整體特點，便于發(fā)現(xiàn)數(shù)據(jù)隱藏的關(guān)聯(lián)與規(guī)律，同時能夠提升評估模型的泛化性。此外，應(yīng)用現(xiàn)代機器學(xué)習(xí)算法，有利于提升信用風(fēng)險評估的客觀性，提高信用風(fēng)險評估業(yè)務(wù)的效率。

一、數(shù)據(jù)介紹

選擇深圳市市監(jiān)局“雙隨機、一公開”結(jié)果公示的191，824條餐飲服務(wù)食品安全量化雙隨機檢查結(jié)果數(shù)據(jù)，進行統(tǒng)計分析。通過數(shù)據(jù)去重和數(shù)據(jù)清洗，獲得3，827家商事主體，其中291家有違法違規(guī)記錄，2，736家沒有違法違規(guī)記錄。利用當下前沿技術(shù)多維度采集3，827家商事主體包括工商登記信息、欠稅記錄等在內(nèi)的52個維度的公共信息，整合成為模型建設(shè)的樣本數(shù)據(jù)，依據(jù)正負性樣本比例，從中隨機選取3，027家上市主體數(shù)據(jù)作為模型訓(xùn)練數(shù)據(jù)，其余800家商事主體作為模型測試數(shù)據(jù)。

二、設(shè)計方案

（一）系統(tǒng)設(shè)計。本產(chǎn)品按照功能分為三個模塊，數(shù)據(jù)預(yù)處理模塊、指標篩選模塊和模型訓(xùn)練與選擇模塊。預(yù)處理模塊對多維企業(yè)數(shù)據(jù)進行數(shù)據(jù)離散化、歸一化、獨熱編碼等預(yù)處理；指標篩選模塊通過IV值、相關(guān)性、正則化等不同篩選方式為各指標打分，保留有效特征供后續(xù)模型使用；模型訓(xùn)練與選擇模塊采用不同機器學(xué)習(xí)及深度學(xué)習(xí)的方法，建立企業(yè)基本信息和企業(yè)信用間的映射模型，訓(xùn)練后的模型可用于對新企業(yè)信用的風(fēng)險評估。

（二）數(shù)據(jù)預(yù)處理模塊。數(shù)值形式轉(zhuǎn)換。以日期、貨幣、文本格式數(shù)據(jù)為例的數(shù)值形式轉(zhuǎn)換：（1）從文本型描述中抽取貨幣信息，文本型描述中噪音類型包括貨幣國別種類不同（美元、人民幣等）、貨幣單位不同（元、萬元、百萬元等）、文本型數(shù)值字符混用等，觀察分析并匯總各類型噪音，分類進行貨幣換算與貨幣轉(zhuǎn)換；（2）對不同日期格式進行轉(zhuǎn)化，進行天數(shù)、月份數(shù)、年數(shù)等粒度的絕對值或相對值獲取，最終統(tǒng)一為以月為單位的時間跨度；（3）將具有有限類別的文本數(shù)據(jù)進行判定，轉(zhuǎn)換為分類數(shù)值標簽，如風(fēng)險等級判定。異常值、缺失處理。對于空值處理，實現(xiàn)高頻值、指定固定值、相似數(shù)據(jù)預(yù)測值三種方式，綜合考慮后采用固定值處理方式。異常值處理，根據(jù)數(shù)據(jù)量統(tǒng)計，判定出異常值（極大極小值或罕見文本類別），按空值情況處理。特征轉(zhuǎn)化。各指標的數(shù)值分組、各分組分值計算?；谥髁黜椖縏oad進行數(shù)值區(qū)間劃分，Toad是針對工業(yè)屆建模而開發(fā)的工具包，針對風(fēng)險評分卡的建模有針對性功能；基于信用風(fēng)險領(lǐng)域的WOE分值計算方法進行數(shù)值對應(yīng)的組別分值計算。進行數(shù)值分組能夠提升模型泛化性，降低數(shù)據(jù)誤差的影響。

（三）指標篩選。大數(shù)據(jù)場景下的數(shù)據(jù)挖掘需要處理的是海量、多渠道的數(shù)據(jù)集，且指標（或因變量）數(shù)量較多（一般都在50個以上，通常稱之為高維空間），由于難以預(yù)先得知相應(yīng)的規(guī)則或模式，且場景復(fù)雜，單一規(guī)則或模型對海量樣本的覆蓋與解釋能力有限，應(yīng)盡可能收集更多的樣品指標以防止遺漏重要解釋變量。但是這不等于把全部指標都應(yīng)用到數(shù)據(jù)建模過程中，這樣會嚴重影響建模的效率與對挖掘結(jié)果的解釋，同時過于依賴部分指標，將降低模型的泛化性能，少量的指標有利于模型的因果分析，提升模型魯棒性。因此，在建模之前必須對指標進行必要篩選，以挑選出對目標變量或模式有重要影響的變量。指標篩選即指標歸約，是指用部分指標來代替原有的指標集合，即進行適當降維。降維的方法主要有兩類：一是選擇指標的子集來代替原有的指標集合，如相關(guān)分析、回歸分析、信息增益與模糊集等；二是對原有指標進行變換，合成新的綜合性指標，如主成分分析。本文所述的指標篩選是子集的選擇。指標選取的方法有多種，常用的有相關(guān)分析、回歸分析、信息增益、正則化等。本文選擇相關(guān)分析、信息增益、正則化方法。基于回歸分析篩選方法包括前進、后退法以及步進法，試圖從線性因果關(guān)系來說明各個自變量對因變量的影響大小，該類方法避免了模型受部分指標影響從而帶來偏頗，但由于本文重點考察不同分類方法對于復(fù)雜指標、高維空間的柔性，此外本文數(shù)據(jù)稀疏程度較高，部分指標直接影響樣本評估結(jié)果，應(yīng)用該類方法淘汰掉該類指標將導(dǎo)致生成大量無效數(shù)據(jù)。因此，未對該類方法進行嘗試。相關(guān)性方法僅從各指標數(shù)值分布向量之間的相似程度出發(fā)進行考慮，易于使用和解釋。信息增益方法源于熵理論，即熱力學(xué)第二定律，目前在社會學(xué)科、管理科學(xué)以及空間科學(xué)上取得了相當多的成功應(yīng)用，其基本思想是以指標的信息含量（對分類準確性提升的增益、貢獻）來評價指標的重要程度，進而篩選指標。正則化方法是機器學(xué)習(xí)領(lǐng)域中的常用方法，可以在降低模型復(fù)雜度的同時，保證模型的有效分類性能，并且提升模型的泛化性能。上述三類方法結(jié)合使用，實現(xiàn)IV值、相關(guān)性、正則化等不同篩選方式，完成多層級的嚴格指標篩選。（1）IV值的作用就是衡量一個變量整體的預(yù)測能力，好處在于每個變量的IV值是可比的。所謂IV值，是指一個變量對于判定客戶屬于y1還是y0的信息貢獻，貢獻越大，IV值越大。（2）相關(guān)系數(shù)越大，兩個指標相關(guān)性越高，從而導(dǎo)致評價指標所反映的信息重復(fù)。通過相關(guān)性分析，刪除相關(guān)系數(shù)較大的指標，簡化了指標體系，保證了指標體系的簡潔有效。（3）正則化通過在擬合模型時的代價函數(shù)中加入范數(shù)，其中范數(shù)表示模型參數(shù)的復(fù)雜程度，擬合結(jié)束，部分維度參數(shù)變?yōu)榱?，從而能夠有效剔除評價體系的無用指標。篩選前指標總數(shù)52項，最終保留指標15項，如表1所示。（表1）

（四）模型算法選擇。1、Logistic邏輯回歸。Logistic邏輯回歸是線性回歸的拓展，由于模型可解釋性強、模型簡單等優(yōu)點，在信用評分模型中應(yīng)用廣泛。以信貸風(fēng)險管理為例，信用卡申請人的基本信息如文化程度、月薪、婚姻狀況以及過去是否存在違約記錄等情況和未來出現(xiàn)違約的概率之間存在何種關(guān)系。邏輯回歸是線性回歸的拓展，但不像線性回歸那樣對數(shù)據(jù)分布有較高要求，只需要自變量之間不存在高度相關(guān)的多重共線性關(guān)系即可。在金融行業(yè)中，邏輯回歸應(yīng)用于對個人信用風(fēng)險進行評級具有三個優(yōu)點：其一，不需要對自變量分布做假設(shè)，不要求同方差性；其二，生成的回歸方程易于理解，方便解釋各個變量對模型的影響；其三，可求出一個發(fā)生比，更直觀判斷分類的準確性。2、XGBOOST。XGBOOST是基于決策樹模型的集成分類方法。決策樹模型根據(jù)數(shù)據(jù)特征進行樹狀層級劃分，具有易于解釋、識別效率高、產(chǎn)生判別規(guī)則等優(yōu)勢；但其仍具有不少缺點，比如決策規(guī)則復(fù)雜、易產(chǎn)生過度擬合、分類非全局最優(yōu)解而是局部最優(yōu)解等?；谶@些特點，產(chǎn)生了隨機森林方法，集成多棵決策樹，根據(jù)投票決策思想，提升了模型分類的準確度。XG－BOOST在其基礎(chǔ)上進一步優(yōu)化，加入正則化技術(shù)，提高模型泛化性，其特點有：高效處理大型數(shù)據(jù)集，甚至在輸入變量龐大的情況下；能夠估計變量的重要性并排序，并計算其相似性；能夠泛化誤差；具備高精度，甚至在數(shù)據(jù)中存在大規(guī)?？罩禃r仍保持較高精度；計算效率高，不會過度擬合。3、CNN。本文同樣將深度學(xué)習(xí)算法用于企業(yè)信用風(fēng)險預(yù)測，卷積神經(jīng)網(wǎng)絡(luò)（CNN）是其中主流算法之一，被廣泛運用于計算機視覺、自然語言處理、數(shù)據(jù)挖掘等領(lǐng)域，本文訓(xùn)練CNN模型作為風(fēng)險評估的分類模型。采用CNN進行多維數(shù)據(jù)的特征提取與分類。CNN是一種包含卷積計算并具有深層結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)，基本結(jié)構(gòu)通常由三層神經(jīng)網(wǎng)絡(luò)組成，分別是卷積層、池化層和全連接層。其能夠在大量數(shù)據(jù)樣本中自動學(xué)習(xí)原始數(shù)據(jù)的特征表示，因此能夠適用于對多維數(shù)據(jù)的復(fù)雜特征進行有效提取。由于深層神經(jīng)網(wǎng)絡(luò)強大的擬合性能，能夠充分對語料進行學(xué)習(xí)，進而具備較好分類性能。

三、實驗結(jié)果與分析

實驗主要探討多源多維數(shù)據(jù)場景下模型的分類擬合性能與泛化性，因此將“高低風(fēng)險”作為信用風(fēng)險評估的學(xué)習(xí)目標，即二分類學(xué)習(xí)。實驗從訓(xùn)練語料隨機劃分20%的數(shù)據(jù)作為模型學(xué)習(xí)的驗證集，保證測試語料不在訓(xùn)練集和驗證集中泄露。所用到的評估指標包括準確率，即高風(fēng)險公司“準確預(yù)測的公司數(shù)量（高低風(fēng)險）/公司總數(shù)量”的比率。實驗證明，回歸方法與CNN方法準確率分別為82%與87%，XGBOOST準確率為96%，達到最優(yōu)效果。分析認為，XGBOOST由于集成學(xué)習(xí)具備良好分類性能，適用于具有較多細分指標的復(fù)雜評估任務(wù)場景，即對多維數(shù)據(jù)的學(xué)習(xí)；同時，該算法基分類器為多個決策樹模型，對數(shù)據(jù)分布無任何要求，且能夠?qū)σ蕾嚲植恐笜说奶厥鈽颖具M行有效劃分，因此能夠適用于多源數(shù)據(jù)，無需做復(fù)雜的特征篩選、特征映射及特征表示的轉(zhuǎn)換等。此外，在損失函數(shù)計算過程中調(diào)整權(quán)重，使其對指定目標（類別）數(shù)據(jù)代價敏感，一定程度上緩解了數(shù)據(jù)類別不平衡對模型訓(xùn)練的影響。此外，XGBOOST不需要對原始數(shù)據(jù)做細致處理及進行復(fù)雜的指標篩選和特征映射，因此能夠適應(yīng)任務(wù)和數(shù)據(jù)的動態(tài)變化，及時更新、訓(xùn)練，滿足動態(tài)調(diào)整的要求。綜上，針對企業(yè)信用風(fēng)險評估，基于大數(shù)據(jù)場景數(shù)據(jù)挖掘思想，能夠發(fā)現(xiàn)細分場景所未能表現(xiàn)出的隱含規(guī)律與特征關(guān)聯(lián)現(xiàn)象。從行政機構(gòu)對市場監(jiān)管的場景考慮，對多源多維度的歷史監(jiān)管數(shù)據(jù)進行聯(lián)合學(xué)習(xí)，有利于對監(jiān)管條目進行整合，優(yōu)化業(yè)務(wù)流程；同時，引入自動化評估預(yù)警方法，能夠提升監(jiān)管的效率和有效性。本文考慮到企業(yè)風(fēng)險評估多源多維數(shù)據(jù)特點，對企業(yè)信用評估用到的各類主流方法：統(tǒng)計學(xué)習(xí)、機器學(xué)習(xí)、深度學(xué)習(xí)等進行實際效果比較，發(fā)現(xiàn)現(xiàn)階段機器學(xué)習(xí)類型下的XGBOOST分類方法具備最佳性能，并詳細分析了其在本文任務(wù)場景下的實用性。在未來研究中，將納入更多機器學(xué)習(xí)與深度學(xué)習(xí)方法及模型解釋機制，提升大數(shù)據(jù)視角下基于多源數(shù)據(jù)融合的企業(yè)信用風(fēng)險多維度評估的有效性和可解釋性。

作者:張喜會單位:深圳市標準技術(shù)研究院

多源數(shù)據(jù)下多維企業(yè)信用風(fēng)險評估

相關(guān)文章閱讀

相關(guān)期刊推薦

數(shù)據(jù)

大數(shù)據(jù)

大數(shù)據(jù)時代

數(shù)據(jù)通信

電力大數(shù)據(jù)