sponsored links

機器學習和大資料技術在信貸風控場景中的應用

機器學習和大資料技術在信貸風控場景中的應用

似乎一夜之間,所有的網際網路公司在對外的宣傳稿中都會提及自己使用機器學習和大資料技術,一時間成為了近幾年來最炙手可熱的名詞,不談機器學習、大資料似乎都不好意思說自己是做高新技術的了。

機器學習和大資料技術在信貸風控場景中的應用

百度搜索指數:機器學習

機器學習和大資料技術在信貸風控場景中的應用

百度搜索指數:大資料

上圖來自最近7年來這兩個詞的百度搜索指數,可以看到從2013年開始一直在穩步攀升,在2017年的時候迎來了爆發式的增長,這些都與我們的感知類同。

機器學習和大資料技術在信貸風控場景中的應用

機器學習與人腦思維的區別

機器學習和大資料應用是相輔相成的,目的是想用機器去模擬人類的思考過程,人類透過自身經歷經過思考可以形成經驗,並用來解決新的問題,而機器學習是需要利用大量的歷史資料去訓練一個模型去解決一個特定的問題:比如識別兩張臉是否一致、該使用者是不是精準客戶等。

雖然這兩個詞這兩年才火起來,但是這些概念早在半個多世紀前就有理論的提出,尤其機器學習的演算法已經在幾十年前就非常成熟了,但是受制於計算效率、儲存等硬體的限制,大資料和機器學習在實際業務上的應用場景十分受限,很難有大規模的場景應用。最近十年來隨著儲存、晶片等層面的突破讓大資料和機器學習的計算應用成本大大降低,這也支撐了基於這兩項技術的應用場景呈現爆發式增長。

除了機器學習之外,我們也發現網際網路信貸成為了這幾年最火的行業方向,網際網路信貸的工作重心在風控。於是天作佳成,正如目前我們看到的,信貸風控成為當前機器學習和大資料技術最適合也是最成熟的應用場景之一:

1.金融業務自身需要大量的資料且也會產生更多的資料,這天然的讓信貸風控成為最適合大資料和機器學習的場景;

2.風控涉及的資料量大、資料面廣、關聯複雜,也急需利用大資料和機器學習技術解決風控過程中效率低、缺乏公平準則、風險難以量化的問題;

所以正是因為這樣的相互依賴,信貸風控成為當前大資料和機器學習技術應用最成熟的領域之一。

信貸風控中的主要問題

信貸風控最關鍵的目標就是從全量申請使用者樣本中找到會逾期的客戶,所以風控的核心目的是評估使用者的還款意願和還款能力。從過去的業務實踐經驗來看,風控當中需要重點關注的問題包括:

非本人申請:申請人利用虛假身份申請信貸,這一問題在信貸業務高速增長的蠻荒階段,銀行或者互金機構缺乏對黑產全面的認知,在部分業務環節被黑產用虛假/殘缺或者非本人身份證欺詐,包括一些知名的持牌消金機構也遇到過大量類似的欺詐案例。

偽造資料:申請人為了更容易獲得貸款或者貸後惡意逾期避免催收,偽造收入證明、聯絡人、工作地址等資料。

中介團伙:中介在網路上大量招徠需要信貸申請的使用者,使用不同的攻略“教”客戶如何有機會以較高機率透過銀行/信貸機構的稽核。

歷史信用記錄:使用者歷史如果存在大量失信行為,或者存在賭/毒等不良社會行為,那麼其逾期失聯的機率也很高。

還款能力不足:申請人負債收入比較高,外部有大量債務且自身收入不穩定,這些都有可能導致使用者願意還款但是卻沒有能力還款。

基於大資料和機器學習技術的風控解決方案

為了解決上述的這些問題,目前業內已經形成了一套基於大資料和機器學習技術的較為完整的解決方案。

  • 非本人申請:人臉識別技術

目前人臉識別技術已經應用在生活中的方方面面,如刷臉支付、高鐵進站甚至公安的天網系統;而在金融業務中,信用卡辦理、網貸申請也都普遍使用人臉識別:將申請人照片與在公安系統中身份證存照進行比對,判斷兩張照片的相似度,可有效避免非本人申請的問題。

與人類識別面部類似,當我們人類對一個人比較熟悉的時候,我們很容易根據他的面部特徵與我們在腦海裡過去儲存的特徵進行比對,就能判斷這個人是否是這個人(雖然也會有誤判的時候),同樣的,人臉識別技術的背後也是一套深度學習的演算法,把我們思考的過程轉化為模型演算法,目前市面上有多家提供人臉識別服務的商業化應用公司,不過其演算法的本質基本是類同的,人臉識別的核心思想在於:不同人臉由不同特徵組成。

理解這個思想,首先需要引入的的是“特徵”的概念。先看下面這個例子:

機器學習和大資料技術在信貸風控場景中的應用

最簡單的人臉特徵

假設這 5 個特徵足夠形容一張人臉,那每張人臉都可表示為這 5 個特徵的組合:

(特徵1,特徵2,特徵3,特徵4,特徵5)

一位雙眼皮,挺鼻樑,藍眼睛,白面板,瓜子臉的小姐姐即可用特徵表示為(見表格加粗項):(1,1,0,1,0)

那麼遍歷上面這張特徵表格一共可以代表32張不同的臉。32 張臉可遠遠不夠覆蓋70 多億的人口。為了讓不同特徵組成的人臉能覆蓋足夠多人臉,我們需要擴充上面那張特徵表。擴張特徵表可以從行、列兩個角度展開。

列的角度很簡單,只需要增加特徵數量:(特徵6.臉型,特徵7.兩眼之間距離,特徵8.嘴唇厚薄…)實際應用中通常應用 128,256,512 或者 1024 個不同特徵。從行的角度擴充也很好理解,比如“特徵3”,除了值 0 代表藍色,值 1 代表灰色,是不是可以增加一個值 2 代表黑色,值 3 代表沒有頭髮呢?此外,除了這些離散的整數,我們也可以取連續的小數,比如特徵 3 的值 0.1,代表“藍中略微帶黑”,值 0.9 代表“灰中帶藍”……

機器學習和大資料技術在信貸風控場景中的應用

百度開源平臺:面部特徵識別

經過這樣的擴充,特徵空間便會變得無限大。擴充後特徵空間裡的一張臉可能表示為:

機器學習和大資料技術在信貸風控場景中的應用

一張臉提取出128維特徵變數

用於表示人臉的大量特徵從哪來?這便是深度學習(深度神經網路)發揮作用的地方。它透過在千萬甚至億級別的人臉資料庫上學習訓練後,會自動總結出最適合於計算機理解和區分的人臉特徵。

闡明瞭不同人臉由不同特徵組成後,我們便有了足夠的知識來分析人臉,演算法工程師通常需要一定的視覺化手段才能知道機器到底學習到了哪些利於區分不同人的特徵:同一人的不同照片提取出的特徵,在特徵空間裡距離很近,不同人在特徵空間裡相距較遠。

機器學習和大資料技術在信貸風控場景中的應用

三張不同角度的撒貝南照片經過神經網路提取出 128 維的特徵後,變成了 3 個在 128 維空間中的點(紅色),劉德華的特徵點為綠色。

不過在實際應用中在光照較差、遮擋、形變(大笑)、側臉等諸多條件下,神經網路很難提取出與“標準臉”相似的特徵。另外,在金融風控領域還需要解決偽造人臉的情況,面對這些問題,通常採取四種應對措施:

1. 工程角度:研發質量模型,對檢測到人臉質量進行評價,質量較差則不識別/檢驗。

2. 應用角度:施加場景限制,比如刷臉解鎖、人臉閘機、會場簽到時,都要求使用者在良好的光照條件下正對攝像頭,以避免採集到質量差的圖片。

3. 演算法角度:提升人臉識別模型效能,在訓練資料裡新增更多複雜場景和質量的照片,以增強模型的抗干擾能力。

4.精準活體識別:透過3D建模軟體可以使用使用者已有的照片模擬一張真實的頭像,以此來騙過人臉識別演算法,所以如何驗證這個頭像是來自一個真實的人同樣也是一個機器學習的過程。

機器學習和大資料技術在信貸風控場景中的應用

機器學習和大資料技術在信貸風控場景中的應用

鯤魚科技-靈犀聯合實驗室“模擬人臉攻擊”示例

1.基於知識圖譜技術的複雜網路

在影視節目當中,我們經常看到警察辦案時會把嫌疑人、證人、受害人及他們之間的關聯關係等資訊畫在牆上,用以分析案情,這就是典型的關係圖譜應用。牆上的畫便是圖,圖中有用的資訊便是知識,將其進一步擴充套件到其他事物;人為實體,在圖中我們稱之為點,人之間代表著關聯關係的連線,在圖中我們稱之為邊,就這樣點與邊共同組成了我們的關係圖譜。

機器學習和大資料技術在信貸風控場景中的應用

構建關係圖譜的底層還是大資料的技術:基於龐大的使用者資料,從不同的資料來源抽取出來存入到圖資料庫裡,所以資料是構建關係圖譜的基礎。一種是以關係型資料庫儲存的結構化資料,例如:IP地址,經緯度,裝置指紋等,另一種是爬蟲採集的非機構化資料,例如行為記錄、網上的瀏覽記錄。實踐應用中我們利用機器學習、自然語言處理技術把這些資料變成結構化的資料也存入到圖譜裡。

從使用者大資料和基於大資料的關係圖譜體系我們可以實現以下目的:

2.1 資料偽造識別

校驗使用者資訊可以用來判斷借款人是否可能存在欺詐風險,使用關係圖譜做交叉校驗,雖然不能保證百分之百的準確性,但是它在人工稽核時便是一個有力的參考依據。欺詐使用者填寫的個人資訊通常都是虛假的。例如:比如借款人張三和借款人李四填寫的是同一個公司電話,但張三填寫的公司和李四填寫的公司完全不一樣,這就成了一個風險點。我們將關係圖譜資料視覺化,可以很直觀的發現兩者的矛盾,我們便可以判斷他們二人至少有一人存在欺詐風險。

2.2 團伙欺詐分析

在信貸場景中,團伙欺詐造成的損失更加嚴重,不過從繁複的資料中發現團伙的難度也很大。基於知識圖譜我們通常直觀分析多層級的資料,一度關聯、二度關聯、三度關聯,甚至是更多維度關聯。團伙雖然使用虛假資訊進行授信、支用,但通常都有共有的資訊,例如同一個WIFI,同一片區域。LOUVAIN、LPA、SLPA等社群發現演算法、標籤傳播演算法可以有效快速的發現團伙。

機器學習和大資料技術在信貸風控場景中的應用

2.3 失聯客戶管理

對於貸後管理來說,使用者本人及緊急聯絡人失聯是催收失敗最大的原因,這時可以利用關係圖譜去發現失聯使用者的潛在聯絡人,提高催收成功率。例如張三是失聯使用者,李四和趙六是張三的聯絡人也都失聯了,這時我們可以試圖透過李四的聯絡人王五,或者與張三使用相同裝置的使用者老王來達到失聯客戶管理的目的。

機器學習和大資料技術在信貸風控場景中的應用

3.徵信資料與信用評分卡

3.1徵信與大資料

與國外相比,中國最大的差異在於徵信體系的不完善。我們的人行徵信系統覆蓋了8億人,但是可能只有4億左右是有信貸記錄的,剩下的無任何信貸記錄的,我們稱之為白戶。所以國內銀行對於大部分非中高階使用者實際上是不願意也沒有能力提供金融服務的。沒有徵信資料,那套國外搬過來的基於徵信資料的方式方法就不管用了。

不過,我們很快發現,利用網際網路技術可以解決徵信資料缺失的白戶問題,而這些看似與信貸記錄不相關的資料在一定程度上卻能夠評估是否能夠給該使用者借款:

(1)All data is credit data:網際網路可以提供每個信貸申請使用者龐大的、碎片化的、種類繁多的資訊。這裡麵包括使用者提交的電子化資訊(如身份證、營業執照、房產證、學歷證、工資單、社保,銀行流水等),第三方權威機構的查詢資訊(如公民身份證查詢中心、教育部學歷中心、法院訴訟資訊查詢中心等可查詢資訊),還包括了海量的網際網路碎片資料,如使用者的電商交易資訊、微博等社交網路資料,百度搜索引擎資料等。

(2)網際網路的高效性和便捷性使我們能以較低的成本、較短的時間,積累大量的使用者資料,為分析建模提供足夠的樣本量。

在信貸的業務實踐中,常用的行業大資料包括:

  • 央行徵信報告:一般持牌金融機構有央行徵信介入許可權,包括個人的執業資格記錄、行政獎勵和處罰記錄、法院訴訟和強制執行記錄、欠稅記錄等。
  • 司法資訊:最高法以及省市各級法院的最新公佈名單,包括執行法院、立案時間、執行案號、執行標的、案件狀態、執行依據、執行機構、生效法律文書確定的義務、被執行人的履行情況、失信被執行人的行為等資訊。
  • 公安資訊:覆蓋公安系統涉案、在逃和有案底人員資訊,包括案發時間、案件詳情如詐騙案/生產、銷售假藥案等資訊。
  • 信用卡資訊:銀行儲蓄卡/信用卡支出、收入、逾期等資訊。
  • 航旅資訊:包含過去一年中,每個季度的飛行城市、飛行次數、座位層次等資料。
  • 社交資訊:包含社交賬號匹配型別、社交賬號性別、社交賬號粉絲數等。
  • 運營商資訊:核查運營商賬戶在網時長、在網狀態、消費檔次、通話習慣等資訊。
  • 網貸黑名單:根據個人姓名和身份證號碼驗證是否有網貸逾期、黑名單資訊。
  • 駕駛證狀態,租車黑名單,電商消費記錄等也是可以考量的因素

正是因為大資料技術的發展才形成了帶著強烈中國特色的官方+民間結合的徵信體系,支撐網際網路信貸脫離蠻荒可以實現高速發展,信貸從業者可以在合規的前提下獲取對提升效率有用的使用者資訊完善風控策略。

3.2 機器學習與評分卡

評分卡我們應該是最為熟悉的,芝麻信用分就是一個典型的信用評分,支付寶官方利用自身積累及外部徵信渠道獲取的各種資料從五個維度對一個使用者進行評分,而這個評分對於每個使用者來說是透明的,這也非常好幫助使用者理解和改善自身的信用狀況。

從和信貸業內的小夥伴溝通來看,芝麻的信用評分還是比較有區分度的,這與阿里的大資料積累息息相關,阿里體系內積累了大量使用者特有資料可以對使用者形象進行更好的刻畫。

機器學習和大資料技術在信貸風控場景中的應用

這套評分卡的背後其實是一套依賴在大資料基礎上的機器學習演算法,因此在本身擁有大量資料的基礎上如何挖掘出一套有效的客戶評分這就是機器學習需要做的事情。

機器學習中目前應用最廣泛的就是有監督學習:這類模型最複雜的地方在於模型的訓練過程,演算法人員根據這些歷史使用者的表現打上標籤(逾期/不逾期),基於這些使用者大量資料,使用不同的演算法(一般來說都會使用邏輯迴歸演算法)來對這些使用者進行評分,得到一個在各維度評價指標來看都能過關的模型,並用這個模型來預測未來的資料表現。

機器學習和大資料技術在信貸風控場景中的應用

目前銀行信用卡體系、網貸體系基本都是使用類似的方法構建評分卡,當然不同的場景、不同的行業所用的評分卡也不盡相同。基於這套評分卡我們基本上可以在使用者申請環節實現量化風險的目的。基於大資料的機器學習並不是完全改變傳統風控,實際是豐富傳統風控的資料緯度和量化風險的方式。

結語

本文簡單介紹了大資料和機器學習在信貸風控領域的應用場景。機器學習聽起來很高大上,在實際工作中也經常會遇到一味炒作概念的人,過分誇大機器學習所能起到的作用,或者盲目的追求高深複雜的演算法。不過無論是機器學習還是大資料其本質還是為了服務業務,提高業務的效率降低成本是其最根本的目的。

隨著信貸行業的不斷髮展,機器學習和大資料技術的越來越成熟,二者結合的應用場景相信也會愈加豐富,相信在這塊未來會有更多新穎的應用場景。

分類: 旅遊
時間: 2022-01-17

相關文章

北大學霸,靠小黃車賺30億,卻欠1500萬人押金,如今怎樣了

北大學霸,靠小黃車賺30億,卻欠1500萬人押金,如今怎樣了
雪梨31歲,戴威30歲. 雪梨經過十年打拼,粉絲超過1300萬,成功登頂福布斯"30位30歲以下精英榜".其背後是深思熟慮,是一步一步地思考,是一點一點的轉變.她的每一步,都走得踏 ...

假如駕駛一艘1秒1光年的飛船,能抵達宇宙邊緣嗎?多久才能到達?

假如駕駛一艘1秒1光年的飛船,能抵達宇宙邊緣嗎?多久才能到達?
"給你一艘每秒一光年的飛船,你能抵達宇宙的邊際嗎?" 宇宙的浩瀚,遠非目前人類所能企及:至於宇宙的邊界,對於人類來說更是意味著"天涯海角".那麼假如你有著一艘不 ...

家用MPV新玩法,旅行兼具城市通勤!實拍上汽大通MAXUS旅行家G20

家用MPV新玩法,旅行兼具城市通勤!實拍上汽大通MAXUS旅行家G20
隨著旅居市場越來越熱,針對旅居生活而出現的車型也越來越多.在歐美國家,家用MPV露營車非常普遍也非常受年輕使用者歡迎,目前我們國內這類產品並不多,目前最具代表性的車型就是來自上汽大通原廠生產的旅行家G ...

國內哪些地方最適合女生旅行?收下這份清單,馬上就可以出發

國內哪些地方最適合女生旅行?收下這份清單,馬上就可以出發
女生的每個年齡段, 都該有一次美好而深刻的旅行! 世界很大,美景很多, 我們總要去看看, 才能領略, 宇宙的壯美和生命的美好. 山頂的日出,海邊的日落, 春天的花海,冬天的雪景, 小城的老街,鄉村的炊 ...

威海旅行真正的攻略

威海旅行真正的攻略
為什麼說這是篇真正的威海旅行攻略,那是因為看了許多攻略竟是些廢話. 先說說威海值不值得去?我的家在保定,正兒八經的內陸城市,從小就嚮往大海,現在長大了,有了自己的孩子,趁著長輩腿腳還靈便,條件具備近些 ...

讀書不能任性 小學欠下的“閱讀賬”遲早是要還的
孩子,是要窮養出吃苦奮鬥的精神,還是富養出疏闊溫厚的性格?是要讓他深知柴米油鹽醬醋茶的得來不易,還是讓他在琴棋書畫詩酒花中盡撒才華? 不論選擇哪一種養育模式,或者說不論能給孩子哪種養育方式,在閱讀這件 ...

洋洋灑灑5000字,青島旅行最全攻略

洋洋灑灑5000字,青島旅行最全攻略
前陣子去了趟青島,住了4晚待了5天,幾乎是把青島都玩遍了.當然,這也是我第N次的多刷青島了. 所以今天的文,準備和大家分享一下青島怎麼玩.畢竟嬉遊君可是最善於做攻略和歸納總結的博主了. 1)青島旅行概 ...

小說 | 旅行

小說 | 旅行
四月的晚上有點微涼,風呼呼地從耳邊吹過,道路兩旁是大片低矮的甘蔗園,沒有路燈,全靠車頭的燈照明,偶爾有摩托或者小車從身邊小心翼翼地避讓經過.四周蒼蒼茫茫,只有一彎月牙高掛在田野的上空,摩托車低沉的轟鳴 ...

欠薪、裁員、產能停滯 深陷流動性危機的寶能還要“燒錢”造車
"寶萬之爭"後,寶能集團(下稱"寶能")"財大氣粗"的形象已深入人心,但在近期,其董事長姚振華卻在惴惴不安,因為公司的流動性危機已經壓不住了 ...

我,54歲,福建人,做生意欠了1500萬,迫於無奈,只能當保姆還債

我,54歲,福建人,做生意欠了1500萬,迫於無奈,只能當保姆還債
這是我們講述的第20位真人故事 口述丨項姐 撰文丨噹噹 我是項姐@保姆項姐,福建人,一個50多歲的退休阿姨,生意失敗欠下1500萬外債.現在選擇就業重頭再來,從零開始.賺錢還債,餘生最大的願望是還清欠 ...

訂製一款房車 辭職去旅行 衛航V590青春版

訂製一款房車 辭職去旅行 衛航V590青春版
生活不止眼前的苟且,還有詩和遠方,這句話不知成了多少年輕人的座右銘,他們不再想"苟且"了,為了尋找心目中的詩和遠方,乾脆辭職,去旅行!而且更多的年輕人選擇房車出行.一款什麼樣的房車 ...

潑水狂歡,夢幻演出,痴狂電音,玩一天都不夠!杭州旅行必打卡

潑水狂歡,夢幻演出,痴狂電音,玩一天都不夠!杭州旅行必打卡
來杭州旅行,除了西湖,宋城是一定要去打卡的.花了一整天泡在宋城,都覺得時間不夠用! 去宋城,一天的時間被安排得妥妥的,這裡有太多的節目和演出了.那哪些節目最不能錯過?看過來. "給我一天,還 ...

1950年鍾瑾懷向毛主席討債,主席聽聞:欠的債這輩子都還不清

1950年鍾瑾懷向毛主席討債,主席聽聞:欠的債這輩子都還不清
1950年,剛剛成立不久的新中國,雖然說是逐漸地穩定了下來,但百業待興,仍然有太多的事情在等著諸位領導人去處理.去解決,作為新中國主要締造者的毛主席更是如此,每天都被公務纏身. 因緣巧合之下,為公事操 ...

用旅行留住青春印記
[文旅快評] 又是一年畢業季,校園裡洋溢著收穫與分別的濃郁氣息.與其讓生活充盈更多不捨,不如一起用一場畢業旅行定格青春記憶. 海灘.篝火.房車.戶外拓展.射箭DIY.趣味團隊遊戲--新奇的旅行形式讓學 ...

國漫之光魁拔真人電影即將回歸,欠魁拔的電影票這次要還了

國漫之光魁拔真人電影即將回歸,欠魁拔的電影票這次要還了
說起國漫你第一個會想起誰? 是<哪吒之魔童降世>.<大魚海棠>還是<西遊記之大聖歸來>? 我相信有很多小夥伴一定和我想的一樣, 那就是國漫之光--<魁拔> ...

皮實好用,還能擴容?Bontrager通勤、旅行揹包評測

皮實好用,還能擴容?Bontrager通勤、旅行揹包評測
在日常通勤和短途旅行中,我們往往需要一款稱心如意的揹包,但選擇一款好用的揹包可不容易.對於通勤揹包來說,不僅顏值要高,其口袋分配也要合理,才能讓使用者安心地帶著大大小小的隨身物品穿梭於大街小巷.而對於 ...

人有需求,這樣才能真正解決

人有需求,這樣才能真正解決
每個人都有一定的情慾,很多時候都想要伴侶在身邊,但是這個世界上總是不公平的,有些人幸福得像活在天堂,有些人則可能像活在地獄. 很多時候很多事情也取決於人怎樣想,比如單身有單身的好,但是長期單身則心理需 ...

盤點那些長大後就顛覆了的三觀,網友:我們欠他們一個道歉

盤點那些長大後就顛覆了的三觀,網友:我們欠他們一個道歉
年少時,我們被男女主角的愛情感動著,我們都渴望有一份真正的愛情在自己面前.可生活就是生活,我們逐漸開始理解配角的不易,開始明白他們的艱難.曾經被罵的他們,我們還欠一個道歉. 1.<蝸居>宋 ...

二手衣服寶寶勉強能穿,但有四類東西不能拿,欠了人情還影響健康

二手衣服寶寶勉強能穿,但有四類東西不能拿,欠了人情還影響健康
"文 | 開心果媽媽(原創文章,歡迎個人轉載分享)" 小寶寶們長得快,很多衣服才穿沒幾次,就已經嫌小了,因此,很多家庭在有了小寶寶之後,親戚朋友都會送些舊衣服過來. 只是,二手,甚 ...

美國簽證:11月美國將取消旅行限制,持B籤可直飛美國,有新要求

美國簽證:11月美國將取消旅行限制,持B籤可直飛美國,有新要求
2021年9月20日,美國白宮高階官員,疫情負責人傑夫·齊恩茨(Jeff Zients)宣佈,美國將在2021年11月初取消國際旅客的旅行限制,重新開放邊境,只要已完整接種新冠疫苗者,即可入境美國.美 ...