證券日?qǐng)?bào)APP

掃一掃
下載客戶端

基金業(yè)數(shù)字化轉(zhuǎn)型專題 | 建信基金:深度學(xué)習(xí)輔助設(shè)置客戶標(biāo)簽

2022-11-21 12:58  來源:中國(guó)基金業(yè)協(xié)會(huì)

    【編者按】為深入貫徹落實(shí)黨的二十大精神,引導(dǎo)基金行業(yè)機(jī)構(gòu)踐行《證券期貨業(yè)科技發(fā)展“十四五”規(guī)劃》,共促基金行業(yè)數(shù)字化轉(zhuǎn)型,按照中國(guó)證監(jiān)會(huì)總體工作部署,于2022年11月開展“證券期貨業(yè)數(shù)字化轉(zhuǎn)型主題宣傳月”活動(dòng)。通過開展“證券期貨業(yè)數(shù)字化轉(zhuǎn)型主題宣傳月”活動(dòng),搭建交流平臺(tái),展現(xiàn)數(shù)字化轉(zhuǎn)型成果案例,激發(fā)金融科技創(chuàng)新活力,營(yíng)造金融科技長(zhǎng)效發(fā)展新生態(tài)。該篇為“證券期貨業(yè)數(shù)字化轉(zhuǎn)型主題宣傳月”系列宣傳之十八。

    深度學(xué)習(xí)輔助設(shè)置客戶標(biāo)簽

    ——建信基金

    一、背景

    為了更好地服務(wù)客戶,維護(hù)金融業(yè)的安全與穩(wěn)定,基金行業(yè)監(jiān)管愈趨嚴(yán)格,數(shù)據(jù)報(bào)送工作也越來越重要。建信基金作為金融行業(yè)內(nèi)首批成立的銀行系基金公司,除完成證監(jiān)會(huì)要求的FISP報(bào)送、CISP資管報(bào)送、基金申贖及基金投資人結(jié)構(gòu)日?qǐng)?bào)表,基金業(yè)協(xié)會(huì)要求的資管業(yè)務(wù)運(yùn)行月報(bào)、場(chǎng)外債券投資交易明細(xì)表、公募資金來源表等基金行業(yè)監(jiān)管相關(guān)的報(bào)送工作外,還需要完成人民銀行要求的金融機(jī)構(gòu)資管產(chǎn)品數(shù)據(jù)報(bào)送、銀行業(yè)金融機(jī)構(gòu)黃金市場(chǎng)業(yè)務(wù)監(jiān)測(cè)表、人民銀行系統(tǒng)重要性銀行統(tǒng)計(jì)制度報(bào)表報(bào)送、銀保監(jiān)會(huì)要求的綜合化經(jīng)營(yíng)自查附屬機(jī)構(gòu)內(nèi)部交易報(bào)送等銀行業(yè)監(jiān)管相關(guān)報(bào)送。其中證監(jiān)會(huì)FISP報(bào)送、人民銀行金融機(jī)構(gòu)資管產(chǎn)品數(shù)據(jù)報(bào)送、人民銀行系統(tǒng)重要性銀行統(tǒng)計(jì)制度報(bào)表報(bào)送、基金業(yè)協(xié)會(huì)公募資金來源表、附屬機(jī)構(gòu)內(nèi)部交易報(bào)送工作,需要業(yè)務(wù)人員每日手動(dòng)填充新注冊(cè)的對(duì)公客戶的7項(xiàng)屬性標(biāo)簽(以下簡(jiǎn)稱“打標(biāo)簽”)。

    為完成打標(biāo)簽工作,業(yè)務(wù)人員投入了越來越多的精力。一方面,業(yè)務(wù)人員需要結(jié)合業(yè)務(wù)經(jīng)驗(yàn)才能正確填寫標(biāo)簽,另一方面,有些屬性包含的標(biāo)簽類型數(shù)量較大,如“FISP分類”有40個(gè)以上標(biāo)簽可選項(xiàng),需要業(yè)務(wù)人員查找與比對(duì)之后才能選出正確的一項(xiàng)。隨著公司業(yè)務(wù)的不斷發(fā)展,新注冊(cè)的對(duì)公客戶數(shù)量越來越多,業(yè)務(wù)人員手動(dòng)填寫標(biāo)簽的工作壓力不斷增大。

    2021年《證券期貨業(yè)科技發(fā)展“十四五”規(guī)劃》(以下簡(jiǎn)稱《“十四五”規(guī)劃》)正式發(fā)布[1],強(qiáng)調(diào)了“推進(jìn)行業(yè)數(shù)字化轉(zhuǎn)型發(fā)展”與“數(shù)據(jù)讓監(jiān)管更加智慧”兩大主題。建信基金從數(shù)字化經(jīng)營(yíng)角度對(duì)監(jiān)管報(bào)送業(yè)務(wù)中的打標(biāo)簽工作進(jìn)行了分析,嘗試通過人工智能算法對(duì)標(biāo)簽進(jìn)行預(yù)填充,減少業(yè)務(wù)人員在填寫標(biāo)簽上花費(fèi)的時(shí)間和精力,提升員工工作效率和工作體驗(yàn)。

    對(duì)新注冊(cè)客戶打標(biāo)簽,本質(zhì)是把客戶分配到該標(biāo)簽對(duì)應(yīng)類別中。通過建立機(jī)器學(xué)習(xí)模型,可以對(duì)客戶的類別進(jìn)行預(yù)測(cè),并完成自動(dòng)填寫,供業(yè)務(wù)人員審核或修正。建信基金算法團(tuán)隊(duì)在對(duì)兩種深度學(xué)習(xí)算法——文本卷積神經(jīng)網(wǎng)絡(luò)[2][3]和基于注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)[4]進(jìn)行探索后,對(duì)報(bào)送工作中需人工填寫的7個(gè)屬性進(jìn)行了預(yù)測(cè),均獲得了極高的準(zhǔn)確率,已在建信基金統(tǒng)一報(bào)送平臺(tái)上線使用。

    二、兩種深度學(xué)習(xí)模型

    下面簡(jiǎn)介兩種深度學(xué)習(xí)模型的基本原理。

    (一)TextCNN模型

    在短文本分類領(lǐng)域常用文本卷積神經(jīng)網(wǎng)絡(luò)(后面簡(jiǎn)稱TextCNN)來完成分類任務(wù)。參考句子分類的卷積神經(jīng)網(wǎng)絡(luò)TextCNN網(wǎng)絡(luò)結(jié)構(gòu)[2],本文模型如圖1所示。

    該網(wǎng)絡(luò)結(jié)構(gòu)主要包括嵌入層、卷積層、池化、全連接層四部分。

    TextCNN先使用預(yù)訓(xùn)練的詞向量作為嵌入層,然后在卷積層使用一維卷積提取特征,再通過池化函數(shù)捕獲最重要的特征,在全連接層建立特征到類別的全連接,將輸出結(jié)果進(jìn)行歸一化轉(zhuǎn)換后,可得到每個(gè)類別標(biāo)簽的概率。

    (二)Bi-LSTM+Attention模型

    長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM,是一種循環(huán)神經(jīng)網(wǎng)絡(luò)模型。雙向長(zhǎng)短期記憶網(wǎng)絡(luò)Bi-LSTM能更好地捕獲句子中上下文的信息。而基于注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(以下稱為Bi-LSTM+Attention)在關(guān)系分類[4]的實(shí)驗(yàn)中獲得比較顯著的效果。本文選用的Bi-LSTM+Attention模型如圖2所示。

    三、業(yè)務(wù)分析與模型構(gòu)建

    對(duì)公客戶在基金公司注冊(cè)成功后,就成為基金公司的新客戶(以下簡(jiǎn)稱“客戶”)。根據(jù)監(jiān)管要求,每一個(gè)新客戶的加入,在報(bào)送時(shí)需對(duì)其補(bǔ)充“客戶類型”、“FISP分類”、“人行類型”、“內(nèi)部交易類型”、“資金來源”“公募來源投向”、“人行重要性分類”共7個(gè)屬性標(biāo)簽,而其中每一屬性的填充,均需要從監(jiān)管要求的標(biāo)準(zhǔn)標(biāo)簽集中選出一個(gè)標(biāo)簽。

    比如,注冊(cè)名稱為“×銀理財(cái)穩(wěn)享固收精選2個(gè)月定開3號(hào)理財(cái)產(chǎn)品”的客戶,設(shè)置“客戶類型”屬性為“產(chǎn)品客戶”,“FISP分類”屬性為“銀行子公司公募理財(cái)”,“人行類型”屬性為“銀行非保本理財(cái)”,“人行重要性分類”屬性為“特定目的載體”,“內(nèi)部交易類型”屬性為“非內(nèi)部交易客戶”,“資金來源”屬性為“其他機(jī)構(gòu)”,“公募來源投向”屬性為“除上述類型外的其他機(jī)構(gòu)投資者”。而名稱為“北京××有限公司”的客戶,則設(shè)置“客戶類型”屬性為“機(jī)構(gòu)客戶”,“FISP分類”屬性為“境內(nèi)非金融機(jī)構(gòu)”標(biāo)簽,“人行類型”屬性為“非金融企業(yè)”,“人行重要性分類”屬性為“非金融企業(yè)”,這些屬性標(biāo)簽與前者明顯不同。

    為實(shí)現(xiàn)智能化設(shè)置標(biāo)簽的目標(biāo),需要用模型預(yù)測(cè)出每個(gè)屬性選擇哪個(gè)標(biāo)簽是最適合的。通過對(duì)客戶數(shù)據(jù)考察發(fā)現(xiàn),客戶名稱是體現(xiàn)客戶特點(diǎn)的核心因素,對(duì)于每個(gè)屬性選擇標(biāo)簽起重要作用。對(duì)客戶名稱建模,并從一個(gè)標(biāo)準(zhǔn)標(biāo)簽集中篩選出最合適的一個(gè)標(biāo)簽,填充到該客戶某一屬性上,是自然語(yǔ)言處理領(lǐng)域文本分類技術(shù)的一個(gè)典型應(yīng)用場(chǎng)景。

    所以,本文對(duì)客戶7個(gè)屬性分別建立了7個(gè)獨(dú)立的分類子模型,預(yù)測(cè)各自對(duì)應(yīng)的標(biāo)簽結(jié)果。每個(gè)模型訓(xùn)練與預(yù)測(cè)過程如圖3所示。

    在算法處理過程中,首先使用開源分詞工具結(jié)巴分詞,把客戶名稱切成有意義的詞條序列,并去除助詞、標(biāo)點(diǎn)等無意義詞條。

    下一步通過詞嵌入模型word2vec[5]進(jìn)行語(yǔ)義抽取,每個(gè)詞條的語(yǔ)義用同一維度的向量表示出來,客戶名稱就從詞條序列轉(zhuǎn)換成計(jì)算機(jī)可運(yùn)算的語(yǔ)義數(shù)字矩陣。

    最后用深度學(xué)習(xí)模型進(jìn)行訓(xùn)練和預(yù)測(cè)。以TextCNN網(wǎng)絡(luò)為例,前一步得到語(yǔ)義數(shù)字矩陣作為TextCNN網(wǎng)絡(luò)的嵌入層輸入數(shù)據(jù),經(jīng)過網(wǎng)絡(luò)模型計(jì)算后,最終在全連接層后,預(yù)測(cè)出每個(gè)候選標(biāo)簽的概率,并選擇概率最高的標(biāo)簽為某一屬性最終的填充結(jié)果。

    本文參考句子分類實(shí)驗(yàn)的模型結(jié)構(gòu)和參數(shù)[3],選擇卷積過濾器窗口大小為2、3、4、5,用以提取詞之間多元語(yǔ)義信息。此外,卷積模式設(shè)計(jì)也重點(diǎn)考慮了文本首尾的邊界特征的有效提取。比如名稱為“××博時(shí)組合"的客戶,因?yàn)?ldquo;組合”是名稱的結(jié)尾,則應(yīng)標(biāo)記為“產(chǎn)品客戶”,而名稱為“北京××有限公司”的客戶,是以“有限公司”為結(jié)尾的,則更可能歸屬于“機(jī)構(gòu)客戶”。

    對(duì)Bi-LSTM+Attention模型也是類似的,客戶名稱的詞條序列轉(zhuǎn)化為語(yǔ)義向量序列X1,X2,…,XT作為輸入層,經(jīng)過模型運(yùn)算后,預(yù)測(cè)出概率最高的標(biāo)簽作為最終結(jié)果。

    四、實(shí)驗(yàn)結(jié)果

    實(shí)驗(yàn)選用了2019年6月份到2022年6月份業(yè)務(wù)部門手工標(biāo)記的客戶標(biāo)簽數(shù)據(jù),隨機(jī)劃分得到訓(xùn)練集約4萬條和測(cè)試集約1萬條數(shù)據(jù)。

    在客戶7個(gè)屬性的預(yù)測(cè)任務(wù)上,兩種模型的實(shí)驗(yàn)準(zhǔn)確率如表1所示。

    TextCNN模型和LSTM+ATTENTION模型都獲得了高準(zhǔn)確率的實(shí)驗(yàn)效果,而機(jī)器實(shí)測(cè)運(yùn)行效率上,前者是后者的十倍以上,所以生產(chǎn)應(yīng)用上更傾向TextCNN模型。

    五、給公司帶來的效益

    (一)降低工作難度和工作量

    在TextCNN模型上線之前,按照數(shù)據(jù)報(bào)送業(yè)務(wù)的操作流程,業(yè)務(wù)人員需要對(duì)新客戶的7個(gè)屬性依次進(jìn)行手工選擇,為每個(gè)屬性選擇正確的標(biāo)簽作為屬性值。業(yè)務(wù)人員為每個(gè)屬性選擇標(biāo)簽時(shí),主要依賴其個(gè)人經(jīng)驗(yàn)作為判斷依據(jù),從一個(gè)候選的標(biāo)簽列表中尋找出正確的標(biāo)簽作為屬性值,做出判斷的難度較大,很多情況下需要依賴互聯(lián)網(wǎng)等工具反復(fù)搜索和匯總信息后才能最終確認(rèn),操作過程枯燥乏味,且當(dāng)信息不全時(shí)還有產(chǎn)生誤選的風(fēng)險(xiǎn)。另外,由于純手工操作的效率低,當(dāng)出現(xiàn)新用戶量暴增的情況時(shí),打標(biāo)簽操作會(huì)對(duì)業(yè)務(wù)人員的工作負(fù)荷和數(shù)據(jù)報(bào)送業(yè)務(wù)的按時(shí)完成帶來不小的壓力。

    為了解決這些問題,公司的數(shù)據(jù)報(bào)送業(yè)務(wù)流程進(jìn)行了升級(jí),加入了TextCNN模型輔助設(shè)置客戶標(biāo)簽的功能。TextCNN模型對(duì)新用戶的7個(gè)屬性都能預(yù)先給出高準(zhǔn)確率的預(yù)測(cè)結(jié)果,自動(dòng)設(shè)置屬性標(biāo)簽,而業(yè)務(wù)人員的操作方式也從原來的手工選擇標(biāo)簽,轉(zhuǎn)變?yōu)闃?biāo)簽的審核與修正,簡(jiǎn)化了操作步驟,并顯著降低了業(yè)務(wù)人員的工作難度和工作量。

    TextCNN模型上線后,選擇一個(gè)月的實(shí)際數(shù)據(jù)統(tǒng)計(jì),如表2所示,各個(gè)屬性均保持了穩(wěn)定的高準(zhǔn)確率,平均準(zhǔn)確率約97.85%,僅有不超過3%的標(biāo)簽需要進(jìn)行人工修正,業(yè)務(wù)人員的工作量得到了顯著降低。

    (二)提升工作效率

    由于深度學(xué)習(xí)模型已給出高準(zhǔn)確率的預(yù)測(cè)結(jié)果,業(yè)務(wù)人員僅需關(guān)注在結(jié)果的審核和少量錯(cuò)誤數(shù)據(jù)的修正上,節(jié)省了97%以上的操作時(shí)間,提升了工作效率,為數(shù)據(jù)報(bào)送業(yè)務(wù)每日按時(shí)順利完成提供了強(qiáng)大的技術(shù)支持,并避免了新用戶量大幅上漲可能引起人工操作時(shí)間暴漲的情況,降低了運(yùn)營(yíng)風(fēng)險(xiǎn)。

    比如,根據(jù)TextCNN模型上線后實(shí)際操作日志統(tǒng)計(jì),假設(shè)新用戶每個(gè)屬性點(diǎn)選標(biāo)簽平均需要4秒鐘,則原本1小時(shí)以上的標(biāo)簽手工填寫工作,可縮減為幾分鐘內(nèi)完成。即使偶爾出現(xiàn)新客戶暴漲的情況,業(yè)務(wù)人員的操作時(shí)間依然能夠控制在很小的時(shí)間范圍內(nèi),輕松完成,如表3所示。

    (三)提升報(bào)送數(shù)據(jù)的質(zhì)量

    采用深度學(xué)習(xí)TextCNN模型輔助設(shè)置客戶標(biāo)簽的新業(yè)務(wù)模式,相比原來純手工模式,還有助于提升各個(gè)屬性的準(zhǔn)確率,從而進(jìn)一步提升報(bào)送數(shù)據(jù)的質(zhì)量。

    這是因?yàn)椋环矫鎀extCNN模型的預(yù)測(cè)結(jié)果已有很高的準(zhǔn)確率,再由業(yè)務(wù)人員結(jié)合自身經(jīng)驗(yàn)進(jìn)行人工審核和修正后,進(jìn)一步提升了數(shù)據(jù)質(zhì)量;另一方面,當(dāng)業(yè)務(wù)人員對(duì)新客戶的信息掌握不足、存在偏差等特殊情況下,在某些屬性上容易出現(xiàn)人工判斷錯(cuò)誤的風(fēng)險(xiǎn)時(shí),TextCNN模型的預(yù)測(cè)結(jié)果有可能提供出正確的候選,從而幫助業(yè)務(wù)人員突破依賴個(gè)人經(jīng)驗(yàn)進(jìn)行操作的限制,避免誤選屬性標(biāo)簽。

    比如,僅憑個(gè)人經(jīng)驗(yàn),“招商財(cái)富”容易被誤認(rèn)為是“招商銀行”的子公司,但實(shí)際上“招商財(cái)富”是“招商基金”的子公司。類似這樣的情況,深度學(xué)習(xí)TextCNN模型的預(yù)測(cè)結(jié)果可以給出正確的候選標(biāo)簽供業(yè)務(wù)人員參考和審核,從而一定程度上減少了誤選的風(fēng)險(xiǎn)。

    綜上所述,高準(zhǔn)確率的深度學(xué)習(xí)模型在數(shù)據(jù)報(bào)送業(yè)務(wù)上的應(yīng)用,不僅降低了業(yè)務(wù)人員的操作難度,更顯著降低了人工的工作量和操作時(shí)間,提升了工作效率和工作體驗(yàn),還有助于進(jìn)一步提升報(bào)送數(shù)據(jù)的質(zhì)量,降低了運(yùn)營(yíng)風(fēng)險(xiǎn),為行業(yè)數(shù)字化轉(zhuǎn)型進(jìn)行了有益的探索實(shí)踐。

    參考文獻(xiàn)[1]羅逸姝.新華社客戶端官方帳號(hào).《證券期貨業(yè)科技發(fā)展“十四五”規(guī)劃》發(fā)布[N].百度百家號(hào).2021-10-22[2]YoonKim.2014.ConvolutionalNeuralNetworksforSentenceClassification.InProceedingsofthe2014ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP),pages1746–1751,Doha,Qatar.AssociationforComputationalLinguistics.[3]YeZhangandByronWallace.2017.ASensitivityAnalysisof(andPractitioners’Guideto)ConvolutionalNeuralNetworksforSentenceClassification.InProceedingsoftheEighthInternationalJointConferenceonNaturalLanguageProcessing(Volume1:LongPapers),pages253–263.[4]PengZhou,WeiShi,JunTian,ZhenyuQi,BingchenLi,HongweiHao,andBoXu.2016.Attention-BasedBidirectionalLongShort-TermMemoryNetworksforRelationClassification.InProceedingsofthe54thAnnualMeetingoftheAssociationforComputationalLinguistics(Volume2:ShortPapers),pages207–212,Berlin,Germany.AssociationforComputationalLinguistics.[5]T.Mikolov,K.Chen,G.Corrado,andJ.Dean.EfficientEstimationofWordRepresentationsinVectorSpace.ICLRWorkshop,2013a。

-證券日?qǐng)?bào)網(wǎng)
  • 24小時(shí)排行 一周排行

版權(quán)所有證券日?qǐng)?bào)網(wǎng)

互聯(lián)網(wǎng)新聞信息服務(wù)許可證 10120180014增值電信業(yè)務(wù)經(jīng)營(yíng)許可證B2-20181903

京公網(wǎng)安備 11010202007567號(hào)京ICP備17054264號(hào)

證券日?qǐng)?bào)網(wǎng)所載文章、數(shù)據(jù)僅供參考,使用前務(wù)請(qǐng)仔細(xì)閱讀法律申明,風(fēng)險(xiǎn)自負(fù)。

證券日?qǐng)?bào)社電話:010-83251700網(wǎng)站電話:010-83251800

網(wǎng)站傳真:010-83251801電子郵件:xmtzx@zqrb.net

證券日?qǐng)?bào)APP

掃一掃,即可下載

官方微信

掃一掃,加關(guān)注

官方微博

掃一掃,加關(guān)注