首頁

大語言模型在證券行業(yè)的應用測評分析

2024-12-13 16:27 來源：證券日報網(wǎng)

1、引言

大語言模型（LLM）包含數(shù)千億參數(shù)，在大規(guī)模文本數(shù)據(jù)上訓練，展現(xiàn)出強大的自然語言理解和復雜任務解決能力。第一個重要里程碑是OpenAI發(fā)布的ChatGPT，它優(yōu)化了對話能力，能夠在多輪對話中準確追蹤上下文，且保持與人類價值觀的一致性。GPT-4在語言模型的基礎上進一步擴展到多模態(tài)信號，能夠解決復雜任務，顯著提升評估任務的性能。其他開源大語言模型如Llama-2、Falcon、ChatGLM3等也在迅速發(fā)展。LLM在金融領域展現(xiàn)出巨大潛力，逐漸成為處理金融問題的強大工具。金融大語言模型的起始是BloombergGPT，混合專業(yè)領域數(shù)據(jù)集的訓練使其在金融任務上表現(xiàn)優(yōu)秀，另外，首個針對中文金融領域優(yōu)化的千億級開源對話大模型是XUANYUAN，在金融場景的測評中，全面超越其他主流開源大模型。

金融證券領域的LLM應用對數(shù)據(jù)合規(guī)性、準確性、時效性要求高，需要私有化部署并進行個性化訓練，因此存在訓練數(shù)據(jù)和資源限制。我們嘗試利用小型高質量指令數(shù)據(jù)集微調LLM，驗證其在金融證券領域工作助手的有效性，構建了SecPile數(shù)據(jù)集用于微調訓練，包含金融和通用數(shù)據(jù)集?；诮鹑陬I域常見場景設計評測集，對微調后的模型在通用能力和金融能力方面進行SecScope評測。

2、證券行業(yè)大模型研發(fā)進展

Transformer模型自2017年提出以來，通過注意力機制和自監(jiān)督學習極大地提升了語言理解和生成能力，成為眾多大語言模型如BERT、RoBERTa、T5等的基礎。目前，技術如LoRA、P-tuning和Prompt-tuning展現(xiàn)了參數(shù)高效微調的優(yōu)勢，包括縮短訓練時間、減少顯存占用，并保持良好的泛化性，使用較少參數(shù)進行高效微調以獲得更佳效果是主流趨勢。

在金融領域，訓練數(shù)據(jù)集的構成對模型性能有顯著影響。研究表明多任務種類的微調數(shù)據(jù)，特別是COT數(shù)據(jù)，能進一步提升微調效果。數(shù)據(jù)質量被認為比數(shù)據(jù)集大小更重要，一個小規(guī)模高質量數(shù)據(jù)集可能優(yōu)于大規(guī)模低質量數(shù)據(jù)集。BloombergGPT和XUANYUAN金融大模型通過不同比例的垂直領域數(shù)據(jù)和通用數(shù)據(jù)平衡專業(yè)知識與多元應用能力。通過不同的預訓練模型和微調策略發(fā)掘金融領域大語言模型的潛力，例如通過混合調優(yōu)方法緩解災難性遺忘，為金融領域提供更加專業(yè)和精準的模型解決方案。

證券行業(yè)正處于推進金融與科技融合的關鍵階段，77家證券公司將數(shù)字化轉型作為公司發(fā)展的核心戰(zhàn)略，意在實現(xiàn)高質量發(fā)展并全面服務實體經(jīng)濟。大模型技術在行業(yè)內(nèi)的應用逐漸從零售經(jīng)紀業(yè)務擴展到機構業(yè)務、資產(chǎn)管理、投資銀行等多個領域。一些頭部券商積極探索大模型技術在智能客服、數(shù)字化投行、智能投研、智能協(xié)作等細分應用領域的實際應用，中小券商也在積極利用AIGC技術提升自身的內(nèi)容輸出水平?；诖竽Ｐ图夹g的語義理解和內(nèi)容生成能力，行業(yè)內(nèi)已有多家財富管理機構將其應用于生成符合要求的營銷文案和推廣策略，以提高營銷效果和用戶轉化率。此外，AI數(shù)字人等新技術也逐漸在證券行業(yè)落地，部分機構正探索將其嵌入到開戶流程、客戶服務等具體業(yè)務辦理中，與客戶進行實時互動和溝通。為了支撐上述的技術應用，部分券商正持續(xù)提升數(shù)據(jù)、算力、算法等能力，強化AI中臺技術沉淀和組件復用。但在實際應用中，合規(guī)、數(shù)據(jù)隱私保護等問題仍然需要重視。因此，行業(yè)需要進一步深度融合科技與業(yè)務，符合法律法規(guī)，方能實現(xiàn)科技在金融領域的價值。

3、SecPile金融與通用數(shù)據(jù)集

SecPile數(shù)據(jù)集包含金融和通用兩個數(shù)據(jù)集，SecPile金融數(shù)據(jù)集由司內(nèi)沉淀的問答數(shù)據(jù)和金融行業(yè)公開知識數(shù)據(jù)組成，經(jīng)過預處理和迭代更新機制，保證時效性和準確性。數(shù)據(jù)集細分為金融從業(yè)考試知識點、金融基礎信息、行業(yè)知識數(shù)據(jù)和金融NLP任務數(shù)據(jù)。金融從業(yè)考試知識點包括高質量試題和教材資料，涵蓋證券、基金、期貨等專業(yè)科目。金融基礎信息來源于傳統(tǒng)金融數(shù)據(jù)平臺，包括上市公司、基金、債券等基礎信息。行業(yè)知識數(shù)據(jù)來自證監(jiān)會、證交所等，涵蓋專業(yè)知識、法律法規(guī)等。金融NLP任務數(shù)據(jù)收集自開源社區(qū)和比賽網(wǎng)站，包括文本摘要、實體識別、情感分析等任務，經(jīng)過數(shù)據(jù)清洗和標準化處理，適用于模型微調和評測。

SecPile通用數(shù)據(jù)集由五個高質量的中英文微調數(shù)據(jù)集組成，覆蓋多輪對話、文本創(chuàng)作、中英翻譯、數(shù)據(jù)與編程等多領域任務。這些數(shù)據(jù)已在大型語言模型訓練中展現(xiàn)有效性，經(jīng)過徹底清洗和預處理，提供豐富多樣性，支持模型在多領域、多場景下的訓練和優(yōu)化。數(shù)據(jù)集包括開放式問答與邏輯推理、文本生成與理解、交互式對話與翻譯等類型，來源多樣，通過自動化處理和人工審核確保數(shù)據(jù)質量。開放式問答與邏輯推理數(shù)據(jù)旨在提升模型的自然語言理解和邏輯推理能力；文本生成與理解數(shù)據(jù)集支持模型在復雜文本處理場景下的應用；交互式對話與翻譯數(shù)據(jù)集增強模型在語言轉換和邏輯編程方面的能力，確保了數(shù)據(jù)的高質量和實用性。

4、模型訓練與調優(yōu)過程

ChatGLM3-6B-Base是當前三個可選的開源基模型之一，以65.3分的最高綜合得分位列OpenCompass 1.0大語言模型榜單首位。該模型繼承并發(fā)展了前代模型的優(yōu)點，如流暢的對話體驗和低門檻部署要求，同時引入新特性如Prompt格式和函數(shù)調用功能，優(yōu)化多輪對話流暢性和連貫性，并支持復雜場景如代理任務。ChatGLM3通過多樣化訓練數(shù)據(jù)集、增加訓練步驟和采用合理訓練策略，提升學習效率和性能，在多任務上表現(xiàn)出色。ChatGLMForConditionalGeneration模型架構專為條件生成任務設計，包括詞嵌入層、旋轉位置嵌入技術、由28個GLMBlock組成的編碼器和輸出層，具備改進的長距離依賴處理能力、更高處理效率和準確性，以及更好的穩(wěn)定性和性能。訓練配置方面，優(yōu)化了多項參數(shù)以提高模型性能，采用混合精度訓練和Deepspeed框架，通過零冗余優(yōu)化和offload技術減少內(nèi)存占用，實現(xiàn)更大參數(shù)量模型的訓練。

我們基于BloombergGPT的經(jīng)驗，將初始學習率設定為6e-5，并使用帶線性預熱和線性衰減的學習率調度器，見圖一。通過不同學習率的控制變量訓練，發(fā)現(xiàn)2e-5的學習率在訓練過程中表現(xiàn)出更好的穩(wěn)定性和平滑性，見圖二。為應對學習率下降過快的問題，我們采用了WarmupCosineLR策略進行更緩慢的學習率衰減，但這一調整并未顯著改善損失曲線的最終值。進一步，我們通過調整weight_decay值從1e-6降低至1e-7，減小了損失函數(shù)的波動。綜合考慮損失下降速度、最終損失值和訓練過程的穩(wěn)定性，我們選擇了學習率為2e-5、調度器為cosine、權重衰減為1e-7的訓練方案，以優(yōu)化模型的性能和穩(wěn)定性，最終微調訓練成XCGLM證券垂類大語言模型。

5、SecScope通用與金融能力評測

大語言模型在通用能力方面需掌握跨學科知識進行推理，研究通過C-Eval、CMMLU、MMLU和AGIEval四個評測集評估模型的邏輯推理和數(shù)學計算能力，并構建專門的意圖識別評測集評估模型對文本意圖的理解能力。在金融領域，模型常應用于摘要生成、關鍵詞提取、實體識別和情感分析等任務，研究設計了SecScope測試集評估XCGLM在證券領域任務的表現(xiàn)，包括金融能力評估、摘要生成、關鍵詞提取、實體識別和情感分析五部分，使用XSum、LCSTS、CSL評測集和新浪新聞標注數(shù)據(jù)等作為評估基準，對FiQA SA和FPB金融情緒分析數(shù)據(jù)集進行清洗和校準，構建金融行業(yè)專用情感分析測試集。

圖3評測模型能力雷達圖

在參數(shù)量相近的情況下，大語言模型展現(xiàn)出了類似的性能水平，且隨著參數(shù)量的增加，性能有顯著提升。經(jīng)過針對“遺忘性災難”專門化訓練的模型，如XCGLM和Tongyi-Finance-14B，在通用能力上略遜于原始基礎模型，但在金融領域的知識、從業(yè)能力和特定文本分析任務上表現(xiàn)卓越，尤其是在處理復雜特定提示詞的任務時，XCGLM能更全面地遵循指令，產(chǎn)出更高質量的結果，如圖3。這證明了專業(yè)化訓練對提升大語言模型在特定領域應用的實際效能的重要性，通過小型高質量數(shù)據(jù)集微調，能有效打造針對特定行業(yè)領域的工作助手，顯著提升從業(yè)人員的工作效率，發(fā)揮重要作用。

6、總結與展望

本文探討了大語言模型在證券領域的應用與優(yōu)化，通過構建綜合性的SecPile數(shù)據(jù)集，平衡模型的通用性和金融特性，提供豐富的微調和評測資源。選用ChatGLM3-6B-Base作為基模型，優(yōu)化其結構和訓練配置，提升模型在金融領域任務集上的表現(xiàn)。微調后的模型有效完成金融實體識別、問答、關鍵詞提取、情感分析等任務，提高金融從業(yè)人員工作效率。本文證明利用小型高質量指令數(shù)據(jù)集微調大語言模型的有效性，為構建特定領域工作助手提供經(jīng)驗。同時，也凸顯了大語言模型在金融領域的潛力及持續(xù)探索優(yōu)化的重要性。

未來，大模型的發(fā)展更加側重垂直領域應用，或分為行業(yè)應用和創(chuàng)新創(chuàng)意兩個賽道，行業(yè)應用是對傳統(tǒng)業(yè)務的賦能和顛覆，創(chuàng)新創(chuàng)意應用則是利用AIGC邏輯創(chuàng)造出新質生產(chǎn)力。對于證券行業(yè)，大模型賦能券商業(yè)務是我們接下來深入研究的方向，科技必須和業(yè)務場景結合，才能發(fā)揮相應的價值和能力。取經(jīng)于互聯(lián)網(wǎng)+經(jīng)驗，在AIGC+時代下，進一步幫助企業(yè)和個人提質增效。對于信息技術部門來說，通過數(shù)據(jù)、算力、算法能力研發(fā)大模型應用開發(fā)平臺是首要工作事項。在此平臺上，基于目前大模型成熟的語義理解和內(nèi)容生成能力，證券行業(yè)或可以在營銷軟文創(chuàng)作、智能投顧、群聊智能助手、代碼助手等方向尋求應用落地。隨著大模型的能力逐步提升，大模型Agent與RPA機器人的結合是我們持續(xù)探索和落地的方向。

作者（姓名、單位、職務）

鄧綱湘財證券股份有限公司總裁助理、信息技術中心總經(jīng)理

李鵬湘財證券股份有限公司、信息技術中心大數(shù)據(jù)開發(fā)崗

吳星諭湘財證券股份有限公司、信息技術中心量化策略與數(shù)據(jù)分析崗

王鄭毅湘財證券股份有限公司、信息技術中心大數(shù)據(jù)開發(fā)崗

劉文貴湘財證券股份有限公司、信息技術中心需求分析管理崗

（CIS）

-證券日報網(wǎng)

熱點新聞

全球化布局不斷深化 A股公司跨境并購持續(xù)火熱

固態(tài)電池產(chǎn)業(yè)化加速產(chǎn)業(yè)鏈公司加緊布局

退市新規(guī)成效漸顯 6家上市公司清收占用資金超60億元

國有大行5000億元注資在路上服務新質生產(chǎn)力能力再增強

24小時排行一周排行

深度策劃

多地召開“新春第一會” 高質量發(fā)展、改革創(chuàng)新等被“置頂”

隨著春節(jié)假期結束，全國多地在蛇年首個工作……[詳情]

市場快訊

10:45	雀巢大中華區(qū)董事長兼首席執(zhí)行官張...
10:42	全國人大代表、寧德時代高級技術工...
10:39	全國人大代表、河南證監(jiān)局局長牛雪...
10:25	擬披露重大事項！301613，停牌！
23:41	全國政協(xié)委員、證監(jiān)會處罰委辦公室...
23:41	基金券商十位首席經(jīng)濟學家熱議“穩(wěn)...
23:41	回應時代命題民營企業(yè)大有可為
23:41	全國政協(xié)十四屆三次會議舉行第三次...
23:41	全國政協(xié)委員、上交所總經(jīng)理蔡建春...
23:41	滬市民營企業(yè)代表委員熱議高質量發(fā)...
23:41	穩(wěn)樓市、保就業(yè)、促養(yǎng)老四部門負責...
23:40	大力提振消費釋放消費增長潛能