在CCKS2020(全國知識圖譜與語義計算大會)舉辦的“基于本體的金融知識圖譜自動化構建技術評測”任務中,我們的團隊——北京網絡技術服務團隊,通過綜合運用多種自然語言處理與知識圖譜技術,最終取得了第五名的成績。本文旨在對該次評測中所采用的核心技術方案與實現方法進行與分享。
一、 任務背景與挑戰
該評測任務旨在推動金融領域知識圖譜的自動化構建技術發展。參賽者需基于給定的金融領域本體(Ontology)和標注語料,設計并實現一個端到端的系統,能夠從非結構化的金融文本中自動抽取實體、關系及屬性,并形成符合本體規范的知識三元組,最終構建成結構化的知識圖譜。核心挑戰在于:
- 金融領域專業性:文本中包含大量金融術語、公司實體、金融指標,需要精準識別。
- 關系復雜性:金融實體間關系多樣且定義嚴謹,如“控股”、“發行”、“屬于”等,對關系分類精度要求高。
- 本體約束:抽取的知識必須嚴格遵循預先定義的本體模式(Schema),對實體鏈接和關系對齊提出了高要求。
- 自動化與效率:要求系統全流程自動化,并需在有限的評測時間內處理大規模文本。
二、 核心技術方法
我們的解決方案采用了“管道式”(Pipeline)架構,將任務分解為命名實體識別(NER)、實體鏈接(Entity Linking)和關系抽取(Relation Extraction)三個核心模塊,并輔以后處理與融合策略。
1. 命名實體識別(NER)模塊
* 模型選擇:采用預訓練語言模型BERT作為基礎,在其上疊加BiLSTM-CRF層,構成混合模型。BERT能夠提供深層次的上下文語義表示,BiLSTM能夠有效捕捉序列的長期依賴,CRF層則確保了標簽預測的全局最優性。
- 領域適配:為了使模型更好地適應金融領域,我們使用了在金融新聞、財報等語料上繼續預訓練的BERT變體(如FinBERT或類似模型)作為初始化,顯著提升了金融實體(如“市盈率”、“應收賬款”)的識別準確率。
- 數據增強:針對金融標注數據有限的問題,采用了基于本體的回譯和實體替換等數據增強技術,擴充了訓練樣本。
2. 實體鏈接(EL)模塊
* 候選實體生成:將NER識別出的實體提及(Mention),通過字符串模糊匹配與編輯距離,在本體概念庫中進行初步檢索,生成候選實體列表。
- 實體消歧:構建一個基于BERT的雙塔編碼模型。一個塔編碼文本中提及的上下文,另一個塔編碼候選實體的描述文本(來自本體定義)。通過計算兩者的語義相似度,選擇相似度最高的候選實體作為鏈接目標。此方法有效解決了金融實體名稱歧義(如“蘋果”可能指公司或水果)和簡稱問題。
3. 關系抽取(RE)模塊
* 聯合抽取思路:為了克服傳統管道方法中錯誤傳播的問題,我們探索了基于序列標注的聯合抽取模型。將關系抽取任務轉化為對句子中每個token進行“實體-關系”聯合標簽的序列標注問題。這種方法能夠同時捕捉同一句子內多個實體對的關系,提升了效率。
- 遠程監督與強化學習:利用知識庫(本體)中已有的三元組,對海量無標簽金融文本進行遠程監督標注,生成噪聲數據用于模型預訓練。隨后在精標注數據上,采用強化學習策略對模型進行微調,以減輕噪聲標簽帶來的負面影響,穩定提升了關系分類的F1值。
4. 后處理與知識融合
* 規則修正:根據金融領域規則和本體約束,設計了一系列后處理規則。例如,對于“公司A控股公司B”這類句子,確保抽取的“控股”關系方向正確;對數值、日期等屬性進行格式化標準化。
- 沖突消解:對同一來源文本中可能產生的冗余或矛盾三元組,基于置信度(模型預測概率)和證據頻次進行融合與去重,輸出最可靠的知識集合。
三、 與展望
本次評測中,我們的方案通過結合預訓練語言模型的強大語義理解能力、領域適配策略以及針對性的模塊設計,實現了金融知識抽取的較高自動化水平。最終獲得第五名,驗證了方案的有效性。
主要經驗:1)領域特定的預訓練至關重要;2)針對金融文本特點(如長句、多實體)設計模型結構能帶來增益;3)后處理規則是提升結果合規性的有效補充。
未來改進方向:1)嘗試更先進的端到端聯合學習模型,以進一步減少模塊間的誤差累積;2)引入圖神經網絡(GNN)對已抽取的知識進行全局推理和糾錯;3)探索小樣本和零樣本學習技術,以應對金融本體不斷演化和新增關系類型的挑戰。
通過此次評測,我們深化了對金融知識圖譜構建技術難點的理解,也為后續研發更智能、更魯棒的金融信息自動化處理系統積累了寶貴經驗。