BRL神経ネットワークモデルに基づく名家医案エンティティ認識

YANG Hang ,  

PENG Yehui ,  

YANG Wei ,  

WANG Jiaheng ,  

ZHAO Zhiwei ,  

XU Wenyuan ,  

LI Yuxin ,  

ZHU Yan ,  

LIU Lihong ,  

摘要

目的は医案テキスト中の固有表現認識の精度を向上させ、医案知識の効果的な掘り起こしと利用を実現することである。医案テキストの特徴に合わせて、Bert-Radical-Lexicon(BRL)神経ネットワークモデルを構築し、医案中の固有表現を識別した。『中華歴代名医医案全庫』から高血圧病に関連する408篇の医案を選び、手動でアノテーションを行い、1,672の医案コーパスデータセットを構築した。その後、これらのコーパスをランダムに3つのサブセット、すなわち訓練セット(1,004件)、テストセット(334件)、検証セット(334件)に分割した。これを基に、多様な医案テキスト特徴を融合したBRLモデルおよびその変種モデルBRL-B、BRL-L、BRL-R、ならびにベースモデルBaseを構築した。モデル訓練段階では、訓練セットを用いてこれらのモデルを訓練し、過学習リスクを低減するために、訓練過程で各モデルの検証セット上の性能を継続的に監視し、最も良好なモデルを保存した。最後に、テストセットにおいてこれらモデルの性能を評価した。結果として、他のモデルと比較してBRLモデルは医案固有表現認識タスクで最良の性能を示し、疾患、症状、舌象、脈象、証候、治法、方剤および中薬の計8クラスのエンティティに対して、全体認識精度は90.09%、再現率は90.61%、精度と再現率の調和平均(F1)は90.35%であった。BRLモデルはBaseモデルと比較して、エンティティ認識の全体F1を5.22%向上させ、特に脈象エンティティのF1が6.92%向上し、最も大きな改善を示した。結論として、埋め込み層に多様な医案テキスト特徴を融合することで、BRL神経ネットワークモデルはより強力な固有表現認識能力を有し、より正確で信頼性の高い中医学臨床情報を抽出可能となった。

关键词

固有表現認識;事前学習モデル;部首埋め込み;関連語埋め込み;名家医案

阅读全文