BRL 신경망 모델 기반 명가 의안 개체 인식

YANG Hang ,  

PENG Yehui ,  

YANG Wei ,  

WANG Jiaheng ,  

ZHAO Zhiwei ,  

XU Wenyuan ,  

LI Yuxin ,  

ZHU Yan ,  

LIU Lihong ,  

摘要

목적은 의안 텍스트 내 명명된 개체 인식 정확도를 향상시키고, 의안 지식의 효과적인 발굴 및 활용을 실현하는 것이다. 의안 텍스트의 특징에 맞추어 Bert-Radical-Lexicon(BRL) 신경망 모델을 구축하여 의안 개체를 인식하였다. 『중화역대명의의안전고』에서 고혈압병과 관련된 408편의 의안을 선정하고, 수작업 라벨링을 통해 1,672개의 의안 코퍼스 데이터 세트를 구축하였다. 이후 이 코퍼스들을 무작위로 3개의 하위 집합으로 나누었는데, 훈련 집합(1,004개), 테스트 집합(334개), 검증 집합(334개)으로 구성되었다. 이를 기반으로 여러 의안 텍스트 특징을 융합한 BRL 모델과 그 변형 모델인 BRL-B, BRL-L, BRL-R, 그리고 베이스 모델 Base를 구축하였다. 모델 교육 단계에서는 훈련 집합을 활용해 위 모델들을 훈련시켰으며, 과적합 위험을 줄이기 위해 훈련 과정에서 각 모델의 검증 집합에 대한 성능을 지속적으로 모니터링하고 최적 성능 모델을 저장하였다. 최종적으로 테스트 집합에서 이들 모델의 성능을 평가하였다. 다른 모델과 비교했을 때, BRL 모델은 의안 명명된 개체 인식 과제에서 최고의 성능을 보였으며, 질병, 증상, 설상, 맥상, 증후, 치료법, 방제 및 한약의 총 8개 개체 유형에 대한 전체 인식 정밀도는 90.09%, 재현율은 90.61%, 정밀도와 재현율의 조화 평균(F1)은 90.35%였다. BRL 모델은 Base 모델과 비교하여 개체 인식 전체 F1이 5.22% 향상되었으며, 특히 맥상 개체의 F1이 6.92%로 가장 큰 향상을 보였다. 결론적으로 임베딩 층에서 여러 의안 텍스트 특징을 융합함으로써 BRL 신경망 모델은 더 강력한 명명된 개체 인식 능력을 갖추어 더 정확하고 신뢰할 수 있는 중의 임상 정보를 추출할 수 있다.

关键词

명명된 개체 인식;사전학습 모델;부수 임베딩;연관어 임베딩;명가 의안

阅读全文