데이터 증강 및 개체 매핑 CasRel 모델을 결합한 명가 의안 공동 관계 추출

LI Yuxin; XIANG Xinghua; YANG Hang; LIU Dasheng; WANG Jiaheng; ZHAO Zhiwei; HAN Jiaxu; WU Mengjie; CHE Qianzi; YANG Wei

doi:10.13422/j.cnki.syfjx.20251866

데이터 증강 및 개체 매핑 CasRel 모델을 결합한 명가 의안 공동 관계 추출

DOI：10.13422/j.cnki.syfjx.20251866

摘要

목적은 중의 명가 의안의 비구조화된 한문 표현, 개체 관계 중첩 및 주석 데이터 부족 문제를 해결하기 위해 데이터 증강과 개체 매핑을 결합한 공동 관계 추출 프레임워크를 구축하여 중의 진단 치료 지식 그래프 구축 및 임상 규칙 발굴에 기술적 지원을 제공하는 것이다. 방법으로 명가 의안 텍스트 개체 및 관계의 주석 구조를 구축하고, 데이터 증강 전략을 채택하여 다수의 고전을 통합해 의안 관계 추출 데이터셋을 확장하며, 중의 의미론에 적합한 단계적 이진 라벨링 기반 관계 공동 추출(CasRel) 모델을 설계하고, 중의 고전 텍스트 사전학습 양방향 인코더 표현법(BERT) 인코딩 층을 도입하여 고한어의 의미 표현을 강화하며, 머리 개체-관계-꼬리 개체 매핑 메커니즘을 채용하여 개체 중첩과 관계 중복 문제를 동기적으로 해결했다. 결과는 기존의 파이프라인 기반 Bert-Radical-Lexicon(BRL)-양방향 장단기 기억 네트워크-어텐션(BiLSTM-Attention) 모델에 비해, 데이터 증강과 개체 매핑을 결합한 공동 관계 추출 CasRel 모델이 병증 관계, 설진 관계, 원인-증상 관계, 방증 관계 등 총 12종 관계에 대해 종합 정밀도 65.73%, 재현율 64.03%, F1값 64.87%를 보이며, 파이프라인 방식의 BRL-BiLSTM-Attention 모델에 비해 종합 정밀도, 재현율, F1값이 각각 14.26%, 7.98%, 11.21% 향상되었다. 특히 설진 관계(F1값 69.32%, 22.68% 향상)에서 향상이 두드러졌고, 방증 관계에서 가장 우수한 성능(F1값 70.10%, 9.93% 향상)을 보였다. 결론 본 연구는 데이터 증강 및 공동 디코딩을 통해 중의 텍스트의 의미 내포 및 개체 간 복잡한 의존성 문제를 현저히 개선하였으며, 중의 의안 구조화 발굴을 위한 재사용 가능한 기술 프레임워크를 제공하고, 구축된 지식 그래프는 임상 변증 처방 및 약물 배합 최적화를 지원하며, 중의 인공지능 연구에 방법론적 참고를 제공한다.

关键词

데이터 증강;명가 의안;관계 추출;공동 방법;단계적 이진 라벨링 기반 관계 공동 추출(CasRel) 모델;지식 그래프

阅读全文

데이터 증강 및 개체 매핑 CasRel 모델을 결합한 명가 의안 공동 관계 추출

LI Yuxin ,

XIANG Xinghua ,

YANG Hang ,

LIU Dasheng ,

WANG Jiaheng ,

ZHAO Zhiwei ,

HAN Jiaxu ,

WU Mengjie ,

CHE Qianzi ,

YANG Wei ,

DOI：10.13422/j.cnki.syfjx.20251866

摘要

关键词