Reconnaissance des entités dans les dossiers médicaux célèbres basée sur le modèle de réseau neuronal BRL

YANG Hang ,  

PENG Yehui ,  

YANG Wei ,  

WANG Jiaheng ,  

ZHAO Zhiwei ,  

XU Wenyuan ,  

LI Yuxin ,  

ZHU Yan ,  

LIU Lihong ,  

摘要

L’objectif est d’améliorer la précision de la reconnaissance des entités nommées dans les textes des dossiers médicaux, afin de réaliser une exploitation efficace des connaissances médicales. En tenant compte des caractéristiques des textes médicaux, un modèle de réseau neuronal Bert-Radical-Lexicon (BRL) a été construit pour reconnaître les entités dans ces dossiers. 408 dossiers médicaux liés à l’hypertension ont été sélectionnés dans la "Bibliothèque complète des dossiers médicaux des médecins célèbres chinois à travers les âges", et un jeu de données de 1 672 dossiers a été créé via une annotation manuelle. Ces corpus ont ensuite été divisés aléatoirement en 3 sous-ensembles : ensemble d’entraînement (1 004 dossiers), ensemble de test (334 dossiers) et ensemble de validation (334 dossiers). Sur cette base, un modèle BRL fusionnant plusieurs caractéristiques textuelles des dossiers a été construit, ainsi que ses variantes BRL-B, BRL-L, BRL-R et un modèle de base Base. Lors de la phase d’entraînement, les modèles ont été entraînés avec l’ensemble d’entraînement, un suivi continu des performances sur l’ensemble de validation a permis de réduire le risque de surapprentissage, et le meilleur modèle a été sauvegardé. Enfin, les performances ont été évaluées sur l’ensemble de test. Comparé aux autres modèles, le modèle BRL a montré les meilleures performances pour la reconnaissance des entités nommées dans les dossiers médicaux, avec une précision globale de 90,09%, un rappel de 90,61% et une moyenne harmonique F1 de 90,35% pour 8 types d’entités : maladies, symptômes, aspects de langue, aspects de pouls, syndromes, méthodes de traitement, prescriptions et médicaments chinois. Par rapport au modèle Base, BRL a amélioré la F1 globale de la reconnaissance des entités de 5,22%, avec la plus forte amélioration pour les entités de pouls (6,92%). Conclusion : En intégrant plusieurs caractéristiques textuelles des dossiers au niveau de la couche d’encodage, le modèle BRL possède une meilleure capacité à reconnaître les entités nommées, permettant d’extraire des informations cliniques en médecine chinoise plus précises et fiables.

关键词

reconnaissance des entités nommées;modèle préentraîné;encodage des radicaux;encodage des mots associés;dossiers médicaux célèbres

阅读全文