Reconocimiento de entidades en casos médicos famosos basado en el modelo de red neuronal BRL

YANG Hang ,  

PENG Yehui ,  

YANG Wei ,  

WANG Jiaheng ,  

ZHAO Zhiwei ,  

XU Wenyuan ,  

LI Yuxin ,  

ZHU Yan ,  

LIU Lihong ,  

摘要

El objetivo es mejorar la precisión en el reconocimiento de entidades nombradas en textos de casos médicos, para lograr una extracción y utilización efectiva del conocimiento médico. Basado en las características de los textos médicos, se construyó un modelo de red neuronal Bert-Radical-Lexicon (BRL) para reconocer las entidades en los casos médicos. Se seleccionaron 408 casos médicos relacionados con hipertensión de la "Biblioteca completa de casos médicos de médicos famosos a través de las dinastías chinas", y se construyó un conjunto de datos con 1,672 registros mediante anotación manual. Luego, estos corpus se dividieron aleatoriamente en tres subconjuntos: conjunto de entrenamiento (1,004 registros), conjunto de prueba (334 registros) y conjunto de validación (334 registros). Sobre esta base, se construyó el modelo BRL que fusiona múltiples características del texto médico, así como sus variantes BRL-B, BRL-L, BRL-R, y un modelo base Base. Durante la fase de entrenamiento del modelo, se utilizó el conjunto de entrenamiento para entrenar los modelos mencionados; para reducir el riesgo de sobreajuste, se supervisó continuamente el rendimiento en el conjunto de validación y se guardó el modelo con el mejor desempeño. Finalmente, se evaluó el rendimiento de estos modelos en el conjunto de prueba. En comparación con otros modelos, el modelo BRL mostró el mejor desempeño en la tarea de reconocimiento de entidades nombradas en casos médicos, con una precisión general del 90.09%, una tasa de recuperación del 90.61% y una media armónica (F1) del 90.35% para ocho tipos de entidades: enfermedades, síntomas, aspecto de la lengua, aspecto del pulso, síndromes, métodos de tratamiento, fórmulas y medicamentos chinos. El modelo BRL, en comparación con el modelo Base, mejoró la F1 general del reconocimiento de entidades en un 5.22%, siendo la mejora más alta la de las entidades de aspecto del pulso, con un 6.92%. Conclusión: al incorporar múltiples características del texto médico en la capa de embedding, el modelo de red neuronal BRL tiene una capacidad más fuerte para el reconocimiento de entidades nombradas, permitiendo extraer información clínica tradicional china de manera más precisa y confiable.

关键词

reconocimiento de entidades nombradas;modelo preentrenado;embedding de radicales;embedding de términos relacionados;casos médicos famosos

阅读全文