Extracción conjunta de relaciones en casos médicos de expertos basada en el modelo CasRel combinado con aumento de datos y mapeo de entidades

LI Yuxin ,  

XIANG Xinghua ,  

YANG Hang ,  

LIU Dasheng ,  

WANG Jiaheng ,  

ZHAO Zhiwei ,  

HAN Jiaxu ,  

WU Mengjie ,  

CHE Qianzi ,  

YANG Wei ,  

摘要

El objetivo es abordar el problema de la expresión no estructurada en chino clásico de los casos médicos de expertos en medicina tradicional china, la anidación de relaciones entre entidades y la escasez de datos anotados, mediante la construcción de un marco conjunto de extracción de relaciones que combine aumento de datos y mapeo de entidades, proporcionando soporte técnico para la construcción del gráfico de conocimiento del diagnóstico y tratamiento de la medicina china y la minería de reglas clínicas. El método consiste en construir una estructura anotada de entidades y sus relaciones en los textos de casos médicos de expertos, utilizar estrategias de aumento de datos, integrar múltiples textos clásicos para expandir el conjunto de datos de extracción de relaciones, diseñar un modelo CasRel de extracción conjunta de relaciones basado en etiquetas binarias en cascada adaptado a la semántica de la medicina china, introducir una capa de codificación de un codificador bidireccional preentrenado en textos clásicos (BERT) para mejorar la representación semántica del chino antiguo, y utilizar un mecanismo de mapeo cabeza-entidad - relación - cola-entidad para resolver simultáneamente los problemas de anidación de entidades y superposición de relaciones. Los resultados muestran que el modelo CasRel conjunto que combina aumento de datos y mapeo de entidades presenta ventajas de rendimiento más significativas en comparación con el modelo en línea BRL-BiLSTM-Attention basado en Bert-Radical-Lexicon, con una precisión global, recall y valor F1 en 12 tipos de relaciones como relaciones de síntomas, relaciones de diagnóstico lingual, relaciones causales y relaciones de prescripción del 65.73%, 64.03% y 64.87%, respectivamente, mejorando en 14.26%, 7.98% y 11.21% respectivamente en comparación con el modelo en línea BRL-BiLSTM-Attention. La mejora fue especialmente notable en las relaciones de diagnóstico lingual (valor F1 del 69.32%, mejora del 22.68%) y las relaciones de prescripción mostraron el mejor rendimiento (valor F1 del 70.10%, mejora del 9.93%). Conclusión: este estudio mejora significativamente los problemas semánticos implícitos y las dependencias complejas entre entidades en textos de medicina china a través del aumento de datos y la decodificación conjunta, proporcionando un marco técnico reutilizable para la minería estructurada de casos médicos de medicina china, y el gráfico de conocimiento construido puede apoyar la selección clínica de fórmulas de diagnóstico y la optimización de la compatibilidad de medicamentos, además de proporcionar una referencia metodológica para la investigación en inteligencia artificial en medicina china.

关键词

aumento de datos;casos médicos de expertos;extracción de relaciones;método conjunto;modelo de extracción conjunta de relaciones basado en etiquetas binarias en cascada (CasRel);gráfico de conocimiento

阅读全文