Extração conjunta de relações de casos médicos de especialistas baseada no modelo CasRel que combina aumento de dados e mapeamento de entidades

LI Yuxin ,  

XIANG Xinghua ,  

YANG Hang ,  

LIU Dasheng ,  

WANG Jiaheng ,  

ZHAO Zhiwei ,  

HAN Jiaxu ,  

WU Mengjie ,  

CHE Qianzi ,  

YANG Wei ,  

摘要

O objetivo é abordar o problema da expressão não estruturada em linguagem clássica nos casos médicos de especialistas em medicina tradicional chinesa, o aninhamento de relações entre entidades e a escassez de dados anotados, construindo um framework de extração conjunta de relações que combina aumento de dados e mapeamento de entidades, fornecendo suporte técnico para a construção do grafo de conhecimento do diagnóstico e tratamento da medicina chinesa e a mineração de regras clínicas. O método consiste em construir uma estrutura anotada de entidades e suas relações nos textos dos casos médicos de especialistas, usar estratégias de aumento de dados, integrar múltiplos textos clássicos para expandir o conjunto de dados de extração de relações, projetar um modelo CasRel de extração conjunta de relações baseado em marcação binária em cascata adaptado à semântica da medicina chinesa, introduzir uma camada de codificação de um codificador bidirecional pré-treinado em textos clássicos (BERT) para melhorar a representação semântica do chinês antigo, adotar um mecanismo de mapeamento cabeça-entidade - relação - entidade-cauda para resolver simultaneamente os problemas de aninhamento de entidades e sobreposição de relações. Os resultados mostram que o modelo CasRel conjunto, combinado com aumento de dados e mapeamento de entidades, apresenta vantagens de desempenho mais significativas em comparação com o modelo em pipeline BRL-BiLSTM-Attention baseado em Bert-Radical-Lexicon, com precisão combinada, recall e valor F1 em 12 tipos de relações, como relações de sintomas, relações de diagnóstico da língua, relações causais e relações de prescrição, de 65,73%, 64,03% e 64,87%, respectivamente, melhorando 14,26%, 7,98% e 11,21%, respectivamente, em comparação com o modelo em pipeline BRL-BiLSTM-Attention. A melhoria foi especialmente notável em relações de diagnóstico da língua (valor F1 de 69,32%, aumento de 22,68%) e as relações de prescrição apresentaram o melhor desempenho (valor F1 de 70,10%, aumento de 9,93%). Conclusão Este estudo melhora significativamente os problemas semânticos implícitos e as dependências complexas entre entidades em textos de medicina chinesa por meio do aumento de dados e da decodificação conjunta, fornecendo um framework técnico reutilizável para mineração estruturada de casos médicos da medicina chinesa, e o grafo de conhecimento construído pode apoiar a seleção clínica de fórmulas diagnósticas e a otimização da compatibilidade de medicamentos, além de fornecer uma referência metodológica para pesquisas em inteligência artificial na medicina chinesa.

关键词

aumento de dados;casos médicos de especialistas;extração de relações;método conjunto;modelo de extração conjunta de relações baseado em marcação binária em cascata (CasRel);grafo de conhecimento

阅读全文