Reconhecimento de entidades em casos médicos famosos baseado no modelo de rede neural BRL

YANG Hang ,  

PENG Yehui ,  

YANG Wei ,  

WANG Jiaheng ,  

ZHAO Zhiwei ,  

XU Wenyuan ,  

LI Yuxin ,  

ZHU Yan ,  

LIU Lihong ,  

摘要

O objetivo é melhorar a precisão do reconhecimento de entidades nomeadas em textos de casos médicos, para alcançar uma extração e utilização eficazes do conhecimento médico. Com base nas características dos textos médicos, foi construído um modelo de rede neural Bert-Radical-Lexicon (BRL) para reconhecer entidades em casos médicos. Foram selecionados 408 casos relacionados à hipertensão da "Biblioteca Completa de Casos Médicos de Médicos Célebres da China" e, por meio de anotação manual, foi criado um conjunto de dados contendo 1.672 registros médicos. Em seguida, estes corpus foram divididos aleatoriamente em três subconjuntos: conjunto de treinamento (1.004 registros), conjunto de teste (334 registros) e conjunto de validação (334 registros). Com base nisso, foi construído o modelo BRL que integra múltiplas características dos textos médicos, bem como suas variantes BRL-B, BRL-L, BRL-R, e um modelo base Base. Na fase de treinamento do modelo, utilizou-se o conjunto de treinamento para treinar os modelos mencionados; para reduzir o risco de overfitting, o desempenho dos modelos no conjunto de validação foi monitorado continuamente e o modelo com melhor desempenho foi salvo. Por fim, o desempenho desses modelos foi avaliado no conjunto de teste. Em comparação com outros modelos, o modelo BRL apresentou o melhor desempenho na tarefa de reconhecimento de entidades nomeadas em casos médicos, com precisão geral de 90,09%, taxa de recall de 90,61% e média harmônica (F1) de 90,35% para oito tipos de entidades: doenças, sintomas, aspecto da língua, aspecto do pulso, síndromes, métodos de tratamento, fórmulas e remédios chineses. O modelo BRL, em comparação com o modelo Base, melhorou a F1 geral do reconhecimento de entidades em 5,22%, sendo a maior melhora para as entidades de aspecto do pulso com 6,92%. Conclusão: ao incorporar múltiplas características dos textos médicos na camada de embedding, o modelo de rede neural BRL tem uma capacidade mais forte para reconhecimento de entidades nomeadas, permitindo a extração de informações clínicas da medicina tradicional chinesa de forma mais precisa e confiável.

关键词

reconhecimento de entidades nomeadas;modelo pré-treinado;embedding de radicais;embedding de termos associados;casos médicos famosos

阅读全文