Объединенное извлечение отношений в медицинских случаях выдающихся врачей на основе модели CasRel с увеличением данных и отображением сущностей

LI Yuxin ,  

XIANG Xinghua ,  

YANG Hang ,  

LIU Dasheng ,  

WANG Jiaheng ,  

ZHAO Zhiwei ,  

HAN Jiaxu ,  

WU Mengjie ,  

CHE Qianzi ,  

YANG Wei ,  

摘要

Цель исследования — решить проблему неструктурированного классического китайского описания случаев выдающихся врачей традиционной китайской медицины, вложенных сущностных отношений и дефицита аннотированных данных, путем создания объединенной модели извлечения отношений с использованием увеличения данных и отображения сущностей, обеспечивающей техническую поддержку построения графа знаний традиционной китайской медицины и поиска клинических закономерностей. Метод заключается в создании аннотированной структуры сущностей и их отношений в текстах медицинских случаев, использовании стратегии увеличения данных, интеграции множества классических текстов для расширения набора данных по извлечению отношений, проектировании модели объединенного извлечения отношений на основе каскадного двоичного разметчика (CasRel), адаптированной к семантике традиционной китайской медицины, введении предобученного двунаправленного кодировщика (BERT) для классических текстов, улучшающего семантическое представление древнекитайского языка, использовании механизма отображения «сущность-голова – отношение – сущность-хвост» для синхронного решения проблем вложенности сущностей и перекрывающихся отношений. Результаты показали, что объединенная модель CasRel с увеличением данных и отображением сущностей значительно превосходит каскадную модель BRL-BiLSTM-Attention на основе Bert-Radical-Lexicon, с общей точностью по 12 классам отношений, включая отношения симптомов, отношения по диагнoстиκе языка, причинно-следственные и рецептурные отношения, равной 65.73%, полнотой 64.03%, F1-мера 64.87%, что выше на 14.26%, 7.98% и 11.21% соответственно по сравнению с каскадной моделью BRL-BiLSTM-Attention. Значительно улучшились отношения диагностики языка (F1=69.32%, рост на 22.68%), наилучшая производительность по рецептурным отношениям (F1=70.10%, рост на 9.93%). Вывод: исследование с помощью увеличения данных и совместного декодирования значительно улучшило скрытые семантические и сложные зависимости между сущностями в текстах традиционной китайской медицины, предоставило пригодную для повторного использования техническую основу для структурного анализа медицинских случаев, а построенный граф знаний поддерживает клинический выбор диагностики и оптимизацию совместного применения лекарств, а также служит методологической ссылкой для исследований искусственного интеллекта в традиционной китайской медицине.

关键词

увеличение данных;медицинские случаи выдающихся врачей;извлечение отношений;объединенный метод;модель объединенного извлечения отношений на основе каскадного двоичного разметчика (CasRel);граф знаний

阅读全文