L'objectif est de répondre aux problèmes liés aux descriptions non structurées en langue classique des cas médicaux d'experts en médecine traditionnelle chinoise, aux relations emboîtées entre entités et au manque de données annotées, en construisant un cadre d'extraction de relations conjoint combinant augmentation de données et cartographie d'entités, fournissant un support technique pour la construction du graphe de connaissances médicales chinoises et l'exploration des règles cliniques. La méthode consiste à construire une structure annotée des entités et de leurs relations dans les textes des cas d'experts, à utiliser une stratégie d'augmentation de données, intégrer plusieurs textes classiques pour étendre le jeu de données d'extraction de relations, concevoir un modèle d'extraction conjointe des relations basé sur des étiquettes binaires en cascade (CasRel) adapté à la sémantique de la médecine chinoise, introduire une couche de codage d'un encodeur bidirectionnel pré-entraîné sur les textes classiques (BERT) pour renforcer la représentation sémantique du chinois ancien, adopter un mécanisme de cartographie entité-tête - relation - entité-queue pour résoudre simultanément le problème des entités imbriquées et des relations chevauchantes. Les résultats montrent que le modèle CasRel conjoint combiné à l'augmentation de données et à la cartographie d'entités présente des avantages de performance significatifs par rapport au modèle en pipeline BRL-BiLSTM-Attention basé sur Bert-Radical-Lexicon, avec une précision globale, un rappel et une valeur F1 sur 12 types de relations comme les relations symptômes, relations de diagnostic lingual, relations causales et relations de prescription de respectivement 65,73%, 64,03% et 64,87%, améliorant respectivement de 14,26%, 7,98% et 11,21% par rapport au modèle en pipeline BRL-BiLSTM-Attention. L'amélioration est particulièrement remarquable pour les relations de diagnostic lingual (valeur F1 de 69,32%, amélioration de 22,68%) et les relations de prescription présentent les meilleures performances (valeur F1 de 70,10%, amélioration de 9,93%). Conclusion : cette étude améliore significativement les problèmes de sémantique implicite et de dépendances complexes entre entités dans les textes médicaux chinois via l'augmentation de données et le décodage conjoint, fournissant un cadre technique réutilisable pour l'exploration structurée des cas médicaux chinois, le graphe de connaissances construit pouvant soutenir l'optimisation clinique de la sélection des prescriptions et de la compatibilité des médicaments, et offrant également une référence méthodologique pour la recherche en intelligence artificielle en médecine chinoise.
关键词
augmentation de données;cas médicaux d'experts;extraction de relations;méthode conjointe;modèle d'extraction conjointe des relations basé sur des étiquettes binaires en cascade (CasRel);graphe de connaissances