التعرف على كيانات سجلات الأطباء المشهورين المستند إلى نموذج الشبكة العصبية BRL

YANG Hang ,  

PENG Yehui ,  

YANG Wei ,  

WANG Jiaheng ,  

ZHAO Zhiwei ,  

XU Wenyuan ,  

LI Yuxin ,  

ZHU Yan ,  

LIU Lihong ,  

摘要

الهدف هو تحسين دقة التعرف على الكيانات المسماة في نصوص السجلات الطبية، وتحقيق التنقيب والاستخدام الفعّال لمعرف السجلات الطبية. بناءً على خصائص نص السجلات الطبية، تم بناء نموذج شبكة عصبية Bert-Radical-Lexicon (BRL) للتعرف على كيانات السجلات الطبية. تم اختيار 408 سجلات طبية متعلقة بمرض ارتفاع ضغط الدم من "المكتبة الكاملة لسجلات الأطباء المشهورين عبر العصور الصينية"، وتم بناء مجموعة بيانات تحتوي على 1,672 سجلًا طبيًا من خلال التعليقات اليدوية. بعد ذلك، تم تقسيم هذه البيانات عشوائيًا إلى 3 مجموعات فرعية: مجموعة تدريب (1,004 سجلات)، مجموعة اختبار (334 سجلًا)، ومجموعة تحقق (334 سجلًا). بناءً على ذلك، تم إنشاء نموذج BRL الذي يدمج عدة ميزات نصية للسجلات الطبية، ونماذج متغيراته BRL-B وBRL-L وBRL-R، بالإضافة إلى نموذج أساسي Base. خلال مرحلة تدريب النماذج، تم استخدام مجموعة التدريب لتدريب النماذج المذكورة، وللحد من خطر الإفراط في التدريب، تمت مراقبة أداء كل نموذج على مجموعة التحقق بشكل مستمر، وتم حفظ النموذج الأفضل أداءً. أخيرًا، تم تقييم أداء هذه النماذج على مجموعة الاختبار. مقارنةً بالنماذج الأخرى، كان أداء نموذج BRL الأفضل في مهمة التعرف على الكيانات المسماة في السجلات الطبية، حيث بلغت الدقة الشاملة للتعرف على 8 أنواع من الكيانات: الأمراض، والأعراض، ومظهر اللسان، ونمط النبض، والعرض، والعلاج، والتركيبات الدوائية، والأدوية الصينية 90.09% في الدقة و90.61% في الاستدعاء، وكان المتوسط التوافقي (F1) بين الدقة والاستدعاء 90.35%. مقارنةً بنموذج Base، حقق نموذج BRL تحسنًا بنسبة 5.22% في F1 الإجمالي للتعرف على الكيانات، وكان التحسن الأكبر في F1 لكيانات نمط النبض بنسبة 6.92%. الاستنتاج هو أن دمج عدة ميزات نصية للسجلات الطبية في طبقة التضمين يعطي نموذج الشبكة العصبية BRL قدرة أقوى على التعرف على الكيانات المسماة، مما يسمح باستخراج معلومات سريرية للطب الصيني أكثر دقة وموثوقية.

关键词

التعرف على الكيانات المسماة;النموذج المدرب مسبقًا;تضمين الجذور;تضمين الكلمات المرتبطة;سجلات الأطباء المشهورين

阅读全文