骨质疏松症(OP)是以骨强度下降和骨折风险增加为特征的骨骼疾病,严重威胁中老年患者的身心健康和生命安全[1-2]。OP属中医学“骨痿”“骨枯”等范畴,主要与肾、肝、脾三脏功能有关,其中肾精亏虚是其发病的基本病机[3]。医护人员为OP患者精确辨证,在“辨证施治,整体调节,防治结合”的原则下,依据证型遣方用药,可以改善其临床症状,延缓骨量丢失或增加骨量,降低骨折风险,提高生存质量[4]。《中药新药临床研究指导原则(试行)》《中医临床诊疗术语·第2部分:证候》《中医内科常见病诊疗指南·西医疾病部分》(ZYYXH/T50~135—2008)将OP患者分为肾阳虚、肝肾阴虚、脾肾阳虚、血瘀气滞、肾精不足等多个证型;近年来一些研究者通过理论探究、病案整理或统计机器学习等方法辨证OP患者群体,均将肾阳虚或脾肾阳虚作为主要证型[5-8]。这些规范指南及研究结果凸显了肾阳虚证辨识对于OP患者辨证施治的意义。在实际诊疗中,不同患者的年龄、体质量指数、生活环境、既往病史、临床症状等信息可能差异巨大。若由医师根据每位患者的全部信息逐一辨识,将导致低效的证型判定及治疗方案设计,且易受人为因素干扰。多项研究表明,在疾病的诊断过程中引入数据挖掘和机器学习方法,能降低人为因素干扰,提高诊断的效率和精度[9-11]。对OP患者肾阳虚证的辨识,可进一步视为对辨证的可解释性分类或预测问题,即根据患者核心症状或症状组合即规则建立辨识模型,使得患者被辨识为肾阳虚证或其他证型具有可解释性。既往研究对中医辨证的研究方法多集中于描述性统计[12-14]、方差分析(ANOVA)[15]、Cox回归[15]、Logistic回归[16]等,以及一些复杂的机器学习方法[17-18],分析患者变量与中医证型之间的相关性及其差异统计学意义。但这些研究只能解释变量影响辨证的重要性,难以实现变量取值组合对辨证的可解释性分析,而考虑患者多个症状变量的取值组合表现对指导中医辨证更具临床意义。因此,本文拟引入近年来机器学习领域的研究热点——规则集成方法[19-23],以树模型为基础,通过预测规则体现多个症状的组合对结局的影响,具有预测精度高、形式简单、可解释性高的特点。根据各规则直接或间接指向结局的形式,该方法可分为可解释性决策树(inTrees)[24]和预测规则集成(PRE)[25]两类。inTrees的每条规则都直接指向结局,具有一定的独立预测能力。PRE则只提取规则条件并视为影响因素,进而与其他规则一并对结局进行回归分析。在中医辨证研究中,PRE方法可以从患者数据中生成大量由变量及变量高阶交互形成的规则,并筛选其中影响辨证的关键规则,进而构建证型辨识模型。基于此,本研究拟应用预测规则集成方法研究OP患者的肾阳虚证辨识,期望解释辨证过程中患者各变量及变量组合的影响效应,以辅助医护人员分析既往辨识过程,总结形成中医临床辨证规则,并指导对OP患者的肾阳虚证辨识。1 材料与方法1.1 数据来源纳入2010年8月24日至2013年11月14日在上海中医药大学附属龙华医院住院且诊断为骨质疏松、骨量减少的1 005例患者[18,26]。OP诊断标准参照《中国老年骨质疏松诊疗指南(2018)》[27]和《中国定量CT(QCT)骨质疏松症诊断指南(2018)》[28]:骨密度检测出阳性现象,双能X射线骨密度测量,骨密度≤峰值骨量(M)-2.5倍标准差。选择年龄≥40岁且排除临床症状或体征和舌脉变量取值有缺失的患者,最终保留用于研究的有效样本982例。OP患者的中医证候分型标准参考《中医药防治原发性骨质疏松症专家共识(2020)》[29],其中326例患者证型判定为肾阳虚,656例患者证型为非肾阳虚。肾阳虚证与非肾阳虚证患者的年龄分别为(76.11±9.85)、(76.52±9.09)岁;性别分布分别为肾阳虚证患者男性39例(11.96%)、女性287例(88.04%),非肾阳虚证患者男性63例(9.60%)、女性593例(90.40%)。基于OP临床症状调查问卷、肾阳虚证自评量表、WOMAC骨性关节炎指数评分表、EuroQol健康指数量表、体力活动问卷和中医体质量表进行患者信息收集。由经过培训的中医学专业教师或临床医师对研究对象进行问卷调查获取,调查内容包括基本信息、病因病机、临床症状和法则治法等。本研究收集了较全面的临床症状信息以满足精确辨证需要,共包含40个临床特征变量。其中涉及患者比例超过30%的变量有神疲、乏力、发焦、齿摇、面色少华、健忘、迟钝、口干、咽干、眩晕、耳鸣、失眠、多梦、畏寒、肢冷、腰膝酸软、骨软、性欲减退、舌红、苔白、脉沉细。1.2 数据处理保留数据中OP患者的基本信息,即性别与年龄。以“是否肾阳虚证”为因变量,对病因病机、临床症状、体征、舌脉等自变量分别进行组间比较。设定显著性水平为0.2,筛选与因变量显著相关的自变量。按3∶1比例将数据集划分训练集与测试集。在训练集应用规则集成方法并结合交叉验证策略,建立OP肾阳虚证辨识模型。在测试集中,使用正确率、灵敏度、特异度、受试者工作特征曲线(ROC曲线)下面积(AUC)评估辨识模型的性能。1.3 预测规则集成预测规则集成属于一种新兴的集成学习方法,目标是通过使用树模型生成规则,并结合最小绝对值收敛和选择算子(LASSO)回归创建规则集成来优化预测过程的准确性和可解释性,用于研究OP患者的肾阳虚证辨识规则[25]。首先,使用引导聚集算法(Bagging算法)生成数量为T的决策树集合,并基于每棵决策树的节点顺序生成规则,提取初始规则集。然后,通过冗余规则处理,获得简化规则集。进而,应用LASSO回归,从简化规则集中筛选提升辨证准确性的关键规则并建立OP肾阳虚证辨识模型。其中Bagging策略是基于自助采样法(bootstrap sampling)从数据集中有放回的重采样出T个子样本集,在每个子样本集上建立1棵决策树,决策树自上往下每个节点路径都将生成规则,提取每颗决策树的所有规则形成初始规则集。比如,1棵OP肾阳虚证辨识的示例决策树生成的初始规则为r1.1=Ⅰ(肢冷=有)、r1.2=Ⅰ{(肢冷=有)&(舌红=无)}、r1.3=Ⅰ{(肢冷=有)&(舌红=有)}、r1.4=Ⅰ{(肢冷=有)&(舌红=有)&(禀赋不足=有)}、r1.5=Ⅰ{(肢冷=有)&(舌红=有)&(禀赋不足=无)}、r1.6=Ⅰ(肢冷=无)、r1.7=Ⅰ{(肢冷=无)&(畏寒=有)}、r1.8=Ⅰ{(肢冷=无)&(畏寒=有)&(多梦=无)}、r1.9=Ⅰ{(肢冷=无)&(畏寒=有)&(多梦=有)}、r1.10=Ⅰ{(肢冷=无)&(畏寒=无)}。其中规则r1.1与r1.6在初始规则集中互补,属于共线规则,选择其中涉及OP患者数更多的1项纳入初始规则集并剔除另一项。对于生成的T棵决策树,可能产生由相同症状组合而成的规则。例如,另一颗决策树生成的初始规则包含r3.1=Ⅰ{(舌红=有)&(肢冷=有)},则r3.1与r1.3在整体规则集中属于重复规则,随机保留其中一项规则并剔除其他项。因此,在T棵决策树生成的大量规则中,会产生大量共线或重复规则,剔除这些规则并构成下一个规则集的过程称为去除冗余过程。同时,将原始变量作为线性项纳入最终简化规则集,为后续的集成学习提高潜在的稀疏性和准确性。基于简化规则集应用LASSO回归,筛选辨证OP肾阳虚证的关键规则并建立辨识模型。公式(1)为辨识模型的表达形式,Pr(y=1)表示辨识为肾阳虚证的概率,a^0表示模型截距项,各项系数a^m、b^j分别表示简化规则集中规则rm和线性项lj的回归系数,可通过最小化公式(2)估计得到其中m∈1,2⋯⋯M,j∈1,2⋯⋯P,M与P分别为模型中规则与线性项的数量。公式(2)中xi表示患者样本,i∈1,2⋯⋯N,N为患者总数,g(xi)=Pryi=1|xi,a^0,a^1,…,a^M,b^1,…,b^P,yi指患者xi的肾阳虚证辨识结果,yi∈{0,1},惩罚参数λ通过K折交叉验证选择,更大的惩罚参数将限制模型筛选更少的关键规则。logit[Pr(y=1)]=a^0+∑m=1Ma^mrm(x)+∑j=1Pb^jlj(xj)   (1)∏i=1Ng(xi)yi[1-g(xi)]1-yi-λ(∑m=1Ma^m+∑j=1Pb^j) (2)1.4 辨识模型的可解释性1.4.1 变量重要性对于建立的OP肾阳虚证辨识模型,各规则及线性项的重要性通过其回归系数绝对值除以标准差定义。原始变量重要性的计算方法为以该变量在各规则/线性项中的长度占比为权重,加权求和各规则/线性项的重要性。1.4.2 偏依赖性对于建立的OP肾阳虚证辨识模型,各变量的偏依赖性通过取值为“有”相比取值为“无”的辨识概率差值定义。对于多分类变量,遍历该变量的所有取值计算相应辨识概率的差值,以获得辨识模型对该变量的偏依赖性。通过绘制各变量的偏依赖图,展示变量对模型辨识直观影响。2 结果2.1 OP肾阳虚证辨识模型的构建及其评价设定显著性水平为0.2,获得与肾阳虚证显著相关的自变量禀赋不足、年老体衰、湿热郁滞、久病、神疲、齿脱、面色苍白、面色㿠白、口唇淡白、面赤、烘热、反应迟钝、口干、咽干、纳差、眩晕、耳鸣、心悸、心烦、失眠、多梦、盗汗、畏寒、肢冷、气短、骨软、潮热、手足心热、大便干结、大便溏、小便短赤、小便清、尿频、夜尿频多、生长发育迟缓、性欲减退、舌淡、舌红、苔白、少苔、平脉、脉沉细、脉细数。将以上变量及患者基本信息(年龄、性别)纳入OP肾阳虚证辨识研究。在训练集上应用Bagging结合LASSO回归的预测规则集成方法,设置Bagging算法中重采样次数T为500次,从500棵决策树中提取初始规则集,进而得到包含43个线性项和12 179个规则项的简化规则集。通过LASSO回归共筛选出18条关键规则,建立OP肾阳虚证辨识模型,表示为公式(3)。模型中各规则rm(x)及其回归系数a^m详见表1,其中11条规则的回归系数0,对辨识为肾阳虚证具有正向影响;7条规则的回归系数0,对辨识为肾阳虚证具有负向影响。辨识模型的截距项为-1.299 4,满足规则rm(x)则取值为1,否则为0,此时肾阳虚证的辨识概率通过公式(3)计算;若OP患者不能满足模型中的所有关键规则,则将其辨识为肾阳虚证的概率为1/{1+exp[-(-1.299 4)]}=0.214 3。logit[Pr(y=1)]=-1.299 4+∑m=118a^mrm(x)   (3)10.13422/j.cnki.syfjx.20230449.T001表1OP肾阳虚证辨识模型的关键规则及回归系数Table 1Key rules and regression coefficients of identification model for OP kidney Yang deficiency syndrome序号规则描述回归系数rule2518畏寒(“有”)&手足心热(“无”)0.992 4rule20畏寒(“有”)&舌红(“无”)&久病(“无”)&烘热(“无”)0.433 1rule737畏寒(“有”)&舌红(“无”)&久病(“无”)&潮热(“无”)&小便短赤(“无”)0.305 0rule521畏寒(“有”)&舌红(“无”)&潮热(“无”)&久病(“无”)0.230 0rule14304畏寒(“有”)&口干(“无”)0.176 4rule374畏寒(“有”)&舌红(“无”)&烘热(“无”)&手足心热(“无”)0.176 1rule2927畏寒(“有”)&舌红(“无”)&久病(“无”)&烘热(“无”)&潮热(“无”)&小便短赤(“无”)0.098 1rule13788肢冷(“有”)&小便短赤(“无”)0.064 4rule13789肢冷(“有”)&小便短赤(“无”)&手足心热(“无”)0.049 4rule5855肢冷(“有”)&潮热(“无”)0.045 3rule21肢冷(“有”)&手足心热(“无”)&大便干结(“无”)&潮热(“无”)0.020 5rule8333舌红(“有”)&大便溏(“无”)&禀赋不足(“无”)-0.408 7rule52畏寒(“无”)&小便清(“无”)&肢冷(“无”)&禀赋不足(“无”)-0.172 7rule5040肢冷(“无”)&舌淡(“无”)-0.133 9rule2712畏寒(“无”)&大便溏(“无”)&小便清(“无”)&禀赋不足(“无”)&口唇淡白(“无”)-0.085 3rule1563畏寒(“无”)&小便清(“无”)&大便溏(“无”)&禀赋不足(“无”)-0.039 9rule3736畏寒(“无”)&大便溏(“无”)&小便清(“无”)&禀赋不足(“无”)&肢冷(“无”)&口唇淡白(“无”)-0.003 4rule2550畏寒(“无”)&小便清(“无”)&大便溏(“无”)&肢冷(“无”)&禀赋不足(“无”)-0.003 0基于模型对训练集中OP患者的肾阳虚证辨识概率及真实证型,计算Youdenʹs J统计量[30-31],获得辨识模型的最优分类阈值为0.241。根据公式(3)计算OP患者的肾阳虚证辨识概率,Pr(y=1)0.241时患者被辨识为肾阳虚证,否则为非肾阳虚证。在测试集上评估其辨识准确度。模型对测试集中246例患者的证型辨识结果为实际82例OP肾阳虚证患者中,70例被正确预测,12例被错误预测为非肾阳虚证;实际164例OP非肾阳虚证患者中,143例被正确预测,21例被错误预测为肾阳虚证。该辨识模型的正确率、灵敏度、特异度分别为0.865 9、0.853 7、0.872 0。图1展示辨识模型在测试集的ROC曲线,AUC为0.931 5。10.13422/j.cnki.syfjx.20230449.F001图1OP肾阳虚证辨识模型在测试集上的ROC曲线Fig. 1ROC curve of OP kidney Yang deficiency syndrome identification model in test set展示该OP肾阳虚证辨识模型对测试集中随机2例患者证型的辨识过程示例,规则的覆盖颜色“无”“绿”“红”分别表示“未满足规则”“满足规则且回归系数为正”“满足规则且回归系数为负”,覆盖颜色的长度对应回归系数的绝对值大小,图片详见增强出版附加材料。结果第一位示例患者满足辨识模型中的4条关键规则,其中2条对辨识为肾阳虚证具有正向影响,另外2条则具有负向影响,肾阳虚证辨识概率为1/{1+exp[-(-1.299 4+0.176 4-0.408 7-0.133 9+0.992 4)]}=0.337 70.241,该患者被辨识为肾阳虚证;第二位示例患者满足辨识模型中的4条规则,但是其中3条对辨识为肾阳虚证具有负向影响,1条则具有正向影响,计算辨识概率为1/{1+exp[-(-1.299 4+0.064 4-0.408 7-0.085 3-0.039 9)]}= 0.145 70.241,该患者被辨识为非肾阳虚证。2.2 OP肾阳虚证辨识模型的可解释性对于建立的OP肾阳虚证辨识模型,各原始变量的重要性分布详见增强出版附加材料。重要性0.2的原始变量降序排列依次为畏寒、舌红、手足心热、肢冷、小便清、大便溏、禀赋不足、久病;OP患者基本信息(性别、年龄)对于肾阳虚证辨识模型的重要性则较低。分析OP肾阳虚证辨识模型对重要性0.2的原始变量,以及性别、年龄的偏依赖性,结果详见增强出版附加材料。畏寒、肢冷、小便清、大便溏、禀赋不足与肾阳虚证辨识概率正相关,舌红、手足心热、久病与肾阳虚证辨识概率负相关。性别、年龄对辨识概率影响较低,女性OP患者被辨识为肾阳虚证概率略高于男性,70~90岁的OP患者被辨识为肾阳虚证的概率略高于其他年龄段。OP肾阳虚证辨识模型对重要变量的偏依赖性计算结果见表2,同时,计算模型对变量取值为“有”和“无”时的偏依赖性差值。表2中各变量按重要性降序排列,并通过规范化重要性计算各变量的权重。根据表2中的偏依赖性差值列,对于畏寒,相较于取值为“无”的OP患者,取值为“有”的OP患者被辨识为肾阳虚证的概率高0.266 8。其他重要变量的偏依赖性解释形式类似。10.13422/j.cnki.syfjx.20230449.T002表2OP肾阳虚证辨识模型中重要初始变量的重要性与偏依赖性Table 2Importance and partial dependence of important original variables in OP kidney Yang deficiency identification model重要变量重要性权重w偏依赖性无有差值d(有-无)畏寒0.836 70.273 80.169 10.435 90.266 8舌红0.472 20.154 50.400 70.258 8-0.141 9手足心热0.330 40.108 10.354 40.223 5-0.130 9肢冷0.326 00.106 70.290 60.397 30.106 7小便清0.308 90.101 10.324 00.425 30.101 3大便溏0.297 60.097 40.323 40.400 40.077 0禀赋不足0.256 70.084 00.329 10.390 20.061 1久病0.226 90.074 30.339 90.288 1-0.051 8当OP患者不满足任何辨识模型中的所有规则,模型对此类患者的辨识概率为0.214 3,无法解释其肾阳虚状态。此时提出模型的补充算法:通过对OP患者偏依赖性差值(d)加权求和并规范化,计算其被辨识为肾阳虚证的概率,方式见公式(4),式中Sgn(lj)用于表达第j个重要变量的取值情况,取值为“有”时,Sgn(lj)=1,否则Sgn(lj)=-1。A、B均为规范化参数,用于控制公式(4)的概率值位于区间[0,1]。该补充算法的分类阈值经计算Youdenʹs J统计量被确定为0.683 7。该补充算法在测试集中的正确率、灵敏度、特异度、AUC分别为0.853 7、0.792 7、0.884 1、0.892 2,具有较高的总体辨识精度,但相对较低的灵敏度体现该补充算法对实际OP肾阳虚证患者的辨识能力稍差且解释性较低,故只用作当OP肾阳虚证辨识模型中所有关键规则不被满足时的补充。Pr(y=1)=∑j=18[Sgn(lj)wjdj-A]B    (4)A=-∑j=18wjdj  (5)B=2∑j=18wjdj   (6)3 讨论与总结3.1 OP肾阳虚证辨识分析肾之阳虚多因年高肾亏、素体阳虚或久病伤阳所致。《黄帝内经·素问·六节藏象论》记载:“肾主骨,生髓”,肾阳亏衰则不能温养筋骨,所谓“骨枯而髓减,发为骨痿”;元阳亏虚,机体温化失职;阳气不足则气化无权,肾阳虚弱则失于固摄。可见畏寒肢冷、夜尿频多、小便清长、大便溏薄、舌胖苔白、脉象沉细等症状[32]。以中医思维为指导的证素理论阐述了OP患者肾阳虚证与其症状表现的联系过程。但OP患者出现相应症状不一定源于肾阳虚,如患者脾胃虚寒时,可能也有畏寒、肢冷、脉沉细等症状,实际数据中大量非肾阳虚证的OP患者也有畏寒、肢冷等症状。若OP患者同时表现出肾阳虚证与其他证型的主要症状,则医护人员为此类患者辨识主证时将产生疑难。本研究同时纳入了肾阳虚证的明显症状及非肾阳虚证的其他症状,更准确地挖掘了肾阳虚证辨识规则,且根据关键规则及初始变量的重要性、偏依赖性分析结果,可初步讨论各初始变量对OP肾阳虚证辨识的意义,分析影响辨识的主次症。畏寒与手足心热是辨识模型中位居第一和第三的重要变量,分别与肾阳虚证辨识概率具有正、负相关性,可作为OP患者肾阳虚证辨识的首选辨识主症。规则rule2518具有最大回归系数,满足该规则的患者的肾阳虚证辨识概率为0.423 8。若上述有畏寒且无手足心热症状的患者进一步观测到未发生舌红与烘热症状,结合规则rule374,其肾阳虚证辨识概率将增大至0.467 3。在中医理论中,舌红往往联系OP患者的热证状态,而舌红在辨识模型的重要性和偏依赖性仅次于畏寒,且其重要性显著高于烘热,故有理由将舌红纳入OP肾阳虚证的辨证主症,舌红取值为“有”的患者将以更高的概率被辨识为非肾阳虚证。肢冷通常伴随有畏寒作为肾阳虚证的显著表象,但分析显示肢冷对OP肾阳虚证辨识模型的重要性显著低于畏寒,且低于手足心热。18条关键规则中包含肢冷(“有”)的共4条,均对辨识为肾阳虚证具有正向效应;包含肢冷(“无”)的共4条,对辨识为肾阳虚证具有负向效应。8条关键规则中6条规则的回归系数绝对值0.1,其余2条规则的回归系数绝对值0.2,并且其中具有最大负向效应的规则中包含主症畏寒(“无”)。这说明肢冷对辨识模型的实际影响较低,作为OP肾阳虚证的辨识次症更为恰当。而该症状在模型中较高(居第四位)的重要性可能是由于对应的OP患者同时观测了畏寒、手足心热、舌红等主症变量,这些实际重要变量不恰当地提高了肢冷的重要性。并且该现象可能是导致辨识模型补充算法的性能低于OP肾阳虚证辨识模型的原因之一。补充算法是基于重要变量的加权计算,为肢冷也赋予了相对较高的权重,而OP肾阳虚证辨识模型是基于规则的加权集成,辨识模型更精准地体现了肢冷症状的实际影响。小便清或大便溏作为肾阳虚证的表征,在关键规则中未直接体现出对于肾阳虚证的辨识效应。但小便清(“无”)和大便溏(“无”)在5条负向规则中同时出现,且在规则中都位于畏寒(“无”)或舌红(“无”)之后。考虑决策树模型原理,规则中的症状顺序对应其为辨证过程提供的信息量大小,表明这2个症状对辨识肾阳虚证的实际影响相对较低。故将小便清和大便溏作为肾阳虚证辨识的次症,若OP患者无这2个症状,其肾阳虚证辨识概率会小幅降低。实际患者人群较少涉及禀赋不足、久病,这2个变量对肾阳虚证辨识的准确性影响应在更大样本量的研究中分析,但成本可能超过研究意义,本研究暂未将其纳入肾阳虚证的辨识症状。通过分析,考虑将畏寒、舌红、手足心热作为OP肾阳虚证辨证主症,肢冷、小便清、大便溏作为辨证次症。在该OP肾阳虚证辨识模型中,线性项即单一症状均未被选择,表明由症状组合所构成的关键规则对辨证的影响效应大于所有单一症状,能更精准地解释症状组合与辨证的关联。根据OP肾阳虚证辨识模型的2个辨识示例,OP患者可能同时满足多条对肾阳虚证具有正向和负向效应的规则。第一位示例OP患者观测到有畏寒、手足心热、舌红、大便溏等症状,满足辨识模型中的4条关键规则,且同时满足对辨识为肾阳虚证具有最大正向和负向效应的2条规则。对此类情况的患者进行辨证时,医护人员可能会产生困扰,需要较深的肾阳虚辨证经验,而OP肾阳虚证辨识模型可将该患者准确辨识为肾阳虚证。本文建立的OP肾阳虚证辨识模型能精准实现肾阳虚证辨识且合理解释辨证过程,并设计补充算法以应对患者不满足模型所有规则的情况。虽然使用精度略低的补充算法可能会影响患者的后续治疗方案制定,但也具有一定的辨证论治辅助意义。3.2 研究方法讨论临床中骨质疏松证型繁多且常相兼为病。相比于文献中的标准化症状表现,实际诊断所获取的症状信息往往复杂度更高,给临床经验较少的中医师治疗骨质疏松造成了一定困扰[33]。在本研究中,OP患者的数据以变量形式记录各个症状信息,通过生成规则充分地探索数据中各个症状的组合情况,并以关键规则的回归系数直接解释对应的多症状组合与肾阳虚证辨识概率的关联性。该研究方法的独特优势在于,以规则的形式实现了各个症状的高阶交互并计算其对证型辨识的影响效应。通过比较不同规则,可探究当患者存在与证型辨识关联较大的明显症状时,其他症状对证型辨识的影响,从而更准确地分析主次症。相较而言,常规分类方法如Logistic回归只给出各症状或2个症状交互的影响效应;树模型方法虽可给出各症状对辨证的重要性,但难以解释各症状组合情况的影响效应。在规则集成方法中,本文选取了PRE类方法中的Bagging结合LASSO回归建立OP肾阳虚证辨识模型。但在PRE中,除Bagging外,还包含通过决策树、随机森林等策略来生成规则,再结合LASSO回归建立模型。但这些树模型限制了建模过程中纳入的初始变量数,最终生成的规则长度通常≤3个变量。导致筛选的关键规则解释的症状组合信息较少,为贴近真实辨证过程,通常考虑更多症状组合的规则更具可解释性。而对于inTrees类方法,所生成的每条规则都直接指向结局,并根据每条规则所涉及的患者比例及其对全人群的预测误差进行筛选,以获取最终的重要规则。但inTrees方法暂未能给出每条规则对辨证的影响效应,难以直观解释多条规则如何共同影响证型辨识。XGBoost、GBDT是Boosting树集成模型中的核心方法,也可以基于每棵树生成规则,但其中的每棵树具有递进关系,使得所生成规则具有层次关系。LASSO回归平等对待所有规则进行选择,因而不适合与Boosting结合来研究辨证。需要指出的是,本研究选择了OP肾阳虚证辨识模型中重要性0.2的变量来建立辨识模型的补充算法,在后续深入研究时,可根据专家共识意见确定更符合实际辨识过程的变量重要性截断值,或进一步研究该辨识模型中各系数的显著性检验,选择具有统计学意义的重要变量。3.3 总结本文基于规则集成方法构建的辨识模型及挖掘的OP肾阳虚证辨证关键规则,可降低临床医生辨证过程中人为因素的干扰并提高效率,对“病-症-证”辨证思路的清晰化、规范化具有重要意义。同时,临床医生可结合自身经验与当前研究结果,优化后续的辨识规则与辨识过程。本文重点关注OP肾阳虚证的辨识,且非肾阳虚证的OP患者中存在大量肾阴虚证型,若通过将其分类为肾阳虚-肾阴虚或肾阴虚-非肾阴虚证,则本文方法也可实现对肾阴虚患者的分析及其关键辨识规则的提取,并建立可直观解释的辨识模型,为证型辨识提供参考与指导。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读