基于基原效用差异的黄连品质辩识光谱化学表征模型构建:符咒108图
免费测运势 免费批八字:
师父微信: master8299
黄连为黄连Coptis chinensisFranch.、三角叶黄连C. deltoideaC. Y. Cheng et Hsial、云南黄连C. teeta Wall.、峨眉野连C. omeiensis C. Y. Cheng等黄连属植物的干燥根茎符咒108图。依据古代典籍记载,虽然这些资源均可当作黄连药材使用,但其具体生物效用有较大差异。如《唐本草》记载:“黄连,蜀道者粗大,味极浓苦,疗渴为最;江东者节如连珠,疗痢大善”,指出川产黄连具有较好的治疗糖尿病的效果,而长江以东的黄连则更善于抑菌止痢。目前相关研究已经提供有力的证据,指出导致不一样基原黄连药材效用差异的主要原因表现为其共有物质基础的含量差异[12]。结合课题组前期研究,次生代谢产物类型的相似性是不一样基原黄连属植物根茎可作为同一中药使用的基础,也是其均可用于治疗糖尿病、阿尔茨海默症等疾病的重要原因。原小檗碱类生物碱为黄连药材的主要化学成分群,包括小檗碱、黄连碱、木兰花碱、巴马汀和非洲防己碱等[34],这些活性成分的含量差异正是多基原黄连效用同中有异的主要原因。对该类化学成分的含量进行有效表征,可明确不一样来源黄连药材共有物质基础的差异,为其品质差异鉴别提供有效的证据,并且对于该药材资源的合理利用具有积极的意义。
针对中药复杂体系中物质基础成分的快速测定,科研工作者已经进行了许多有益探索符咒108图。其中,光谱技术表现出巨大的潜力。相对而言,该技术操作简单,无需样品试剂损耗,且能够全面展示样品中的代谢成分信息,是一种绿色环保的测定方法。但是中药的光谱信息变量复杂,易于受到外界因素干扰,如何从复杂的光谱变量矩阵中提取目标变量是阻碍其进一步应用的关键问题。目前,多种化学计量学的方法已经应用于光谱数据的优化,以求简化高维的变量矩阵并提高其可用性。例如多种优化去噪、特征学习和信息融合的算法,都是提升光谱技术应用潜力的有效方法[57]。通常而言,一套完整的光谱矩阵分析流程十分复杂,包括预处理、异常值诊断、特征学习和数学模型构建等多个步骤,且需要进行严格的优化。迄今,光谱化学表征技术在多基原黄连药材共有化学成分测定及其品质差异的辨识上的应用相对较少。
基于此,本研究结合课题组前期研究中的高效液相色谱数据[8],选择多基原黄连药材中主要共有化学成分小檗碱、黄连碱、木兰花碱、非洲防己碱和巴马汀,考察光谱化学表征技术应用于多基原黄连共有活性成分测定和品质辨识的可行性符咒108图。应用傅里叶变换近红外光谱(fourier transform near infrared spectroscopy,FTNIR)和傅里叶变换中红外光谱(fourier transform midinfrared spectroscopy,FTMIR)技术采集不一样基原黄连药材的光谱信息,结合化学计量学算法,构建一套完整的光谱矩阵分析流程。偏最小二乘回归(partial least squares regression,PLSR)和支持向量回归(support vector regression,SVR)算法被用来建立该药材的光谱化学含量的表征模型,考察其与高效液相色谱数据的相关性,探讨红外光谱应用于该类化学成分快速测定和差异辨识的可行性,为多基原黄连药材的品质辨识提供依据。
展开全文
1材料与仪器
1.1样品
所用黄连药材来源于4种黄连属植物,经成都中医药大学马云桐教授鉴定,分别为黄连C. chinensisFranch.、三角叶黄连C. deltoideaC. Y. Cheng et Hsial、峨眉野连C. omeiensis C. Y. Cheng和云南黄连C. teetaWall.符咒108图。前3种植物采集于四川省洪雅县黑山村人工种植基地,云南黄连采集于云南省福贡县匹河乡人工种植基地,采集样品均为5年生植物。在其药材采收期收集并参照产地加工方法,取其根茎部位,洗净后60 ℃烘干,保存在阴凉干燥处。得到4种黄连药材分别称为味连、雅连、野连和云连。
1.2 仪器与试剂
PerkinElmer傅里叶近红外和中红外光谱仪(美国珀金埃尔默仪器有限公司),DFT50A型手提式高速粉碎机(林大机械有限公司,浙江温岭),电子天平(赛多利斯科学仪器有限公司,北京),LC20A型高效液相色谱仪(日本岛津公司)符咒108图。对照品小檗碱(批号110713201814)购自于中国食品药品检定研究院,木兰花碱(批号CHB180205)、非洲防己碱(批号CHB180712)、黄连碱(批号CHB180629)和巴马汀(批号CHB180226)购于成都克洛玛试剂公司,质量分数均≥98%。
2方法
2.1样品检测
称取适量样品,均匀放置于样品杯中,应用傅里叶近红外和中红外光谱仪,分别采集FTNIR和FTMIR光谱特征符咒108图。针对每一个样品,检测区间分别设定为10 000~4000 cm −1和4000~500 cm −1,仪器分辨率均为4 cm −1,信号累积64次。在样品测定之前,首先测定空气中水和二氧化碳引起的背景信号,并将其从样品吸收峰中自动删除。每一个样品重复测定3次,平均光谱用于后续分析。色谱数据的测定参考课题组前期的研究成果[8]。
2.2 光谱数据分析流程
2.2.14 种光谱预处理算法应用于原始光谱优化平滑算法(11点),去除噪音信号[9];多元散射校正和标准正态变量,消除光散射影响[10];导数算法,减小基线漂移并增强样品特征信息[11]符咒108图。
2.2.2 异常值诊断采用基于PLSR的Hotelling T2 [12]检验诊断数据分布符咒108图。首先基于X和Y矩阵建立PLSR模型,根据T2值来甄别数据集中的异常值。当样本的T2值高于99%置信区间,该样本被设定为异常样本并删除。
2.2.3数据标准化光谱和色谱数据含有不一样的量纲,将两者数据标准化到同一数量级,能够提升模型的收敛速度和增加准确性,因此将数据缩减至[1,1]之间[13]符咒108图。
2.2.4 光谱特征数据筛选与评价红外光谱数据变量复杂,代表样品全面的化学信息,也会产生大量的无关信号,不仅增加模型运行时间,还会降低模型的准确性和推广性符咒108图。运用4种特征学习机器算法对光谱变量的重要性进行排序,分别是递归式特征消除(recursive feature elimination,RFE)[14]、Boruta算法[15]、变量投影重要性算法(variable importance in projection,VIP)[16]和基尼指数(gini coefficient,GINI)[17],应用十折交叉验证评价特征变量数目。
2.2.5 特征信息融合:特征级数据融合是一种中等水平的融合策略,将来源于不一样传感器的特征信息加以综合,可以产生比单一信息源更精确、更完全、更可靠的估计和判断[18]符咒108图。本研究将来源于FTNIR和FTMIR光谱的特征变量进行信息融合,进一步提高多基原黄连药材共有化学成分表征模型的准确性和有效性。
2.3光谱化学表征模型
首先应用PLSR [19]算法建立5种共有化学成分的光谱化学表征模型符咒108图。该方法依据最大协方差原则,计算复杂矩阵中变量(X)和(Y)之间的关系。该方法的优点是可以很好地克服多元共线性问题,将复杂的数据矩阵降维为若干互不相关的潜在因子(latent variable,LV)。LV的数目是PLSR的重要参数,基于交叉验证结果确定该参数,建立光谱化学表征模型。
SVR [20]属于基于支持向量机算法的关联模型符咒108图。依据结构风险最小化理论,构建最优分类面,以允许学习模型达到全局最优。对于线性不可分的数据集,该算法将数据映射到更高维的特征平面,以求得线性可分。核函数的引入是解决这个问题的关键,径向基核函数可以有效地简化计算的复杂性,提供更加满意的准确度[21]。惩罚系数(penalty coefficient,c)和高斯核函数(gaussian kernel coefficient,g)是SVR模型中2个重要的参数。前者用于权衡算法的复杂性和偏差的关联,后者为核函数的设置参数。通常情况下,2个参数的调节需要借助于调参算法。本研究选择遗传算法(genetic algorithm,GA)、粒子群优化算法(particle swarm optimization,PSO)和网格搜索算法(grid search,GS)调整SVR模型的参数,以求建立最佳光谱化学表征模型。
对于2种模型,主要评价参数为校正系数(correction coefficient,R2)接近于1表明模型效果好;校正集均方根误差(root mean square error of estimation,RMSEE)和预测集均方根误差(root mean square error of prediction,RMSEP)分别用来评价校正集和验证集结果的偏差;交叉验证均方根误差(root mean square error of cross validation,RMSCV)基于交叉验证算法,用来估计回归模型的推广能力[22]符咒108图。为保证模型的稳健性和防止模型过拟合,应用KennardStone算法[23]将样品数据分为训练集和验证集,前者用于构建化学表征模型,后者用于测试模型的推广能力。剩余预测偏差(residual predictive deviation,RPD)是一个评价化学表征模型效果的常用参数,通常情况下,该值越高则表明模型的效果越好。当其超过2时,表明模型的预测效果较好[24]。
3 结果与分析
3.1标准数据可视化结果
课题组前期研究结果表明,小檗碱、黄连碱、木兰花碱、非洲防己碱和巴马汀是不一样基原黄连药材的共有成分,也是其主要的物质基础[3, 8]符咒108图。依据高效液相色谱的测定,这5种化学成分的标准含量结果如图1所示。
3.2 红外光谱数据预处理结果
主要包括光谱数据优化、异常值筛选和数据标准化3个步骤符咒108图。FTNIR最好的预处理算法分别为二阶导数、二阶导数、不做处理、二阶导数结合多 元散射校正和一阶导数;FTMIR最好的预处理算法分别为二阶导数、二阶导数、二阶导数、一阶导数结合多元散射校正和一阶导数结合标准正态变量,处理后的红外指纹图谱如图2所示。以PLSR模型输出结果为评价指标,对于黄连碱、木兰花碱、小檗碱、非洲防己碱和巴马汀的测定,FTNIR和FTMIR结果如表1和表2所示。
采用Hotelling T2检验监测离群点,结果如图3所示符咒108图。以T2 Crit(99%)为标准,分别从FTNIR_黄连碱、FTMIR_黄连碱、FTNIR_小檗碱、FTMIR_小檗碱、FTNIR_巴马汀、FTMIR_巴马汀、FTNIR_非洲防己碱、FTMIR_非洲防己碱、FTNIR_木兰花碱和FTMIR_木兰花碱的数据矩阵中检测到0、1、3、0、3、0、2、0、1、0个离群点,分别有3个味连和野连的样品。删除异常值数据,对光谱数据进行归一化处理。
3.3特征选择及评价
不一样基原黄连药材中5种物质基础化学成分的数据矩阵均含有大量的信息,包括有效变量、无效变量和噪音变量符咒108图。特征学习是获取目标特征,去除无效信息的关键方法。本研究应用4种特征学习算法(RFE、BORUTA、VIP和GINI)对以上光谱数据集进行特征排序。按照固定的间隔,以重复3次 交叉验证计算的RMSE误差为基准来筛选最优变量,以选择出与黄连碱、小檗碱、巴马汀、非洲防己碱、木兰花碱成分关联性强的特征变量,结果如表3所示。如表3所示,无论是近红外还是中红外光谱的数据矩阵,RFE和BORUTA算法都表现出较好的特征采集能力。其中RFE的模型RMSE值为0.074~0.131,针对FTMIR_黄连碱、FTMIR_小檗碱、FTNIR_巴马汀、FTMIR_非洲防己碱和FTNIR_木兰花碱数据集,误差率较低;BORUTA的模型RMSE值为0.077~0.130,针对FTMIR_黄连碱、FTMIR_小檗碱、FTMIR_巴马汀、FTMIR_非洲防己碱和FTMIR_木兰花碱数据集,误差率较低。对于VIP和GINI 2种特征选择算法,其误差率较高,评价效果较差。
特征变量的数目也在一定程度上反应出特征学习模型的效率,其结果见图4符咒108图。针对FTNIR和FTMIR数据集,RFE和BORUTA在变量数目的输出中具有明显的优势,其中BORUTA算法的效果较好;VIP和GINI 2种特征选择算法的效率较低。由图可见,BORUTA算法基本可以将不一样的数据集的变量数目缩减至50以内,同时保持较低的误差率。
结合误差率和变量数目2个指标综合考虑,对于FTNIR_黄连碱、FTMIR_黄连碱和FTNIR_木兰花碱3个数据集,选择RFE特征学习算法进行变量采集,简化光谱矩阵数据符咒108图。其余数据集选择B ORUTA特征学习模型对其进行优化。经过数据预处理和变量筛选两个阶段,FTNIR_黄连碱、FTMIR_黄连碱、FTNIR_小檗碱、FTMIR_小檗碱、FTNIR_巴马汀、FTMIR_巴马汀、FTNIR_非洲防己碱、FTMIR_非洲防己碱、FTNIR_木兰花碱和FTMIR_木兰花碱数据集的变量数目分别被缩减为83×20、83×40、81×59、81×40、81×48、81×23、82×10、82×10、83×70和83×38。
3.4光谱化学表征模型的建立
基于以上步骤,本研究进一步基于特征级信息融合算法,获得不一样基原黄连药材中黄连碱、小檗碱、巴马汀、非洲防己碱和木兰花碱的相关特征数 据集,其大小分别为83×60、81×99、81×71、82×20和83×108符咒108图。相较于原始数据,光谱变量的数量明显降低,可以有效增加模型的速度和准确性,同时增强其推广能力。
应用以上特征数据集,以高效液相色谱结果作为标准数据,分别建立2种化学计量学相关模型,以考察其预测结果和真实数据的相关性,证实模型的推广能力符咒108图。PLSR分析结果见表4,相对于标准数据,小檗碱的PLSR模型的预测效果最优。该模型将数据集缩减至4个LV,其RMSEE、RMSECV、R2、RMSEP和RPD分别是0.075、0.097、0.928、0.096和3.734。对于非洲防己碱的含量预测,PLSR模型的效果较差,其RMSEE、RSECV、R 2、RMSEP和RPD分别是0.140、0.170、0.580、0.205和1.570。根据光谱化学表征模型的预测RPD值,表明PLSR模型对于黄连碱、小檗碱、巴马汀和木兰花碱的预测都取得较好效果。
SVR模型的结果如表5所示,调参流程如图5所示符咒108图。相对于PLSR,SVR模型可以更好地处理非线性的数据,对于某些成分取得了更好的预测效果。特别是对于小檗碱含量的预测,选择PSO调参算法,模型的预测效果取得了较大的提升,其RSECV、R 2、RMSEP和RPD分别为0.094、0.957、0.075和4.842;其主要参数c和g分别是17.238和0.010。另外针对于非洲防己碱和木兰花碱2个成分,SVR模型的效果也优于PLSR;GA和GS两种调参的方法获得了更优的参数值,其c和g分别是64.343、0.058和2.297、0.005。但是针对于黄连碱和巴马汀2个成分,SVR模型的预测效果弱于PLSR相关模型。 根据所建立的最优红外光谱化学表征模型,对未知样品中5种物质基础成分的含量进行预测。样品预测值和真实值之间的关系见图6,两者之间趋势接近,进一步证明了模型的有效性和推广能力。应用主成分分析的方法对预测结果进行分类,结果见图7。如图所示,味连、雅连、野连和云连样品的界限明显,可以很明显地被鉴别开。经过光谱优化和特征学习流程,光谱化学表征模型能成功预测不一样基原黄连样品中主要共有物质基础的含量,可以有效对不一样基原的黄连药材进行品质辨识。
4 讨论
多基原中药自古以来就是中药体系构成的重要部分,一方面保障了中医临床的有药可用,另一方面又给临床实现精准治疗提供依据符咒108图。但是对于多基原品种,其基原的等效性一直是历代医家的主要研究内容,而其效用差异研究较少。因此,如何依据多基原中药的效用差异制定合理的品质评价标准,是该类药材实现临床合理用药、有效资源配置环节中亟需解决的问题。本研究以典型的多基原药材黄连为研究对象,结合课题组前期研究中得到的“共有成分的含量差异是其效用差异的主要原因”这一结论,选择黄连碱、小檗碱、巴马汀、非洲防己碱和木兰花碱为指标,应用无损绿色的光谱技术构建其含量表征模型,考察该技术应用于多基原黄连药材品质辨识的可行性。
中药的化学成分复杂,光谱变量众多且难以辨识符咒108图。本研究在前人工作的基础上[2527],建立了一套完整的光谱矩阵分析流程:主要包括光谱信号优化、异常值诊断、数据标准化、特征学习与评价、光谱化学表征模型等步骤。结果显示,光谱预处理可以明显降低噪音信号,提高光谱数据质量;特征学习算法可有效从复杂数据矩阵中提取出和目标成分有关的光谱特征。其中RFE和BORUTA模型可以将3000多个黄连样品光谱变量降维到100个内,同时能保证较高的正确率。这两种方法在中药领域应用较少,将来可以有效地应用到中药复杂问题的解决之中。
基于主要的FTNIR和FTMIR变量特征,分别建立黄连中五种共有物质基础化学成分的PLSR和SVR光谱化学表征模型符咒108图。其中小檗碱的预测效果最好,其RPD值高达4.842;黄连碱、巴马汀和木兰花碱的数学模型的RPD值均高于2,取得了满意的效果。非洲防己碱的光谱化学表征模型的RPD值为1.892,其预测效果有待于进一步提高。对比PLSR和SVR光谱化学表征模型,SVR的效果更优,可能与处理非线性问题的能力有关。
将未知样品代入最优模型之中,结果显示五种化学成分含量的真实值和预测值相关性较高,证明模型的可靠性和推广性符咒108图。应用PCA分析最优模型的预测结果,散点图可以将不一样基原黄连药材有效鉴别,表明所建立的光谱化学表征模型能够对该类药材的品质进行辨识,有进一步应用于该药材效用评价的潜力,为多基原中药的品质辨识提供一个无损、绿色和快速的方案。
利益冲突所有作者均声明不存在利益冲突
参考文献(略)
来 源:黄 玲符咒108图,齐路明,王 科,李 娜,董继晶,马云桐.基于基原效用差异的黄连品质辩识光谱化学表征模型构建 [J]. 中草药, 2022, 53(20): 63436353 .
本文链接:https://www.daojiaowz.com/index.php/post/72641.html
转载声明:本站发布文章及版权归原作者所有,转载本站文章请注明文章来源!
