化学模式识别在生药鉴别和质量评价中的应用
摘要:化学模式识别是物以类聚,同类或相似的样本间的距离较近,不同类的/样本间的距离应较远。这样可以根据各样本的距离或距离的函数来判别、分类,并利用分类的结果预报未知。模式识别属于多变量数值分析方法,它是借助于计算机来揭示隐含于事物内部规律的一种综合技术,是用现代分离分析检测方法对中药材或药品样本中的有机或无机的药用化学成分进行检测,用化学计量学方法关联检测数据阵,确定可用于样品质量控制的模式,通过上述方法进行整体分析、分类和描述来对未知样本进行识别。
关键词:聚类分析法、主成分分析法、矩阵、空间
模式识别(pattern recognition)是一门用机器代替人对模式即所研究的事物进行分析、描述、判断和识别的技术[1]。它的中心任务就是要识别出某个样本与哪一种模式(样本)相同或相近,即在一定的度量和观测的基础上把待识别的模式划分到各自模式类中。模式识别可分为基于统计学习理论的统计模式识别和基于语法的结构模式识别。统计模式识别是目前最成熟也是应用最广泛的方法。以完成识别过程的方式而论,模式识别又可分为两个系统:有监督学习系统和无监督学习系统。有监督学习系统要运用一组已知其类别的样本进行训练(或学习)获得分类准则,再利
用准则来判别未知模式所属的类别。常用的方法有: SIMCA(Simple classification algorithm,简单分类法)Bayes判别、逐步判别分析(Step-wise discriminate analysis, STEPDA)、人工神经网络(Artificial neural networks,ANN)等。而无监督学习系统则是把模式划分到目前为止仍然未知的类别中,即无须预先知道模式所属的类别。其中最重要的一种就是聚类分析的方法。如系统聚类分析(Hierarchical clustering analysis)、模糊聚类分析(Fuzzy clustering analysis)等。
化学模式识别(chemical pattern recognition)最早出现在20世纪20年代,模式识别方法于60年代末被引入化学领域。它建立于一个十分直观的基本假设,即物以类聚,同类或相似的样本间的距离较近,不同类的/样本间的距离应较远。这样可以根据各样本的距离或距离的函数来判别、分类,并利用分类的结果预报未知。模式识别属于多变量数值分析方法,它是借助于计算机来揭示隐含于事物内部规律的一种综合技术[5]。化学模式识别方法包括主成分分析(Principle component analysis,PCA)、聚类分析(Cluster analysis,CA)和判别分析(Discriminant analysis,DA)等方法。按照有没有训练可以划分为有监督的模式识别方法(Supervised classification)和无监督的模式识别方法(Unsupervised classification)。前者是事先规定分类的标准和种类的数目,通过大批已知样本的信息处理(称为/训练或/学习)出规律,
再用计算机预报未知[6]。如贝叶斯(Bayes)线性判别法、Fisher判别法、线性学习机、最近邻近(KNN)域判别法、SIMCA分类法等。后者与前者相比,其模式识别问题中存在更大的不确定性,一个主要原因就是在无监督模式识别问题中,只有一大批样本,事先没有规定分类标准,也没有规定分成几类,却要求通过信息处理出合适的分类方法并实现分类。如聚类分析(clustering analysis)法、析因法(factor analysis, FA)、图形分类法等。
化学模式识别是用现代分离分析检测方法对中药材或药品样本中的有机或无机的药用化学成分进行检测,用化学计量学方法关联检测数据阵,确定可用于样品质量控制的模式,通过上述方法进行整体分析、分类和描述来对未知样本进行识别。此方法综合了中药材或中药制剂内各种化学成分的整体信息,能够更准确、更全面、更科学的对中药材及其制剂进行质量评价[7],在对大批量样品进行鉴别分类时,其快速、准确的特点尤为突出。目前化学模式识别方法所采用的原始数据,主要来源于波谱分析、光谱分析和谱分析所测得的各种数据,常用的分析方法有:紫外光谱法(UV)、红外光谱( IR)、薄层谱法(TLC)、气相谱法(GC)、高效液相谱法(HPLC)、质谱分析法、气相谱/质谱(GC/MS)联用技术、液相谱/质谱(LC/MS),随着研究的深入,核磁共振法、X射线衍射法、分子生物学方法(DNA指纹图谱)和各种新型的联用技术,如高效液相谱/毛细管电泳-质谱/质谱(HPLC/CE-MS/MS)、等离子光谱-质谱(ICP-MS)
[8]也应用于中药指纹图谱的构建并可能为中药的化学模式识别提供更多的信息。
模式识别技术在中药分类和质量评价中的应用
聚类分析法(cluster analysis,CA)
聚类分析是按物体以类聚的原则研究事物分类的一种多元统计分析方法。在用聚类分析解决实际问题时,我们根据每个分类对象(样品)的性质和分类的目的选定若干指标(变量),并测出所有的指标值,将得到的结果列为一个数据矩阵,这个样本资料就是聚类分析的出发点[9]。聚类分析的基本思想是:根据相似程度大小把样品归类。聚类分析可分为系统聚类法和动态聚类法。系统聚类法是目前最流行的方法,一般用聚类图表示出来。系统聚类法分类比较准确、客观,在中药质量的评价中,较为常用。但是当样品个数大时,就比较费事,而动态聚类分析可解决这一问题。它主要采用迭代法的思想,先给一个粗糙的初始分类,然后用某种原则进行调整,直至分类比较合理化。最常用的聚类方法包括系统聚类方法(hierarchical clustering method, HCM)k均值聚类法、模糊聚类法、最优分割法、图论方法中的最小生成树等方法[10]。其中系统聚类法和k均值聚类法是比较常用的方法。系统聚类法的基本思想是在各自成类样本中,将距离最近的样本并为一个新类,计算新类与其它类的距离,直到所有的样本并为一类;k
值聚类法是一种动态聚类方法,其基本思想是假设一个分类数目k,任意选取k个点作为初始类聚点,逐个计算其它样本与k个类重心之间的距离,选取距离最小者将其并人该类,再重新计算各类的重心,并以该重心为新的凝聚点,直到每个样本都被归类。
聚类分析法在中药的真伪鉴别和质量评价方面:有王文清[11]采用聚类分析法对不同产地的大青叶质量的化学模式研究研究,实验采用RP-HPLC法定量分析国内10个不同产地大青叶样品中、丁香酸、腺苷,靛玉红4种指标成分的量,用雷达图评价指标成分平衡分布,按其质量等级划分为5类。陈玲[12]采用HPLC12个不同产地的厚朴进行了定量分析。以往的研究工作证明了厚朴酚与和厚朴酚是厚朴药材的主要有效成分,试验以厚朴酚、和厚朴酚为考察指标,用系统聚类分析对其进行化学模式识别研究,建立了对厚朴药材辨识的新方法。分别精密吸取对照品溶液和供试品溶液各10LL,在上述谱条件下,注入高效液相谱仪,测定其峰面积,外标法计算厚朴酚与和厚朴酚的含量。所有样品聚类分析结果和传统分析结果一致,表明所选指标是合理的[13]。齐静静[14]利用电喷雾质谱(ESI-MS)法建立龙胆质谱指纹图谱,研究其中代表性裂环烯醚萜苷类成分的ESI-MS规律。采用甲醇超声法提取龙胆中裂环烯醚萜苷类成分,在正离子方式检测模式下直接进样,应用一级全扫描质谱建立其特征图谱。运用化学模式识别方法对图谱数据进行分析,发现秋季龙胆样品的聚集程度优于春季龙
胆样品,根据春季、秋季药材样品的差异。裂环烯醚萜苷类成分在二级质谱中易发生脱水、乙酰基、葡萄糖基等。电喷雾质谱法的精密度、稳定性、重现性均符合要求,且具有特征性强、分析速度快、样品用量少等优点。结果表明,质谱指纹图谱可对春季、秋季药材样品不同采收期进行区分;利用多级串联质谱技术对代表性裂环烯醚萜苷成分分析,归纳总结此类化合物的裂解规律。
主成分分析法
主成分分析(Principal component analysis),怎么大批量数据核对差异PCA是对多变量数据进行统计处理的一种线性投影判别方法,是在不明显减少有用信息的前提下,将高维空间压缩到低维空间的模式分类方法[15]PCA的基本思路是以一种最优化方法浓缩量测数据信息,使数据矩阵简化,降低维数,寻少数几个由原始变量线性组合的主成分,以揭示数据结构特征,提取基本信息。就是最佳综合简化多变量的大量数据。实质是提取原始变量共性的信息。其基本含义为利用特征分析的数学方法从数据阵求取特征值和特征矢量。方法是转换原变量,使少数新变量成为原变量的线性组合,同时新变量应尽量表征原变量的结构特征,而不丢失信息[16]。以少数综合变量取代原始的多数变量,提供有关数据结构的基本特征,可用坐标图显示其内在特性,有
利于帮助学生解释、理解、判别量测数据和聚类,提高分析的可靠性。主成分分析法按以下顺序进行:
1)确定原始指标体系;
2)建立标准信息矩阵;
3)求相关矩阵、特征值;
4)求累积方差贡献率并确定主成分数;
5)计算主成分特征向量矩阵、因子载荷系数矩阵和标准化主成分得分;
6)计算各样本对象在主成分上的得分;作出 Z1-Z2(第 1 和第 2 主成分)平面图,分析主成分分析结果。
主成分分析法通过薄层谱分离、指纹图谱等方式进行中药品种分类和质量评价。周漩[17]等人以主成分分析法对人参皂苷在6种不同展开剂下的薄层谱保留行为进行分析,并由分析结果选择谱分离机理互补的两展开剂,优化人参皂苷的薄层谱二维分离。赵宇[18]等人对
不同产地的枳实进行化学模式识别分类研究。其方法为采用高效液相谱获得枳实样品的谱指纹图谱,利用主成分分析投影显示法对K-均值聚类分析所得的结果进行验证,建立起了枳实的识别方法。赫炎[19]等人用主成分分析的方法建立虎掌南星饮片HPLC指纹图谱的定量标识。通过主成分分析技术,在信息量最小的原则下对图谱数据进行压缩,获得1~2个可以反映全部信息的综合数据,以定量表达。此法为饮片质量标准建立和炮制过程质量控制提供了依据。
目前比较常用的方法是主成分分析法和聚类分析法连用,用于中药质量评价中。李士博等[20]采用高效液相谱法测定不同品种、产地和规格大黄的蒽醌类、有机酸类的含量,应用主成分分析、聚类分析进行化学模式识别。从主成分分析可知,样品排序时综合了总蒽醌、有机酸类含量,排序在前位,总蒽醌、有机酸酸类含量高,排序在后位的总蒽醌、有机酸类含量降低。从聚类分析可见,也是根据总蒽醌、没食子酸、儿茶素的含量进行归属,不难发现,聚为同类的样品在主成分分析中排序基本相近。传统的质量评价主要按产地与道地性判别,采用化学模式识别的结果中,同品种、同产地的药材样品并没有完全聚为一类,说明该方法与传统的差异,该方法按活性成分为分类变量,同一产地的样品可能存在质量差异,故化学模式识别的结果应该更为合理。罗光明[21]等运用高效液相谱指纹图谱相似度评价法、系统聚类分析法和主成分分析法建立车前子药材的综合化学模式识别方法。以24 批药材
共有谱峰峰面积为依据,建立其系统聚类分析方法及主成分分析方法。结果表明指纹图谱法可以区别不同品种及产地车前子,系统聚类分析法和主成分分析法分析结果基本一致,但稍有差异。刘会君等[22]建立了莪术药材的闪蒸-气相谱法(FE-GC), 采用 FE-GC 测定了 3 个产地的 9 个莪术样品。 04 mg 的粉末样品, 200 ℃下闪蒸, 经谱分离, 基于闪蒸谱图上分离鉴定到的 35 个共有峰的相对强度, 结合化学模式识别即主成分分析和系统聚类分析法对莪术样品进行了鉴别分析3个产地的莪术样品可以很好地得到区别。
判别分析(Discriminant analysis DA)
判别分析是根据一批分类明确的的样品(也叫参考组或训练样品),制定出一个分类标准以指导其后新样品归类的一种多元分析方法[23]。一般地,若已有给定的m个总体(m个类别)的观测资料,构造一个或多个判别函数,能由该函数对新的未知其所属总体的样品作出判断,从而决定其应属于哪个总体,这就是判别分析问题。判别分析是在分类已知的条件下寻客观分类的判据,以此对新的不知所属的对象进行判别,而聚类分析一般是用在给定的样品分类未知的情况下。一般来说,判别分析常和聚类分析联合使用,效果更佳。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。