红外光谱是利用物质分子对红外辐射的选择性吸收,用红外分光光度计测得的包含物质分子结构信息的光谱图。由于红外光谱具有特征性强、取样量小、简便迅速、准确等特点,近年来其应用得到较快的发展,各国药典都将红外光谱作为法定的药物鉴别的主要方法,与此同时也越来越多地应用于中药材的识别研究。
中医药是我国的传统医学宝库,中药药性理论是中国传统医药的核心理论之一,是中华医学理论体系中的一个重要组成部分。对中药药性的研究自古有之[1~3],并已成为指导中医用药的指导原则[4]。然而,中药药性的机理至今尚未被人们所彻底了解,一般认为,中药中的化学成分或某些药效团是中药药性的物质基础[5,6],但其与药性的相关性目前尚不为人知;由于红外光谱是利用物质的分子对红外辐射的吸收得到的与分子结构相应的红外光谱图,因此,如果中药中的化学成分或药效团确实与药性相关,那么其红外光谱与药性应具有一定的相关性。正是基于这种想法,本文尝试将主成分分析技术与支持向量机方法相结合,利用中药红外光谱数据进行建模分析,探讨中药红外光谱数据与药性的相关性,取得了较好的效果。现报道如下。
1基本原理简介
1.1支持向量机分类原理支持向量机[7](SupportVectorMachine,SVM)是从统计学习理论发展起来的一种机器学习方法,该方法不仅支持小样本情况下的识别分类,而且具有较好的泛化性,从上世纪90年代初提出以来已成为模式识别的一个重要方法,目前已广泛应用于生产实践与科学研究的各个领域,例如文本的分类与识别[8,9]、蛋白质功能的预测[10]和药材的分类与识别[11]等,其分类原理是通过定义适当的内积函数ψ(·)将数据从输入空间映射到高维解空间,然后在这个高维解空间中构造超平面
ω·ψ(x) b=0①
再利用结构风险最小化原则,及Karush-Kuhn-Tucher条件,建立最优分类判别函数
y(x)=sign[∑xi∈SVαiyiK(xi,x) b]②
这里K(xi,x)=ψ(xi)Tψ(x)称为核函数,xi∈SV称为支持向量。通过判别函数②即可实现数据的分类。
1.2主成分分析将红外光谱原始数据作为支持向量机的输入,通常存在两个问题,第一,红外光谱数据一般都是高维向量,维数从几十到上千不等,导致向量变量与样本数的比值过大,直接影响支持向量机建模的可靠性;第二,红外光谱数据往往包含有大量的重叠信息,数据矩阵存在大量线性相关的变量向量。因此利用支持向量机进行建模前,首先要对红外光谱数据进行压缩或降维,在保证不丢失光谱主要信息特征的前提下,将高维的光谱数据转化为低维数据,以作为支持向量机的输入。主成分分析法[12](principalcomponentanalysis,PCA)是目前使用最广泛的线性降维方法之一,该方法的最大特点是对原数据进行线性变换,保留方差大、包含信息量多的变量,丢掉方差较小、包含信息量少的变量,然后通过重新线性组合求出新的分量,达到降低光谱数据维数的目的,其基本原理[13]是将被分析的数据矩阵Xm×n分解成下面形式:
X=TPT E③
其中Tm×a称为得分矩阵,Pn×a称为载荷矩阵,Em×n为残差矩阵,T、P均为正交矩阵。在所能容忍的残差范围内,X近似地表示为
X=TPT④
将④式得分矩阵T移至左边,得
T=XP⑤
从⑤式可以看出,通过载荷矩阵P可以将原数据矩阵X投影到一个a维子空间,一般情况下,a远远小于原向量的维数n,于是实现了数据的降维。通常,a称为主成分数。
2方法
2.1药材本研究使用的76味中药的药材名称、产地及药性见表1。其中,平性药36味,寒凉药20味,温热药20味。
表176味中药材药名、产地、药性列表
药名产地药性药名产地药性药名产地药性蒲黄山东平桑寄生广西平细辛吉林温热桃仁河北平牛膝河南平花椒四川温热合欢皮四川平秦艽甘肃平丁香广东温热川牛膝四川平仙鹤草浙江平高良姜广东温热血竭广西平大血藤河南平丹皮安徽寒凉三棱江苏平矮地茶广西平赤芍湖南寒凉王不留行江苏平大血藤江西平大黄甘肃寒凉苏木广西平大血藤湖南平丹参河北寒凉银杏叶广西平藕节湖南平益母草广西寒凉肿节风广西平丝瓜络江苏平薄荷湖南寒凉甘草内蒙古平川芎四川温热桑叶安徽寒凉红景天湖南平桂枝广西温热葛根河南寒凉卷柏广西平当归甘肃温热柴胡河北寒凉两面针广西平三七广西温热知母河北寒凉路路通广西平红花河南温热栀子江西寒凉木贼陕西平麻黄内蒙古温热夏枯草湖北寒凉芡实安徽平紫苏湖南温热板蓝根河北寒凉山药广西平荆芥江苏温热金银花湖南寒凉香附湖南平防风东北温热蒲公英河北寒凉仙鹤草广西平苍术河北温热大青叶湖南寒凉茯苓云南平厚朴四川温热穿心莲广东寒凉香附山东平砂仁云南温热龙胆草内蒙古寒凉太子参江苏平豆蔻广西温热苦参山西寒凉山药河南平附子四川温热玄参浙江寒凉枸杞宁夏平干姜四川温热半边莲安徽平吴茱萸湖南温热
2.2仪器与实验参数设置
2.2.1仪器NicoletNEXUS470FT-IR光谱仪(美国ThermoNicolet公司),FW-4型压片机(上海浦东荣丰科学仪器有限公司)。
2.2.2参数设置光谱扫描范围450~4000cm-1;分辨率4cm-1,等间隔采集数据,每味中药共采集1842个数据。扫描次数为16次。
2.3样品制备与测试在本研究的前期工作中,曾对20种不同药性中药的石油醚、醋酸乙酯、乙醇、水不同溶剂提取部位的提取物红外光谱与药性的相关性进行过初步分析,结果显示醋酸乙酯部位的提取物红外光谱与药性相关性最好,因此本实验主要对醋酸乙酯提取物的红外图谱进行分析,具体制样方法如下:取表1所示76种中药样品粉末各2g,分置于50ml锥形瓶中,分别加入醋酸乙酯20ml,,超声提取30min,滤过,取滤液水浴蒸干。将提取物以1∶50~1∶100的比例加入溴化钾研磨均匀,于压片机上压成透明的薄片,然后置于NicoletNEXUS470FT-IR光谱仪上扫描,测得各中药醋酸乙酯提取物的红外光谱及数据。
(来源:光谱仪)