0引 言
南疆是中国最大的红枣生产基地,目前红枣病虫害已经成为制约南疆红枣产业发展的主要因素。受到病虫干扰后,红枣内部会发生一系列变化,这种变化积累到一定程度后会直接表现在外观上,甚至会引起枣树发生变化,例如严重的病虫害会导致枣树的树叶发生病变。众所周知,植物进行光合作用依靠的就是绿叶,一旦绿叶受损,将会严重影响有机物积累,使得果实甚至果树的生长发育受到威胁。病变会使红枣的光谱发生变化,因此利用高光谱系统可以对红枣病虫害实现最有效的监管。
1 红枣病虫害高光谱图像采集
高光谱图像采集的过程如下: 第 1 步,依靠构建起来的高光谱图像系统对每个待测的红枣进行图样采集,同时为了更加便于研究图像,还要进行相应的操作。第 2 步,将经过处理操作后的图像敏感区域进行灰度值计算,这个灰度值也直接反映了红枣的光谱图像信息,具体而言就是首先要确定样本,而样本一般要满足 2 个要求: ( 一) 单个病变斑点的灰度值应该在 30 个左右; ( 二) 像素的灰度值在样本空间中具有均衡的特征。对于标准的红枣取样就与此存在一定的差异性,应该从整个红枣的头部、中部以及下部取 3 个标准样本作为研究对象。对于参照对象的选取应当遵循随机性的原则,但是要控制参照对象相同且适宜,即保证取样的部位应当均匀包含 30 个像素光谱灰度值。对于同种样本还要保持样本容量为 50,由于在取样的过程中涉及到多种病害,各个病害的样本又构成独立的样本空间,因此 6 个样本总的样本容量即为 300。第 3 步,从各个不同病害以及正常空白对照的样本中随机选出 30 个试验样本,其他的样本用作验证测试。由于在图像的采集过程中不可避免地存在声音干扰,所以要准确分析图像就要不可避免地进行处理。通常的去噪方法是在有光与无光的环境中分别采集相应的图像,分别记作 W、D,然后利用公式计算高光谱反射率:
2 红枣病虫害高光谱特征谱段的最佳筛选
在南疆红枣病虫害高光谱数据采集过程中,由于受各种环境因素及人为因素的制约,采样数据存在随机误差。为了提高红枣高光谱谱段筛选的准确性,通常采用均值置信区间估计法则将采样误差限制在允许范围内。假定样本容量足够大( n≥85时,则所有随机分布的均值能够呈现正态分布的收敛图。采集的图像信息的概率为 P,因此可以得到在任意的第 i 波段光谱反射率均值 μi置信区间与置信水平 α 的关系为:
式中: Xi为第 i 波段经过高光谱反射率所有测量结果的平均值; Zα /2为抽样误差; Si为测量样本标准差( nm) ; α 为显著性程度。μi的置信区间为:
由于波段取值具有一定的限制,那么所有红枣病虫害高光谱波段的置信区间也就直接成为高光谱反射率均值置信区间带,并且以 μi作为比对光谱基准。所谓特征选择就是从研究对象中选取一部分作为试验对象,因此试验样本应当小于总个体数。当进行图像采集时,往往会得到含有大量图像的数据,这就为数据分析带来了极大的难度。如果不进行特征筛选,就会在现有的波段中夹杂很多无用的波段,并直接影响计算效率,加大计算难度,同时还可能使有效的波段被忽略。最普遍的方式就是删去均值置信区间带的重叠波段,因为这种处理方法不会影响图像整体的物理信息。采用 Manhattan 距离法构建病虫害红枣与红枣样本数据库光谱基准的相似度,Manhattan 距离用如下公式计算:
式中: D(i)为 Manhattan 距离,nm; Xi为光谱基准第 i 波段光谱反射率 n 次测量均值; xi为病虫害红枣第 i 波段光谱反射率; A 为筛选后的波段的所有组合。一般而言,Manhattan 距离直接反映了病害红枣与数据库中的样本差异的大小程度,原则上是距离越小越精确。常用的方法就是判断所计算出来的结果是否在置信区间中,如果在其中则说明准确,样本与标准较相近,反之则不准确。
式中: P 为最小最大区间相似度; M 为红枣特征区分波段总数; Yi为病虫害红枣的第 i 波段的光谱反射率; H( Yi) 反映了第 i 波段的反射率有没有达到基准光谱的要求,其取值只有 2个,是一种真假关系,在区域内为真,取值为 1,反之为 0。
3 高光谱特征提取及波段选择算法
3.1 特征波段的选择
经过系统处理的高光谱图像一般被储存在一个三维空间中,其中任何一个波段都与光谱特征具有一一对应的线性关系。所以,选择光谱图像的实质是对图像波段进行筛选,选出的波段在整个样本波段中具有典型特点。对选出的图像要进行相应的操作处理,对选择的波段数量也有一定限制。利用这种方法一方面降低了数据的复杂度,另一方面最大程度保留了最准确的信息。最后利用逐步判断剔除法筛选波段,对相应的波段进行测试,在进行提取筛选时的主要判断标准就是判断各个波段在整体波段中作用的强弱。假如在经过若干次处理后,整个样本空间不再发生任何形式的变化,那么就可以认为当前空间中剩下的波段就是筛选后期望得到的波段。
3.2 特征波段的提取
特征波段的提取建立在各光谱波段间进一步优化调整与整合的基础上,是对一个光谱特征空间实现降维的方式,这种逐步判断剔除的实质也是降低原始图像数据的复杂度,并对图像进行优化处理。它是在不影响整体结果的前提下调整图像数据,因此降低了数据的复杂度,方便分析数据,此外这种处理所得到的新数据也具有相互独立的典型特点。
3.3 波段选择算法分析
假设 X = ( x1,x2,…,xN) = ( X1,X2,…,XP)T为 P 维随机变量,反映了采集的病害红枣图像。设总的样本像元数为 N;总的波段数为 P; xi( i = 1,2,…,N) 代表波段的第 i 个像元; Xk( k = 1,2,…,P) 表示波段的具体序号。X 均值向量和协方差阵公式如下:
设 λ1,λ2,…,λP( λ1≥λ2≥…≥λP≥0) 为∑x的特征根,t1,t2,…,tP为相应的单位特征向量。主成分变换如下:
Y = ( Y1,Y2,…,YP)T= AX
式中: A 为主成分变换矩阵,前提是 Y1,Y2,…,YP不相关且方差 D( Yi) ( i = 1,2,…,P) 要大; Y 分量 Y1,Y2,…,YP分别是 X的第 1,第 2,…,第 P 主成分的充分必要条件是: A = TT= ( t1,t2,…,t) 。
在主成分分析中:
式中: Vm为主成分 Y1,…,Ym贡献率的叠加,这是在进行波段选择时的主要考量参数,若 Vm大于阀值的前 m 个主成分置换原来图像,则大大简化了运算,然而确实失去了原始图像的数据信息。为了有效解决这一问题,就开发一种新的波段选择法,它是从原始波段中选取一部分作为样本,因此没有更改原有波段的信息。设 δn是∑x对角线上的值,主成分 Yk与原来第 i 个波段Xi的相关系数
并且有:
就会导出所有 m 个主成分( Y1,…,Ym) 原始第 i 个波段的贡献率 Vi,是 Xi分别与 Y1,…,Ym相关系数的平方和,即:
Vi是实现波段选择的主要参数,代表了当前波段在整体中发挥的作用。具体来说,假如 V5= 0.4,就反映了第 5 个波段中 40% 的数据信息都在样本空间中,发挥的作用为 40% 。假如是波段的总数与样本空间的波段数,就会得到 1,说明样本空间的所有信息都来自该波段信息的叠加,但是这种研究没有任何实际意义。在通常情况下,取 Vm≈0. 99,m << P,这就保证了所计算的结果 Vi具有实际意义,可以作为波段选择的主要依据。在进行波段筛选时,还要制定一个具体的标准,在此记为 Tm,当 Vm≥Tm时,就可以得到主要成分的数目,然后分别计算各个主要成分的 Vi,根据这个参数进行波段选择。由于这种计算方法避免了对图像的处理或变换,因此大大降低了运算难度,简化了运算量,提高了运算的准确率。
4 结果与分析
4.1 特征选择及其判别结果分析
最后将剩下的用于验证试验的波段进行处理,将其放在预定的置信区间内的一半波段数据进行处理、分析,根据Wilks'Lambda 统计量,选定南疆红枣枣锈病、枣疯病、黑斑病、缩果病和正常红枣 12 个特征波长 480、495、510、520、560、570、635、660、735、740、745、760 nm,特征曲线如图 1 所示。利用选择的 12 个特征波段的光谱参数,对南疆红枣枣锈病、枣疯病、黑斑病、缩果病和正常红枣无病区域进行距离判别分析,表 1 即为新建的数据模型函数表达式。然后利用判断公式进行重新检测,检测后的判断结果见表 2。从表 2 可以看出,所有的判断没有任何误差。将未参加建模的 150 个图像样本作为测试集,对模型进行检验测试,结果对红枣枣锈病、枣疯病、正常红枣的识别正确率是 100% ,对红枣缩果病和黑斑病的识别正确率分别为 93% 、87% ,测试样本的平均识别正确率为 96% ,这就强有力地证明试验构建的线性判别模型具有实质性的效果。
图1 5类样本的光谱反射率均值
表1 5类样本的逐步判别函数
表 2 训练和测试样本集的逐步判别结果
4.2 特征提取及其判别结果分析
与验证试验类似,将剩下的一部分样本置于相同的置信区间中进行数据处理分析,然后利用 PROC CANDISC 判别研究,利用 Can1和 Can2典型变量组建的线性判别模型见表3。然后基于判定函数对各个试验以及验证样本进行二次检验,结果示,这种模型对红枣枣锈病、枣疯病等众多典型病害的检测完全准确,这也有力地证明了此模型的构建完全达到了预期功效。
表 3 5类样本 Candisc 判别函数
4.3 波段选择算法分析
利用波段选择法能够轻易地确定主要成分的波段,然后再辅之以 PCA 的波段选择算法进行深层次处理分析。在这种新的波段选择算法中,应当提前设置 Tm、Tv的具体数值,这也是进行波段选择的前提条件。在确定主要成分之后对其进行分类处理,新的处理结果见表 4,可以发现这种处理方案实现了对数据的优化调整,保证了原始图像的相关信息没有任何改变。
表4 PCA的波段选择算法
5结论与讨论
利用高光谱成像技术并结合主成分分析波段选择算法识别南疆红枣枣锈病、枣疯病、黑斑病、缩果病和无病区域。研究开发的高光谱图像采集系统,实现了对采集图像的处理功能。然后经过各种判别方法的操作,对波段的进一步分析筛选,对所得到的波段进一步调整,构成新的模型 - 线性距离判别模型。这种新的模型无论是训练效果还是测试样本的检测效果都让人满意。此外,它依靠建立的判别函数还实现了对其他样本的分析与判别等功能,其识别正确率均达 100% ,从而确立了南疆红枣病虫害特征谱段选择的最佳模式。
莱森光学(深圳)有限公司是一家提供光机电一体化集成解决方案的高科技公司,我们专注于光谱传感和光电应用系统的研发、生产和销售。
审核编辑:符乾江
评论
查看更多