据统计,我国耕地因重金属而造成污染的面积接近 133 万 hm2,约占耕地面积的 1/5。我国每年因重金属污染导致的粮食减产超过 1 000 万 t,被重金属污染的粮食多达 1 200 万 t,合计经济损失至少 200 亿元。重金属污染对粮食安全的影响受到关注。

有色金属矿山生产过程中的许多环节,包括凿岩、爆破、运输、通风、排水、选矿和尾矿等,都会产生重金属污染物,且含量较高。当把它们从地下搬到地表后,由于物理、化学条件的改变,重金属元素的释放、迁移,对附近土壤等产生严重的重金属污染。因此,有色金属矿山是重金属污染的重要来源,首当其冲的就是矿区附近的农田。近年来,国内外学者对部分铅锌尾矿、铜尾矿污染区重金属污染现状,包括重金属含量、形态特征以及对矿区植被的影响等方面进行了大量研究,但对矿区农田重金属污染评价的研究较少[1~4]。笔者参照 GB5618—1995 有关标准,利用统计分析软件,应用聚类分析方法,分析主要污染源 ;采用综合主成分分析法,分析、评价不同采样点的农田的重金属污染程度,并进行排序,为矿区农田重金属污染治理提供参考。

《1 主成分分析的统计依据与步骤》

1 主成分分析的统计依据与步骤

主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。主成分分析的基本思想,在实证问题研究中为了全面、系统地分析问题,笔者必须考虑众多影响因素。每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。采用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具[5~8]

《1.1 主成分分析的统计依据》

1.1 主成分分析的统计依据

设有 p 个指标 x1x2,…,xp,这 p 个指标反映了客观对象的各个特征,因此每个对象观察到的 p 个指标值就是一个样本值,它是一个 p 维向量。如果观察了 n 个对象,就有 np 维向量,可用矩阵表示如下 :

每一行就是一个样本的观察值,可用数据矩阵 Xp 个向量作线性组合为 :

上述方程组要求  = 1,且系数   由下列原则决定 :

1) Fi  与 Fj ij) 不相关 ;

2) F1x1x2,…,xp 的一切线性组合(系数满足上述方程组)中方差最大的 ;F2 是与 F1 不相关的 x1x2,…,xp 的一切线性组合(系数满足上述方程组)中方差最大的 ;依次类推,Fp  是与 F1F2,…,Fp-1 都不相关的 x1x2,…,xp 的一切线性组合(系数满足上述方程组) 中方差最大的。 F1F2,…,Fp-1 为第 1,2,…,p 主成分。

在解决实际问题时,一般不是取 p 个主成分,而是根据累计贡献率的大小取前 k 个。称第 1 主成分的贡献率为 λ1 /(λ1 + λ2 + … + λp),由于 Var(F1)= λ1,因此第 1 主成分的贡献率就是第 1 主成分的方差与全部方差的比值。这个值越大,表明第 1 主成分综合 x1x2,…,xp 信息的能力越强。前个主成分的累计贡献率定义为(λ1 + λ2 + … + λk)/(λ1 + λ2 + … + λp)。如果前 k 个主成分的累计贡献率达到某个给定值,则表明取前 k 个主成分基本包含了全部测量指标所具有的信息,这样既减少了变量的个数,又便于对实际问题进行分析和研究。

《1.2 主成分分析的步骤》

1.2 主成分分析的步骤

1)将原始数据标准化 ;

2)建立变量的相关系数阵 R = ( rij ) = x

3)求 R  的特征根 λ1 λ2 λp > 0 ;

4)写出主成分 Fi = 1,2,3,…,

5)每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重,计算主成分综合模型。

《2 数据来源》

2 数据来源

利用湖南省某典型金属矿山区农田土壤重金属污染物调查数据作为主成分分析的土壤重金属污染评价素材,矿区农田土壤样品来自 15 个不同的片区,样本总数为 15 个,分析指标主要考虑国家颁布的土壤环境质量标准中的几种重点识别重金属污染物(汞 Hg、锌 Zn、铅 Pb、镉 Cd、砷 As、镍 Ni、铬 Cr、铜 Cu),样品采集和分析严格按照 GB5618—1995 的相关要求进行,具体样品数据见表 1。

《表1》

表1 各土壤样品中的重金属含量

Table 1 Heavy meta content of different soil samples

《3 结果与讨论》

3 结果与讨论

《3.1 主要污染物辨识分析》

3.1 主要污染物辨识分析

把表 1 中的原始数据导入 SPSS 统计软件,为了辨识出主要的重金属污染物,把所有评估的污染物变量聚为两类,分类结果见表 2。

《表2》

表2 重金属污染物辨识聚类

Table 2 Identification cluster of heavy metal pollutants

从表 2 中看出,锌和铅被划分为同一类,其他重金属元素为另一类。说明锌和铅是该地区的主要重金属污染物,需要引起高度重视。事实上,土壤样本来源于一个铅锌矿附近的农田。辨识结果表明,变量聚类的方法,可以用于辨识矿区土壤重金属污染的主要污染源。

《3.2 综合主成分分析模型》

3.2 综合主成分分析模型

同样,采用表 1 中的原始数据,导入 SPSS 统计软件,通过软件计算,提取主成分,得到初始因子载荷矩阵,见表 3。特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于 1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于 1 作为纳入标准。因此,主成分个数提取原则为主成分对应的特征值大于 1 的前 m 个主成分。

《表3》

表3 主成分载荷矩阵

Table 3 Principal component matrix

用图表 3 中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数,对照主成分系数可以写出主成分表达式 :

F1 = 0.253 5 x1 + 0.434 6 x2 + 0.435 1 x3 + 0.365 0 x4 + 0.435 1 x5 + 0.272 8 x6 + 0.140 6 x7 + 0.375 1 x8

F2 = 0.513 4 x1 + 0.123 8 x2 - 0.174 0 x3 + 0.240 7 x4 - 0.155 0 x5 - 0.354 2 x6 + 0.618 2 x7 - 0.317 8 x8

对应的主成分综合模型为 :

F = 0.310 9 x1 + 0.366 0 x2 + 0.300 6 x3 + 0.337 6 x4 + 0.304 8 x5 + 0.134 4 x6 + 0.246 0 x7 + 0.222 2 x8

根据主成分表达式和主成分综合模型表达式,结合样品数据,计算出各样品的主成分和综合主成分的具体值,并进行排序,见表 4。

《表4》

表4 主成分和综合主成分的取值

Table 4 Value of principal component and synthetic principal component

从第 1 和第 2 主成分值的排名情况来看,存在较大的差异,原因在于不同主成分之间反映样本信息的重点是不同的。第 1 主成分包含了样本的大多数信息,在综合主成分中占有很大的比重,因此,综合主成分的排名与第 1 主成分基本类似。考虑到主成分反映信息的侧重点不同,第 2 主成分修正了第 1 主成分在综合主成分中的排名。主成分的值表示在确定的信息提取规则下,各样品中待评价因素的综合贡献。从综合评价的排名情况来看,样品 1 至 4 及 15 的重金属污染情况较为严重。对应的采样区域就是重金属污染治理的重点区域。

《3.3 样品污染等级划分》

3.3 样品污染等级划分

假设把样本采集区的农田污染等级划为 3 类,即污染程度严重、污染程度一般和污染程度轻微。根据综合主成分值,采用 3 层聚类的方法,可以把土壤样品污染情况进行聚类,见表 5。

《表5》

表5 样品污染程度聚类结果

Table 5 Cluster result of samples pollution degree

从聚类结果可以得到,样本 3 和 4 分别单独成类,其它的所有样本构成一类。结合综合主成分的排序,可以看出样本 3 是重金属污染最严重的样本,其次为样本 4。参考样本 3 和 4 的原始数据,对于样本 3 来说,Pb 和 Zn 的含量分别为 7 932 mg·kg-1 和 8 784 mg·kg-1,对于样本 4 来说,Pb 和 Zn 的含量分别为 1 625 mg·kg-1 和 5 152 mg·kg-1。因此,在 15 个样品中,样品 3 和样品 4 的重金属污染的程度较高,主要的重金属污染源为 Pb 和 Zn。分析结果同实际情况吻合较好,说明了主成分分析和聚类分析科学性、有效性,为矿井附近农田重金属污染治理指明了方向。

《4 结语》

4 结语

1)评价和分析多因素影响的系统,主成分分析方法可以在保证样本大多数信息的前提下,有效的减少决策因子的个数,达到简化问题,突出重点。

2)利用主成分分析方法可以有效地揭示土壤重金属污染物的数据结构和各重金属污染物间的内在相关性及差异,并能很好地识别出矿区农田主要重金属污染物。

3)分析结果反映了不同区域的重金属污染物的组合情况和对污染负荷的贡献率,外源重金属输入对矿区农田土壤环境质量有很大的影响。

4)综合主成分值的聚类分析,可以对样品进行科学的分类,分类结果表明 :Pb 和 Zn 是样本集的主要重金属污染源,样品 3 和样品 4 的采样区是需要重点治理的区域。