2019Esri开发竞赛ENVI-IDL组作品欣赏——基于夜间灯光数据与DEM的贫困县机器学习识别

作品单位: 安徽理工大学 测绘学院

小组成员: 刘潜 张来福 谭毅 乔松玉

指导教师: 张震 王世航

获奖情况:二 等奖

一、作品概述

目前,国内外已有不少学者利用夜间灯光数据进行了贫困评估的研究,其研究成果都可以证明夜间灯光数据可以作为贫困评估的替代数据源,但仅使用单一的夜间灯光数据难以全面地反映其贫困特征,将夜间灯光与其它数据相结合进行贫困识别是当下的研究趋势,而目前有关于将夜间灯光数据与 DEM 相结合进行贫困评估的方法与理论研究较少,使用机器学习算法进行贫困县区识别的研究更是屈指可数。因此,本项目基于夜光数据与 DEM 数据进行了探究。

作品将实验对象分为 A B 两组, (A) 仅使用夜间灯光数据; (B) 将夜光数据与 DEM 数据结合使用,再分别采用机器学习中的随机森林算法对 A B 两组实验对象进行我国贫困县与非贫困县的识别分类,并对两组实验的识别结果进行精度评价,旨在探究夜间灯光数据与 DEM 相结合的贫困评估能力。最后,为了进一步证明 DEM 特征波段能够为贫困县识别提供丰富、有效的信息量,作品还对所选取的特征变量波段进行了降维处理,分析了特征变量内部的结构成分

二、作品技术流程

首先将实验对象分为 A B 两组, A 组基于 NPP-VIIRS 夜间灯光数据,提取夜间灯光的 11 个特征变量,如县域内像元灯光值的总和、平均值、标准差、极差等; B 组则增加了基于 DEM 数据提取的 2 个特征变量:县域平均高程值、县域内坡度大于 15° 的面积占比,总共组成 13 个特征变量。因此, A 组有 11 个特征变量组合,而 B 组的特征变量组合有 13 个。选取 110 个贫困县训练样本与 130 个非贫困县训练样本,采用机器学习随机森林方法对两组实验对象进行贫困县识别,对比夜间灯光数据与 DEM 数据结合前后的贫困县识别精度。最后,为了进一步证明 DEM 特征波段能够为贫困县识别提供丰富、有效的信息量,本项目通过分组计算波段指数的方法对 13 个特征波段进行了降维处理,分析特征变量内部的结构成分。

作品整体思路流程

三、作品制作过程

3.1 夜光数据辐射校正

NPP-VIIRS 夜光数据的辐射校正的具体方法为: (1) 根据近十年中国社会经济发展的实际情况分析,选取北京市中心城区最大的灯光值作为上限阈值,将超过该阈值的灯光直接赋值为该上限阈值; (2) 对于灯光影像中存在的负值则替换为 0 像元。经过上述处理,剔除了影像中的孤立极亮像元和负值像元,提高了数据应用的准确性。

夜光数据辐射校正结果

3.2 夜间灯光特征变量的提取

从数量特征、离散特征、分布特征、空间特征的角度,提取了夜间灯光数据的 11 个特征变量,得到两组的实验对象。如下表所示:

夜间灯光与 DEM 的特征变量

符号

特征变量

符号

特征变量

X1

县域内灯光值的总和

X8

县域内大于 10 的灯光值总和

X2

县域内灯光的平均值

X9

县域内大于 10 的灯光平均值

X3

县域内灯光的最大值

X10

县域灯光最大值的局部莫兰指数

X4

县域内灯光的最小值

X11

县域灯光平均值的局部莫兰指数

X5

县域内灯光值的极差

X12*

县域内平均高程 (DEM)

X6

县域内灯光值的标准差

X13*

县域内 坡度大于 15° 的面积占比 (DEM)

X7

县域内灯光值大于 10 的个数

局部莫兰指数分布

3.3 DEM 特征变量的提取

提取 DEM 数据的 2 个特征变量:县域平均高程、县域内坡度大于 15 °的面积占比。

图 DEM特征波段

3.4 特征变量集成

将所提取出来夜间灯光的 11 个特征变量与 DEM 2 个特征变量汇集成一个汇总数据,以便之后的随机森林分类的进行。

特征变量集成

3.5 随机森林分类

由《中国农村扶贫开发纲要 (2011-2020 ) 》确定的 11 个集中连片特殊困难地区,加上西藏、四省藏区、新疆南疆地区,共计 14 个全国重点扶持片区,涉及 680 个县区。选取 110 个贫困县与 130 个非贫困县作为机器学习的训练样本,分别对两组实验对象进行随机森林分类,识别出我国的贫困县与非贫困县区。

结合 DEM 数据前后识别结果对比

3.6 精度评价

选取了 100 个贫困县与 100 个非贫困县作为精度检验的数据,计算夜间灯光数据结合 DEM 数据前后两次识别结果的精度,得到两次分类的混淆矩阵,结合 DEM 数据前后识别的总体精度分别为 84% 87.5% Kappa 系数分别为 0.6800 0.7500 ,可见夜间灯光数据与 DEM 结合能够为贫困县的识别精度带来提高,同时也说明 DEM 数据能够提供有利于贫困县判断识别的特征信息。

结合 DEM 数据前后随机森林分类的混淆矩阵

DEM

类别

贫困县

非贫困县

总计

用户精度

贫困县

85

17

102

83.33%

非贫困县

15

83

98

84.69%

总计

100

100

200

生产者精度

85.00%

83.00%

总体精度: 84%                  Kappa 系数: 0.6800

DEM

类别

贫困县

非贫困县

总计

用户精度

贫困县

83

8

91

91.21%

非贫困县

17

92

109

84.40%

总计

100

100

200

生产者精度

83.00%

92.00%

总体精度: 87.5%                Kappa 系数: 0.7500

3.7 波段降维

为了进一步证明 DEM 特征波段能够为贫困县识别提供丰富、有效的信息量,作品采用分组波段指数法对 13 个特征波段进行了降维处理,剔除相关性较大、信息冗余较多、信息量小的特征波段,分析特征变量内部的结构特征。

通过相关系数分析将特征变量划分为以下 6 组:① X1 X7 X8 X10 ;② X2 X4 X6 X9 ;③ X3 X5 ;④ X11 ;⑤ X12 ;⑥ X13 。计算各变量的标准差,分组求出各变量的波段指数 ( 值越大,变量越佳 ) ,通过波段指数筛选出的特征波段为 X1 X2 X3 X11 X12 X13

利用筛选出来的 6 个特征波段组合再进行随机森林分类,并进行精度检验。

波段降维后贫困县识别结果

四、作品关键技术

1 作品通过对比, 仅使用夜间灯光数据和夜间灯光数据与 DEM 数据结合使用,后者能够有效提高贫困县的识别精度。

2 在进行波段降维剔除了信息冗余高、信息量小的特征波段后,仍保留了 DEM 的特征波段信息,说明 DEM 数据能够提供有利于贫困县判断识别的有效特征信息与更加 丰富的信息量。

3 )使用波段降维后的特征波段对我国贫困县进行机器学习识别,其识别精度比用所有特征波段进行识别的精度低,表明波段降维虽然降低了信息冗余、保留了大量的特征信息,但其信息量确实有所减少,因而,贫困县机器学习的识别精度也必然会受到影响。

我来评几句
登录后评论

已发表评论数()

相关站点

热门文章