基于Stacking集成学习的泥石流易发性评价以四川省雅江县为例

阅读: 评论:0

第40卷 第1期2021年2月              世 界 地 质GLOBALGEOLOGY
Vol 40 No 1
Feb 2021  文章编号:1004—5589(2021)01—0175—10
基于Stacking集成学习的泥石流易发性评价
以四川省雅江县为例
苏刚,秦胜伍,乔双双,扈秀宇,陈阳,车文超
吉林大学建设工程学院,长春130000
摘要:为给四川省雅江县提供直观准确的泥石流易发性图,将四川省雅江县作为研究区,选用高程、
坡度、坡向、地形起伏度、平面曲率、剖面曲率、年平均降雨、到河流的距离、到道路的距离、地形湿度指数、归一化差分植被指数及土壤类型1
2个评价因子,利用Stacking集成学习框架,结合支持向量机、神经网络和随机森林,建立了一种多模型融合的泥石流预测模型。通过R
OC曲线验证了模型的准确性,得出Stacking融合模型、随机森林、神经网络和支持向量机模型的成功率分别是98 1%、96 1%、94 5%、93 4%,预测率分别是95 5%、91 6%、90 6%、89 7%。结果表明:Stacking融合模型精度最高,最适合用于雅江县泥石流易发性评价。
关键词:泥石流易发性;S
tacking集成学习;随机森林;支持向量机;神经网络;雅江县中图分类号:TP181;P642 23   文献标识码:A
   doi:10 3969/j issn 1004 5589 2021 01 020收稿日期:2020  07  24;改回日期:2020  09  21北京郊游攻略10个必去>农家乐
基金项目:国家自然科学基金项目(41977221)与吉林省科技发展计划项目(20190303103SF)资助。通讯作者:秦胜伍(1980—),男,教授,主要从事地质工程、地质灾害治理研究。E mail:qinsw@jlu edu cn
DebrisflowsusceptibilityevaluationbasedonStackingensemblelearning:
acasestudyinYajiang,SichuanProvince
SUGang,QINSheng wu,QIAOShuang shuang,HUXiu yu,CHENYang,CHEWen chao
CollegeofConstructionEngineering,JilinUniversity,Changchun130026,China
Abstract:InordertoprovideanintuitiveandaccuratedebrisflowsusceptibilitymapofYajianginSichuanProvince,Yajiangistakenasthestudyareaand12evaluationfactorsincludingelevation,slope,slopedirection,topographicrelief,plancurvature,profilecurvature,averageannualrainfall,distancetorivers,distancetoroads,normalizeddifferencevegetationindex,topographicwetnessindex,andsoiltypeareselected.Amulti modelfusiondebrisflowpredictionmodelisestablishedbyusing
theStackingensemblelearningframeworkcom binedwithsupportvectormachine,neuralnetworkandrandomforest.TheaccuracyofthemodelwasverifiedbyROCcurve.ThesuccessratesoftheStackingfusionmodel,randomforest,neuralnetwork,andsupportvectormachinemodelare98 1%,96 1%,94 5%and93 4%,andthepredictionratesare95 5%,91 6%,90 6%and89 7%,respectively.TheresultsshowthattheStackingfusionmodelhasthehighestaccuracyandismostsuitablefortheevaluationofdebrisflowsusceptibilityinYajiang.
Keywords:debrisflowsusceptibility;Stackingensemblelearning;randomforest;supportvectormachine;neuralnetwork;YajiangCounty
0 引言
泥石流是山区最容易发生的地质灾害之一,主要由于突然性的暴雨等极端天气引发。近年来,泥石流已被公认为是全世界最主要的自然风险,会造成许多人员伤亡和经济损失,例如2008年在四川汶川就曾发生过由于地震引发的严重泥石流灾害,造成了巨大的损失[1]。雅江县隶属于四川省甘孜州,为高山深切峡谷地貌,地形起伏较大,雅砻江将研究区深切为东西两半,加上夏季暴雨影响,存在大量泥石流地质灾害。为减少泥石流灾害带来的损失,有必要对泥石流进行易发性评价,以达到预防目的,为雅江县泥石流监测预警和风险管理提供直观有效参考。
20世纪70年代以来,学者们对泥石流进行了系统的研究。在泥石流易发性评价方面,区域泥石流易发性研究通常以经验和统计方法为基础,结合3S技术展开。其中,启发式方法(如层次分析法[2])的精度主要取决于专家对某个地区泥石流发生真正原因的了解,具有一定的主观性。而一些统计学方法如信息量模型[3]和频率比[4]则通过定量分析克服了一定的主观影响。近年来,随着人工智能技术的迅速发展,机器学习技术凭借其强大的非线性建模能力广泛应用于泥石流易发性评价,如支持向量机[5]、神经网络[6]和逻辑回归[7]等。虽然人工智能及机器学习技术的快速发展,为泥石流易发性评价提供了全新的研究思路。但是,多数研究仅采用了一种单独方式进行预测,由于泥石流易发性评价问题的复杂性,单一机器学习模型可能由于随机性而导致泛化能力降低。因此,人们寻求通过集成模型来进一步提高模型的预测精度。目前,基于bagging[8]和boosting算法[9]的滑坡、泥石流易发性评价应用较多,也取得了不错的成果,特别是随机
森林算法[10]。但bagging和boosting集成方式一般考虑同质分类器,如随机森林采用决策树,很少有研究结合常用的不同原理的机器学习方法来构建高质量模型。
Stacking(堆叠)是Wolpert于1992年在“Stackedgeneralization”论文中提出的一种异质集成学习算法[11],旨在以一种取长补短的方式结合不同机器学习方法的优势来消除误差,从而进一步提升预测精度。Stacking集成方法已在许多领域取得了显著的成果,如碰撞损伤严重程度分析[12]、电力负荷预测[13]等。
因此,笔者以泥石流多发的雅江县为研究区,以3种机器学习方法为基模型(支持向量机、神经网络和随机森林),通过Stacking集成学习框架建立了一种多模型融合的泥石流易发性评价模型,并同时采用支持向量机、神经网络和随机森林进行对比验证,以期能够客观验证Stacking融合模型的效果,又能对雅江地区泥石流灾害预警提供直观有效的参考。
土楼图片大全高清图片长春动植物公园电话1 研究区概况
研究区(雅江县)位于四川省西北部,甘孜州腹地,其面积约为7681 5km2,地理坐标为100°19′~101°26′E,29°03′~30°30′N。研究区属青藏高原亚湿润气候区,全年冬长无夏,春秋相连,无霜期短,年平均降水量783 2mm,主要集中在5—10月。研究区河流呈树枝状分布,其中雅砻江由北向南纵贯全境,将全县深切为东西两半,河谷深切呈“V”字型,主要支流有
鲜水河、庆大河、曲汝河、密西沟、祝桑河、霍曲河、马岩河7条。地势总体上北高南低,东北和西北部为山原地貌;中部为河谷地貌;西南部是极高山地貌,海拔在5000m以上。研究区地震加速度0 15g~0 2g(g=9 8m/s2),基本烈度为Ⅶ度,地层较为单一,主要出露三叠系和新生界第四系地层[14]。土壤类型主要有淋溶土、半淋溶土、高山土及水成土。
随着西部大开发战略的实施,雅江县的城市建设日益发展。但由于研究区处于高山深切峡谷地貌,土地资源极其有限,在城镇化建设和发展中,向坡要地、建筑加载和工程切坡等人类工程活动强烈,再加上山体表层多松散岩石与土壤,在强降雨的诱发下泥石流等地质灾害极容易发生,严重威胁着当地居民的生命和财产安全[15],如2011年暴雨诱发的“7·13四川甘孜泥石流”,造成国道318线上22处路基被摧毁,2处路基塌方,15条乡村道路被冲毁180余公里,桥涵冲毁90余座。因而有必要对研究区进行泥石流易发性评价,为雅江县泥石流预防提供参考。
本研究泥石流灾害数据来源于2010年四川省雅江县地质灾害调查数据集[15],研究区共发育158处泥石流灾害,主要分布于研究区沿雅砻江两
1                世 界 地 质                 第40卷
岸及其支流的沟谷地区,为典型的高寒高海拔山区沟谷型泥石流,按照行政区划八角楼乡分布最多,为4
0条,红龙乡和瓦多乡最少,各1条,其他乡均在3~17条之间,研究区泥石流分布见图1,本文按照70%、30%的比例将灾害点随机分为两组,训练点110个,验证点48个,用于模型的建立和
验证。
永泰云顶旅游攻略 一日游
图1 研究区泥石流分布
Fig 1 Distributionofdebrisflowsinstudyarea
2 研究方法
2 1 评价因子的选取
根据研究区的实际状况和对以往文献的查阅,
在充分考虑研究区资料获取难易程度及研究尺度后本文选取了12个泥石流评价因子,即高程、坡度、坡向、地形起伏度、平面曲率、剖面曲率、年平均降雨、到河流的距离、到道路的距离、地形湿度指数(TopographicWetnessIndex,简称TWI)、归一化差分植被指数(
NormalizedDifferenceVegetationIndex,简称NDVI)及土壤类型,研究区因子图(图2),各数据来源见表1。
表1 数据来源Table1 Datasources
数据数据来源
泥石流点位置2010年四川雅江地质灾害调查数据集雅江县行政边界
1∶250000矢量地图数据
河流道路高程地理空间数据云下载(30m×30m)坡度ArcGIS高程提取
坡向平面曲率剖面曲率地形起伏度
TWINDVI地理空间数据云Landsat4-5TM影像年平均降雨量国家气象科学数据中心
土壤类型
中国科学院资源环境科学数据中心
高程是易发性研究中重要的评价因子,通过影响降雨分布、植被覆盖、土地利用及土壤水分间接影响泥石流的发生,特别是对于山高谷深的地方,
降雨、植被等随着高程出现垂直变化的特点[16]
研究区高程范围为2171~5142m,根据等间距将其分为4类,分别为2171~3000m,3000~3600m
,3600~4200m,>4200m。大多数泥石流与坡度直接相关,影响泥石流的发生、发展及其运动规模。在山高沟深、地形较陡
的地方,水流比较容易汇流到一起。因此在暴雨条件下,坡度较陡的山地更容易发生泥石流灾害。研究区坡度变化范围为0°~64°,利用等间距分为5类,分别为0°~10°,10°~20°,20°~30°,30°~40°,>40°。
坡向是泥石流的重要评价因子,描述边坡暴露于阳光、风和降雨的方向,从而影响成坡材料的性能,与阴坡相比,阳坡冰雪融化快、岩石风化较为强烈,所以阳坡泥石流发生概率大于阴坡。由于研究区起伏较大,几乎没有平坦区域,所以将研究区坡向分为8类,分别为0°~22 5°和337 5°~360°为正北,22 5°~67 5°为东北,67 5°~112 5°为正东,112 5°~157 5°为东南,157 5°~202 5°为正南,202 5°~247 5°为西南,247 5°~292 5°为西,2
92 5°~337 5°为西北。7
71第1期    苏刚,等:基于Stacking集成学习的泥石流易发性评价:以四川省雅江县为例
a 高程;b 坡度;c 坡向;d 地形起伏度;e 平面曲率;f 剖面曲率;g 年平均降雨;h 到河流距离;i 到道路的距离;j TWI;k NDVI;l 土壤类型。
图2 研究区因子图
Fig 2 Factormapsofstudyarea
地形起伏度是指地表某一局部区域内地形高度的差异,直接代表地形的陡峭程度,是地貌的重要判断指标。地形起伏度通过ArcGIS焦点统计功能计算,邻域设置为高100m、宽100m。研究区地形起伏度变化范围为0~170m,其分为5类,分别为0~20m,20~35m,35~50m,50~65m,>65m。
曲率是指地表任意一点的变形状态。平面曲率为曲率水平分量,负值表示下凹,正值表示上凸。剖面曲率是地面坡度的导数,描述了地表在垂直方向的弯曲状态,决定物质相对运动速度,正值表明加速,负值表明减速,反映地面土壤侵蚀的程度。平面曲率根据自然间断点法分为3类:-4 19~-0 1,-0 1~0 1,-0 1~0 5;剖面曲率同样根据自然间断点法分为3类:-7 87~-0 1,-0 1~0 1,0 1~7 46。
突发性水源是泥石流的重要诱因,为松散固体源提供了动力条件,降雨造成的地表水在冲洗疏松沉积物的过程中逐渐演变成泥石流。此研究应用ArcGIS克里金插值(高斯函数)获得了年平均降雨
1                世 界 地 质                 第40卷
量分布图,并将降雨根据等间距分为5类:687~720mm,720~740mm,740~760mm,760~780mm,780~805mm,从东南向西北逐渐减小。
河流为泥石流提供了重要的水文基础和流通通道。此研究利用欧氏距离建立了河流缓冲区以分析泥石流和河流之间的关系,并将到河流距离分为4类:0~200m,200~2000m,2000~5000m,>5000m。
到道路的距离在一定程度上反映了人类活动的影响,如建造道路、砍伐树木和人工削坡都可能造成坡面岩体裸露、风化严重,从而产生泥石流的物源及流通基础。将到道路距离分为4类:0~200m,200~2000m,2000~5000m,>5000m。
TWI是对径流长度和径流面积的定量描述,直接反映土壤含水量随空间变化的规律,也间接反映研究区的水土流失状况。研究区地形湿度指数根据自然间断点法分为4类:-0 62~6 45,6 45~9,9~14,14~35。
NDVI也是泥石流易发性评价常用的评价因子,是反映出植被空间分布密度的最佳因子。植被的根系可以对土壤进行加固,可以预防土壤的侵蚀,而水土流失正是泥石流的重要诱因之一。ND VI值在-1到1之间,正值表示植被覆盖,而且随着NDVI的增加植被覆盖越密;0表示为岩石或裸土等;负值表示地面是云、水和雪等。研究区ND VI根据自然间断点法分为4类:-0 58~0,0~0 2,0 2~0 39,0 39~0 71。
物源条件是泥石流发育的必要条件,岩土类型决定了泥石流灾害的规模和破坏形式,但研究区地层比较单一,以三叠系及新生界第四系地层为主,故决定用土壤类型代表研究区的物源条件[14]。研究区土壤类型有淋溶土、半淋溶土、水成土和高山土,其中水成土占地面积仅0 43%,且无泥石流,故建模时未考虑。
2 2 信息增益比
在泥石流易发性评价建模中,并不是所有的评价因子都能够较好地预测泥石流分布,甚至一些预测能力较差的评价因子会反向影响模型的性能,降低模型的预测能力。因此,有必要对评价因子的预测能力进行定量研究,以消除预测能力不强或很弱的评价因子。其中,信息增益比在选择因子中具有广泛的适用性,有助于评价和排序输入变量的重要性,以信息理论为基础,在信息增益的基础上增加了一个惩罚系数,跟踪信息熵的减少来量化评价因子的重要性,是数据挖掘中衡量因子预测能力的标准技术[16]。
已知数据训练样本T由n个样本组成,那么样本T在自变量F(泥石流评价因子)下的信息增益比IGR(T,F)可以通过以下公式进行计算:
IGR(T,F)=
IG(T,F)
Spli(T,F)
(1)IG(T,F)=Info(T) Info(T,F)(2)
Info(T)=∑2
i=1
n(L
,T)
|T|
log
n(L
,T)
|T|
(3)
Info(T,F)=∑m
j=1
|T|
Info(T)(4)
Spli(T,F)=∑m
j=1
|T|
log
|T|
(5)
其中,n(L
,T)表示在T训练集中变量第i
类(如泥石流L
,非泥石流L
)中样本的数量。
(j=1,2,…,m)是在T训练集下某一自变量F(泥石流影响因子)的第j类的数量。
Info(T)为各类别的总体信息熵,Info(T,F)是样本T在自变量F下的信息熵。IG(T,F)为各评价因子的信息增益,Spli(T,F)表示分裂信息度量,是将训练样本T划分为m个子集所产生的潜在信息值。山东最值得去的旅游景点
2 3 Stacking集成方法
Stacking是一种异质集成学习算法[11],异质集成是指通过组合若干原理不同的分类器,来组建一个强分类器,以增强泛化能力。此研究Stacking算法采用一种两层结构,Stacking学习框架如图3所示,第一层的分类器称为基模型,第二层的分类器称为元模型,具体训练过程为:
(1)将原始数据分为训练集和测试集;
(2)利用训练集训练第一层的若干基模型,分别得到若干预测结果(使用五折交叉验证);
(3)将第一层得到的若干预测结果作为第二
第1期    苏刚,等:基于Stacking集成学习的泥石流易发性评价:以四川省雅江县为例

本文发布于:2023-08-23 05:13:06,感谢您对本站的认可!

本文链接:http://www.035400.com/whly/4/215256.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:泥石流   研究   评价   模型   因子   雅江县   预测   学习
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2024-2030 Comsenz Inc.Powered by © 文化旅游网 滇ICP备2022007236号-403 联系QQ:1103060800网站地图