基于随机森林的EC气温预报订正研究

阅读: 评论:0

农业灾害研究2022,12(6)
作者简介 李韬(1991—),男,四川遂宁人,助理工程师,本科,主要从事天气预报工作。收稿日期 2022-03-15Study on EC Temperature Forecast Revision Based on Random Forest
LI Tao et al(Hengshui Meteorological Bureau, Hengshui, Hebei 053000)
Abstract Based on the 1.5m temperature data and ECMWF prediction data of Shijiazhuang station, Hengshui station and Xingtai station, a random forest model is established to correct the 2 m temperature predicted by ECMWF. The results show that the model has the best correction ability for Xingtai station, followed by Shijiazhuang station, and the correction ability for Hengshui station is limited.
Key words Random forest; ECMWF; Temperature; Revised model
基于随机森林的EC气温预报订正研究
李 韬,王 磊,李月英,石美亮
衡水市气象局,河北衡水 053000
摘要 以石家庄站、衡水站、邢台站的1.5 m气温数据和ECMWF预报数据为基础,建立了一种随机森林模型对ECMWF预报的2 m气温进行订正。结果显示:该模型对邢台站的订正能力最优,其次为石家庄站,对衡水站的订正能力有限。
关键词 随机森林;ECMWF;气温;订正模型
中图分类号:P456.7 文献标识码:B 文章编号:2095–3305(2022)06–0095–03
气象要素预报是以动力气象学、天气学、统计学以及气象观测资料等原理与数据为参考依据,根据某一区域的天气演变规律和气候背景,对这一区域未来一定时段内的天气状态做出定性或者定量的预测。而精细化格点气象要素预报是一种将地区按既定范围划分成格点状,以格点为单位做超精细化的格点气象要素预报。精细化格点气象要素预报是在所预报的地域生成所设定大小的分辨率格点,每个格点代表了一定区域范围内的实时风速、比湿、高度、温度等各类气象要素预报值,与传统数值预报相比,精细化程度明显提升。精细化格点气象要素预报是未来天气预报发展的主要方向。随着国内外气象学者对机器学习技术的不断深入研究,段文广[1]等提出BP神经网络进行精细化温度预报的方法,该方法基于时序分析技术,通过在历史序列的温度样本进行迭代学习来建立预测模型。门晓磊[2]等基于机器学习的3种后处理模型和4个数值天气预报模式对气温预报进行了多模式集合预报分析,效果表现较好。郭瀚阳[3]等通过深度学习对强对流高分辨率临近预报进行试验,发现相较传统外推临近预报
方法,在强对流回波临近预报准确率上有较明显的提高。方颖等[4-7]将机器学习技术应用与气象因子的预报订和正领域,具有明显的提升效果。
本文采用目前较为常用的随机森林方法,对ECMWF数值天气预报模式预测的2 m温度进行订正。首先基于
ECMWF模式计算所得的各种要素特征
进行特征选择,即通过随机森林算法获
得相关要素特征集,再以选择的特征集
进行随机森林建模,对ECMWF预测的
大溪地在哪里哪个国家签证
未来3~24 h逐3 h温度进行订正。为实
现温度的精细化预报提供新的方法和
思路。
1 资料与方法
1.1 模式资料与实况资料
选取衡水站、石家庄站、邢台站3
个国家气象观测站。
模式资料来源于欧洲中期天气
预报中心,包含ECMWF数值天气预
报模式的各标准等压面的温湿度和近
地面的风、温度、露点温度、3 h降水
量、海平面气压、地表温度、总云覆盖
等历史资料,资料时间序列为2015—
2016年。模式起报时间均为20:00(北
京时间),分辨率均为0.125°(纬度)
×0.125°(经度)。选取模式预报时效为
03:00~24:00,时间间隔为3 h。实况数据
是地面观测站的1.5 m实况气温数据。
1.2 资料处理
从原始模式数据中提取出格点的
各标准等压面的温、湿度和近地面的
风、温度、露点温度、3 h降水量、海平
面气压、地表温度、总云覆盖等资料。
所使用方法为线性插值,3个站点插值
坐标为石家庄、衡水和邢台。
1.3 数据清洗
95
Journal of Agricultural Catastrophology 2022, Vol.12  No.6
为排除因系统故障或者数据存储等原因造成的数据丢失、重复、错误等问题,需要对模式预报格点数据进行清洗。同时为了满足特殊网络模型结构的需要,还要对数据进行转换、重构等预处理。在进行数据清洗时,重复值只获取一次,缺失值则直接删除。
1.4 数据标准化
因收集的数据较大,使得模型训练时间过长,同时各个气象要素的单位不统一,不用要素间的数值之间可能几个数量级的差别,因此还需要对数据进行标准的归一化的预处理。本文使用Z-Score算法,
计算公式如下:
将原始数据按比例放缩到同一数量级,其中,x为观测值,y是气象要素的总体数据均值,σ是总体数据的标准差。
1.5 气象关键要素选择及数据集构成
基于数据驱动的订正方法需要从大量模式预报数据和实况数据中拟合出预报与实况之间的偏差关系,而模式预报数据包含要素较多,会影响到模型训练的效果,如何从众多要素中获取那些对温度订正最有效的关键要素,从而对特征空间维数进行压缩,即获取一组“少而精”且回归误差小的要素集变得至关重要。为此,本文在EC预报要素与站点实况温度基础上,基于随机森林对各气象要素的重要性进行重要性评估,比较特征之间的贡献大小(在0~1之间数值越大代表相关性越大),筛选出与实况气温相关性较大的关键要素,进行下一步处理。
将EC预报的2 m温度、2 m露点温度、10 m风速等多种要素(表1)进行随机森林相关性评估,结果显示1 000 hPa 温度相关系数为0.525、2 m温度相关系数为0.349、925 hPa气温相关系数为0.074、850 hPa温度相关系数为0.031、海平面气压和地表温度相关系数为0.003、其他要素的重要性均在0.002以下。因此将EC预报的1 000 hPa温度、2 m温度、925 hPa温度、850 hPa温度、海平面气压和地表温度等6个特征量与1个标签(与模式数据时间对应的站点实际观测1.5 m温度)整合为数据集,即数据集包含6个特征和1个标签,再将资料(整体数据集)随机分为训练集合和测试集。测试集为随机选取3个站点的各1 000组数据,剩余数据为训练集。
表1 EC预报要素
序号EC预报要素
1  2 m温度
2  2 m露点温度
310 m风速
4海平面气压
5过去3 h降水量
6海平面气压
7地表温度
8相对湿度(100 hPa、200 hPa、300 hPa、400 hPa、500 hPa、600 hPa、700 hPa、850 hPa、925 hPa、1 000 hPa)
深圳著名景点9温度(100 hPa、200 hPa、300 hPa、400 hPa、500 hPa、600 hPa、700 hPa、850 hPa、925 hPa、1 000 hPa)
1.6 订正结果评价指标
评价指标用于分析模型的订正值和真实值之间存在的差异,数值越小说明模型的订正效果越好。本文选择用RMSE(Root Mean Squared Error,均方根误差)作为衡量订正模型优劣的指标,RMSE是气温顶正值与气温实况值之差的平方和与观测次数比值的平方
2 随机森林模型
随机森林是Breiman提出的一种基
于决策树组合的可用于分类、回归以及
多维数据处理的机器学习算法,其基本
组成单元为决策树,基本思想是二分递
归分割法,在计算过程中充分利用二叉
树,在一定的分割规则下将当前样本分
割为2个子样本集,使得生成的决策树
的每个非叶节点都有2个分枝,这个过
程又在子样本集上重复进行,直至不可
再分为叶节点为止,由于单棵决策树模
型往往精度不高,并且容易出现过拟合
现象,因此需要通过聚集多个模型来提
高预测精度。较传统决策树算法而言,
该算法能够平衡分布不均匀样本的误
差,分类精度高,对异常值和噪声有很
好的容忍度[7]。
随机森林订正模型的构建和优化
基于Python语言的scikit-learn类库实
现。主要工作流程为:(1)有放回的随
机抽取样本数据,形成新样本集,且大
小与原始样本集保持一致。假设输入
N 个样本数据,那么新的样本集也是N
个,此方法下得到的样本集可能会有重
复的样本;(2)无放回随机抽取特征。假
设特征数为m,则中随机抽取无重复的
n个特征,作为该决策树的输入特征。
正是因为随机森林遵循这两点,才使得
随机森林在不剪枝的情况下不容易出
现过拟合现象。针对本文所研究的订正
问题,将选定的6个EC预报要素作为
济南到烟台火车时刻表
特征输入随机森林订正模型,建立多个
决策树“森林”(图1)。本文通过网格搜
索算法,从参数组合中寻最佳超参数
配置。
图1 随机森林结构示意图
3 订正结果分析
3.1 总体订正能力分析
通过模型对3个站点的EC预报2
m温度进行订正后,发现订正后温度误
猫和老鼠中国预告
差基本都处于正负2℃范围内(图2),
因此也具有参考性。从表2可知,模型
对衡水、石家庄、邢台的正确订正率分
别为52%、65%、71%,订正后的3个站
点均方跟误差均减小,也说明模型具有
果粒网
正向订正能力。邢台站的均方根误差从
2.27℃降至1.62℃,订正能力最强;石家旅游团报名丽江五日游多少钱
庄站均方根误差从2.01℃降至1.58℃,
订正能力略低于邢台站;衡水站的均方
96
农业灾害研究2022,12(6)
根误差从1.61℃降至1.55℃,模型对衡
水站的订正能力有限,原因是EC对衡
水站的温度预报较为准确,导致模型较
难使订正温度准确率有所提升。
revised_temp:订正温度,ec_temp:ec预报温度;单位:℃
图2 RF订正效果散点图
表2 RF模型结果
项目衡水石家庄邢台
正确订正率/%526571
错误订正率/%483529
订正后均方跟误差/℃  1.55  1.58  1.62
EC预报均方跟误差/℃  1.61  2.01  2.27
3.2 不同温度区间订正能力分析
通过对3个站点不同温度区间均方根误差分析发现(图3),在衡水站,对0℃~29.9℃范围的气温实现了有效订正,且对0℃~9.9℃范围的订正能力最强,均方根误差减少了0.3℃,对30℃以上和0℃以下的气温无订正能力。在对石家庄站的订正中发现,除30℃以上气温订正为无效订正外,其他温度范围订正均为有效订正,且对0℃~9.9℃范围的订正能力最强,均方根误差减少了0.7℃,对0℃以下的气温订正能力较弱。在对邢台站的订正中,对所有温度区间的订正能力均为正技巧,且对0℃~9.9℃范围的订正能力最强,均方根误差减少了0.8℃,
对30℃以上和0℃以下的气温订正能
力较弱。
4 结论
(1)模型总体而言对3个站点的基
本实现了有效订正值,因此订正结果具
有一定的可参考性,且订正能力最强为
邢台站,石家庄站次之,对衡水站订正
能力有限。
(2)总体而言模型对衡水站的订正
能相对有限,可能原因是衡水地处平原
地区,气象要素变化相对而言简单,EC
对该站的预报能力较强,导致模型对该
站点的订正较难。
(3)模型对0℃~9.9℃区间内的温度
订正能力最强,对30℃及0℃以下的气
温订正能力相对较弱。
/
/
/
RE:订正温度均方根误差,EC:EC预报温
度均方根误差。
图3 不同温度区间的均方根误差
参考文献
[1]  段文广,周晓军,石永炜.数据挖掘技术
在精细化温度预报中的应用[J].干旱气
象,2012,30(1):130-135.
[2]  门晓磊,焦瑞莉,王鼎,等.基于机器学
习的华北气温多模式集合预报的订正
方法[J].气候与环境研究,2019,24(1):
116-124.
[3]  郭瀚阳,陈明轩,韩雷,等.基于深度学
习的强对流高分辨率临近预报试验[J].
气象学报,2019,77(4):715-727.
[4]  方颖,李连发.基于机器学习的高精度
高分辨率气象因子时空估计[J].地球信
息科学学报,2019,21(6):799-813.
[5]  刘鑫达.基于深度学习的气象温度预测
研究[D].银川:宁夏大学,2016.
[6]  李逸.基于时空序列网络的气象预报格
点订正算法研究[D].长沙:湖南师范大
学,2019.
[7]  李永丽,王浩,金喜子. 基于随机森林优
化的自组织神经网络算法[J].吉林大学
学报(理学版),2021,59(2):351-358.
责任编辑:黄艳飞
97

本文发布于:2023-05-23 05:27:19,感谢您对本站的认可!

本文链接:http://www.035400.com/whly/1/424104.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:预报   订正   数据   温度   进行   模式
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2024-2030 Comsenz Inc.Powered by © 文化旅游网 滇ICP备2022007236号-403 联系QQ:1103060800网站地图