欢迎访问中国气象科学研究院官方网站 English
  • 时间 2021-03-03
当前所在位置 : 首页 > 新闻动态 > 科技动态
新闻动态
> 2013年以前的PM2.5数据缺失怎么办?机器学习算出来

自2013年起,生态环境部建立了地基监测站点,开始对细颗粒物(PM2.5)污染进行业务观测。但是,此前的历史数据难以获取,导致长序列PM2.5数据缺失,为认识中国PM2.5长期变化带来了挑战。为解决这一问题,中国气象科学研究院张小曳团队基于国家级地面气象观测网,抽取空间特征并结合先进的机器学习技术LightGBM,构建了考虑空间气象效应的高性能机器学习模型,能够获取1960年代以来的长序列PM2.5历史数据集。该数据集将对理解气溶胶长期变化趋势、环境和气候影响以及通过同化到化学-天气耦合模型中构建长期再分析数据具有重要价值。

目前,已经存在基于卫星气溶胶光学厚度(AOD)来估算PM2.5的方法,但卫星数据中存在大量缺失值、采样频率低且整体预测能力不高,估算结果在很大程度上受到了影响。与卫星数据相比,地面气象观测具有序列时间长、时间分辨率高、数据完整性好等优势。在我国,中国气象局的国家级气象观测网始建于20世纪50年代,能够连续观测逐小时的温、压、风、湿等气象数据。1960年后国家级观测站数量超过2000个,而后稳定在2450个左右,此外,还有超过6万个区域观测站。因此,如果能够利用这些地面气象数据来估算我国的历史PM2.5数据,可能会取得更好的效果。研究人员将超过三千万条的2016-2018年逐小时数据用于模型训练,并将超过一千万条的2019年数据用于模型评估。

 

    图1. (a)全国1440个PM2.5国控站和2450个国家级气象观测站的空间分布; (b)空间特征提取和模型构建的概念模型。

模型效果:优于已有模型

研究人员使用十折交叉验证方法,验证了这个模型的准确性。同时,还将交叉验证的评分与其他模型进行了比较。该模型从日到年尺度都优于其他模型,其小时尺度R2(0.80)甚至优于其他大多数模型日尺度R2(0.41~0.85)。不同模型的验证性能和预测能力比较统计为了检验模型的预测能力,研究人员将模型预测的2019年PM2.5数值和观测的实际数值进行了比较。结果表明,在小时(R2=0.75)、日(R2=0.84)、月(R2=0.88)年(R2=0.87)时间尺度上,该模型都能够以前所未有的预测能力准确估算PM2.5质量浓度。与上表中的其他模型相比,该文的模型不仅可以对PM2.5进行逐小时预测,在日、月、年尺度的预测能力上也都展示出相当大的优势,而这些优势主要来自于空间气象效应的引入。

     图2. 2019年观测的PM2.5和预测的PM2.5在(a)小时、(b)日、(c)月和(d)年时间尺度上的密度散点图(颜色为概率分布密度)。

上述成果发表于《国家科学评论》(National Science Review,NSR)中国气象科学研究院博士研究生仲峻霆为该论文第一作者,中国气象科学院张小曳院士和桂柯博士为共同通讯作者,合作作者还包括王亚强研究员、车慧正研究员、孙俊英研究员、张养梅研究员、沈小静博士、张磊博士和博士研究生张文杰。