大气气溶胶是地气系统的重要组成部分,具有复杂的气候与环境效应,深入认识气溶胶的光学特性与辐射特性具有重要的科学意义。SKYNET是布局全球的大气成分光学与辐射监测网络,利用POM-02天空辐射计等仪器进行地基实时观测,能够获取持续可靠的气溶胶等成分的光学/辐射参数。然而受不利气象条件、观测设备及技术限制等等影响,常常发生观测数据缺失现象,最长持续缺失天数能达到数周甚至数月,难以满足长时间序列观测研究的需求,而完整的观测数据对于大气成分的光学、辐射特性及其气候与环境研究至关重要。
在此背景下,中科院云降水物理与强风暴重点实验室陈彬课题组基于其负责的SKYNET北京站观测资料,在对2016年至2019年间北京大气气溶胶的光学特性的研究过程中,借助机器学习的随机森林算法,尝试对地基观测的缺测数据进行插值补充,提出了一种解决常见观测数据缺失问题的新思路、新方案。该方案首先对已有的观测数据进行学习与分组,形成初始数据矩阵。根据数据缺失情况,应用随机森林算法依次对缺失数据组进行插值补充,并逐次迭代验证,直至插值结果不再改变,从而获得完整的气溶胶光学参数数据。通过随机森林算法的这种应用,SKYNET与MODIS的数据拟合系数得到显著提高,表明插值数据精度与可靠度较高,能够有效改善地基观测的数据缺失问题,这为大气气溶胶等成分的光学/辐射参数数据库进一步完善提供了一种可靠的保障方案。
另外,该研究通过优化改进SKYNET反演算法,提升了反演数据的精度;通过利用不同光学参数相结合的方法,确立了针对沙尘气溶胶的光学参数分型方法。
该研究结果发表在Atmospheric Environment期刊,文章第一作者为董笑菲博士生。研究工作得到了中国科学院国际合作重点项目(134111KYSB20180021)与国家自然科学基金项目(42175150, 42030107)的共同资助。
图1. MODIS与SKYNET数据拟合结果,a)原始SKYNET数据;b)应用随机森林算法插值补充后的SKYNET数据。
图2. CALIPSO VFM产品反演结果,a)大气成分垂直分布;b)气溶胶分型。