【数值中心葡萄系统培训】第二天,资料同化基础理论录音稿
Han:
比如说,我知道了一个温度的分布或者是气压的分布,某种程度上讲,风场的信息是可以导出来的。所以说,这里面还有一个“由此及彼”。所以说,这就反映了我们资料同化中变量之间的平衡(关联)。那么变量之间的平衡有几种实现条件?其中一种是背景误差协方差中蕴含的一些关系,包括集合预报估计出来的,比如说集合卡尔曼滤波啊,就是估计出来的这些东西,其实也能反映变量之间的相关关系。“相关关系”其实也是一种平衡关系。另外的,比如说四维变分,我们是有模式约束的,比如说我们有了一个温度的观测结果以后,那么会自动地把风的信息给“调整”出来。所以说,这里面变量之间都是有关联的,由一个观测可以导出其它观测出来。
涉及到变量之间的关联,那就复杂了。
比如说,3km的模式、25km的模式和100km的模式,变量之间的关联都是不一样的。还有,就是说空间上,比方说我们北京探空的一个站,可能周围200km以外才有另一个站。那么这时,怎么和空间上其它的点连接起来,也就是说空间上的联系。过去最简单的办法就是差值,空间反距离权重啊等等很多一些差值算法,这些在地理上用得很多。空间上的联系是有前提条件的,需要作一些假设。
还有就是时间上的联系,比如说,我们现在北京的大气,一天前,它在张家口,它从张家口过来。那么这意味着什么呢?就是说,我今天观测的槽脊,可以反推得到一天前它在张家口的状态。这也就是说,为什么我们在四维变分同化当中,都把时间窗的信息都用起来,去估计初值的状态,也就是说,“用时间换空间上的密度”。你比如说,我在新疆沙漠中很难建立一个观测站,那么我们可以在它的下游,建立一个观测站,然后用同化的办法给它反推回去。比如说,应用在海洋上也是一样的,我们海面有观测,海底很难观测,但是海面和海底是有联系的,海面上的观测可以反推海底的状态。其实,这些都是同化,就是说一种“由此及彼”。由相互之间有物理联系的要素啊,去得到这种关系。
另外就是,与模式的尺度要匹配。比如说咱们风的观测,大家做观测员的同志可能有印象,我们看风速的观测啊,毛毛刺刺的,就是那种非常高频的振荡。大家想想,如果就说随机地取这么一种观测直接放到模式里面去,作为这一时刻的模式的状态,肯定是不合理嘛。因为非常大的随机性,你这个东西它差几秒就很大的不一样。模式积分是每一个时间步,对吧?每一个时间步,也就是说,你要和模式的每一个时间上,要匹配起来。所以说,全球模式也好,区域模式也罢,我把这个原始的观测怎么去得到跟模式相关的(数据),这么一种匹配。比如说代表性,我模式大气的代表性和我真实观测的代表性怎么建立(联系),这些问题,其实现在都是开放的,并没有一个很好的答案。包括说现在卫星观测,有5min的,甚至更短的,还有说像我们一些雷达的观测,5、6分钟啊等等。那么就是说,这样一种不同时间和分辨率的观测,怎么去和我特定的模式作为匹配,在这个环节上,大家是可以做很多创新的,而不是说,直接把观测拿过来用。另外就是说,作为一种初值的问题的数值预报,同化分析很重要。因为你当前的状态不对的话,后面的时刻,你是很难把它做好的。
前面我就是说,为什么数值预报要做资料同化啊。误差的来源,一个是初值。其实对我们业务数值预报啊,今天的预报的背景场,就是从前面时刻的误差带过来的,所以我们要用资料去修正它。那么资料同化的概念,我刚才已经说过天气图了。那么同化与反演,用资料反演得到一些参数啊,其实说,同化与反演,也是同一个问题,背后的东西是一样的。还有就是说,同化与融合,其实也是一样的。融合就是说,用单变量的,多元的线性的“单变量”的高分辨率的分析,同化呢,是为了得到与模式匹配的比较平衡的这么一种“多变量”的分析,两者其实在某种条件下是可以等价的。我们现在做的融合分析,就可以在资料同化的框架下,通过调整背景误差协方差、观测误差,包括一些空间相关的尺度,就可以得到我们想要的融合。还有就是说同化和人工智能,也就是深度学习,其实两者也是某种程度上等价的。神经网络反向梯度计算,和我们变分同化里面的梯度计算,从道理上讲是一样的,只是实现路径不一样。我们是一种显式的算法实现的,深度学习是一种数据的因果关系实现的,但是两者是有关联的。深度学习中有一章专门讲正则化,正则化就是讲,把一些先验性信息作为约束放进去,这个先验性信息,和我们资料同化的背景场约束那一项,是同一个道理的。
再一个,就是要了解国内外发展的现状。对于一个学科要有大的视野。人家在做什么,我们在做什么。过去做什么,未来会做什么。有了一个大的视野,我们就可以找准自己的坐标,这样子呢也能找到自己前后左右的邻居。
再一个就是资料同化的基础理论。涉及到三维变分同化、四维变分同化、卡尔曼滤波、集合卡尔曼滤波,这么多东西,一上午讲起来可能难以听懂,但是我认为有些东西是相通的,做不同领域的人可以相互交流。
卫星资料同化,我重点讲一些理论方面的,包括和观测系统相关的。后面再让Wang博士把一些具体的针对GRAPES卫星资料同化的一些框架性的东西,包括一些实验,再讲一下。
GRAPES全球四维变分,2018年上业务。发展过程中,一些关键性的东西如何诊断是很重要的。现在区域快速三维变分同化呢,我们也是还在做,而且我们全球和区域是一体的,也就意味着,我们很多全球的工作,在区域里面是可以用的。它的基本理论是基于各种同化算法,比如基于变分啊,集合啊这些,这些联系,包括这些算法的发展和应用。
如何入手?上手单点实验!突破单点试验这一步,就明白了资料同化是怎么一回事。别人给你讲一万遍,你自己不动手实践一遍,也没用的。再一个就是入门教材,1999年欧洲中心的技术文档,是最好的教材,很有条理,没有任何基础的人都可以从这里看起。它的前一半,需要非常认真地看。
目前的一些主流的算法呢,像三维变分、四维变分、集合卡尔曼滤波,包括一些混合的办法,其实呢,这里面,背后,是一脉相承的,没有什么太多的新东西,只是说不同的实现途径而已。比如说,混合的,集合和变分混合的,无非就是把集合预报得到的背景误差信息,想了一个办法,放到我们原来统计得到的B里面去。你要清楚背后的联系,不要觉得好像是一个全新的东西。同时,也要了解方法背后的数学原理。概率论、控制论、反问题、最优化,做资料同化,不一定要对这些方面全部了解,但一定要有自己的切入点。比如说我本人就是从偏微分方程最优控制,从这个角度,切入到资料同化里面的。等你了解清楚这些东西,你再看,从贝叶斯概率论过来的东西,或者是从反问题过来的,其实都是一样的,大同小异的。所以说,大家一定要有自己的切入点,背后的数学,要花一点时间的。在一个就是物理,因为资料同化不单纯是一个数学问题。我们很多人一看,啊,一大堆公式,又是矩阵又是方程的,好像它是个数学问题,其实不是的。你看看真正做资料同化的那种大家,纯数学的,做好了他也不懂。所以说为什么呢,大气也好,海洋也好,地学也好,里面的物理过程太复杂了。只有你对你的物理问题非常了解了以后,你才可能做各种各样的简化,抓住主要的一些东西,把一些次要的、目前技术条件解决不了的东西,忽略掉。比如说一些模式的偏差和误差,包括说变量之间的相关。比如说,海洋资料里面,温度和盐度啊,它们并不是说是完全独立的,而是有关系的。同时,也希望大家多看看,同化方法在各领域里的应用。大气面向数值预报的资料同化,每天都受到实践的检验。把大气资料同化学好了以后,用到其它领域,也是可以的。第二大方面,是了解一些方法背后的假设。这个我要特别强调一下,我们要清楚是通过什么条件得到的最优。对观测有什么假设?比如说,99年教材提到,“观测是无偏的”,但我们业务并不是这样。不仅不是无偏的,现在几乎所有观测,都是有偏差的,这个就很要命。还一个就是模式,模式假设也是无偏的,但实际上,不是的。比如说GRAPES物理过程,涉及到那么多算法,各种变量的偏差,在这种情况下,对于一个有偏差的模式,你怎么去做同化(,也是一个挑战)。关键参数,关键参数包含哪些呢?你比如说“背景误差协方差”,那这个协方差是我们统计的,这个统计的东西,跟我们真实的背景误差协方差,多大程度上,抓住了哪些东西,那么这里面,也不是说完美的。我说的这些东西,也包括对观测误差。当所有这些东西,条件都满足的时候,那是个最优分析。所以说咱们实际上,业务上做的,都是个次优的,不是最优的。我们做资料同化呢,就是要在这些假设的方面,把它们做得更完美。再一个,就是对一些说法和判断呢,要做自己独立的思考。从问题出发,不要被一些权威和论文迷信,教条。发表一篇论文,只要两三个审稿人就可以了。发表一篇论文,不代表它是对的,而代表它目前符合行业规格而已,现在国内外这种论文太多了。所以说,对于一些文章的结论,千万不要盲从。很多中心的选择,不是从方法上的先进性选择,而是要立足现实。鼓励大家学习Python。我们现在和深度学习团队合作,试图找到四维变分和深度学习之间的桥梁。国外有一些研究,用深度学习的办法去构造微分算子。再一个就是观测系统,资料同化资料同化,资料一定是非常重要的,我们对新的观测系统,要敏感。要了解中心的未来发展目标,特别是工作的年轻人,一定要有一个未来一年、三年、五年的发展目标。到了哪些关键点,要做到什么地步。
在欧洲中心的网站上,每年都有培训的资料和材料,其实完全可以去下载网上的录音和PPT。建议把前些年的东西看一看,因为前些年的更系统。
看资料同化系统,先得了解观测。观测就是来自于哪些观测系统。
如上图,左边,就是从地面,到36000km的静止卫星轨道。目前我们的全球模式在33km左右。区域模式到10hpa,也就是在30km左右,稍微低一点。未来,我们今年要到60km左右。地面的观测很多,全国有5万多个自动站。其实地面上各种观测系统......包括我们每个人的手机,都有温度传感器和气压传感器。现在就有人开发一种APP,把每个人手机的气压传感器的信息收集起来,做一些预报。也挺有意思的,将来,有人的地方就有观测。还有就是像雷达,我们国家有200多部,每天都在6分钟一次的观测,但是比较可惜的是,到目前为止,我们的雷达资料还是没有进入到我们的数值预报系统中去。非常可惜啊!因为1部雷达1天的成本折算下来要1万左右,你想想,1天200多万,就这样......不过预报员还是会看雷达回波图的,但是这种利用是远远不够的。还有你看像汽车,其实每个汽车都有传感器。其实啊,这种传感器,无处不在,但是现在都没有得到利用。其实我的意思是说,这些信息,都可以通过资料同化的办法用到数值预报里面去,都是可以用的!所有的观测,咱们的数值预报,都是可以用的!只不过现在由于条件啊行业啊的限制......其实我想未来都是可以实现的。气球,大家是都知道的,大家想想,为啥我们过去,都是全球固定同一个时间同时放气球啊?放气球是二战后,全球无线电收发实现以后的事。因为数值预报是一个初值问题,初值,我就在t=t0时刻,t0是一个时刻,对不对,我全球,大家都在那一个时刻探测回来以后......过去我们预报都是00时和12时,为什么全球数值预报都是00时和12时啊?也是因为咱们过去放气球。全球数值预报,咱们能不能快速循环?我逐小时都能往前预报?可不可以?这完全可以。因为现在卫星,可以在每个时刻都可以形成一个全球的观测,得到一个对初值的估计,那么理论上,我任何时刻都可以向前预报。所以我全球也是可以快速分析的,不止是说,区域可以快速分析。再往下,就是咱们平时乘坐的飞机,飞机上有温度和风的观测,一般没有湿度。现在有的飞机经过改造记录湿度数据,公司专门卖这个资料。但是比较可惜的是,咱们国内航空几个大的航空公司,国航南航,他们的资料都不上传。为什么?因为上传就要租卫星的通讯线路,一条信息好像要多少钱。他们说,可以通过北斗,短信息上传,而且很便宜。我就问他们,既然这样,为什么不用北斗传这个信息呢?他说,这个,我们的飞机都是进口的,进口的飞机,里面是什么都不能动的,哈,就是说,你所有的信息资料,什么都不能动的。所以说,为什么要“自主发展”啊,你不自主发展,是没办法创新的。这是飞机的观测。上面还有卫星的观测。那么卫星,咱们全球卫星分为两类,一类是静止卫星,一类是极轨卫星。风云卫星系列,奇数号都是极轨卫星,偶数号都是静止卫星。极轨卫星绕着两极转,可以实现全球观测。静止轨道上,可以实现一个高分辨率观测,特别像咱们风四,风四就可以实现一个垂直观测。有了观测系统以后,我们就可以通过一定的同化算法,形成在每个网格点上的分析。这就是咱们资料同化做的事情。所以说,在这些年,在咱们数值预报里面,有两个领域最活跃,一个是资料同化,再一个就是物理过程。资料同化的活跃,就是有不断涌现的新的观测系统出来。有了一个新的观测系统,你想把它做好,就得做得非常精细才行。就是说,每一个观测,都要花费人力。再一个物理过程呢,随着网格越来越小,过去很多物理过程的一些假设啊,假定啊,都不满足了。所以说,这两个领域,应该是这些年最活跃的。人数上就可以看出来,你看欧洲中心,它各个方向上,资料同化和物理过程,这两个人数是最多的,当然,动力框架也很重要。但是,动力框架呢,想做坏事很容易,想做好事很难。你可以把它算准,但不一定结果好,因为结果好你还得初值好,你还得每个柱儿里面物理过程各种量算得好。所以说,你动力框架不捣乱就是最好的。在动力框架上,国外投入的人力相对比较少。但是资料同化,特别是资料方面,卫星啊雷达啊,甚至每一颗卫星的红外微波这些,都不一样。所以说,资料同化是一个蓬勃发展的行业。就是我刚才说的,咱们数值预报,这个专业领域比较年轻,也就100年。数值预报中的资料同化,更是一个,朝阳中的朝阳。大家做这个行当,不说别的,未来至少有饭吃。包括申请一些项目,总是会有的。这些,有些数量的估计,应该说现在卫星的观测是越来越多了。其实,卫星,之所以,容易实现,最主要的是因为它能够快速地实现全球,实现选址。你比如说,你装个雷达,又得供水又得供电,还得把周围那些基础设施啊都建好,比较麻烦。那卫星,只要火箭,打上去以后,差不多十来年,你就不用管它了。所以就是说,从这个角度来说,这个卫星呢,还是一个性价比比较好的。举个例子,地基红外的高光谱仪器,一台小仪器,大概300万左右。我们现在未来的立方小卫星,一颗卫星,包括火箭发射的成本,才500万。大家想想,一个小卫星能实现全球的观测,一个地基仪器只能实现一个点的观测,大家想想,这种观测带来的效益。所以说,为什么现在咱们这种商业航天发展得非常迅速。我想,未来的咱们的这种卫星的观测,还会越来越多。资料同化呢,就是要把我们的资料,和模式结合起来。
我刚才写了一个公式啊,在那里面.......我们这个,我就以变分(为例)啊,我们这个目标函数(J=Jb+Jo+Jc)里面,有一个背景场(Jb),有一个观测项(Jo),还有一些其它的约束项(Jc)。那么这个背景场是说什么呢?就说,大家可以看这个啊,这个其实很简单,就是说,我们最后得到的这个场呢,数学上用泛函的模来表示。就是说,我这个场呢,和这个点的距离,不要太远。我原来得到的一个背景场,就是说从昨天预报过来的,就比如说,我们昨天的预报,我们在这个格点上,比方说27度,你分析的时候,不要离27度太远,如果大家一开始看到这种向量的符号比较费劲的话,就把它当成标量好了。这就是背景场,你最后分析得到的,不要离我这个太远。另外还有一项呢,就是说,观测项,观测项呢,就是说我这个yo,和我这个,就是说,你最后分析场得到的这个东西,和我的观测的,也不要离得太远。实际上是一种妥协,是吧。你既不要离我背景场太远,也不要离我观测太远。那么这里面,究竟多远算远呢,好,就是这里面的,背景误差和观测误差,这两项,来决定的。如果你得到的当前估计非常不准,误差很大,B很大,B是在分母上的,大家把它当做标量想,不要看成矢量了。所以说,即使你这一项算的很大的话,在分母上,你这一项也不大,对不对?所以我就可以向,观测项,很逼近。
我们用一个几何来表达它啊,假如我知道这个地方,大气有个真值。我这个地方呢,有一个观测。我这个地方,是它的背景场。这一段距离是观测误差,这一段距离是背景误差。我们能得到的这一项呢,这就是yo-H(Xb),它就是(O-B),即当前,你得到的背景场,和观测之间的距离。有了这个信息你才能做同化,才能有增量,对吧?大家想想,我们最后的分析场,会在什么地方?分析场就是过真值点做垂直于背景场和观测值的连线的线交点。分析场到真值的距离,是分析误差。观测减背景是O-B,观测减分析是O-A,最后你的分析场落在观测和背景场的之间,这是,相对比较理想的状态。大家想想,有没有可能落到边上去啊?有的时候,就是你有多个观测影响的时候,或者系统设置不合理的时候,就会落到边上去。除了背景场项和观测项,我们还可以加一些约束,比如说数字滤波啊,就是各种,我们已知的信息,可以放上去。其实从反问题的角度看,资料同化这些融合,都是放在里面的。
一个复杂的系统,如果不是自己设计自己发展的话,你很难给它消化透。你看国内好几个中心,在业务上还是跑的WRF,但是,所有跑WRF的,慢慢得慢慢得,评分都上不去。
同欧洲中心比,我们还是有差距。但是这几年,我们进步还是巨大的。
这是北半球,我们和欧洲中心再分析的一个比较。你看我们2010年的时候,差得很远。经过几代发展,终于有了很大的改善。