世界气象大数据--688IT编程网

世界气象大数据

实况数据是气象学科发展的最基础数据，也是模式数据产生的源头。如果没有实况数据，计算机在运算“模式数据”时就少了初始值，即使是回归到没有计算机的人工预报时代，少了实况数据也无法进行天气预报。

有人说，在“大数据时代”这个概念出现前，最名副其实的大数据应该数气象数据。气象数据一贯以庞杂众多数据量大而著称，但无论气象数据多么复杂，总体可以分为两类：一类数据被称为“实况数据”，一类被称为“模式数据”。

简单来说，实况数据属于“一般过去时数据”，来自不同的观测设备。采集实况数据的气象站点遍布全球，观测范围从几千米的高空到地面，观测手段从高科技的雷达卫星到最原始的人工观测，这些数据的采集都是为了更真实地反映出地球外围大气圈的运动变化，而这些宝贵的数据也可以称之为天气预报之源。

模式数据与实况数据相比，可以说更简单也可以说更复杂。简单的是，这类数据仅由各类计算机的程序运算生成，属于预测未来的“一般将来时数据”;说它复杂则是因为计算量非常庞大，

运用到的计算公式也异常复杂，为了更真实地模拟全球大气的走向，运算出的数据量也是十分惊人的!

下面，我们就一一来详细揭秘这两类“气象大数据”。

天气预报之源——实况数据

那么，实况数据是如何采集的呢?

很多年前，活体数据的采集和传输多由人力完成。气象人员要每天定时记录百叶箱内的温度和湿度，并通过电话、电报等方式汇总全国观测数据。至今，许多发展中国家仍采用这种获取和传播方式。

随着科学技术的发展，随着计算机、电子和通信技术的高度发达，现场数据的采集和传输技

术也发生了巨大的变化。所有实况数据的采集和传输几乎都可以由自动化完成，只有少数项目需要人工参与，如地面能见度观测、探空气球、卫星轨道控制等。

目前温度、湿度、气压、风向、风速等物理量。2000年，气象站全部由电子控制的机械设备完成.这些站点配备了带有精确时钟的嵌入式芯片，可以按时周期性地工作。比如整点上每5分钟、10分钟或1小时自动采集一次周围环境数据，采集到的气象数据自动编码成二进制数据流发送到数据库。截至2015年底，我国此类地面观测站已超过5万个，全部为自动站。

天气预报代码大全

由气象观测站观测到的数据信息会首先在各省的气象台进行汇总，然后通过“质量控制”的环节，去掉或订正某些由于观测设备故障造成的错误数据，质量控制过程同样也是由计算机程序自动实现的。完成初步的质量控制后，各省就利用ftp文件传输的方式，将该省该时刻全部观测站点全部物理量数据打包为一个大文件，上传到位于北京的国家气象信息中心的通信台。

世界其他国家的观测数据的采集和传输也基本大同小异。除此以外，国与国之间也要进行实况数据的交换，而且必须是无偿交换。这是因为大气的运动是全球性的，仅仅依靠本国的实况数据无法做出准确的天气预报，因此，世界气象组织规定各国之间必须无偿提供气象观

测资料。不过，有的时候出于信息保护或军事安全的考虑，并不会对外广播全部的观测站点数据。那么，每个国家需要义务提供多少站点信息，又以什么标准交换，都交换哪些观测项目，这些都由世界气象组织(wmo)制定和协调。

气象大数据之魂——模式数据

模式数据是由高性能计算机根据当前天气实况数据(包括地面、高空、卫星等)通过物理方程计算得出的。可以简单形象地认为，有这样一套庞大的计算天气预报的程序，输入当前已知的天气现象，就可以输出未来还没有发生的天气现象。计算出的天气预报结果通常以规则的等经纬度网格来表示，网格上的每一个点代表这个经纬度上未来某时刻某个物理量(比如温度)的数值。这就是现代天气预报业务的基础叫“数值模式预报”，而这个庞大的计算机程序就被称作“模式系统”。

所有的发达国家都有自己的一套用来演算天气情况的模式系统，有的国家甚至还具有不止一套的系统。模式系统一般每天计算2～4次，通常在整点开始，利用整点前采集到的实况数据进行计算，每次计算要生成大概几百个物理量，包括从开始计算的时刻(又称作“起报时刻”)至未来240小时时效(或更长)的一系列二进制网格数据，预报时效通常间隔3小时。目前气象

网格经纬度间距一般在0.25度数量级，一个网格文件大小通常在1～2兆，包含几十万个浮点数值。

当模式的预报时效越长，时效间隔越密，网格点间距越小，网格点数值和未来实况差异越小，就证明该模式系统性能越好，该国气象水平越发达。由于模式预测的物理量多，每天还要多次起报，预报时效密集，模式种类繁多，模式数据必须至少存储一星期等要求，因此，在气象数据中，无论从数据个数还是数据存储量来说，模式数据是比重最大的“大数据”。

与活数据不同，拥有模型系统的国家通常没有义务将自己的模型数据免费提供给其他国家，或者最多提供细化后的粗粒度模型数据。想从发达国家获得高质量的模型数据，必须购买。比如你想得到欧洲中心的0.125度细网格模式数据，中国气象局和美国气象局都要向欧洲中心支付高额年费，才能每天得到欧洲中心模式的高质量数据。

需要注意的是，这里购买的仅仅是模式系统最终的“输出”数据，而不是模式系统本身。因为模式系统水平的好坏代表了一个国家气象的硬实力，模式系统的源代码(通常是大量的fortran程序)更是顶级领域技术机密，属于非卖品。

跨国模式数据也是利用ftp等方式进行传输，传输的格式一般是采用世界气象组织制定的一种称作grib编码的文件规范，这种文件比较适合描述模式数据。

气象数据如何传输

看完“实况数据”和“模式数据”的介绍，有没有觉得气象数据量大浩如烟海，这么多的数据都要一一传送到预报员手里，又需要多长时间呢?一般来说，地面、高空、雷达观测数据的采集和传输过程较快，从数据采集到可视化向预报员展示，通常几分钟时间就可以完成。也就是说，如果某地出现降雨天气，只要仪器能观测到，几分钟后位于气象台的预报员就会知道。

相对来说，静止气象卫星的观测时间稍长一些。我国的风云卫星完成全球扫描一般需要20多分钟，预报员在电脑上看到卫星云图需要半个小时左右。

这里面模式数据传输最慢。以上午08时起报的欧洲中心模式系统为例，首先计算未来3小时(上午11时)的所有物理量，打包为1个grib文件并向其他国家传输，然后再计算未来6小时的数据，打包传输，直到最后完成10天后上午08时的预报数据计算并传输，每个预报时效的gri

b文件大概100多兆，计算一个预报时效大概需要几分钟时间，模式系统启动也需要很长时间，这样北京收到欧洲中心在早08时起报的第1个grib文件大概要到下午1时45分，完成最后一个240小时预报时效grib文件的接收要到下午3时。这样，如果要做早08时到下午3时的天气预报，只能使用前1个起报时刻的模式数据，比如前一天晚20时的模式数据。

688IT编程网

世界气象大数据

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

688IT编程网

世界气象大数据

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林 重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

随机森林重要性