天气预报是什么类别?
今天 2015.6.30,从大数据的角度重新定义一下预测的精确度。(非气象专业,有问题请轻拍,谢谢)
一、概率论和数理统计提供了描述随机现象的方法。其中以大数定律为核心,认为只要观察样本量足够大,总体分布的特征就表现出确定性;另外,以中心极限定理为依据,只要样本量够大,样本总体的数值特征(平均值,方差等)趋于正态分布。如果从数学角度,我们可以认为随着数据收集规模的扩大,天气(或者任何随机现象)预测的精度会无限的趋近于某个确定的值。 当然,这里忽略了一个关键问题——误差,或者说误差范围的大小是由观测的样本量决定的,当增加样本量时,误差范围一定会减小,但精度提高的程度却取决于随机现象的本质。有些随机现象是具有确定性的(比如说温度升高到10℃的概率是1%)而有些却是具有不确定性的(比如说明后两天降雨的概率各为50%)。前者可以通过增加样本量使得预测结果逼近真实的概率,而后者则只能逼近其中一个可能性。换句话说,对于不确定性随机现象的预测精度永远不可能达到百分百。(尽管可以无限接近)
二、现代统计学中,对不确定性问题的研究主要基于概率图和贝叶斯方法。其中,概率图是通过图形的方式展示随机变量之间的相关性。根据数据生成过程的不同,随机现象可以分为离散型(每个样本点只有一个值)和连续型(每一个样本点有多个值,并且这些值形成一个连续的概率分布)。对于离散型随机变量,常用的概率图形有离散概率分布图,直方图以及频率直方图。对于一个给定的样本,这几种图形都展示出相同的结果,也就是说无论通过什么方式收集的数据,最终得出的结论是一样的。这就从图形上证明了数据的可靠性。
三、上面介绍了统计学中的概率和数理统计的相关内容,这些都是基于样本量无穷大时的理论分析。但是实际当中,由于数据量的限制,我们不可能采集到无数个样本,这时就会引入样本大小的概念。一般来说,当样本大于或等于20(个人认为20是个临界值,小于20的样本可能无法有效代表整体)的时候,上述的理论分析就能成立。
以上是从统计学的角度论证了在理论上,天气预报的“精确度”是可以实现的。即通过增加数据搜集的规模,并运用合理的数据分析方法,预测的精度能够达到要求 (这里的“精确”含义是预测某一时刻发生某种事件的可能性大小)。