水文统计.docx
《水文统计.docx》由会员分享,可在线阅读,更多相关《水文统计.docx(40页珍藏版)》请在冰点文库上搜索。
水文统计
水文统计
第四章水文统计
内容简介
研究对象:
频率计算,相关分析
研究内容:
(1)频率计算,包括随机变量及其概率分布、水文频率曲线、水文频率计算适线法。
(2)相关分析,包括两变量直线相关、两变量曲线相关、
复相关。
研究目的:
从已知资料寻求河川径流变化规律,一方面可用成因分析的方法从径流形成的角度去研究径流的变化规律;另一方面,就是用水文统计(数理统计)的方法,去寻求水文现象的统计规律。
研究河川径流的统计变化规律,预估径流未来的变化趋势,以满足水利水电工程规划、设计、施工和运行管理的需要。
(1)了解概率、随机变量及其概率分布的基本概念;
(2)了解水文频率曲线常用的线型,要掌握P—III型分布曲线和经验频率曲线的性质和计算方法;
(3)了解频率曲线参数的估算方法,要掌握矩法、三点法估算参数的方法;
(4)掌握水文频率计算适线法的具体步骤和方法,特别是参数对频率曲线的影响;
(5)了解相关分析的基本概念和方法,特别要掌握两变量直线相关、曲线相关的方法和具体步骤。
水文统计涉及到概率论与数理统计理论,也涉及到数值计算与最优搜索技术,学习本章的过程中,有时需参阅其有关内容。
第一节水文统计的意义
内容提要:
水文现象的两重性,概率论与数理统计(水文统计),水文统
计的任务
学习要求:
(1)了解水文现象既有必然性一面,又有偶然性一面;
(2)认识水文偶然性亦即随机性可以用数理统计理论进行研
究,数理统计在此被称为水文统计;
(3)了解水文统计的任务就是研究和分析水文随机现象的统计
变化特性,为水利水电工程的规划、设计、施工、运行提
供科学依据。
1
一、水文现象的特性
水文现象是一种自然现象,它具有必然性的一面,也具有偶然性的一面。
1、必然现象是指事物在发展、变化中必然会出现的现象;水文学中称水文现象的这种必然性为确定性。
2、偶然现象是指事物在发展、变化中可能出现也可能不出现的现象,偶然现象也称随机现象;偶然现象仍然是有规律的,一般称为统计规律。
二、水文统计规律的研究—水文统计
数学中研究随机现象统计规律的学科称为概率论,而由随机现象的一部分试验资料去研究总体现象的数字特征和规律的学科称为数理统计学。
概率论与数理统计学应用到水文分析与计算上则称为水文统计。
三、水文统计的任务
水文统计的任务就是研究和分析水文随机现象的统计变化特性。
并以此为基础对水文现象未来可能的长期变化作出在概率意义下的定量预估,以满足工程规划、设计、施工以及运营期间的需要。
水文统计的基本方法和内容具体有以下三点:
(1)根据已有的资料(样本),进行频率计算,推求指定频率的水文特征值;
(2)研究水文现象之间的统计关系,应用这种关系延长、插补水文特征值和作水文预报;
(3)根据误差理论,估计水文计算中的随机误差范围。
复习思考题
1、选择题
1—1—1、水文现象是一种自然现象,它具有[d]。
a、不可能性;b、偶然性;
c、必然性;d、既具有必然性,也具有偶然性。
1—1—2、水文统计的任务是研究和分析水文随机现象的[c]。
a、必然变化特性;b、自然变化特性;
c、统计变化特性;d、可能变化特性。
2、是非题
1—2—1、由随机现象的一部分试验资料去研究总体现象的数字特征和规律的学科称为概率论。
(—)
1—2—2、偶然现象是指事物在发展、变化中可能出现也可能不出现的现象。
(,)
3、简答题
1—3—1、什么是偶然现象,有何特点,
2
1—3—2、何谓水文统计,它在工程水文中一般解决什么问题,
第二节概率的基本概念
内容提要:
事件,概率,频率
学习要求:
(1)了解事件的定义及其分类;
(2)了解概率是对事件出现可能性大小的数量标准;
(3)掌握频率的含义,它与概率的关系;
(4)了解概率的加法与乘法定理。
一、事件
在概率论中,对随机现象的观测叫做随机试验,随机试验的结果称为事件。
事件可以分为必然事件、不可能事件和随机事件三种。
二、概率
随机事件的概率计算公式
kP(A),(4—2,1)n
式中:
P(A)―在一定的条件组合下,出现随机事件A的概率;
k―有利于随机事件A的结果数;
n―在试验中所有可能出现的结果。
三、频率
设事件A在n次试验中出现了m次,则称
mP(A),(4—2,2)n
为事件A在n次试验中出现的频率。
四、概率加法定理和乘法定理
1、两事件和的概率
两个互斥事件A、B出现的概率等于这两个事件的概率的和,即
P(A+B)=P(A)+P(B)
式中:
P(A+B)—实现事件A或事件B的概率;
P(A)—事件A的概率;
P(B)—事件B的概率。
2、条件概率
两个事件A、B,在事件A发生的前提下,事件B发生的概率为事件B在条件A下事件B条件概率,记为P(B,A)
3、两事件积的概率
两事件积的概率,等于其中一事件的概率乘以另一事件在已知前一事件发生的条件下的条件概率,即
3
P(AB)=P(A)×P(B,A),P(A)?
0
P(AB)=P(B)×P(A,B),P(B)?
0
若两个事件是相互独立的,它们共同出现的概率等于事件A的概率乘以事件B的概率,即
P(AB)+P(A)×P(B)
复习思考题
1、选择题
2—1—1、一棵骰子投掷一次,出现4点或5点的概率为[a]。
1111a、;b、;c、;d、3456
2—1—2、一棵骰子投掷8次,2点出现3次,其概率为[c]。
1131a、;b、;c、;d、3886
2、是非题
2—2—1、在每次试验中一定会出现的事件叫做随机事件。
(,)
2—2—2、随机事件的概率介于0与1之间。
(,)
3、简答题
2—3—1、概率和频率有什么区别和联系,
2—3—2、两个事件之间存在什么关系,相应出现的概率为多少,
第三节随机变量及其概率分布内容提要:
随机变量,随机变量的概率分布,随机变量的统计参数学习要求:
(1)了解随机变量及其分类;
(2)了解随机变量与概率的关系,了解分布曲线(函数)、密
度曲线(函数)的含义及其之间的关系;
(3)了解随机变量的概率分布曲线在水文上称为频率曲线,它
有超过制概率与不及制概率之分,常用的是超过制概率。
(4)掌握统计参数的含义和计算方法。
一、随机变量
若随机事件的试验结果可用一个数X来表示,X随试验结果的不同而取得不同的数值,它是带有随机性的,则将这种随机试验结果X称为随机变量。
随机变量可分为两类:
即离散型随机变量和连续型随机变量。
二、随机变量的概率分布
随机变量可以取所有可能值中的任何一个值,但是取某一可能值的机会是不同的,有的机会大,有的机会小,随机变量的取值与其概率有一定的对应关系。
一般将这种对应关系称为概率分布。
4
通常随机变量用大写字母X表示,它的种种可能取值用相应的小写字母x表示。
若取n个,则X,x,X=x,„„,X,x。
一般将x,x,„„,12n12x称为系列。
而可能取值出现的概率用P表示。
n
1、离散型随机变量的概率分布
离散型随机变量的概率分布一般以分布列表示,如表4—3,1。
表4—3,1离散型随机变量及其概率分布
Xxx„„x„„12i
P(X=x)pp„„p„„i12i
2、连续型随机变量的概率分布
对于连续型随机变量,无法研究个别值的概率,只能研究某个区间的概率,或是研究事件X?
x的概率,以及事件X?
x的概率,后面二者可以相互转换,水文统计中常用X?
x的概率及其分布。
(1)分布函数
设事件X?
x的概率用P(X?
x)来表示,它是随随机变量取值x而变化的,所以p(X?
x)是x的函数,称为随机变量x的分布函数,记为F(x),即
F(x)=P(X?
x)(4,3—1)它代表随机变量X大于等于某一取值x的概率。
其几何图形如图4—3,1(b)所示,图中纵坐标表示变量x,横坐标表示概率分布函数值F(x),在数学上称此曲线为分布曲线,水文统计中称为随机变量的累积频率曲线,简称频率曲线。
图4—3—1随机变量的概率密度函数和概率分布函数
(a)概率密度函数;(b)概率分布函数
(说明:
先显示密度曲线,再显示分布曲线,最后对应点闪动。
)
5
(2)分布密度
分布函数导数的负值称为密度函数,记为f(x),即
dF(x)f(x),,F'(x),,(4,3—2)d(x)
密度函数的几何曲线称密度曲线。
水文中习惯以纵坐标表示变量x,横坐标表示概率密度函数值f(x),如图4—3,1(a)所示。
实际上,分布函数与密度函数是微分与积分的关系。
因此,已知f(x),则
F(x),P(X,x),f(x)dx(4,3—3),x
其对应关系可在图4—3,1中看出来。
(3)不及制累积概率
当研究事件X?
x的概率时,数理统计学中常用分布函数G(x)表示:
(4,3—4)G(x),P(X,x)
称不及制累积概率形式,相应的水文统计用的分布函数F(x)称为超过制累积概率形式,两者之间有如下关系:
(4,3—5)F(x),1,G(x)
三、随机变量的统计参数
说明随机变量统计规律的数字特征,称为随机变量的统计参数。
统计参数有总体统计参数与样本统计参数之分。
水文计算中常用的样本统计参数有均值、均方差、变差系数和偏态系数。
1、均值
均值表示系列中变量的平均情况。
设某水文变量的观测系列(样本)为x,x,„„,x,则其均值为12n
n,,,,,,,,1x1x2xnx,,(4,3—6),xii,1nn
xi令,,k称模比系数,则kix
n,,,,,,,,1kkk12n,,,1k(4,3—7),kii,1nn
2、均方差
均方差是反映系列中各变量集中或离散的程度。
研究系列集中或离散
6
程度,常采用方差D或均方差,,计算公式为x
21,(,x)(4,3—8),xxiDn
2x(),,xi(4,3—9),,n
3、变差系数
水文计算中用均方差与均值之比作为衡量系列的相对离散程度的一
个参数,称为变差系数,或称离差系数、离势系数,用C表示,其计算式v为
2(,1),,ki(4,3—10),,CVnx
上式说明,C是变量换算成模比系数k以后的均方差。
xv
4、偏态系数
在数理统计中采用偏态系数C作为衡量系列不对称程度的参数,其计S
算式为3x(,),xi3xn(,),xi(4,3—12),,csn,23,
3上式右端的分子、分母同除以,则得x
3i(,1),k(4,3—13)s,cnc3v
xx当系列对于对称时,C,0;当系列对于不对称时,C,0,若C,0,SSS
称为正偏;若C,0,称为负偏,如图4,3—2所示。
S
图4—3—2C对密度曲线的影响v
(说明:
依此显示C,0、C,0、C,0所相应的曲线。
)SSS
7
5、矩
矩在统计学中常用来描述随机变量的分布特征,均值等统计参数有些
可以用矩来表示。
矩可分为原点矩和中心矩两种。
(1)原点矩
r随机变量X对原点离差的r次幂的数学期望E(X),称为随机变量X
的r阶原点矩,以符号m表示,即rrm=E(X)(r=1,2,3,。
。
。
。
,n)(4—3—14)r
对离散型随机变量,r阶原点矩为
nrrm=E(X)=(4—3—15)xpr,iii,1
对连续型随机变量,r阶原点矩为
xrrm=E(X)=(4—3—16),,xfxdxr,,,
1当r=1时,m=E(X)=x,即一阶原点矩就是数学期望,也就是算1
术平均数(均值)。
(2)中心矩
随机变量X对分布中心E(X)离差的r次幂的数学期望
rE{[X—E(X)]},称为随机变量X的r阶中心矩,以符号μ表示,即rrμ=E{[X—E(X)]}(4—3—17)r
对离散型随机变量,r阶中心矩为
nrrμ=E{[X—E(X)]}=,,(4—3—18),,X,EXpr,ii,i1
对连续型随机变量,r阶中心矩为
r,r,,,,,,X,EXfxdxμ=E{[X—E(X)]}=(4—3—19)r,,,
22当r=2时,μ=E{[X—E(X)]}=σ,即二阶中心矩就是标准差的2
平方(称方差)。
复习思考题
1、选择题
3—1—1、一阶原点矩就是[a]。
a、算术平均数;b、均方差
c、变差系数;d、偏态系数
8
3—1—2、偏态系数C,0,说明随机变量x[b]。
s
a、出现大于均值的机会比出现小于均值的机会多;xx
b、出现大于均值的机会比出现小于均值的机会少;xx
c、出现大于均值的机会和出现小于均值的机会相等;xx
d、出现小于均值的机会为0。
x
3—1—3、水文现象中,大洪水出现机会比中、小洪水出现机会小,其频率密度曲线为[c]。
a、负偏;b、对称;
c、正偏;d、双曲函数曲线。
2、是非题
3—2—1、x、y两个系列的均值相同,它们的均方差分别为σ、σ,xy已知σ,σ,说明x系列较y系列的离散程度大。
(,)xy
3—2—2、统计参数C是表示系列离散程度的一个物理量。
(,)s
3、简答题
3—3—1、分布函数与密度函数有什么区别和联系,
3—3—2、不及制累积概率与超过制累积概率有什么区别和联系,
3—3—3、什么叫总体,什么叫样本,为什么能用样本的频率分布推估总体的概率分布,
3—3—4、统计参数、σ、C、C的含义如何,xvs
第四节水文频率曲线线型内容提要:
正态分布,对数正态分布,皮尔逊?
型分布,经验频率曲线学习要求:
(1)了解正态分布、对数正态分布的形式和特点;
(2)掌握皮尔逊?
型分布的形式、特点及其频率曲线的绘制方法;
(3)掌握经验频率曲线的特点及其绘制方法。
水文分析计算中使用的概率分布曲线俗称水文频率曲线,习惯上把由实测资料(样本)绘制的频率曲线称为经验频率曲线,而把由数学方程式所表示的频率曲线称为理论频率曲线。
所谓水文频率分布线型是指所采用的理论频率曲线(频率函数)的型式(水文中常用线型为正态分布型、极值分布型、皮尔逊?
型分布型等),它的选择主要取决于与大多数水文资料的经验频率点据的配合情况。
分布线型的选择与统计参数的估算,一起构成了频率计算的两大内容。
一、正态分布
1、正态分布的密度函数及其参数
9
正态分布具有如下形式的概率密度函数:
2,,x,x,122,,,fx,e(,?
,x,,?
)(4—4—1)
2,
式中—平均数;x
σ—标准差;
e—自然对数的底。
图4—4—1正态分布密度曲线
2、频率格纸
正态频率曲线在普通格纸上是一条规则的S形曲线,它在P=50%前后的曲线方向虽然相反,但形状完全一样,如图4—4—2中的?
线。
水文计算中常用的一种“频率格纸”,其横坐标的分划就是按把标准正态频率曲线拉成一条直线的原理计算出来的,如图4—4—2中的?
线。
图4—4—2频率格纸横坐标的分割
二、对数正态分布
当随机变量x的对数值服从正态分布时,称x的分布为对数正态分布。
对于两参数正态分布而言,变量x的对数
y=lnx
服从正态分布时,y的概率密度函数为
10
2,,,,,ya1y(,?
,y,,?
)(4—4—2),exp,,,gy,,22,,2,,,yy,,
式中a—随机变量y的数学期望;y2σ—随机变量y的方差。
y
由此可得到随机变量x的概率密度函数:
2,,ln,,,xa1y(x,0)(4—4—3),exp,,,fx,,22,,2,x,,yy,,
式(4—4—3)的概率密度函数包含了a和σ两个参数,故称为两参数yy对数正态曲线。
y因x=e,故式(4—4—3)又可写成
2,,,1yy,,(4—4—4),exp,,,fx,,22,,2,x,,yy,,
由矩法可以得到各个统计参数,即
1,,2exp(4—4—5)x,a,,,,yy2,,
122,,,,C,exp,,1(4—4—6)vy
1222,,,,,,,,C,exp,,1exp,,2,0(4—4—7)syy
所以,两参数对数正态分布是正偏的。
三、皮尔逊?
(P,?
)型曲线
1、皮尔逊?
型曲线的概率密度函数
皮尔逊?
型曲线是一条一端有限一端无限的不对称单峰、正偏曲线
(见图4—4—3),数学上常称伽玛分布,其概率密度函数为
,,1,,,,,x,a0,,,,fx,x,ae(4—4—8)0,,,,
式中:
Γ(α)―α的伽玛函数;
α、β、a―分别为皮尔逊?
型分布的形状尺度和位置未知参数,0
α,0,β,0。
11
图4—4—3皮尔逊?
型概率密度曲线
显然,三个参数确定以后,该密度函数随之可以确定。
可以推论,这三个参数与总体三个参数x、C、C具有如下关系:
vS
4,,2Cs
2(4—4—9),,xCCvs
,2Cv,,ax1,,0,,Cs,,
2、皮尔逊?
型频率曲线及其绘制
水文计算中,一般需要求出指定频率P所相应的随机变量取值x,也p就是通过对密度曲线进行积分,即
,,,1,xa,,,,,0,,(4—4—10)P,Px,x,x,,,aedxp0,,,,,xp
求出等于及大于x的累积频率P值。
直接由式(4—4—10)计算P值非常p
麻烦,实际做法是通过变量转换,变换成下面的积分形式
,,,,P,,,,f,,Cd,(4—4—11)Ps,,P
x式(4—4—11)中被积函数只含有一个待定参数C,其它两个参数、S
x,x,,Cv都包含在中。
,是标准化变量,称为离均系数。
的均,,xCv
12
值为0,标准差为1。
因此,只需要假定一个C值,便可从式(4—4—11)S
通过积分求出与之间的关系。
对于若干个给定的C值,的对p,和pSp应数值表,已先后由美国福斯特和前苏联雷布京制作出来,见附表1“皮
尔逊?
型频率曲线的离均系数值表”。
由就可以求出相应频率的xp,p
值:
(4—4—12),,x,x1,C,v
附表1皮尔逊?
型频率曲线的离均系数值表(摘录),p
520508095991P(%)99(90(1
Cs
0(03(092(331(640(840(00-0。
84-1。
64-2。
33-3。
090(13(23-0。
02-0。
85-1。
62-2。
252(401(670(84-2。
950(23(382(471(70-0。
03-0。
85-1。
59-2。
180(83-2。
810(33(522(541(73-0。
05-0。
85-1。
55-2。
100(82-2。
670(43(672(621(75-0。
07-0。
85-1。
52-2。
03-2。
540(82
0(53(812(681(770(81-0。
08-0。
85-1。
40-1。
96-2。
400(63(962(751(800(80-0。
10-0。
85-1。
45-1。
88-2。
270(74(102(821(820(79-0。
12-0。
85-1。
42-1。
81-2。
140(84(242(891(840(78-0。
13-0。
85-1。
38-1。
74-2。
020(94(392(961(860(77-0。
15-0。
85-1。
35-1。
66-1。
901(04(533(021(880(76-0。
16-0。
85-1。
32-1。
59-1。
79
3、皮尔逊?
型频率曲线的应用
在频率计算时,由已知的C值,查值表得出不同的P的值,然,Sp
x后利用已知的、C,通过式(4—4—12)即可求出与各种P相应的值,xVp从而可绘制出皮尔逊?
型频率曲线。
xp当C等于C的一定倍数时,P-?
型频率曲线的模比系数K=,也已SVPx制成表格,见附表2“皮尔逊?
型频率曲线的模比系数K值表”。
频率计算P
时,由已知的C和C可以从附表2中查出与各种频率P相对应的K值,然SVP
13
后即可算出与各种频率对应的=K。
有了P和的一些对应值,即可xPxpxp
绘制出皮尔逊?
型频率曲线。
附表2皮尔逊?
型频率曲线的模比系数K值表(摘录,C=2C)PSV
20507590959915P(%)0(1
Cs
0(051(161(121(081(041(000(970(940(920(890(101(171(000(781(341(251(080(930(870(840(201(521(351(160(990(591(730(860(750(700(302(191(831(541(240(970(440(780(640(560(402(702(151(741(310(950(300(710(530(450(503(272(511(941(380(920(440(210(640(340(603(892(892(151(440(890(560(350(260(130(704(563(292(361(500(850(490(270(180(080(805(303(712(571(540(800(420(210(120(040(906(084(152(781(580(750(350(150(080(021(006(914(613(001(610(690(290(110(050(01四(经验频率曲线
上述各种频率曲线是用数学方程式来表示的,属于理论频率曲线。
在水文计算中还有一种经验频率曲线,是由实测资料绘制而成的,它是水文频率计算的基础,具有一定的实用性。
1、经验频率曲线的绘制
根据实测水文资料,按从大到小的顺序排列,如图4—4—4所示,然后用经验频率公式计算系列中各项的频率,称为经验频率。
以水文变量x为纵坐标,以经验频率为横坐标,点绘经验频率点据,根据点群趋势绘p
出一条平滑的曲线,称为经验频率曲线,图4—4—5为某站年最大洪峰流量经验频率曲线。
有了经验频率曲线,即可在曲线上求得指定频率的水p文变量值。
xp
图4—4—4水文系列按大小排列示意图
14
图4—4—5某站年最大洪峰流量经验频率曲线
对经验频率的计算,目前我国水文计算上广泛采用的是数学期望公式
mp,,100%(4—4—13)n,1
式中p—等于和大于x的经验频率;m
m—x的序号,即等于和大于x的项数;mm
n—系列的总项数。
2、经验频率曲线存在的问题
经验频率曲线计算工作量小,绘制简单,查用方便,但受实测资料所限,往往难以满足设计上的需要。
为此,提出用理论频率曲线来配合经验点据,这就是水文