Skip to content

16.3.2 描述性统计学

16.3.2.1 对给定数据的统计汇总与分析

为了对某元素的性质进行统计描述,该性质必须用随机变量 X 来刻画. 性质 Xn 个测量或观察值 xi 通常是统计调查的起点,用于探寻 X 的分布的某些参数或 X 的分布本身.

如果试验或测量在相同条件下可重复进行无数次,则每个容量为 n 的测量序列可视为无限总体的随机样本. 测量序列的容量 n 可以很大,统计调查过程如下.

1. 规则、主要记法

测量或观察值 xi 记录在规则表中.

2. 区间或分组

把样本的 n 个测量数据 xi(i=1,2,,n) 分到 k 个子区间,即所谓的分组, 或者是长度或宽度为 h 的等组距分组,通常分成 1020 组.

3. 频率和频率分布

绝对频率 hj(j=1,2,,k) 指落在给定区间 Δxj 的数据 (占有数) 的个数 hj . 比值 hj/n (用 % 表示) 称为相对频率. 如果值 hj/n 用矩形表示分组,则得到给定频率分布的图形表示,也称为直方图(图 16.13(a)). hj/n 可看作概率或密度函数 f(x) 的实证数值.

0193686d-91c3-7222-a100-f59d7e5e597d_85_393_594_854_369_0.jpg

4. 累计频率

把绝对频率或相对频率加起来得到累计绝对频率或累计相对频率

(16.125)Fj=h1+h2++hjn%(j=1,2,,k).

图 16.13(b) 给出了实证分布函数图, 可看作未知基本分布函数的近似.

设某研究进行了 n=125 次测量,结果分散于区间 [50,270] 内,把区间分组为组数 k=11 、长度 h=20 是合理的. 频率表见表 16.3.

表 16.3 频率表

分组

hi

(hi/n)/%

Fi/%

50—70

1

0.8

0.8

71—90

1

0.8

1.6

91—110

2

1.6

3.2

111—130

9

7.2

10.4

131150

15

12.0

22.4

151—170

22

17.6

40.0

171—190

30

24.0

64.0

191—210

27

21.6

85.6

211—230

9

7.2

92.8

231250

6

4.8

97.6

251—270

3

2.4

100.0

16.3.2.2 统计参数

在总结和分析了 16.3.2.1 给定的样本数据后, 可推知下述参数是随机变量分布参数的近似值.

1. 均值

直接使用所有的样本测量数据, 样本均值是

(16.126a)x¯=1ni=1nxi.

使用均值 x¯j 和分组频数 hj ,则

(16.126b)x¯=1nj=1khjx¯j.

2. 方差

直接使用所有测量数据, 样本方差是

(16.127a)s2=1n1i=1n(xix¯)2.

使用均值 x¯j 和分组频数 hj ,则

(16.127b)s2=1n1j=1khj(x¯jx¯)2.

组中点 uj (对应区间的中点) 也经常用来代替 x¯j .

3. 中位数

分布的分位数 x~ 定义为

(16.128a)P(X<x~)=12.

分位数可能并非唯一确定的点. 样本分位数是

(16.128b)x~={xm+1,n=2m+1,xm+1+xm2,n=2m.

4. 极差

(16.129)R=xmaxxmin.

5. 众数或最可能值

它指以最大频率出现的数值,用 D 表示.

version 1.24.0