本书是William Navidi所著的一本关于数理统计方法和应用的教材,不仅示例丰富,而且讲解深入浅出。本书涵盖了统计学的方方面面,包括数理统计的基本概念、概率论的基础知识、误差分析、区间估计、假设检验、回归分析、方差分析、以及统计质量控制等。书中详细地介绍了MINITAB软件在数理统计中的应用,并切合实际应用给出了大量的示例和习题,具有很强的实用价值。
本书可作为高等院校相关专业的统计学教材,也可作为工程技术人员和科研工作者的权威参考。
前 言
编写此书的想法萌发于一次有关如何为工程技术人员安排统计学入门课程的讨论。工程学教师认为,所提供的课程应包含对误差传播的全面阐述以及对模型拟合技术的重点讨论。统计学教师则认为,学生需要更多地了解一些重要的统计学方面的应用问题,比如模型的假设检验以及仿真技术的使用方法等。
在我看来,一本给工程学和理学的学生使用的统计学入门教程,应该在适当的深度上包含上述的所有内容。此外,成功地开设一门统计学入门课程可以有多种不同的方法——可以根据需要有选择地组织统计学内容进行讲授,所以作为一本教材,它还应该具有足够的灵活性以满足各种不同的需求。并且,它必须提供丰富的示例来阐明各种重要的统计学思想是如何在实际中运用的。因此,这本书有以下特点:
● 本书的章节安排上具有足够的灵活性,使得教师可以自由选择所要讲授的概率论知识的深度和广度。
● 本书从很多实际问题出发,以真实的数据集作为示例,以此激发学生的学习热情,同时也展示了科学研究与工业生产之间的紧密联系。
● 本书包含了很多给出计算机输出结果的实例以及适合于利用计算机软件求解的习题。
● 本书对误差传播进行了广泛的讨论。
● 本书深入地讲解了仿真方法和自助法,同时也介绍了它们在正态性检验、概率计算、误差估计、置信区间计算和假设检验等中的应用。
● 本书提供的关于线性模型诊断程序的介绍比大多数统计学入门教材都要丰富,其相关内容主要包括:残差图、变量变换和多元模型中变量的选择等。
● 本书覆盖了统计学的基本内容,包括描述性统计量、概率、置信区间、假设检验、线性回归、析因实验和统计质量控制等。
读者对象
阅读本书,读者只需具备一些基本的微积分知识。有关偏导数和多元积分的知识会在多元误差传播分析和联合概率分布计算中用到,但如果有困难的话,第一次学习的时候可以先跳过这些内容。另外,偏导数的计算在附录B中给出了相关介绍,读者可以参考。
计算机的使用
在过去的20年里,计算技术的发展使统计学的实践产生了革命性的变化。这也是统计学方法比以往任何时候都更深入到科学工作中去的主要原因之一。今天的科学家和工程师不仅要能够熟练地使用计算机软件包,而且要具备对计算机输出结果进行分析并且得出结论的能力。因此,本书包含了利用计算机进行分析和生成实验数据的内容(见相关习题和示例),这些内容主要集中在线性模型和析因分析的相关章节。
如今计算机和统计软件的普及也给教学带来了很大的便利,使得初学者也可以方便地使用各种仿真手段。仿真可以生动地展现统计学的基本原理。本书所设计的仿真素材可以加深读者对一些基本的统计思想的理解,同时也展示了如何使用仿真这个有力的工具。
内容提要
第1章包括了对采样和描述性统计量的介绍。统计方法有效的原因在于采样产生的样本与它们的总体具有相似性。因此,第1章首先介绍了一些获得有效样本的方法。接着在该章的第二部分讨论了描述性统计量。
第2章介绍了概率论的一些基本概念。对于概率的讲解可以有多种方法,教员可以从不同的广度和深度上介绍“概率”这个概念。因此,本章的内容具有很大的灵活性。本章给出了从公理导出的主要概念及其证明。于是,教员可以通过严格的数学推导来介绍概率。另一方面,为了展现这些概念背后所蕴含的直观思想,我尝试对所介绍的每个概念举出一两个例子来进行说明,并且在可能的情况下都尽量使用学术性的语言。那些偏向于从实际入手的教员,可以把注意力更多地集中在这些概念的实例上,而不用去理会它们的证明。
第3章介绍误差传播,有时也叫做“误差分析”,或者被统计学家称作“方法”。本章中的内容比大多数相关的教科书所包含的内容都要全面。考虑到本章内容的重要性,我认为这是有必要的。本章所采用的教学方法,使得教员能够根据需求对内容进行取舍。
第4章介绍了一些在实际中常用的概率分布函数,也介绍了概率图和中心极限定理。最后一节还介绍了如何使用仿真方法来评估正态性假设、计算概率和估计偏差等。
第5章和第6章分别介绍置信区间和假设检验。在假设检验中着重阐述了P-值法,同时对固定水平检验和功效计算也作了介绍。在一定深度上讨论了多重检验问题。本章还介绍了计算置信区间的方法,以及检验假设的仿真方法。
第7章介绍相关性和简单线性回归。着重强调了线性模型仅当变量之间线性相关时才适用。这一点是非常重要的,但是在实际应用中它却常常被工程师和科学家(不包括统计学家)所忽视。由于在科技文献中常常见到这样的结果:直线拟合和相关系数计算均显示出明显的曲率,或者直线的斜率完全由几个影响大的点所决定。所以本章给出了一节篇幅较长的内容专门讨论如何检验模型假设和进行变量变换。
第8章介绍了多重回归。本章对模型选择方法给予了相当的重视,因为在现实生活中进行相关分析时,为模型选择合适的变量是回归分析所必需的步骤。另外,对混杂问题也进行了仔细的讨论。
第9章讨论了常用的实验设计及其数据分析方法,详细地介绍了单因素方差分析和双因素方差分析方法,以及随机化完全区组设计和2p析因设计。
第10章介绍了统计质量控制问题,讨论了控制图、累积和图、过程能力。最后,以对6-质量简要讨论作为结束。
使用说明
本书包含的内容足够一学年的课程使用。若开设学期课程,可参考我们提出的以下具体方案。美国科罗拉多州矿业学校的课程三小时为一节,一个学期的课程中,我们讲授了前4章中除联合分布、指数分布、伽马分布和韦布尔分布之外的所有内容。然后教授了第5章和第6章中置信区间和假设检验的内容,并简要地介绍了两样本方法以及功效计算,并省略了任意分布检验方法以及x2检验和F检验。我们以第7章作为课程的结束,如果时间允许的话可以尽可能多地介绍相关系数和简单线性回归模型方面的内容。
本书允许教员灵活地选择所要教授的内容,教员可根据不同的侧重点来按不同的方式教授本书的内容,比如,可以将更多的时间放在两样本方法和功效的内容上,同时减少误差传播、仿真或者回归的相关内容。当然,也可以有其他的选择,比如可以选择析因试验来代替前面提到的某些内容。另外,教学大纲对课程的组织方法及课时安排有相应规定,可以通过访问在线学习中心www.mhhe.com/navidi,在instructor’s sample链接找到相应说明。
致谢
我十分感激那些在本书写作的过程中帮助过我的人。科罗拉多州矿业学校工程部的同事们耐心而慷慨地帮助我采用合适的方法把统计思想与工程实践相结合,特别是Terry Parker在这方面给我了很大的帮助。使用本书初稿进行教学的同事和学生指出了很多错误并且给我很多有价值的建议。特别是Barbara Moskal 和 Gus Greivel 多次使用在不断修改中的手稿进行教学,自始至终给予我帮助和支持。此外,Melissa Laseser 在公开发表的资源中找到了很多有意思的数据集。另外,本书所使用的一些很好的程序则是由我们学校的Mike Colagrosso、Chris Boisclair 以及在Link-Systems的小组开发的。俄亥俄州州立大学的Jessica Kohlschmidt制作了本书配套的PowerPoint课件,该大学的Jackie Miller阅读了本书的全部手稿,发现了一些错误并且提出了很有价值的修改意见。
McGraw-Hill公司的员工在整个过程中表现出非凡的能力并提供很大的支持。项目经理Peggy Selle一直以来都表现出了极大的宽容,并且提供了很多的帮助。还要感谢原稿编辑Lucy Mullins。组稿编辑Maja Lorkovich、Kate Scheinman、Lisa Kalner-Williams 以及Debra Matteson的指导给本书的最后定稿带来了相当大的改进。最后,还要深深地感谢责任编辑Suzanne Jeans对我的宽容和信任,以及出版商Betsy Jones使得这个项目最终得以实现。
William Navidi
目 录
第1章 抽样与描述统计1
1.1 抽样2
1.1.1 独立性7
1.1.2 其他抽样方法8
1.1.3 试验类型8
1.1.4 数据类型9
1.2 汇总统计量11
1.2.1 样本均值11
1.2.2 标准差11
1.2.3 异常值13
1.2.4 样本中位数14
1.2.5 截尾均值14
1.2.6 众数与极差15
1.2.7 四分位数15
1.2.8 百分位数16
1.2.9 分类数据的汇总统计量18
1.2.10 样本统计量与总体参数18
1.3 统计图21
1.3.1 茎叶图21
1.3.2 点图22
1.3.3 直方图23
1.3.4 等宽度分类区间25
1.3.5 直方图以及样本均值
和方差26
1.3.6 对称与倾斜27
1.3.7 单峰和双峰直方图27
1.3.8 将高度设定为频数29
1.3.9 箱图30
1.3.10 对比箱图31
1.3.11 多元数据33
第2章 概率47
2.1 基本概念47
2.1.1 合并事件49
2.1.2 互不相容事件49
2.1.3 概率50
2.1.4 概率论的公理化51
2.1.5 等可能概型53
2.1.6 加法公式54
2.2 计数方法57
2.2.1 排列58
2.2.2 组合59
2.3 条件概率和独立性63
2.3.1 独立事件66
2.3.2 乘法公式67
2.3.3 全概率公式69
2.3.4 贝叶斯公式71
2.3.5 系统的可靠性分析73
2.4 随机变量80
2.4.1 随机变量和总体83
2.4.2 离散型随机变量83
2.4.3 离散型随机变量的累积分布
函数84
2.4.4 离散型随机变量的均值
和方差86
2.4.5 概率直方图88
2.4.6 连续型随机变量90
2.4.7 利用概率密度函数计算
概率90
2.4.8 连续型随机变量的累积分布
函数92
2.4.9 连续型随机变量的均值
和方差93
2.4.10 总体中位数和总体
百分位数94
2.5 随机变量的线性函数102
2.5.1 添加一个常数102
2.5.2 乘以一个常数103
2.5.3 随机变量线性组合的均值104
2.5.4 相互独立的随机变量105
2.5.5 相互独立随机变量线性组合
的方差106
2.5.6 独立的简单随机样本107
2.5.7 样本均值的期望和方差107
2.6 随机变量的联合分布111
2.6.1 联合离散型随机变量111
2.6.2 联合连续型随机变量113
2.6.3 多维随机变量117
2.6.4 随机变量函数的均值117
2.6.5 条件分布119
2.6.6 条件期望121
2.6.7 独立随机变量122
2.6.8 协方差124
2.6.9 相关系数127
2.6.10 协方差、相关系数和
独立性129
2.6.11 随机变量的线性组合129
2.6.12 样本均值的期望和方差131
2.6.13 在证券管理中的应用131
第3章 误差传播149
3.1 测量误差149
3.2 测量值的线性组合154
3.2.1 重复测量156
3.2.2 具有不同不确定度的
重复测量158
3.2.3 相关测量的线性组合159
3.3 单测量值函数的不确定度163
3.3.1 误差传播的不确定度仅是
近似值163
3.3.2 非线性函数是有偏的164
3.3.3 单测量值函数的相对
不确定度164
3.4 多测量值函数的不确定度169
3.4.1 相关测量值函数的
不确定度171
3.4.2 多测量值函数的相对
不确定度172
第4章 常用分布183
4.1 伯努利分布183
4.2 二项分布186
4.2.1 服从二项分布的随机变量的
分布律函数187
4.2.2 二项分布随机变量是伯努利
随机变量的和190
4.2.3 二项分布随机变量的均值
和方差190
4.2.4 利用样本比估计成功概率191
4.2.5 样本比的不确定度191
4.3 泊松分布196
4.3.1 泊松分布随机变量的均值
和方差199
4.3.2 利用泊松分布估计速率202
4.3.3 速率估计量的不确定度202
4.4 其他离散型分布209
4.4.1 超几何分布209
4.4.2 超几何分布的均值和方差211
4.4.3 与二项分布的比较211
4.4.4 几何分布212
4.4.5 几何分布的均值和方差212
4.4.6 负二项分布213
4.4.7 负二项分布随机变量是几何
分布随机变量的和214
4.4.8 服从负二项分布的随机变量的
均值和方差214
4.4.9 多项分布215
4.5 正态分布219
4.5.1 正态分布的参数估计225
4.5.2 独立正态分布随机变量的
线性组合225
4.5.3 如何确定数据属于正态
总体226
4.6 对数正态分布231
4.6.1 对数正态分布的参数估计233
4.6.2 如何判定数据是否属于对数
正态总体234
4.7 指数分布237
4.7.1 指数分布和泊松分布238
4.7.2 指数分布的无记忆性239
4.8 伽玛分布和韦布尔分布245
4.8.1 伽玛分布245
4.8.2 韦布尔分布247
4.9 概率图251
4.10 中心极限定理256
4.10.1 二项分布的正态逼近259
4.10.2 连续性修正260
4.10.3 连续性修正的精度262
4.10.4 正态分布对泊松分布
的逼近262
4.10.5 泊松分布的连续性修正262
4.11 模拟266
4.11.1 利用模拟来估计概率267
4.11.2 均值和方差的估计270
4.11.3 与误差传播的比较270
4.11.4 利用模拟确定总体是否近
似正态分布271
4.11.5 模拟在可靠性分析中
的应用272
4.11.6 利用模拟数据估计偏差274
4.11.7 自助法275
4.11.8 参数和非参数自助法276
第5章 置信区间287
5.1 总体均值的大样本置信区间288
5.1.1 有关置信水平的补充说明292
5.1.2 概率与置信水平293
5.1.3 根据精度要求确定所需
样本容量295
5.1.4 单侧置信区间295
5.1.5 置信区间必须基于随机样本
给出297
5.2 比例置信区间301
5.3 总体均值的小样本置信区间306
5.3.1 学生t分布306
5.3.2 当样本包含异常值时不要使
用学生t分布309
5.3.3 利用学生t分布建立置信
区间309
5.3.4 如何判断是否采用学生t
分布?310
5.3.5 如果σ已知,则使用z表而
不是t曲线312
5.4 两个均值之差的置信区间315
5.5 两个比例之差的置信区间318
5.6 两个均值之差的小样本置信
区间322
5.6.1 总体具有相同方差的情况325
5.6.2 不能因为样本方差近似相等
就假定总体方差相等326
5.7 数据对的置信区间329
5.8 用模拟方法建立置信区间336
5.8.1 利用自助法来建立置信
区间340
5.8.2 用模拟方法来评价置信
区间343
第6章 假设检验353
6.1 总体均值的大样本检验353
6.2 从假设检验的结果中推断出
结论361
6.2.1 统计显著性362
6.2.2 P-值不是H0为真的概率363
6.2.3 正确选择零假设H0363
6.2.4 统计显著性与实际的意义
不相同364
6.2.5 假设检验和置信区间
的关系365
6.3 总体比例的检验369
6.3.1 样本容量必须大370
6.3.2 与总体比置信区间的关系372
6.4 总体均值的小样本检验374
6.5 两个均值差的大样本检验379
6.6 两个总体比例差的检验385
6.7 两个均值差的小样本检验391
6.7.1 两个总体的方差相等
的情形395
6.7.2 不要仅仅因为样本方差近似
相等就假设总体方差相等396
6.8 成对数据的假设检验399
6.9 任意分布检验405
6.9.1 Wilcoxon符号秩检验405
6.9.2 平秩408
6.9.3 零差值408
6.9.4 大样本逼近409
6.9.5 Wilcoxon秩和检验410
6.9.6 大样本逼近411
6.9.7 任意分布方法的假设条件412
6.10 卡方检验415
6.10.1 齐性的卡方检验418
6.10.2 独立性的卡方检验420
6.11 方差相等的F 检验426
6.11.1 F分布426
6.11.2 关于方差相等检验的F
统计量427
6.11.3 F检验对非正态
总体敏感429
6.11.4 F检验不能证明两个
方差相等429
6.12 固定显著性水平的
假设检验430
6.12.1 临界点和拒绝域430
6.12.2 第I类错误和第II类
错误432
6.13 功效435
6.14 多重检验444
6.15 利用随机模拟进行假设
检验448
6.15.1 利用自助置信区间检验
假设449
6.15.2 随机化检验449
6.15.3 利用模拟估计功效452
第7章 相关性与简单线性回归463
7.1 相关性463
7.1.1 相关系数的含义467
7.1.2 相关系数是一个数468
7.1.3 相关系数只能度量线性
关系469
7.1.4 异常值469
7.1.5 相关性不是因果关系470
7.1.6 对总体相关系数的推断473
7.2 最小二乘直线479
7.2.1 求解最小二乘直线方程481
7.2.2 计算公式482
7.2.3 估计值与真实值的差别484
7.2.4 残差与误差的区别484
7.2.5 不能在数据范围外推断484
7.2.6 对非线性数据不能采用最小
二乘直线485
7.2.7 最小二乘直线的
另一种含义485
7.2.8 度量拟合优度486
7.3 最小二乘系数的不确定度495
7.3.1 x值的散布程度越大越好
(某种意义下)497
7.3.2 斜率和截距的推导498
7.3.3 平均响应的推导501
7.3.4 观测值的预测区间504
7.3.5 解释计算机输出506
7.4 假设条件的验证与数据变换512
7.4.1 残差与拟合值的关系图512
7.4.2 变量变换515
7.4.3 确定采用何种变换516
7.4.4 变换并不总是适用517
7.4.5 很难解释点数较少
的残差图517
7.4.6 异常值与影响点520
7.4.7 除了变量变换以外的
其他方法521
7.4.8 检测独立性和正态性522
7.4.9 经验模型与物理定律523
第8章 多重回归541
8.1 多重回归模型541
8.1.1 系数的估计542
8.1.2 平方和542
8.1.3 统计量s2、R2和F544
8.1.4 示例545
8.1.5 多重回归模型中假设条件
的验证548
8.2 混杂与共线性558
8.3 模型选择567
8.3.1 确定模型中需要去除
的变量569
8.3.2 最小子集回归574
8.3.3 逐步回归576
8.3.4 模型选择程序有时会找出
一些无意义的模型578
第9章 析因试验609
9.1 单因素试验609
9.1.1 完全随机试验610
9.1.2 单因素方差分析611
9.1.3 处理均值的置信区间616
9.1.4 方差分析表616
9.1.5 验证假设条件618
9.1.6 平衡和非平衡设计619
9.1.7 方差分解恒等式620
9.1.8 另一种参数化方法620
9.1.9 功效621
9.1.10 随机效应模型623
9.2 单因素试验中的配对比较630
9.2.1 Fisher的最小显著性
差异方法631
9.2.2 多重比较的Bonferroni
方法634
9.2.3 多重比较的Tukey-Kramer
方法635
9.3 双因素试验642
9.3.1 双因素方差分析643
9.3.2 使用双因素方差分析方法
进行假设检验647
9.3.3 假设条件的验证651
9.3.4 加性模型不成立时,
不能用主效应解释652
9.3.5 双因素方差分析与两个单因
素方差分析的区别654
9.3.6 交互作用图655
9.3.7 双因素方差分析中的多重
比较656
9.3.8 K=1时的双因素方差分析658
9.3.9 随机因素658
9.3.10 不平衡设计658
9.4 随机化完全区组设计665
9.5 2p析因试验674
9.5.1 23析因试验中的记号674
9.5.2 23析因试验中的效应估计674
9.5.3 解释计算机的输出678
9.5.4 2p析因试验的效应估计680
9.5.5 无重复析因试验681
9.5.6 运用概率图检测重要效应684
9.5.7 分式析因试验684
第10章 统计质量控制705
10.1 基本思想705
10.1.1 收集数据—— 合理子组706
10.1.2 控制与能力706
10.1.3 过程控制必须连续进行707
10.2 变量控制图708
10.2.1 控制图的性能714
10.2.2 美国西部电气公司规则717
10.2.3 S图718
10.2.4 比较S图和R图722
10.2.5 样本容量为1的样本722
10.3 属性控制图728
10.3.1 p图728
10.3.2 属性控制图中处于控制界
限外的信号的解释730
10.3.3 C图730
10.4 累积和图733
10.5 过程能力737
10.5.1 根据过程能力估计不符合
规格要求的个体比例740
10.5.2 六西格码质量740
10.5.3 单侧容限741
附录A 表格745
附录B 偏导数777
附录C 部分习题解答779