章末复习课
整合·网络构建]
警示·易错提醒]
1.线性回归方程中的系数及相关指数R2,独立性检验统计量K2公式复杂,莫记混用错.
2.相关系数r是判断两随机变量相关强度的统计量,相关指数R2是判断线性回归模型拟合效果好坏的统计量,而K2是判断两分类变量相关程度的量,应注意区分.
3.在独立性检验中,当K2≥6.635时,我们有99.9%的把握认为两分类变量有关,是指“两分类变量有关”这一结论的可信度为99%而不是两分类变量有关系的概率为99%.
专题一 回归分析思想的应用
回归分析是对抽取的样本进行分析,确定两个变量的相关关系,并用一个变量的变化去推测另一个变量的变化.如果两个变量非线性相关,我们可以通过对变量进行变换,转化为线性相关问题.
例1] 一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下表所示:
零件数x/个
10
20
30
40
50
60
70
80
90
100
加工时间y/min
62
72
75
81
85
95
103
108
112
127
(1)画出散点图,并初步判断是否线性相关;
(2)若线性相关,求线性回归方程;
(3)求出相关指数;
(4)作出残差图;
(5)进行残差分析;
(6)试制订加工200个零件的用时规定.
解:(1)散点图,如图所示:
由图可知,x,y线性相关.
(2)x与y的关系可以用线性回归模型来拟合,不妨设回归模型为=+x.因为=55,=92,
0.670,
=-=92-×55=≈55.133.
故线性回归方程为=0.670x+55.133.
(3)利用所求回归方程求出下列数据:
yi
61.833
68.533
75. 233
81.933
88.633
yi-yi
0.167
3.467
-0.233
-0.933
-3.633
yi-
-30
-20
-17
-11
-7
yi
95.333
102.033
108.733
115.433
122.133
yi-yi
-0.333
0.967
-0.733
-3.433
4.867
yi-
3
11
16
20
35
(4)因为ei=yi-yi,利用上表中数据作出残差图,如图所示:
(5)由散点图可以看出x与y有很强的线性相关性,由R2的值可以看出回归效果很好.
由残差图也可观察到,第2,5,9,10个样本点的残差比较大,需要确认在采集这些样本点的过程中是否有人为的错误.
(6)将x=200代入回归方程,得=189,所以可以制订189 min加工200个零件的规定.
归纳升华
建立回归模型的一般步骤:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系);
(3)由经验确定回归方程的类型,如我们观察到数据呈线性关系,选用线性回归方程=+x;
(4)按一定规则估计回归方程中的参数;
(5)得出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性,等等),若残差存在异常,则应检查数据是否有误,或模型是否合适等;
(6)依据回归方程做出预报.
变式训练] 某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价x(x取整数)元与日销售量y台之间有如下对应数据:
单价x/元
35
40
45
50
日销售y/台
56
41
28
11
(1)画出散点图并说明y与x是否具有线性相关关系?如果有,求出线性回归方程(方程的斜率保留一个有效数字);
(2)设经营此商品的日销售利润为P元,根据(1)写出P关于x的函数关系式,并预测当销售单价x为多少元时,才能获得最大日销售利润.
解:散点图如图所示:从图中可以看出这些点大致分布在一条直线附近,因此两个变量具有线性相关关系.
设回归直线方程为=+x,由题意知=42.5,=34,
=-=34-(-3)×42.5=161.5.
所以=-3x+161.5.
(2)依题意有:
P=(-3x+161.5)(x-30)=-3x2+251.5x-4 845=-3+-4 845.
所以当x=≈42时,P有最大值.
即预测销售单价约为42元时,能获得最大日销售利润.
专题二 独立性检验的应用
独立性检验是对两个分类变量间是否存在相关关系的一种案例分析方法.常用等高条形图来直观反映两个分类变量之间差异的大小;利用假设检验求随机变量K2的值能更精确地判断两个分类变量间的相关关系.
例2] 为了解某市市民对政府出台楼市限购令的态度,在该市随机抽取了50名市民进行调查,他们月收入(单位:百元)的频数分布及对楼市限购令的赞成人数如下表所示:
月收入
15,25)
25,35)
35,45)
45,55)
55,65)
65,75)
频数
5
10
15
10
5
5
赞成
人数
4
8
8
5
2
1
将月收入不低于55的人群称为“高收入族”,有收入低于55的人群称为“非高收入族”.
(1)已知:K2=,当K2<2.706 时,没有充分的证据判定赞不赞成楼市限购令与收入高低有关;当K2>2.706时,有90%的把握判断赞成楼市限购令与收入高低有关;当K2>3.841,有95%的把握判断定赞不赞成楼市限购令与收入高低有关;当K2>6.635时,有99%的把握判定赞不赞成楼市限购令与收入高低有关.
根据已知条件完成下面的2×2列联表,有多大的把握认为赞不赞成楼市限购令与收入高低有关?
分类
非高收入族
高收入族
总计
赞成
不赞成
总计
(2)现从月收入在55,65)的人群中随机抽取两人,求所抽取的两人中至少一人赞成楼市限购令的概率.
解:(1)2×2列联表如下表所示:
分类
非高收入族
高收入族
总计
赞成
25
3
28
不赞成
15
7
22
总计
40
10
50
K2=≈3.43,故有90%的把握认为楼市限购令与收入高低有关.
(2)设“从月收入在55,65)的5人中随机抽取2人,其中至少有1人赞成楼市限购令”为事件A,则事件A含有基本事件数为C-C=7,从5人中任取2人所含基本事件数为C=10,因此所求概率为.
归纳升华
(1)判断两个分类变量之间是否有关系可以通过等高条形图作粗略判断,需要确知所作判断犯错误的概率情况下,可进行独立性检验,独立性检验可以得到较为可靠的结论.
(2)独立性检验的一般步骤:
①根据样本数据制成2×2列联表;
②根据公式计算K2的值;
③比较K2与临界值的大小关系,做出统计推断.
变式训练] 调查某医院某段时间内婴儿出生的时间与性别的关系,得到如下数据.试问能以多大把握认为婴儿的性别与出生时间有关系?
性别
晚上
白天
总计
男婴
24
31
55
女婴
8
26
34
总计
32
57
89
解:由公式K2=计算得
K2=≈3.69,
由于K2>2.706,所以只有90%的把握说明婴儿出生的时间与性别有关,故婴儿的出生的时间与性别是相互独立的(也可以说没有充分的证据显示婴儿的性别与其出生时间有关).
专题三 数形结合思想
数形结合思想在统计中的应用主要是将收集到的数据利用图表的形式表示出来,直观地反映变量间的关系.
例3] 为了解铅中毒病人是否有尿棕色素增加现象,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下,问铅中毒病人和对照组的尿棕色素阳性数有无差别?
组别
阳性数
阴性数
总计
铅中毒病人
29
7
36
对照组
9
28
37
总计
38
35
73
解: 由上述列联表可知,在铅中毒病人中尿棕色素为阳性的占80.56%,而对照组仅占24.32%.说明他们之间有较大差别.
根据列联表作出等高条形图由图可知,铅中毒病人中与对照组相比较,尿棕色素为阳性差异明显,因此铅中毒病人与尿棕色素为阳性存在关联关系.
归纳升华
收集数据、整理数据是统计知识处理问题的两个基本步骤,将收集到的数据利用图表的形式整理出来,能够直观地反映变量之间的关系.在精确度要求不高的情况下,可以利用散点图、等高条形图等对两个变量之间的关系做出判断.
变式训练] 根据如下样本数据:
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为=bx+a,则( )
A.a>0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
解析:根据题中表内数据画出散点图如图所示,由散点图可知b<0,a>0.
答案: B
高中新课标数学选修(2-3)综合测试题(1)
一、选择题
1.已知,则方程所表示的不同的圆的个数有( )
A.3×4×2=24 B.3×4+2=14 C.(3+4)×2=14 D.3+4+2=9
答案:A
2.神六航天员由翟志刚、聂海胜等六人组成,每两人为一组,若指定翟志刚、聂海胜两人一定同在一个小组,则这六人的不同分组方法有( )
A.48种 B.36种 C.6种 D.3种
答案:D
3.的展开式中,第3项的二项式系数比第2项的二项式系数大44,则展开式中的常数项是( )
A.第3项 B.第4项 C.第7项 D.第8项
答案:B
4.从标有1,2,3,…,9的9张纸片中任取2张,数字之积为偶数的概率为( )
A.12 B.718 C.1318 D.1118
答案:C
5.在10个球中有6个红球和4个白球(各不相同),不放回地依次摸出2个球,在第一次摸出红球的条件下,第2次也摸到红球的概率为( )
A.35 B.25 C.110 D.59
答案:D
6.正态总体的概率密度函数为,则总体的平均数和标准差分别为( )
A.0,8 B.0,4 C.0,2 D.0,2
答案:D
7.在一次试验中,测得的四组值分别是,则y与x之间的回归直线方程为( )
A. B.
C. D.
答案:A
8.用0,1,2,3,4这五个数字组成无重复数字的五位数,其中恰有一个偶数数字夹在两个奇数数字之间的五位数的个数是( )
A.48 B.36 C.28 D.20
答案:C
9.若随机变量η的分布列如下:
0
1
2
3
0.1
0.2
0.2
0.3
0.1
0.1
则当时,实数x的取值范围是( )
A.x≤2 B.1≤x≤2 C.1<x≤2 D.1<x<2
答案:C
10.春节期间,国人发短信拜年已成为一种时尚,若小李的40名同事中,给其发短信拜年的概率为1,0.8,0.5,0的人数分别为8,15,14,3(人),则通常情况下,小李应收到同事的拜年短信数为( )
A.27 B.37 C.38 D.8
答案:A
11.在4次独立重复试验中事件A出现的概率相同,若事件A至少发生1次的概率为6581,则事件A在1次试验中出现的概率为( )
A. B. C. D.
答案:A
12.已知随机变量则使取得最大值的k值为( )
A.2 B.3 C.4 D.5
答案:A
二、填空题
13.某仪表显示屏上一排有7个小孔,每个小孔可显示出0或1,若每次显示其中三个孔,但相邻的两孔不能同时显示,则这显示屏可以显示的不同信号的种数有 种.
答案:80
14.已知平面上有20个不同的点,除去七个点在一条直线上以外,没有三个点共线,过这20个点中的每两个点可以连 条直线.
答案:170
15.某射手射击1次,击中目标的概率是0.9,他连续射击4次,且各次射击是否击中目标相互之间没有影响,有下列结论:
①他第3次击中目标的概率是0.9;
②他恰好击中目标3次的概率是0.93×0.1;
③他至少击中目标1次的概率是.
其中正确结论的序号是 (写出所有正确结论的序号).
答案:①③
16.口袋内装有10个相同的球,其中5个球标有数字0,5个球标有数字1,若从袋中摸出5个球,那么摸出的5个球所标数字之和小于2或大于3的概率是 (以数值作答).
答案:
三、解答题
17.有4个不同的球,四个不同的盒子,把球全部放入盒内.
(1)共有多少种放法?
(2)恰有一个盒子不放球,有多少种放法?
(3)恰有一个盒内放2个球,有多少种放法?
(4)恰有两个盒不放球,有多少种放法?
解:(1)一个球一个球地放到盒子里去,每只球都可有4种独立的放法,由分步乘法计数原理,放法共有:种.
(2)为保证“恰有一个盒子不放球”,先从四个盒子中任意拿出去1个,即将4个球分成2,1,1的三组,有种分法;然后再从三个盒子中选一个放两个球,其余两个球,两个盒子,全排列即可.由分步乘法计数原理,共有放法:种.
(3)“恰有一个盒内放2个球”,即另外三个盒子中恰有一个空盒.因此,“恰有一个盒内放2球”与“恰有一个盒子不放球”是一回事.故也有144种放法.
(4)先从四个盒子中任意拿走两个有种,问题转化为:“4个球,两个盒子,每盒必放球,有几种放法?”从放球数目看,可分为(3,1),(2,2)两类.第一类:可从4个球中先选3个,然后放入指定的一个盒子中即可,有种放法;第二类:有种放法.因此共有种.由分步乘法计数原理得“恰有两个盒子不放球”的放法有:种.
18.求的展开式中的系数.
解:解法一:先变形,再部分展开,确定系数.
.
所以是由第一个括号内的1与第二括号内的的相乘和第一个括号内的与第二个括号内的相乘后再相加而得到,故的系数为.
解法二:利用通项公式,因的通项公式为,
的通项公式为,
其中,令,
则或或
故的系数为.
19.为了调查胃病是否与生活规律有关,某地540名40岁以上的人的调查结果如下:
患胃病
未患胃病
合计
生活不规律
60
260
320
生活有规律
20
200
220
合计
80
460
540
根据以上数据比较这两种情况,40岁以上的人患胃病与生活规律有关吗?
解:由公式得
.
,
我们有99.5%的把握认为40岁以上的人患胃病与生活是否有规律有关,即生活不规律的人易患胃病.
20.一个医生已知某种病患者的痊愈率为25%,为实验一种新药是否有效,把它给10个病人服用,且规定若10个病人中至少有4个被治好,则认为这种药有效;反之,则认为无效,试求:
(1)虽新药有效,且把痊愈率提高到35%,但通过实验被否认的概率;
(2)新药完全无效,但通过实验被认为有效的概率.
解:记一个病人服用该药痊愈率为事件A,且其概率为p,那么10个病人服用该药相当于10次独立重复实验.
因新药有效且p=0.35,故由n次独立重复试验中事件A发生k次的概率公式知,实验被否定(即新药无效)的概率为:
.
(2)因新药无效,故p=0.25,实验被认为有效的概率为:
.
即新药有效,但被否定的概率约为0.514;
新药无效,但被认为有效的概率约为0.224.
21.两个代表队进行乒乓球对抗赛,每队三名队员,队队员是,队队员是,按以往多次比赛的统计,对阵队员之间的胜负概率如下:
对阵队员
队队员胜的概率
队队员负的概率
对
对
对
现按表中对阵方式出场,每场胜队得1分,负队得0分,设A队,B队最后所得总分分别为.
(1)求的概率分布列;
(2)求,.
解:(1)的可能取值分别为3,2,1,0.
;;
;
.
由题意知,
所以;
;
;
.
的分布列为
3
2
1
0
的分布列为
0
1
2
3
(2),
因为,所以.
22.某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系,从这个工业部门内随机抽选了10个企业作样本,有如下资料:
产量(千件)
生产费用
(千元)
40
150
42
140
48
160
55
170
65
150
产量(千件)
生产费用
(千元)
79
162
88
185
100
165
120
190
140
185
完成下列要求:
(1)计算x与y的相关系数;
(2)对这两个变量之间是否线性相关进行相关性检验;
(3)设回归直线方程为,求系数,.
解:利用回归分析检验的步骤,先求相关系数,再确定.
(1)制表
1
40
150
1600
22500
6000
2
42
140
1764
19600
5880
3
48
160
2304
25600
7680
4
55
170
3025
28900
9350
5
65
150
4225
22500
9750
6
79
162
6241
26244
12798
7
88
185
7744
34225
16280
8
100
165
10000
27225
16500
9
120
190
14400
36100
22800
10
140
185
19600
34225
25900
合计
777
1657
70903
277119
132938
,
,,
.
即与的相关关系.
(2)因为.
所以与之间具有很强的线性相关关系.
(3),.
高中新课标数学选修(2-3)综合测试题(2)
一、选择题
1.假定有一排蜂房,形状如图所示,一只蜜蜂在左下角的蜂房中,由于受了点伤,只能爬,不能飞,而且只能永远向右方(包括右上,右下)爬行,从一间蜂房爬到与之相邻的右方蜂房中去,若从最初位置爬到4号蜂房中,则不同的爬法有( )
A.4种 B.6种 C.8种 D.10种
答案:C
2.乒乓球运动员10人,其中男女运动员各5人,从这10名运动员中选出4人进行男女混合双打比赛,选法种数为( )
A. B. C. D.
答案:D
3.已知集合,,从M中选3个元素,N中选2个元素,组成一个含有5个元素的集合T,则这样的集合T共有( )
A.126个 B.120个 C.90个 D.26个
答案:C
4.的展开式中的系数是( )
A. B. C. D.
答案:D
5.被2006除,所得余数是( )
A.2009 B.3 C.2 D.1
答案:B
6.市场上供应的灯泡中,甲厂产品占70%,乙厂产品占30%,甲厂产品的合格率是95%,乙厂产品的合格率是80%,则从市场上买到一个是甲厂生产的合格灯泡的概率是( )
A.0.665 B.0.56 C.0.24 D.0.285
答案:A
7.抛掷甲、乙两颗骰子,若事件A:“甲骰子的点数大于4”;事件B:“甲、乙两骰子的点数之和等于7”,则的值等于( )
A. B. C. D.
答案:C
8.在一次智力竞赛的“风险选答”环节中,一共为选手准备了A,B,C三类不同的题目,选手每答对一个A类、B类、C类的题目,将分别得到300分、200分、100分,但如果答错,则要扣去300分、200分、100分,而选手答对一个A类、B类、C类题目的概率分别为0.6,0.7,0.8,则就每一次答题而言,选手选择( )题目得分的期望值更大一些( )
A.A类 B.B类 C.C类 D.都一样
答案:B
9.已知ξ的分布列如下:
1
2
3
4
并且,则方差( )
A. B. C. D.
答案:A
10.若且,则等于( )
A.0.1 B.0.2 C.0.3 D.0.4
答案:A
11.已知x,y之间的一组数据:
0
1
2
3
1
3
5
7
则y与x的回归方程必经过( )
A.(2,2) B.(1,3) C.(1.5,4) D.(2,5)
答案:C
12.对于,当时,就约有的把握认为“x与y有关系”( )
A.99% B.99.5% C.95% D.90%
答案:D
二、填空题
13.的展开式中,常数项为 (用数字作答).
答案:672
14.某国际科研合作项目成员由11个美国人,4个法国人和5个中国人组成.现从中随机选出两位作为成果发布人,则此两人不属于同一个国家的概率为 (结果用分数表示).
答案:
15.两名狙击手在一次射击比赛中,狙击手甲得1分、2分、3分的概率分别为0.4,0.1,0.5;狙击手乙得1分、2分、3分的概率分别为0.1,0.6,0.3,那么两名狙击手获胜希望大的是 .
答案:乙
16.空间有6个点,其中任何三点不共线,任何四点不共面,以其中的四点为顶点共可作出个四面体,经过其中每两点的直线中,有 对异面直线.
答案:15,45
三、解答题
17.某人手中有5张扑克牌,其中2张为不同花色的2,3张为不同花色的A,他有5次出牌机会,每次只能出一种点数的牌,但张数不限,则有多少种不同的出牌方法?
解:由于张数不限,2张2,3张A可以一起出,亦可分几次出,故考虑按此分类.出牌的方法可分为以下几类:
(1)5张牌全部分开出,有种方法;
(2)2张2一起出,3张A一起出,有种方法;
(3)2张2一起出,3张A分开出,有种方法;
(4)2张2一起出,3张A分两次出,有种方法;
(5)2张2分开出,3张A一起出,有种方法;
(6)2张2分开出,3张A分两次出,有种方法;
因此共有不同的出牌方法种.
18.已知数列的通项是二项式与的展开式中所有x的次数相同的各项的系数之和,求数列的通项及前n项和.
解:按及两个展开式的升幂表示形式,写出的各整数次幂,可知只有当中出现的偶数次幂时,才能与的的次数相比较.
由,
可得
,
,
,
.
19.某休闲场馆举行圣诞酬宾活动,每位会员交会员费50元,可享受20元的消费,并参加一次抽奖活动,从一个装有标号分别为1,2,3,4,5,6的6只均匀小球的抽奖箱中,有放回的抽两次球,抽得的两球标号之和为12,则获一等奖价值a元的礼品,标号之和为11或10,获二等奖价值100元的礼品,标号之和小于10不得奖.
(1)求各会员获奖的概率;
(2)设场馆收益为ξ元,求ξ的分布列;假如场馆打算不赔钱,a最多可设为多少元?
解:(1)抽两次得标号之和为12的概率为;
抽两次得标号之和为11或10的概率为,
故各会员获奖的概率为.
(2)
30
由,
得元.
所以最多可设为580元.
20.在研究某种新药对猪白痢的防治效果时到如下数据:
存活数
死亡数
合计
未用新药
101
38
139
用新药
129
20
149
合计
230
58
288
试分析新药对防治猪白痢是否有效?
解:由公式计算得,
由于,故可以有的把握认为新药对防治猪白痢是有效的.
21.甲有一个箱子,里面放有x个红球,y个白球(x,y≥0,且x+y=4);乙有一个箱子,里面放有2个红球,1个白球,1个黄球.现在甲从箱子里任取2个球,乙从箱子里任取1个球.若取出的3个球颜色全不相同,则甲获胜.
(1)试问甲如何安排箱子里两种颜色球的个数,才能使自己获胜的概率最大?
(2)在(1)的条件下,求取出的3个球中红球个数的期望.
解:(1)要想使取出的3个球颜色全不相同,则乙必须取出黄球,甲取出的两个球为一个红球一个白球,乙取出黄球的概率是,甲取出的两个球为一个红球一个白球的概率是
,所以取出的3个球颜色全不相同的概率是,即甲获胜的概率为,由,且,所以,当时取等号,即甲应在箱子里放2个红球2个白球才能使自己获胜的概率最大.
(2)设取出的3个球中红球的个数为ξ,则ξ的取值为0,1,2,3.
,
,
,
,
所以取出的3个球中红球个数的期望:.
22.规定,其中,m为正整数,且,这是排列数 (n,m是正整数,且m≤n)的一种推广.
(1)求的值;
(2)排列数的两个性质:①,② (其中m,n是正整数).是否都能推广到(,m是正整数)的情形?若能推广,写出推广的形式并给予证明;若不能,则说明理由;
(3)确定函数的单调区间.
解:(1);
(2)性质①、②均可推广,推广的形式分别是
①,
②.
事实上,在①中,当时,左边,
右边,等式成立;
在②中,当时,左边右边,等式成立;
当时,左边
右边,
因此②成立.
(3)先求导数,得.
令,解得或.
因此,当时,函数为增函数,
当时,函数也为增函数,
令,解得,
因此,当时,函数为减函数,
函数的增区间为,;减区间为.
第三章 统计案例
3.1回归分析的基本思想及其初步应用
(共计4课时)
授课类型:新授课
一、教学内容与教学对象分析
学生将在必修课程学习统计的基础上,通过对典型案例的讨论,了解和使用一些常用的统计方法,进一步体会运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。
二、学习目标
1、知识与技能
通过本节的学习,了解回归分析的基本思想,会对两个变量进行回归分析,明确建立回归模型的基本步骤,并对具体问题进行回归分析,解决实际应用问题。
2、过程与方法
本节的学习,应该让学生通过实际问题去理解回归分析的必要性,明确回归分析的基本思想,从散点图中点的分布上我们发现直接求回归直线方程存在明显的不足,从中引导学生去发现解决问题的新思路—进行回归分析,进而介绍残差分析的方法和利用R的平方来表示解释变量对于预报变量变化的贡献率,从中选择较为合理的回归方程,最后是建立回归模型基本步骤。
3、情感、态度与价值观
通过本节课的学习,首先让显示了解回归分析的必要性和回归分析的基本思想,明确回归分析的基本方法和基本步骤,培养我们利用整体的观点和互相联系的观点,来分析问题,进一步加强数学的应用意识,培养学生学好数学、用好数学的信心。加强与现实生活的联系,以科学的态度评价两个变量的相关系。教学中适当地增加学生合作与交流的机会,多从实际生活中找出例子,使学生在学习的同时。体会与他人合作的重要性,理解处理问题的方法与结论的联系,形成实事求是的严谨的治学态度和锲而不舍的求学精神。培养学生运用所学知识,解决实际问题的能力。
三、教学重点、难点
教学重点:熟练掌握回归分析的步骤;各相关指数、建立回归模型的步骤;通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法。
教学难点:求回归系数 a , b ;相关指数的计算、残差分析;了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较。
四、教学策略:
教学方法:诱思探究教学法
学习方法:自主探究、观察发现、合作交流、归纳总结。
教学手段:多媒体辅助教学
五、教学过程:
(一)、复习引入:回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法。
(二)、新课:
探究:对于一组具有线性相关关系的数据:
() , () ,…, (),
我们知道其回归方程的截距和斜率的最小二乘估计公式分别为:
(1)
(2)
其中,()成为样本点的中心.
注:回归直线过样本中心.
你能推导出这两个计算公式吗?
从我们已经学过的知识知道,截距和斜率分别是使
取到最小值时的值.
由于
注意到
.
在上式中,后两项和无关,而前两项为非负数,因此要使Q取得最小值,当且仅当前两项的值均为0,即有
这正是我们所要推导的公式.
下面我们从另一个角度来推导的公式.
人教A版选修2-2P37习题1.4A组第4题:
用测量工具测量某物体的长度,由于工具的精度以及测量技术的原因,测得n个数据
.
证明:用这个数据的平均值
表示这个物体的长度,能使这n个数据的方差
最小.
思考:这个结果说明了什么?通过这个问题,你能说明最小二乘法的基本原理吗?
证明:由于,所以
,
令, 得。
可以得到, 是函数的极小值点,也是最小值点.
这个结果说明,用n个数据的平均值表示这个物体的长度是合理的,这就是最小二乘法的基本原理.
由最小二乘法的基本原理即得
定理 设,,则
(*)
当且仅当时取等号.
(*)式说明, 是任何一个实数与的差的平方的平均数中最小的数.从而说明了方差具有最小性,也即定义标准差的合理性.
下面借助(*)式求的最小值.
,
由(*)式知,
当且仅当,且时, 达到最小值
.
由此得到,其中是回归直线的斜率,是截距.
借助和配方法,我们给出了人教A版必修3的第二章统计第三节变量间的相关关系中回归直线方程的一个合理的解释
1、回归分析的基本步骤:
(1) 画出两个变量的散点图.
(2) 求回归直线方程.
(3) 用回归直线方程进行预报.
下面我们通过案例,进一步学习回归分析的基本思想及其应用
2、举例:
例1. 从某大学中随机选取 8 名女大学生,其身高和体重数据如表
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
求根据女大学生的身高预报体重的回归方程,并预报一名身高为 172 cm 的女大学生的体重.
解:由于问题中要求根据身高预报体重,因此选取身高为自变量 x ,体重为因变量 y .
作散点图(图3 . 1 一 1)
从图3. 1一1 中可以看出,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用线性回归方程来近似刻画它们之间的关系
根据探究中的公式(1)和(2 ) ,可以得到.
于是得到回归方程
.
因此,对于身高172 cm 的女大学生,由回归方程可以预报其体重为
( kg ) .
是斜率的估计值,说明身高 x 每增加1个单位时,体重y就增加0.849 位,这表明体重与身高具有正的线性相关关系.如何描述它们之间线性相关关系的强弱?
在必修 3 中,我们介绍了用相关系数;来衡量两个变量之间线性相关关系的方法本相关系数的具体计算公式为
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值接近于0时,表明两个变量之间几乎不存在线性相关关系.通常,当r的绝对值大于0. 75 时认为两个变量有很强的线性相关关系
在本例中,可以计算出r =0. 798.这表明体重与身高有很强的线性相关关系,从而也表明我们建立的回归模型是有意义的
显然,身高172cm 的女大学生的体重不一定是60. 316 kg,但一般可以认为她的体重接近于60 . 316 kg .图3 . 1 一 2 中的样本点和回归直线的相互位置说明了这一点
由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身高和体重的关系可用下面的线性回归模型来表示:
, ( 3 )
这里 a 和 b 为模型的未知参数,e是 y 与之间的误差.通常e为随机变量,称为随机误差,它的均值 E (e)=0,方差D(e)=>0 .这样线性回归模型的完整表达式为:
(4)
在线性回归模型(4)中,随机误差e的方差护越小,通过回归直线
(5)
预报真实值y的精度越高.随机误差是引起预报值与真实值 y 之间的误差的原因之一,大小取决于随机误差的方差.
另一方面,由于公式(1)和(2)中 和为截距和斜率的估计值,它们与真实值a和b之间也存在误差,这种误差是引起预报值与真实值y之间误差的另一个原因.
思考:产生随机误差项e的原因是什么?
一个人的体重值除了受身高的影响外,还受许多其他因素的影响.例如饮食习惯、是否喜欢运动、度量误差等.事实上,我们无法知道身高和体重之间的确切关系是什么,这里只是利用线性回归方程来近似这种关系.这种近似以及上面提到的影响因素都是产生随机误差 e 的原因.
因为随机误差是随机变量,所以可以通过这个随机变量的数字特征来刻画它的一些总体特征.均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机误差的均值为0,因此可以用方差来衡量随机误差的大小.
为了衡量预报的精度,需要估计护的值.一个自然的想法是通过样本方差来估计总体方差.如何得到随机变量的样本呢?由于模型(3)或(4)中的隐含在预报变量 y 中,我们无法精确地把它从 y 中分离出来,因此也就无法得到随机变量的样本.
解决问题的途径是通过样本的估计值来估计.根据截距和斜率的估计公式(1)和(2 ) , 可以建立回归方程
,
因此是(5)中的估计量.由于随机误差,所以是的估计量.对于样本点() , () ,…, ()
而言,相应于它们的随机误差为
,
其估计值为
,
称为相应于点的残差(residual ).类比样本方差估计总体方差的思想,可以用
作为的估计量, 其中和由公式(1) (2)给出,Q( ,)称为残差平方和(residual sum of squares ).可以用衡量回归方程的预报精度.通常,越小,预报精度越高.
在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据然后,可以通过残差
来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.表3一 2 列出了女大学生身高和体重的原始数据以及相应的残差数据。
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
残差
-6.373
2.627
2.419
-4.618
1.137
6.627
-2.883
0.382
我们可以利用图形来分析残差特性作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.图 3 . 1 一 3 是以样本编号为横坐标的残差图。
从图3 . 1 一 3 中可以看出,第 1 个样本点和第 6 个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误.如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因.另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.另外,我们还可以用相关指数来刻画回归的效果,其计算公式是:
显然,取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,表示解释变量对于预报变量变化的贡献率. 越接近于1,表示回归的效果越好(因为越接近于1,表示解释变量和预报变量的线性相关性越强).如果对某组数据可能采取几种不同的回归方程进行回归分析,也可以通过比较几个,选择大的模型作为这组数据的模型。
在例 1 中,=0. 64 ,表明“女大学生的身高解释了64 %的体重变化”,或者说“女大学生的体重差异有 64 %是由身高引起的”
用身高预报体重时,需要注意下列问题:
1.回归方程只适用于我们所研究的样本的总体.例如,不能用女大学生的身高和体重之间的回归方程,描述女运动员的身高和体重之间的关系.同样,不能用生长在南方多雨地区的树木的高与直径之间的回归方程,描述北方干旱地区的树木的高与直径之间的关系。
2.我们所建立的回归方程一般都有时间性.例如,不能用 20 世纪 80 年代的身高体重数据所建立的回归方程,描述现在的身高和体重之间的关系。
3.样本取值的范围会影响回归方程的适用范围.例如,我们的回归方程是由女大学生身高和体重数据建立的,那么用它来描述一个人幼儿时期的身高和体重之间的关系就不恰当(即在回归方程中,解释变量 x 的样本的取值范围为[155cm,170cm〕 ,而用这个方程计算 x-70cm 时的y值,显然不合适。)
4.不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.
一般地,建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程 y=bx+a )
(4)按一定规则估计回归方程中的参数(如最小二乘法);
(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等
例2.现收集了一只红铃虫的产卵数y和温度x之间的7组观测数据列于下表:
温度xoC
21
23
25
27
29
32
35
产卵数y/个
7
11
21
24
66
115
325
(1)试建立y与x之间的回归方程;并预测温度为28oC时产卵数目。
(2)你所建立的模型中温度在多大程度上解释了产卵数的变化?
探究:
方案1(学生实施):
(1)选择变量,画散点图。
(2)通过计算器求得线性回归方程:=19.87x-463.73
(3)进行回归分析和预测:
R2=r2≈0.8642=0.7464
预测当气温为28 时,产卵数为92个。这个线性回归模型中温度解释了74.64%产卵数的变化。
困惑:随着自变量的增加,因变量也随之增加,气温为28 时,估计产卵数应该低于66个,但是从推算的结果来看92个比66个却多了26个,是什么原因造成的呢?
方案2:
(1)找到变量t=x 2,将y=bx2+a转化成y=bt+a;
(2)利用计算器计算出y和t的线性回归方程:y=0.367t-202.54
(3)转换回y和x的模型:
(4)y=0.367x2 -202.54
(5)计算相关指数R2≈0.802这个回归模型中温度解释了80.2%产卵数的变化。
预测:当气温为28 时,产卵数为85个。
困惑:比66还多19个,是否还有更适合的模型呢?
方案3:
(1)作变换z=lgy,将转化成z=c2x+lgc1(线性模型)。
(2)利用计算器计算出z和x的线性回归方程: z=0.118x-1.672
(3)转换回y和x的模型:
(4)计算相关指数R2≈0.985这个回归模型中温度解释了98.5%产卵数的变化。
预测:当气温为28 时,产卵数为4 2个。
解:根据收集的数据作散点图(图3. 1一4 ) .
在散点图中,样本点并没有分布在某个带状区域内,因此两个变量不呈线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系.根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线的周围,其中和是待定参数.现在,问题变为如何估计待定参数和.我们可以通过对数变换把指数关系变为线性关系.令,则变换后样本点应该分布在直线的周围.这样,就可以利用线性回归模型来建立 y 和 x 之间的非线性回归方程了.
由表3一3 的数据可以得到变换后的样本数据表 3一4 ,图3.1一5 给出了表 3 一 4 中数据的散点图.从图3.1一5 中可以看出,变换后的样本点分布在一条直线的附近,因此可以用线性回归方程来拟合.
x
21
23
25
27
29
32
35
z
1.946
3.398
3.045
3.178
4.190
4.745
5.784
由表 3 一 4 中的数据得到线性回归方程
.
因此红铃虫的产卵数对温度的非线性回归方程为
. ( 6 )
另一方面,可以认为图3. 1一4 中样本点集中在某二次曲线的附近,其中和为待定参数.因此可以对温度变量做变换,即令,然后建立y与t之间的线性回归方程,从而得到y与x之间的非线性回归方程.表3一5 是红铃虫的产卵数和对应的温度的平方,图3 . 1一6 是相应的散点图.
t
441
529
625
729
841
1024
1225
x
7
11
21
24
66
115
325
从图3.1一6 中可以看出,y与t的散点图并不分布在一条直线的周围,因此不宜用线性回归方程来拟合它,即不宜用二次曲线来拟合 y 和 x 之间的关系.这个结论还可以通过残差分析得到,下面介绍具体方法.
为比较两个不同模型的残差,需要建立两个相应的回归方程.前面我们已经建立了y
关于x 的指数回归方程,下面建立y关于x的二次回归方程.用线性回归模型拟合表 3 一 5 中的数据,得到 y 关于 t 的线性回归方程
,
即 y 关于 x 的二次回归方程为
. ( 7 )
可以通过残差来比较两个回归方程( 6 )和( 7 )的拟合效果.用 xi表示表3一3 中第 1 行第 i 列的数据,则回归方程( 6 )和( 7 )的残差计算公式分别为
;
.
表3一6 给出了原始数据及相应的两个回归方程的残差.从表中的数据可以看出模型 ( 6 )的残差的绝对值显然比模型( 7 )的残差的绝对值小,因此模型( 6 )的拟合效果比模型( 7 ) 的拟合效果好.
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
0.557
-0.101
1.875
-8.950
9.230
-13.381
34.675
47.696
19.400
-5.832
-41.000
-40.1.4
-58.265
77.968
在一般情况下,比较两个模型的残差比较困难.原因是在某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反.这时可以通过比较两个模型的残差平方和的大小来判断模型的拟合效果.残差平方和越小的模型,拟合的效果越好.由表 3 一 6 容易算出模型( 6 )和( 7 )的残差平方和分别为
.
因此模型(6)的拟合效果远远优于模型(7).
类似地,还可以用尸来比较两个模型的拟合效果,R2越大,拟合的效果越好.由表 3 一 6 容易算出模型(6)和(7)的R2分别约为 0 . 98 和 0 . 80 ,因此模型( 6 )的效果好于模型(7) 的效果.
对于给定的样本点() , () ,…, (),两个含有未知参数的模型
和,
其中 a 和 b 都是未知参数.可以按如下的步骤来比较它们的拟合效果:
(1)分别建立对应于两个模型的回归方程与, ,其中和分别是参数a和b的估计值;
(2)分别计算两个回归方程的残差平方和与;
( s )若,则的效果比的好;反之,的效果不如的好.
例2:(提示后做练习、作业)研究某灌溉渠道水的流速y与水深x之间的关系,测得一组数据如下:
水深xm
1.40
1.50
1.60
1.70
1.80
1.90
2.00
2.10
流速ym/s
1.70
1.79
1.88
1.95
2.03
2.10
2.16
2.21
(1)求y对x的回归直线方程;
(2)预测水深为1。95m 时水的流速是多少?
解:依题意,把温度作为解释变量x ,产卵个数y作为预报变量 , 作散点图,由观察知两个变量不呈线性相关关系。但样本点分布在某一条指数函数 y=c1ec2 x 周围.
令 z=lny , a=lnc1 , b=c2 则 z=bx+a
此时可用线性回归来拟合 z=0.272x-3.843
因此红铃虫的产卵数对温度的非线性回归方程为
Y=e0.272x-3.843.
3、从上节课的例1提出的问题引入线性回归模型:
Y=bx+a+e
解释变量x
预报变量y
随机误差 e
4、(1) 相关指数: 相关系数 r (公式) , r>0 正相关. R<0 负相关
R绝对值接近于1相关性强接 r绝对值 近于0 相关性几乎无
5、回忆建立模型的基本步骤 ① 例2 问题背景分析 画散点图。 ② 观察散点图,分析解释变量与预报变量更可能是什么函数关系。 ③ 学生讨论后建立自己的模型 ④ 引导学生探究如果不是线性回归模型如何估计参数。能否利用回归模型
通过探究体会有些不是线性的模型通过变换可以转化为线性模型 ⑤ 对数据进行变换后,对数据(新)建立线性模型 ⑥ 转化为原来的变量模型,并通过计算相关指数比较几个不同模型的拟合效果 ⑦ 总结建模的思想。鼓励学生大胆创新。 ⑧ 布置课后作业: 习题1.1 1、
6、复习与巩固:练习1:某班5名学生的数学和化学成绩如下表所示,对x与y进行回归分析,并预报某学生数学成绩为75分时,他的化学成绩。
A
B
C
D
E
数学x
88
76
73
66
63
化学y
78
65
71
64
61
解略。
练习2:某医院用光电比色计检验尿汞时,得尿汞含量 (mg/l) 与消光系数的结果如下:
尿汞含量x
2
4
6
8
10
消光系数y
64
138
205
285
360
(1)求回归方程。(2)求相关指数R2。
解:略。
(三) 课堂小结
1.知识梳理:
2规律小结:(1)回归直线方程;(2)样本相关系数;(3)样本残差分析;(4)样本指数;
(5)建立回归模型的基本步骤。
(四) 作业:
(五) 课后反思:
本节内容对回归分析的探讨过程很精彩,学生讨论很热烈,激发了学生的学习热情。但对残差分析学生只能欣赏它的过程,计算量太大,思维的跳跃性太强!
3.2 独立性检验的基本思想及其初步应用
(共计3课时)
授课类型:新授课
一、教学内容与教学对象分析
通过典型案例,学习下列一些常用的统计方法,并能初步应用这些方法解决一些实际问题。
通过对典型案例(如“患肺癌与吸烟有关吗”等)的探究。了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用。
通过对典型案例(如“人的体重与身高的关系”等)的探究,了解回归的基本思想、 方法及其初步应用。
二. 学习目标
1、知识与技能
通过本节知识的学习,了解独立性检验的基本思想和初步应用,能对两个分类变量是否有关做出明确的判断。明确对两个分类变量的独立性检验的基本思想具体步骤,会对具体问题作出独立性检验。
2、过程与方法
在本节知识的学习中,应使学生从具体问题中认识进行独立性检验的作用及必要性,树立学好本节知识的信心,在此基础上学习三维柱形图和二维柱形图,并认识它们的基本作用和存在的不足,从而为学习下面作好铺垫,进而介绍K的平方的计算公式和K的平方的观测值R的求法,以及它们的实际意义。从中得出判断“X与Y有关系”的一般步骤及利用独立性检验来考察两个分类变量是否有关系,并能较准确地给出这种判断的可靠程度的具体做法和可信程度的大小。最后介绍了独立性检验思想的综合运用。
3、情感、态度与价值观
通过本节知识的学习,首先让学生了解对两个分类博变量进行独立性检验的必要性和作用,并引导学生注意比较与观测值之间的联系与区别,从而引导学生去探索新知识,培养学生全面的观点和辨证地分析问题,不为假想所迷惑,寻求问题的内在联系,培养学生学习数学、应用数学的良好的数学品质。加强与现实生活相联系,从对实际问题的分析中学会利用图形分析、解决问题及用具体的数量来衡量两个变量之间的联系,学习用图形、数据来正确描述两个变量的关系。明确数学在现实生活中的重要作用和实际价值。教学中,应多给学生提供自主学习、独立探究、合作交流的机会。养成严谨的学习态度及实事求是的分析问题、解决问题的科学世界观,并会用所学到的知识来解决实际问题。
三.教学重点、难点
教学重点:理解独立性检验的基本思想;独立性检验的步骤。
教学难点;1、理解独立性检验的基本思想;
2、了解随机变量K2的含义;
3、独立性检验的步骤。
四、教学策略
教学方法:诱思探究教学法
学习方法:自主探究、观察发现、合作交流、归纳总结。
教学手段:多媒体辅助教学
五、教学过程:
对于性别变量,其取值为男和女两种.这种变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.在现实生活中,分类变量是大量存在的,例如是否吸烟,宗教信仰,国籍,等等.在日常生活中,我们常常关心两个分类变量之间是否有关系.例如,吸烟与患肺癌是否有关系?性别对于是否喜欢数学课程有影响?等等.
为调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)
表3-7 吸烟与肺癌列联表
不患肺癌
患肺癌
总计
不吸烟
7775
42
7817
吸烟
2099
49
2148
总计
9874
91
9965
那么吸烟是否对患肺癌有影响吗?
像表3一7 这样列出的两个分类变量的频数表,称为列联表.由吸烟情况和患肺癌情况的列联表可以粗略估计出:在不吸烟者中,有0.54 %患有肺癌;在吸烟者中,有2.28%患有肺癌.因此,直观上可以得到结论:吸烟者和不吸烟者患肺癌的可能性存在差异.
与表格相比,三维柱形图和二维条形图能更直观地反映出相关数据的总体状况.图3. 2 一1 是列联表的三维柱形图,从中能清晰地看出各个频数的相对大小.
图3.2一2 是叠在一起的二维条形图,其中浅色条高表示不患肺癌的人数,深色条高表示患肺癌的人数.从图中可以看出,吸烟者中患肺癌的比例高于不吸烟者中患肺癌的比例.
为了更清晰地表达这个特征,我们还可用如下的等高条形图表示两种情况下患肺癌的比例.如图3.2一3 所示,在等高条形图中,浅色的条高表示不患肺癌的百分比;深色的条高表示患肺癌的百分比.
通过分析数据和图形,我们得到的直观印象是“吸烟和患肺癌有关”.那么我们是否能够以一定的把握认为“吸烟与患肺癌有关”呢?
为了回答上述问题,我们先假设
H0:吸烟与患肺癌没有关系.用A表示不吸烟, B表示不患肺癌,则“吸烟与患肺癌没有关系”独立”,即假设 H0等价于
PAB)=P(A)+P(B) .
把表3一7中的数字用字母代替,得到如下用字母表示的列联表:
表3-8 吸烟与肺癌列联表
不患肺癌
患肺癌
总计
不吸烟
a
b
a+b
吸烟
c
d
c+d
总计
a+c
b+d
a+b+c+d
在表3一8中,a恰好为事件AB发生的频数;a+b 和a+c恰好分别为事件A和B发生的频数.由于频率近似于概率,所以在H0成立的条件下应该有
,
其中为样本容量, (a+b+c+d)≈(a+b)(a+c) ,
即ad≈bc.
因此,|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;|ad -bc|越大,说明吸烟与患肺癌之间关系越强.
为了使不同样本容量的数据有统一的评判标准,基于上面的分析,我们构造一个随机变量
(1)
其中为样本容量.
若 H0 成立,即“吸烟与患肺癌没有关系”,则 K “应该很小.根据表3一7中的数据,利用公式(1)计算得到 K “的观测值为
,
这个值到底能告诉我们什么呢?
统计学家经过研究后发现,在 H0成立的情况下,
. (2)
(2)式说明,在H0成立的情况下,的观测值超过 6. 635 的概率非常小,近似为0 . 01,是一个小概率事件.现在的观测值≈56.632 ,远远大于6. 635,所以有理由断定H0不成立,即认为“吸烟与患肺癌有关系”.但这种判断会犯错误,犯错误的概率不会超过0.01,即我们有99%的把握认为“吸烟与患肺癌有关系”
在上述过程中,实际上是借助于随机变量的观测值建立了一个判断H0是否成立的规则:
如果≥6. 635,就判断H0不成立,即认为吸烟与患肺癌有关系;否则,就判断H0成立,即认为吸烟与患肺癌没有关系
在该规则下,把结论“H0 成立”错判成“H0 不成立”的概率不会超过
,
即有99%的把握认为从不成立.
上面解决问题的想法类似于反证法.要确认是否能以给定的可信程度认为“两个分类变量有关系”,首先假设该结论不成立,即
H0:“两个分类变量没有关系”
成立.在该假设下我们所构造的随机变量应该很小.如果由观测数据计算得到的的观测值k很大,则在一定可信程度上说明H0不成立,即在一定可信程度上认为“两个分类变量有关系”;如果k的值很小,则说明由样本观测数据没有发现反对H0 的充分证据
怎样判断的观测值 k 是大还是小呢?这仅需确定一个正数,当时就认为 的观测值k大.此时相应于的判断规则为:
如果,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.
我们称这样的为一个判断规则的临界值.按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率为.
在实际应用中,我们把解释为有的把握认为“两个分类变量之间有关系”;把解释为不能以的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据.上面这种利用随机变量来确定是否能以一定把握认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验
利用上面结论,你能从列表的三维柱形图中看出两个变量是否相关吗?
一般地,假设有两个分类变量X和Y,它们的可能取值分别为{}和{}, 其样本频数列联表(称为2×2列联表)为:
表3一 9 2×2列联表
总计
总计
若要推断的论述为
Hl:X与Y有关系,
可以按如下步骤判断结论Hl 成立的可能性:
1.通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.
① 在三维柱形图中,主对角线上两个柱形高度的乘积ad 与副对角线上的两个柱形高度的乘积bc相差越大,H1成立的可能性就越大.
② 在二维条形图中,可以估计满足条件X=的个体中具有Y=的个体所占的比例,也可以估计满足条件X=的个体中具有Y=,的个体所占的比例.“两个比例的值相差越大,Hl 成立的可能性就越大.
2.可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法是:
① 根据实际问题需要的可信程度确定临界值;
② 利用公式( 1 ) ,由观测数据计算得到随机变量的观测值;
③ 如果,就以的把握认为“X与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系”的充分证据.
在实际应用中,要在获取样本数据之前通过下表确定临界值:
表3一10
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
0.455
0.708
1.323
2.072
1.323
2.706
3.841
5.024
6.635
10.828
(四)、举例:
例1.在某医院,因为患心脏病而住院的 665 名男性病人中,有 214 人秃顶,而另外 772 名不是因为患心脏病而住院的男性病人中有 175 人秃顶.
(1)利用图形判断秃顶与患心脏病是否有关系.
(2)能够以 99 %的把握认为秃顶与患心脏病有关系吗?为什么?
解:根据题目所给数据得到如下列联表:
(1)相应的三维柱形图如图3.2一4所示.比较来说,底面副对角线上两个柱体高度的乘积要大一些,可以在某种程度上认为“秃顶与患心脏病有关”.
(2)根据列联表3一11中的数据,得到
≈16.373>6 .
因此有 99 %的把握认为“秃顶与患心脏病有关” .
例2.为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:
表3一12 性别与喜欢数学课程列联表
喜欢数学课程
不喜欢数学课程
总计
男
37
85
122
女
35
143
178
总计
72
228
300
由表中数据计算得的观测值.能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?请详细阐明得出结论的依据.
解:可以有约95%以上的把握认为“性别与喜欢数学课之间有关系”.作出这种判断的依据是独立性检验的基本思想,具体过程如下:
分别用a , b , c , d 表示样本中喜欢数学课的男生人数、不喜欢数学课的男生人数、喜欢数学课的女生人数、不喜欢数学课的女生人数.如果性别与是否喜欢数学课有关系,则男生中喜欢数学课的比例与女生中喜欢数学课的人数比例应该相差很多,即
应很大.
将上式等号右边的式子乘以常数因子
,
然后平方得
,
其中.因此越大,“性别与喜欢数学课之间有关系”成立的可能性越大.
另一方面,在假设“性别与喜欢数学课之间没有关系”的前提下,事件A ={≥3. 841}的概率为P (≥3. 841) ≈0.05,
因此事件 A 是一个小概率事件.而由样本数据计算得的观测值k=4.514,即小概率事件 A发生.因此应该断定“性别与喜欢数学课之间有关系”成立,并且这种判断结果出错的可能性约为5 %.所以,约有95 %的把握认为“性别与喜欢数学课之间有关系”.
补充例题1:打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得的数据,试问:每一晚都打鼾与患心脏病有关吗?
患心脏病
未患心脏病
合计
每一晚都打鼾
30
224
254
不打鼾
24
1355
1379
合计
54
1579
1633
解:略。
补充例题2: 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
又发作过心脏病
未发作过心脏病
合计
心脏搭桥手术
39
157
196
血管清障手术
29
167
196
合计
68
324
392
试根据上述数据比较两种手术对病人又发作心脏病的影响有没有差别。
解略
(四) 课堂小结
1.知识梳理
2.规律小结
(1)三维柱形图与二维条形图
(2)独立性检验的基本思想
(3)独立性检验的一般方法
(五) 作业
五 课后反思:
本节内容对独立性检验的探讨过程学生基本没什么困难,还有学生提出了新的探讨路径和思想,学生思维活泼!对独立性检验的作用,本节课也作了系统总结比较。
高中新课标选修(2-3)第三章统计案例综合测试题
一、选择题
1.下列变量之间:①人的身高与年龄、产品的成本与生产数量;②商品的销售额与广告费;③家庭的支出与收入.
其中不是函数关系的有( )
A.0个 B.1个 C.2个 D.3个
答案:D
2.当时,认为事件与事件( )
A.有的把握有关
B.有的把握有关
C.没有理由说它们有关
D.不确定
答案:A
3.已知回归直线方程,其中且样本点中心为,则回归直线方程为( )
A. B. C. D.
答案:C
4.为了考察中学生的性别与是否喜欢数学课程之间的关系,在某校中学生中随机抽取了300名学生,得到如下列联表:
喜欢数学
不喜欢数学
合计
男
37
85
122
女
35
143
178
合计
72
228
300
你认为性别与是否喜欢数学课程之间有关系的把握有( )
A.0 B. C. D.
答案:B
5.某种产品的广告费支出与销售额(单位:百万元)之间有如下对应数据:
广告费
2
4
5
6
8
销售额
30
40
60
50
70
则广告费与销售额间的相关系数为( )
A.0.819 B.0.919 C.0.923 D.0.95
答案:B
6.在回归直线方程中,回归系数表示( )
A.当时,的平均值
B.x变动一个单位时,y的实际变动量
C.y变动一个单位时,x的平均变动量
D.x变动一个单位时,y的平均变动量
答案:D
7.对于回归分析,下列说法错误的是( )
A.在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定
B.线性相关系数可以是正的,也可以是负的
C.回归分析中,如果,说明x与y之间完全相关
D.样本相关系数
答案:D
8.部分国家13岁学生数学测验平均分数为:
中国
韩国
瑞士
俄罗斯
法国
以色列
加拿大
英国
美国
约旦
授课天数
251
222
207
210
174
215
188
192
180
191
分数
80
73
71
70
64
63
62
61
55
46
对于授课天数与分数是否存在回归直线,下列说法正确的是( )
A.一定存在
B.可能存在也可能不存在
C.一定不存在
D.以上都不正确
答案:A
9.下列关于残差图的描述错误的是( )
A.残差图的横坐标可以是编号
B.残差图的横坐标可以是解释变量和预报变量
C.残差点分布的带状区域的宽度越窄相关指数越小
D.残差点分布的带状区域的宽度越窄残差平方和越小
答案:C
10.某化工厂为预测某产品的回收率y,需要研究它和原料有效成份含量之间的相关关系,现取了8对观测值,计算得:,,,,则与的回归直线方程是( )
A. B.
C. D.
答案:A
二、填空题
11.直线回归方程恒过定点 .
答案:
12.下表给出了某些地区的鸟的种类与这些地区的海拔高度(m):
种类数
36
30
37
11
12
13
17
18
29
4
15
海拔高度
1250
1158
1067
457
701
731
610
670
1493
762
549
分析这些数据,可得鸟的种类与海拔高度间的相关系数为 .
答案:0.782
13.设对变量x,Y有如下观察数据:
151
152
153
154
156
157
158
160
161
162
163
164
40
41
41
41.5
42
42.5
43
44
45
45
46
45.5
则Y对x的线性回归方程为 .(结果保留4位小数)
答案:
14.某高校大一12名学生的体重x与肺活量Y的数据如下:
42
42
46
46
46
50
50
50
52
52
58
58
2.55
2.20
2.75
2.40
2.80
2.81
3.41
3.10
3.46
2.85
3.50
3.00
预测体重是55kg的同学的肺活约量为 .
答案:3.24
三、解答题
15.某市统计1994~2004年在校中学生每年高考考入大学的百分比,把农村、县镇、城市分开统计,为了便于计算,把1994年编号为0,1995年编号为1,…,2004年编号为10,如果把每年考入大学的百分比作为统计变量,把年份从0到10作为自变量进行回归分析,可得到下面三条回归直线:
城市:;
县镇:;
农村:.
(1)在同一坐标系中作出三条回归直线;
(2)对于农村学生来讲,系数等于0.42意味着什么?
(3)在这一阶段,哪里的大学入学率增长最快?
解:(1)散点图略;
(2)对于农村学生来讲,系数等于0.42意味着1994~2004年在校中学生每年高考考入大学的百分比逐年增加0.42;
(3)在这一阶段,城市的大学入学率增长最快.
16.调查在2~3级风的海上航行中男女乘客的晕船情况,结果如下表所示:
晕船
不晕船
合计
男人
12
25
37
女人
10
24
34
合计
22
49
71
根据此资料,你是否认为在2~3级风的海上航行中男人比女人更容易晕船?
解:.
因为,所以我们没有理由说晕船与男女性别有关.
17.对某校小学生进行心理障碍测试得如下列联表:(其中焦虑、说谎、懒惰都是心理障碍)
焦虑
说谎
懒惰
总计
女生
5
10
15
30
男生
20
10
50
80
总计
25
20
65
110
试说明在这三种心理障碍中哪一种与性别关系最大?
解:对于上述三种心理障碍分别构造三个随机变量,
由表中数据可得
,
,
.
因为的值最大,所以说谎与性别关系最大.
18.一机器可以按各种不同的速度运转,其生产物件有一些会有缺点,每小时生产有缺点物件的多少随机器运转速度而变化,用x表示转速(单位:转/秒),用y表示每小时生产的有缺点物件个数,现观测得到的4组观测值为(8,5),(12,8),(14,9),(16,11).
(1)假定y与x之间有线性相关关系,求y对x的回归直线方程;
(2)若实际生产中所容许的每小时最大有缺点物件数为10,则机器的速度不得超过多少转/秒.(精确到1转/秒)
解:(1)设回归直线方程为,,,,.
于是,.
所求的回归直线方程为;
(2)由,得,
即机器速度不得超过15转/秒.
高中新课标选修(2-3)第三章统计案例综合测试题
一、选择题
1.下列属于相关现象的是( )
A.利息与利率
B.居民收入与储蓄存款
C.电视机产量与苹果产量
D.某种商品的销售额与销售价格
答案:B
2.如果有95%的把握说事件A和B有关,那么具体算出的数据满足( )
A. B.
C. D.
答案:A
3.如图所示,图中有5组数据,去掉组数据后(填字母代号),剩下的4组数据的线性相关性最大( )
A. B. C. D.
答案:A
4.为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,
得到如下结果(单位:人)
不患肺病
患肺病
合计
不吸烟
7775
42
7817
吸烟
2099
49
2148
合计
9874
91
9965
根据表中数据,你认为吸烟与患肺癌有关的把握有( )
A. B. C. D.
答案:C
5.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表:
晚上
白天
合计
男婴
24
31
55
女婴
8
26
34
合计
32
57
89
你认为婴儿的性别与出生时间有关系的把握为( )
A. B. C. D.
答案:B
6.已知有线性相关关系的两个变量建立的回归直线方程为,方程中的回归系数b( )
A.可以小于0 B.只能大于0
C.可以为0 D.只能小于0
答案:A
7.每一吨铸铁成本 (元)与铸件废品率建立的回归方程,下列说法正确的是( )
A.废品率每增加1%,成本每吨增加64元
B.废品率每增加1%,成本每吨增加8%
C.废品率每增加1%,成本每吨增加8元
D.如果废品率增加1%,则每吨成本为56元
答案:C
8.下列说法中正确的有:①若,则x增大时,y也相应增大;②若,则x增大时,y也相应增大;③若,或,则x与y的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上( )
A.①② B.②③ C.①③ D.①②③
答案:C
9.有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的热饮杯数与当天气温的对比表:
摄氏温度
0
4
7
12
15
19
23
27
31
36
热饮杯数
156
150
132
128
130
116
104
89
93
76
54
如果某天气温是2℃,则这天卖出的热饮杯数约为( )
A.100 B.143 C.200 D.243
答案:B
10.甲、乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下列联表:
优秀
不优秀
合计
甲班
10
35
45
乙班
7
38
45
合计
17
73
90
利用独立性检验估计,你认为推断“成绩与班级有关系”错误的概率介于( )
A.0.3~0.4 B.0.4~0.5 C.0.5~0.6 D.0.6~0.7
答案:B
二、填空题
11.某矿山采煤的单位成本Y与采煤量x有关,其数据如下:
采煤量
(千吨)
289
298
316
322
327
329
329
331
350
单位成本
(元)
43.5
42.9
42.1
39.6
39.1
38.5
38.0
38.0
37.0
则Y对x的回归系数 .
答案:
12.对于回归直线方程,当时,的估计值为 .
答案:390
13.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶,则 .
答案:16.373
14.某工厂在2005年里每月产品的总成本y(万元)与该月产量x(万件)之间有如下一组数据:
1.08
1.12
1.19
1.28
1.36
1.48
1.59
1.68
1.80
1.87
1.98
2.07
2.25
2.37
2.40
2.55
2.64
2.75
2.92
3.03
3.14
3.26
3.36
3.50
则月总成本y对月产量x的回归直线方程为 .
答案:
三、解答题
15.某教育机构为了研究人具有大学专科以上学历(包括大学专科)和对待教育改革态度的关系,随机抽取了392名成年人进行调查,所得数据如下表所示:
积极支持教育改革
不太赞成教育改革
合计
大学专科以上学历
39
157
196
大学专科以下学历
29
167
196
合计
68
324
392
对于教育机构的研究项目,根据上述数据能得出什么结论.
解:.
因为,所以我们没有理由说人具有大学专科以上学历(包括大学专科)和对待教育改革态度有关.
16.1907年一项关于16艘轮船的研究中,船的吨位区间位于192吨到3246吨,船员的人数从5人到32人,船员的人数关于船的吨位的回归分析得到如下结果:船员人数=9.1+0.006×吨位.
(1)假定两艘轮船吨位相差1000吨,船员平均人数相差多少?
(2)对于最小的船估计的船员数为多少?对于最大的船估计的船员数是多少?
解:由题意知:(1)船员平均人数之差=0.006×吨位之差=0.006×1000=6,
∴船员平均相差6人;
(2)最小的船估计的船员数为:9.1+0.006×192=9.1+1.152=10.252≈10(人).
最大的船估计的船员数为:9.1+0.006×3246=9.1+19.476=28.576≈28(人).
17.假设一个人从出生到死亡,在每个生日都测量身高,并作出这些数据散点图,则这些点将不会落在一条直线上,但在一段时间内的增长数据有时可以用线性回归来分析.下表是一位母亲给儿子作的成长记录:
年龄/周岁
3
4
5
6
7
8
9
身高/cm
90.8
97.6
104.2
110.9
115.6
122.0
128.5
年龄/周岁
10
11
12
13
14
15
16
身高/cm
134.2
140.8
147.6
154.2
160.9
167.6
173.0
(1)作出这些数据的散点图;
(2)求出这些数据的回归方程;
(3)对于这个例子,你如何解释回归系数的含义?
(4)用下一年的身高减去当年的身高,计算他每年身高的增长数,并计算他从3~16岁身高的年均增长数.
(5)解释一下回归系数与每年平均增长的身高之间的联系.
解:(1)数据的散点图如下:
(2)用y表示身高,x表示年龄,则数据的回归方程为y=6.317x+71.984;
(3)在该例中,回归系数6.317表示该人在一年中增加的高度;
(4)每年身高的增长数略.3~16岁身高的年均增长数约为6.323cm;
(5)回归系数与每年平均增长的身高之间近似相等.
18.某个服装店经营某种服装,在某周内获纯利y(元),与该周每天销售这种服装件数x之间的一组数据关系见表:
3
4
5
6
7
8
9
66
69
73
81
89
90
91
已知,,.
(1)求;
(2)画出散点图;
(3)判断纯利y与每天销售件数x之间是否线性相关,如果线性相关,求出回归方程.
解:(1),;
(2)略;
(3)由散点图知,y与x有线性相关关系,
设回归直线方程:,
,
.
回归直线方程.
模块综合测评(一)
(时间120分钟,满分150分)
一、选择题(本大题共12小题,每小题5分,共60分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.(5·山西大学附中月考)某公共汽车上有10位乘客,沿途5个车站,乘客下车的可能方式有( )
A.510种 B.105种
C.50种 D.3 024种
【解析】 每位乘客都有5种不同的下车方式,根据分步乘法计数原理,共有510种可能的下车方式,故选A.
【答案】 A
2.(1-x)6展开式中x的奇次项系数和为( )
A.32 B.-32 C.0 D.-64
【解析】 (1-x)6=1-Cx+Cx2-Cx3+Cx4-Cx5+Cx6,
所以x的奇次项系数和为-C-C-C=-32,故选B.
【答案】 B
3.根据一位母亲记录儿子3~9岁的身高数据,建立儿子身高(单位:cm)对年龄(单位:岁)的线性回归方程=7.19x+73.93,用此方程预测儿子10岁的身高,有关叙述正确的是( )
A.身高一定为145.83 cm
B.身高大于145.83 cm
C.身高小于145.83 cm
D.身高在145.83 cm左右
【解析】 将x=10代入=7.19x+73.93,得=145.83,但这种预测不一定准确.实际身高应该在145.83 cm 左右.故选D.
【答案】 D
4.随机变量X的分布列如下表,则E(5X+4)等于( )
X
0
2
4
P
0.3
0.2
0.5
A.16 B.11 C.2.2 D.2.3
【解析】 由表格可求E(X)=0×0.3+2×0.2+4×0.5=2.4,故E(5X+4)=5E(X)+4=5×2.4+4=16.故选A.
【答案】 A
5.正态分布密度函数为f(x)=e-,x∈R,则其标准差为( )
A.1 B.2 C.4 D.8
【解析】 根据f(x)=e-,对比f(x)=e-知σ=2.
【答案】 B
6.独立性检验中,假设H0:变量X与变量Y没有关系,则在H0成立的情况下,P(K2≥6.635)=0.010表示的意义是( )
A.变量X与变量Y有关系的概率为1%
B.变量X与变量Y没有关系的概率为99.9%
C.变量X与变量Y没有关系的概率为99%
D.变量X与变量Y有关系的概率为99%
【解析】 由题意知变量X与Y没有关系的概率为0.01,即认为变量X与Y有关系的概率为99%.
【答案】 D
7.三名教师教六个班的数学,则每人教两个班,分配方案共有( )
A.18种 B.24种 C.45种 D.90种
【解析】 不妨设三名教师为甲、乙、丙.先从6个班中任取两个班分配甲,再从剩余4个班中,任取2个班分配给乙,最后两个班分给丙.由乘法计数原理得分配方案共C·C·C=90(种).
【答案】 D
8.已知n的展开式中只有第四项的二项式系数最大,则展开式中的常数项等于( )
A.15 B.-15 C.20 D.-20
【解析】 由题意知n=6,Tr+1=C6-r·(-)r
=(-1)rCxr-6,由r-6=0,得r=4,
故T5=(-1)4C=15,故选A.
【答案】 A
9.设随机变量ξ~B(n,p),若E(ξ)=2.4,D(ξ)=1.44,则参数n,p的值为( )
A.n=4,p=0.6 B.n=6,p=0.4
C.n=8,p=0.3 D.n=24,p=0.1
【解析】 由二项分布的均值与方差性质得
解得故选B.
【答案】 B
10.小明同学在网易上申请了一个电子信箱,密码由4位数字组成,现在小明只记得密码是由2个6,1个3,1个9组成,但忘记了它们的顺序.那么小明试着输入由这样4个数组成的一个密码,则他恰好能输入正确进入邮箱的概率是( )
A. B. C. D.
【解析】 由2个6,1个3,1个9这4个数字一共可以组成=12种不同的密码顺序,因此小明试着输入由这样4个数组成的一个密码,他恰好能输入正确进入邮箱的概率是P=.
【答案】 C
11.有下列数据:
x
1
2
3
Y
3
5.99
12.01
下列四个函数中,模拟效果最好的为( )
A.y=3×2x-1 B.y=log2x
C.y=3x D.y=x2
【解析】 当x=1,2,3时,代入检验y=3×2x-1适合.故选A.
【答案】 A
12.
图1
(5·孝感高级中学期中)在如图1所示的电路中,5只箱子表示保险匣,箱中所示数值表示通电时保险丝被切断的概率,若各保险匣之间互不影响,则当开关合上时,电路畅通的概率是( )
A. B. C. D.
【解析】 “左边并联电路畅通”记为事件A,“右边并联电路畅通”记为事件B.
P(A)=1-×=.
P(B)=1-×=.
“开关合上时电路畅通”记为事件C.
P(C)=P(A)·P(B)=×=,故选D.
【答案】 D
二、填空题(本大题共4小题,每小题5分,共20分.将答案填在题中的横线上)
13.(5·石家庄二模)利用计算机产生0~1之间的均匀随机数a,则使关于x的一元二次方程x2-x+a=0无实根的概率为________.
【解析】 ∵方程无实根,∴Δ=1-4a<0,∴a>,
∴所求概率为.
【答案】
14.抽样调查表明,某校高三学生成绩(总分750分)X近似服从正态分布,平均成绩为500分.已知P(400
【解析】 由下图可以看出P(550【答案】 0.3
15.(2015·重庆高考)5的展开式中x8的系数是________(用数字作答).
【解析】 ∵Tr+1=C·(x3)5-r·r=C·x15-3r·r·x-=r·C·x(r=0,1,2,3,4,5),
由=8,得r=2,∴2·C=.
【答案】
16.
图2
将一个半径适当的小球放入如图2所示的容器最上方的入口处,小球将自由下落.小球在下落的过程中,将3次遇到黑色障碍物,最后落入A袋或B袋中.已知小球每次遇到黑色障碍物时,向左、右两边下落的概率都是,则小球落入A袋中的概率为________.
【解析】 记“小球落入A袋中”为事件A,“小球落入B袋中”为事件B,则事件A的对立事件为B,若小球落入B袋中,则小球必须一直向左落下或一直向右落下,故P(B)=3+3=,从而P(A)=1-P(B)=1-=.
【答案】
三、解答题(本大题共6小题,共70分.解答应写出文字说明、证明过程或演算步骤)
17.(本小题满分10分)6男4女站成一排,求满足下列条件的排法:
(1)任何2名女生都不相邻有多少种排法?
(2)男甲不在首位,男乙不在末位,有多少种排法?
(3)男生甲、乙、丙排序一定,有多少种排法?
(4)男甲在男乙的左边(不一定相邻)有多少种不同的排法?
【解】 (1)任何2名女生都不相邻,则把女生插空,所以先排男生再让女生插到男生的空中,共有A·A=604 800(种)不同排法.
(2)法一:甲不在首位,按甲的排法分类,若甲在末位,则有A种排法,若甲不在末位,则甲有A种排法,乙有A种排法,其余有A种排法,综上共有(A+AAA)=2 943 360(种)排法.
法二:无条件排列总数
A-
甲不在首,乙不在末,共有A-2A+A=2 943 360(种)排法.
(3)10人的所有排列方法有A种,其中甲、乙、丙的排序有A种,又对应甲、乙、丙只有一种排序,所以甲、乙、丙排序一定的排法有=604 800(种).
(4)男甲在男乙的左边的10人排列与男甲在男乙的右边的10人排列数相等,而10人排列数恰好是这二者之和,因此满足条件的有A=1 814 400(种)排法.
18.(本小题满分12分)某年级的一次信息技术测验成绩近似服从正态分布N(70,102),如果规定低于60分为不及格,求:
(1)成绩不及格的学生人数占总人数的比例;
(2)成绩在80~90分内的学生人数占总人数的比例.
【解】 (1)设学生的得分为随机变量X,X~N(70,102),则μ=70,σ=10.
分数在60~80之间的学生的比例为
P(70-10所以不及格的学生的比例为
×(1-0.683)=0.158 5,即成绩不及格的学生人数占总人数的15.85%.
(2)成绩在80~90分内的学生的比例为[P(70-2×10=(0.954-0.683)=0.135 5.
即成绩在80~90分内的学生人数占总人数的13.55%.
19.(本小题满分12分)口袋中有2个白球和4个红球,现从中随机地不放回连续抽取两次,每次抽取1个,则
(1)第一次取出的是红球的概率是多少?
(2)第一次和第二次取出的都是红球的概率是多少?
(3)在第一次取出红球的条件下,第二次取出的也是红球的概率是多少?
【解】 记事件A:第一次取出的是红球;
事件B:第二次取出的是红球.
(1)第一次取出红球的概率
P(A)==.
(2)第一次和第二次取出的都是红球的概率P(A∩B)==.
(3)在第一次取出红球的条件下,第二次取出的也是红球的概率为
P(B|A)===.
20.(本小题满分12分)已知n的展开式中,第4项和第9项的二项式系数相等.
(1)求n;
(2)求展开式中x的一次项的系数.
【解】 (1)由第4项和第9项的二项式系数相等可得C=C,
解得n=11.
(2)由(1)知,展开式的第k+1项为
Tk+1=C()11-kk=(-2)kCx.
令=1,得k=3.
此时T3+1=(-2)3Cx=-1 320x,
所以展开式中x的一次项的系数为-1 320.
21.(本小题满分12分)对于表中的数据:
x
1
2
3
4
y
1.9
4.1
6.1
7.9
(1)作散点图,你从直观上得到什么结论?
(2)求线性回归方程.
【解】 (1)如图,x,y具有很好的线性相关性.
(2)因为=2.5,=5,xiyi=60,
x=30,y=120.04.
故==2,
=- =5-2×2.5=0,
故所求的回归直线方程为
=2x.
22.(本小题满分12分)(5·丰台高二检测)“每天锻炼一小时,健康工作五十年,幸福生活一辈子.”一科研单位为了解员工爱好运动是否与性别有关,从单位随机抽取30名员工进行了问卷调查,得到了如下列联表:
男性
女性
总计
爱好
10
不爱好
8
总计
30
已知在这30人中随机抽取1人抽到爱好运动的员工的概率是.
(1)请将上面的列联表补充完整(在答题卷上直接填写结果,不需要写求解过程),并据此资料分析能否有把握认为爱好运动与性别有关?
(2)若从这30人中的女性员工中随机抽取2人参加一活动,记爱好运动的人数为X,求X的分布列、数学期望.
【解】 (1)
男性
女性
总计
爱好
10
6
16
不爱好
6
8
14
总计
16
14
30
由已知数据可求得:
k=≈1.158<3.841,所以没有把握认为爱好运动与性别有关.
(2)X的取值可能为0,1,2.
P(X=0)==,
P(X=1)==,
P(X=2)==.
所以X的分布列为:
X
0
1
2
P
X的数学期望为
E(X)=0×+1×+2×=.
模块综合测评(二)
(时间120分钟,满分150分)
一、选择题(本大题共12小题,每小题5分,共60分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.从黄瓜、白菜、油菜、扁豆4种蔬菜品种中选出3种,分别种在不同土质的三块土地上,其中黄瓜必须种植,不同的种植方法有( )
A.24种 B.18种 C.12种 D.6种
【解析】 种植黄瓜有3种不同的种法,其余两块地从余下的3种蔬菜中选一种种植有3×2=6种不同种法.由分步乘法计数原理知共有3×6=18种不同的种植方法.故选B.
【答案】 B
2.已知随机变量X+Y=8,若X~B(10,0.6),则E(Y),D(Y)分别是( ) A.6和2.4 B.2和2.4
C.2和5.6 D.6和5.6
【解析】 由已知随机变量X+Y=8,所以有Y=8-X.因此,求得E(Y)=8-E(X)=8-10×0.6=2,
D(Y)=(-1)2D(X)=10×0.6×0.4=2.4.
【答案】 B
3.设随机变量ξ服从正态分布N(2,9),若P(ξ>c)=P(ξA.1 B.2 C.3 D.4
【解析】 随机变量ξ服从正态分布N(2,9),
∴曲线关于x=2对称,
∵P(ξ>c)=P(ξ∴=2,∴c=3.故选C.
【答案】 C
4.设A=37+C·35+C·33+C·3,B=C·36+C·34+C·32+1,则A-B的值为( )
A.128 B.129 C.47 D.0
【解析】 A-B=37-C·36+C·35-C·34+C·33-C·32+C·3-1=(3-1)7=27=128,故选A.
【答案】 A
5.若n展开式的二项式系数之和为64,则展开式的常数项为( )
A.10 B.20 C.30 D.120
【解析】 ∵C+C+…+C=2n=64,∴n=6.
Tr+1=Cx6-rx-r=Cx6-2r,令6-2r=0,∴r=3,
常数项T4=C=20,故选B.
【答案】 B
6.已知某离散型随机变量X服从的分布列如下,则随机变量X的数学期望E(X)等于( )
X
0
1
P
m
2m
A. B.
C. D.
【解析】 由题意可知m+2m=1,所以m=,所以E(X)=0×+1×=.
【答案】 D
7.12名同学合影,站成了前排4人后排8人,现摄影师要从后排8人中抽2人调整到前排,若其他人的相对顺序不变,则不同调整方法的种数是( )
A.CA B.CA C.CA D.CA
【解析】 从后排8人中选2人安排到前排6个位置中的任意两个位置即可,所以选法种数是CA,故选C.
【答案】 C
8.一个电路如图1所示,A,B,C,D,E,F为6个开关,其闭合的概率都是,且是相互独立的,则灯亮的概率是( )
图1
A. B. C. D.
【解析】 开关C断开的概率为,开关D断开的概率为,开关A,B至少一个断开的概率为1-×=,开关E,F至少一个断开的概率为1-×=,故灯不亮的概率为×××=,故灯亮的概率为1-=,故选B.
【答案】 B
9.利用下列盈利表中的数据进行决策,应选择的方案是( )
自然状况
概率
方案盈利(万元)
Si
Pi
A1
A2
A3
A4
S1
0.25
50
70
-20
98
S2
0.30
65
26
52
82
S3
0.45
26
16
78
-10
A.A1 B.A2 C.A3 D.A4
【解析】 利用方案A1,期望为
50×0.25+65×0.30+26×0.45=43.7;
利用方案A2,期望为
70×0.25+26×0.30+16×0.45=32.5;
利用方案A3,期望为
-20×0.25+52×0.30+78×0.45=45.7;
利用方案A4,期望为98×0.25+82×0.30-10×0.45=44.6;
因为A3的期望最大,所以应选择的方案是A3,故选C.
【答案】 C
10.在4次独立重复试验中,随机事件A恰好发生1次的概率不大于其恰好发生2次的概率,则事件A在一次试验中发生的概率的取值范围是( )
A.[0.4,1) B.(0,0.6]
C.(0,0.4] D.[0.6,1)
【解析】 设事件A发生一次的概率为p,则事件A的概率可以构成二项分布,根据独立重复试验的概率公式可得Cp(1-p)3≤Cp2(1-p)2,即可得4(1-p)≤6p,p≥0.4.又0【答案】 A
11.有10件产品, 其中3件是次品,从中任取两件,若X表示取得次品的个数,则P(X<2)等于( )
A. B. C. D.1
【解析】 由题意,知X取0,1,2,X服从超几何分布,它取每个值的概率都符合等可能事件的概率公式,即P(X=0)==,P(X=1)==,P(X=2)==,于是P(X<2)=P(X=0)+P(X=1)=+=.
【答案】 C
12.已知0A.-10 B.9 C.11 D.-12
【解析】
作出y=a|x|(0【答案】 B
二、填空题(本大题共4小题,每小题5分,共20分.将答案填在题中的横线上)
13.已知(1-x)5=a0+a1x+a2x2+a3x3+a4x4+a5x5,则(a0+a2+a4)·(a1+a3+a5)的值等于________.
【解析】 令x=1,得a0+a1+a2+a3+a4+a5=0,①
再令x=-1,得a0-a1+a2-a3+a4-a5=25=32,②
①+②得a0+a2+a4=16,
①-②得a1+a3+a5=-16,
故(a0+a2+a4)·(a1+a3+a5)的值等于-256.
【答案】 -256
14.从1,3,5,7,9这五个数中,每次取出两个不同的数分别为a,b,共可得到lg a-lg b的不同值的个数是________.
【解析】 首先从1,3,5,7,9这五个数中任取两个不同的数排列,共A=20种排法,因为=,=,所以从1,3,5,7,9这五个数中,每次取出两个不同的数分别记为a,b,共可得到lg a-lg b的不同值的个数是20-2=18.
【答案】 18
15.某市工商局于2018年3月份,对全市流通领域的饮料进行了质量监督抽查,结果显示,某种刚进入市场的X饮料的合格率为80%,现有甲、乙、丙3人聚会,选用6瓶X饮料,并限定每人喝2瓶.则甲喝2瓶合格的X饮料的概率是________.
【解析】 “第一瓶X饮料合格”为事件A1,“第二瓶X饮料合格”为事件A2,P(A1)=P(A2)=0.8,A1与A2是相互独立事件,则“甲喝2瓶X饮料”都合格就是事件A1,A2同时发生,根据相互独立事件的概率乘法公式得:
P(A1A2)=P(A1)·P(A2)=0.8×0.8=0.64.
【答案】 0.64
16.某单位组织4个部门的职工旅游,规定每个部门只能在韶山、衡山、张家界3个景区中任选一个,假设各部门选择每个景区是等可能的.则3个景区都有部门选择的概率是________.
【解析】 根据题意,每个部门都有3种情况可选,则4个部门选择3个景区有34=81种不同的选法,记“3个景区都有部门选择”为事件A,如果3个景区都有部门选择,则某一个景区必须有2个部门选择,其余2个景区各有1个部门选择,分2步分析:
(1)从4个部门中任选2个作为1组,另外2个部门各作为1组,共3组,共有C=6种分法;
(2)每组选择不同的景区,共有A=6种选法.
所以3个景区都有部门选择可能出现的结果数为6×6=36种.则P(A)==.
【答案】
三、解答题(本大题共6小题,共70分.解答应写出文字说明、证明过程或演算步骤)
17.(本小题满分10分)(2018·河南周口)在二项式n的展开式中,前三项的系数成等差数列,求展开式中的有理项和二项式系数最大的项.
【解】 ∵二项展开式的前三项的系数分别是1,,n(n-1),∴2·=1+n(n-1),
解得n=8或n=1(不合题意,舍去),
∴Tk+1=Cxk=C2-kx4-k,
当4-k∈Z时,Tk+1为有理项.
∵0≤k≤8且k∈Z,∴k=0,4,8符合要求.
故有理项有3项,分别是T1=x4,T5=x,T9=x-2.
∵n=8,∴展开式中共9项.
中间一项即第5项的二项式系数最大,则为T5=x.
18.(本小题满分12分)某班从6名班干部中(其中男生4人,女生2人),任选3人参加学校的义务劳动.
(1)设所选3人中女生人数为ξ,求ξ的分布列;
(2)求男生甲或女生乙被选中的概率;
(3)设“男生甲被选中”为事件A,“女生乙被选中”为事件B,求P(B)和P(B|A).
【解】 (1)ξ的所有可能取值为0,1,2,依题意,得
P(ξ=0)==,
P(ξ=1)==,
P(ξ=2)==.
∴ξ的分布列为
ξ
0
1
2
P
(2)设“甲、乙都不被选中”为事件C,
则P(C)===,
∴所求概率为P()=1-P(C)=1-=.
(3)P(B)===,P(A)==,P(AB)==,
P(B|A)==.
19.(本小题满分12分)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i=80,i=20,iyi=184,=720.
(1)求家庭的月储蓄y对月收入x的线性回归方程=x+;
(2)判断变量x与y之间是正相关还是负相关;
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
附:线性回归方程=x+中,b=,=- ,其中,为样本平均值.
【解】 (1)由题意知n=10,=i==8,
=i==2,
又lxx=-n2=720-10×82=80,
lxy=iyi-n=184-10×8×2=24,
由此得===0.3,=- =2-0.3×8=-0.4.
故所求线性回归方程为y=0.3x-0.4.
(2)由于变量y的值随x值的增加而增加(b=0.3>0),故x与y之间是正相关.
(3)将x=7代入回归方程可以预测该家庭的月储蓄为y=0.3×7-0.4=1.7(千元).
20.(本小题满分12分)(2018·北京高考)A,B两组各有7位病人,他们服用某种药物后的康复时间(单位:天)记录如下:
A组:10,11,12,13,14,15,16;
B组:12,13,15,16,17,14,a.
假设所有病人的康复时间相互独立,从A,B两组随机各选1人,A组选出的人记为甲,B组选出的人记为乙.
(1)求甲的康复时间不少于14天的概率;
(2)如果a=25,求甲的康复时间比乙的康复时间长的概率;
(3)当a为何值时,A,B两组病人康复时间的方差相等?(结论不要求证明)
【解】 设事件Ai为“甲是A组的第i个人”,
事件Bi为“乙是B组的第i个人”,i=1,2,…,7.
由题意知P(Ai)=P(Bi)=,i=1,2,…,7.
(1)由题意知,事件“甲的康复时间不少于14天”等价于“甲是A组的第5人,或者第6人,或者第7人”,所以甲的康复时间不少于14天的概率是P(A5∪A6∪A7)=P(A5)+P(A6)+P(A7)=.
(2)设事件C为“甲的康复时间比乙的康复时间长”.
由题意知C=A4B1∪A5B1∪A6B1∪A7B1∪A5B2∪A6B2∪A7B2∪A7B3∪A6B6∪A7B6,
因此P(C)=P(A4B1)+P(A5B1)+P(A6B1)+P(A7B1)+P(A5B2)+P(A6B2)+P(A7B2)+P(A7B3)+P(A6B6)+P(A7B6)=10P(A4B1)=10P(A4)P(B1)=.
(3)a=11或a=18.
21.(本小题满分12分)(2018·广州综合测试)甲、乙、丙三人参加某次招聘会,假设甲能被聘用的概率是,甲、丙两人同时不被聘用的概率是,乙、丙两人同时被聘用的概率是,且三人各自能否被聘用相互独立.
(1)求乙、丙两人各自能被聘用的概率;
(2)设ξ表示甲、乙、丙三人中能被聘用的人数与不能被聘用的人数之差的绝对值,求ξ的分布列与均值(数学期望).
【解】 记甲、乙、丙各自能被聘用的事件分别为A1,A2,A3,由已知A1,A2,A3相互独立,
且满足
解得P(A2)=,P(A3)=.
所以乙、丙两人各自能被聘用的概率分别为,.
(2)ξ的可能取值为1,3.
因为P(ξ=3)=P(A1A2A3)+P( )
=P(A1)P(A2)P(A3)+ [1-P(A1)][1-P(A2)][1-P(A3)]
=××+××=,
所以P(ξ=1)=1-P(ξ=3)=1-=,
所以ξ的分布列为
ξ
1
3
P
E(ξ)=1×+3×=.
22.(本小题满分12分)(2018·辽宁抚顺月考)有甲、乙两个班级进行数学考试,按照大于或等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的2×2列联表.已知从全部210人中随机抽取1人为优秀的概率为.
优秀
非优秀
总计
甲班
20
乙班
60
总计
210
(1)请完成上面的2×2列联表,并判断若按99%的可靠性要求,能否认为“成绩与班级有关”;
(2)从全部210人中有放回地抽取3次,每次抽取1人,记被抽取的3人中的优秀人数为ξ,若每次抽取的结果是相互独立的,求ξ的分布列及数学期望E(ξ).
附:K2=,
P(K2≥k0)
0.05
0.01
k0
3.841
6.635
【解】 (1)
优秀
非优秀
总计
甲班
20
90
110
乙班
40
60
100
总计
60
150
210
k≈12.2,所以按照99%的可靠性要求,能够判断成绩与班级有关.
(2)ξ~B,且P(ξ=k)=Ck·3-k(k=0,1,2,3),ξ的分布列为
ξ
0
1
2
3
P
E(ξ)=0×+1×+2×+3×=.
章末综合测评(三) 统计案例
(时间120分钟,满分150分)
一、选择题(本大题共12小题,每小题5分,共60分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.下列说法中错误的是( )
A.如果变量x与y之间存在着线性相关关系,则我们根据试验数据得到的点(xi,yi)(i=1,2,…,n)将散布在某一条直线的附近
B.如果两个变量x与y之间不存在着线性关系,那么根据它们的一组数据(xi,yi)(i=1,2,…,n)不能写出一个线性方程
C.设x,y是具有相关关系的两个变量,且y关于x的线性回归方程为=x+,叫做回归系数
D.为使求出的线性回归方程有意义,可用统计检验的方法来判断变量y与x之间是否存在线性相关关系
【解析】 任何一组(xi,yi)(i=1,2,…,n)都能写出一个线性方程,只是有的不存在线性关系.
【答案】 B
2.如图1所示,有5组数据,去掉哪组数据后(填字母代号),剩下的4组数据的线性相关性最大( )
图1
A.E B.C
C.D D.A
【解析】 由题图易知A,B,C,D四点大致在一条直线上,而E点偏离最远,故去掉E点后剩下的数据的线性相关性最大.
【答案】 A
3.在一次试验中,当变量x的取值分别为1,,,时,变量y的值分别为2,3,4,5,则y与的回归曲线方程为( )
A.=+1 B.=+3
C.=2x+1 D.=x-1
【解析】 由数据可得,四个点都在曲线=+1上.
【答案】 A
4.有下列说法:
①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;
②用相关指数R2来刻画回归的效果,R2值越大,说明模型的拟合效果越好;
③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.
其中正确命题的个数是( )
A.0 B.1
C.2 D.3
【解析】 ①选用的模型是否合适与残差点的分布有关;对于②③,R2的值越大,说明残差平方和越小,随机误差越小,则模型的拟合效果越好.
【答案】 D
5.观察下列各图,其中两个分类变量x,y之间关系最强的是( )
A B
C D
【解析】 在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强.
【答案】 D
6.在2×2列联表中,下列哪两个比值相差越大,两个分类变量有关系的可能性就越大( )
A.与 B.与
C.与 D.与
【解析】 当ad与bc相差越大,两个分类变量有关系的可能性越大,此时与相差越大.
【答案】 A
7.如图2,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是( )
图2
A.相关系数r变大
B.残差平方和变大
C.相关指数R2变大
D.解释变量x与预报变量y的相关性变强
【解析】 由散点图知,去掉D后,x与y的相关性变强,且为正相关,所以r变大,R2变大,残差平方和变小.
【答案】 B
8.(2018·安庆一中期中)在一次对性别与是否说谎有关的调查中,得到如下数据,根据表中数据判断如下结论中正确的是( )
说谎
不说谎
总计
男
6
7
13
女
8
9
17
总计
14
16
30
A.在此次调查中有95%的把握认为是否说谎与性别有关
B.在此次调查中有99%的把握认为是否说谎与性别有关
C.在此次调查中有99.5%的把握认为是否说谎与性别有关
D.在此次调查中没有充分证据显示说谎与性别有关
【解析】 由表中数据得k=≈0.002 42<3.841.
因此没有充分证据认为说谎与性别有关,故选D.
【答案】 D
9.某地财政收入x与支出y满足线性回归方程=x++e(单位:亿元),其中=0.8,=2,|e|<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( )
A.10亿 B.9亿
C.10.5亿 D.9.5亿
【解析】 代入数据得y=10+e,∵|e|<0.5,
∴|y|<10.5,故不会超过10.5亿.
【答案】 C
10.(2018·合肥高二检测)废品率x%和每吨生铁成本y(元)之间的回归直线方程为=256+3x,表明( )
A.废品率每增加1%,生铁成本增加259元
B.废品率每增加1%,生铁成本增加3元
C.废品率每增加1%,生铁成本平均每吨增加3元
D.废品率不变,生铁成本为256元
【解析】 回归方程的系数表示x每增加一个单位,平均增加个单位,当x为1时,废品率应为1%,故当废品率增加1%时,生铁成本平均每吨增加3元.
【答案】 C
11.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为=x+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是( )
A.>b′,>a′ B.>b′,C.a′ D.【解析】 由两组数据(1,0)和(2,2)可求得直线方程为y=2x-2,b′=2,a′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得===,=-=-×=-,所以a′.
【答案】 C
12.两个分类变量X和Y,值域分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若X与Y有关系的可信程度不小于97.5%,则c等于( )
A.3 B.4 C.5 D.6
附:
P(K2≥k0)
0.05
0.025
k0
3.841
5.024
【解析】 2×2列联表如下:
x1
x2
总计
y1
10
21
31
y2
c
d
35
总计
10+c
21+d
66
故K2的观测值k=≥5.024.
把选项A,B,C,D代入验证可知选A.
【答案】 A
二、填空题(本大题共4小题,每小题5分,共20分.将答案填在题中的横线上)
13.已知一回归直线方程为=1.5x+45,x∈{1,5,7,13,19},则=________.
【解析】 因为=(1+5+7+13+19)=9,且=1.5+45,所以=1.5×9+45=58.5.
【答案】 58.5
14.某大型企业人力资源部为了研究企业员工工作积极性和对企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示:
积极支持企业改革
不赞成企业改革
总计
工作积极
54
40
94
工作一般
32
63
95
总计
86
103
189
对于人力资源部的研究项目,根据上述数据试求K2的观测值为________.
【解析】 根据列联表中的数据,得到k=
≈10.76.
【答案】 10.76
15.(2018·深圳高二检测)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9.
零件数x(个)
10
20
30
40
50
加工时间Y(min)
62
75
81
89
现发现表中有一个数据模糊看不清,请你推断出该数据的值为________.
【解析】 由表知=30,设模糊不清的数据为m,则=(62+m+75+81+89)=,因为=0.67+54.9,
即=0.67×30+54.9,
解得m=68.
【答案】 68
16.某地区恩格尔系数Y(%)与年份x的统计数据如下表:
年份x
2006
2007
2008
2009
恩格尔系数Y(%)
47
45.5
43.5
41
从散点图可以看出Y与x线性相关,且可得回归方程为=x+4 055.25,据此模型可预测2017年该地区的恩格尔系数Y(%)为________.
【解析】 由表可知=2 007.5,=44.25.
因为= +4 055.25,
即44.25=2 007.5+4 055.25,
所以≈-2,所以回归方程为=-2x+4 055.25,令x=2 017,得=21.25.
【答案】 21.25
三、解答题(本大题共6小题,共70分.解答应写出文字说明、证明过程或演算步骤)
17.(本小题满分10分)以下是某地区不同身高的未成年男性的体重平均值表.
身高/cm
60
70
80
90
100
110
体重/kg
6.13
7.9
9.99
12.15
15.02
17.5
身高/cm
120
130
140
150
160
170
体重/kg
20.92
26.86
31.11
38.85
42.25
55.05
(1)给出两个回归方程:
①y=0.429 4x-25.318,
②y=2.004e0.019 7x.
通过计算,得到它们的相关指数分别是:R=0.9311,R=0.998.试问哪个回归方程拟合效果更好?
(2)若体重超过相同身高男性平均值的1.2倍为偏胖,低于0.8为偏瘦,那么该地区某中学一男生身高为175 cm,体重为78 kg,他的体重是否正常?
【解】 (1)∵R>R,
∴选择第二个方程拟合效果更好.
(2)把x=175代入y=2.004e0.019 7x,
得y=62.97,
由于=1.24>1.2,所以这名男生偏胖.
18.(本小题满分12分)关于x与y有如下数据:
x
2
4
5
6
8
y
30
40
60
50
70
为了对x,y两个变量进行统计分析,现有以下两种线性模型:甲模型=6.5x+17.5,乙模型=7x+17,试比较哪一个模型拟合的效果更好.
【解】 R=1-=1-=0.845,
R=1-=1-=0.82.
又∵84.5%>82%,
∴甲选用的模型拟合效果更好.
19.(本小题满分12分)为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:质量监督员甲在生产现场时,990件产品中合格品有982件,次品有8件;甲不在生产现场时,510件产品中合格品有493件,次品有17件.试分别用列联表、独立性检验的方法分析监督员甲是否在生产现场对产品质量好坏有无影响?
【解】 (1)2×2列联表如下:
合格品数
次品数
总计
甲在生产现场
982
8
990
甲不在生产现场
493
17
510
总计
1 475
25
1 500
由列联表可得|ac-bd|=|982×17-493×8|=12 750,相差较大,可在某种程度上认为“质量监督员甲是否在生产现场与产品质量有关系”.
(2)由2×2列联表中数据,计算得到K2的观测值为
k=≈13.097>6.635,
所以在犯错误的概率不超过0.01的前提下,认为质量监督员甲是否在生产现场与产品质量有关系.
20.(本小题满分12分)有两个分类变量x与y,其一组观测值如下面的2×2列联表所示:
y1
y2
x1
a
20-a
x2
15-a
30+a
其中a,15-a均为大于5的整数,则a取何值时,在犯错误的概率不超过0.1的前提下认为x与y之间有关系?
【解】 查表可知,要使在犯错误的概率不超过0.1的前提下认为x与y之间有关系,则k≥2.706,而
k=
==.
故k≥2.706,得a≥7.19或a≤2.04.
又a>5且15-a>5,a∈Z,解得a=8或9,
故a为8或9时,在犯错误的概率不超过0.1的前提下认为x与y之间有关系.
21.(本小题满分12分)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年 份
2007
2008
2009
2010
2011
2012
2013
年份代号t
1
2
3
4
5
6
7
人均纯收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2018年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘法估计公式分别为:
=,=-.
【解】 (1)由所给数据计算得=(1+2+3+4+5+6+7)=4,
=(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
(ti-)2=9+4+1+0+1+4+9=28,
(ti-)(yi-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
===0.5,
=-=4.3-0.5×4=2.3,
所求回归方程为=0.5t+2.3.
(2)由(1)知,b=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.
将2018年的年份代号t=9代入(1)中的回归方程,得
=0.5×9+2.3=6.8,
故预测该地区2018年农村居民家庭人均纯收入为6.8千元.
22.(本小题满分12分)电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:
图3
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.
(1)根据已知条件完成下面的2×2列联表,并据此资料判断“体育迷”与性别是否有关?
非体育迷
体育迷
总计
男
女
总计
(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,
若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.
附:K2=,
P(K2≥k0)
0.05
0.01
k0
3.841
6.635
【解】 (1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而完成2×2列联表如下:
非体育迷
体育迷
总计
男
30
15
45
女
45
10
55
总计
75
25
100
将2×2列联表中的数据代入公式计算,得
k==
=≈3.030.因为3.030<3.841,所以我们没有理由认为“体育迷”与性别有关.
(2)由频率分布直方图可知,“超级体育迷”为5人,其中女生为2人.
记:从“超级体育迷”中取2人,至少有1名女性为事件A.
则P(A)==,
即从“超级体育迷”中任意选取2人,至少有1名女性观众的概率为.
课件58张PPT。第 三 章 统计案例章 末 高 效 整 合知能整合提升
1.两个基本思想
(1)回归分析的基本思想
回归分析包括线性回归分析和非线性回归分析两种,而非线性回归分析往往可以通过变量代换转化为线性回归分析,因此,回归分析的思想主要是指线性回归分析的思想.
注意理解以下几点:
①确定线性相关关系
线性相关关系有两层含义:一是具有相关关系,如广告费用与销售量的关系等在一定条件下具有相关关系,而气球的体积与半径的关系是函数关系,而不是相关关系;二是具有线性相关关系.判断是否线性相关的依据是观察样本点的散点图;
②引起预报误差的因素
对于线性回归模型y=bx+a+e,引起预报变量y的误差的因素有两个:一个是解释变量x,另一个是随机误差e;
③回归方程的预报精度
判断回归方程的预报精度是通过计算残差平方和来进行的,残差平方和越小,方程的预报精度越高.
简单来说,线性回归分析就是通过建立回归直线方程对变量进行预报,用回归方程预报时,需对函数值明确理解,它表示当x取值时,真实值在函数值附近或平均值在函数值附近,不能认为就是真实值;
④回归模型的拟合效果
判断回归模型的拟合效果的过程也叫残差分析,残差分析的方法有两种,一是通过残差图直观判断,二是通过计算相关指数R2的大小判断.
(2)独立性检验的基本思想
独立性检验的基本思想类似于反证法.要确认两个分类变量有关系的可信程度,先假设两个分类变量没有关系,再计算随机变量K2的观测值,最后由K2的观测值很大在一定程度上说明两个分类变量有关系.进行独立性检验要注意理解以下三个问题:
①独立性检验适用于两个分类变量;
②两个分类变量是否有关系的直观判断:
一是根据2×2列联表计算|ad-bc|,值越大关系越强;
二是观察等高条形图,两个深色条的高度相差越大关系越强.
③独立性检验是对两个分类变量有关系的可信程度的判断,而不是对其是否有关系的判断.独立性检验的结论只能是有多大的把握确认两个分类变量有关系,而不能是两个分类变量一定有关系或没有关系.2.两个重要参数
(1)相关指数R2
相关指数R2是用来刻画回归模型的回归效果的,其值越接近1,残差平方和越小,模型的拟合效果越好.
(2)随机变量K2
随机变量K2是用来判断两个分类变量在多大程度上相关的变量.独立性检验即计算K2的观测值,并与教材中所给表格中的数值进行比较,从而得到两个分类变量在多大程度上相关.
3.两种重要图形
(1)散点图
散点图是进行线性回归分析的主要手段,其作用如下:
一是判断两个变量是否具有线性相关关系,如果样本点呈条状分布,则可以断定两个变量有较好的线性相关关系;
二是判断样本中是否存在异常.
(2)残差图
残差图可以用来判断模型的拟合效果,其作用如下:
一是判断模型的精度,残差点所分布的带状区域越窄,说明模型的拟合精度越高,回归方程的预报精度越高;
二是确认样本点在采集中是否有人为的错误.热点考点例析线性回归分析的应用点拨: 回归分析的基本步骤为:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系;
(3)由经验确定回归方程的类型;
(4)按一定规则估计回归方程中的参数;
(5)得检查回归模型的拟合程度,如分析残差图、求相关指数R2等. 一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下表:
(1)画出散点图,并初步判断是否线性相关;
(2)若线性相关,求回归直线方程;
(3)求出相关指数;
(4)作出残差图;
(5)进行残差分析;
(6)试制订加工200个零件的用时规定.
[思维点击] 明确各相关概念.求出回归直线方程是解题关键.注意正确使用公式和准确计算. (1)散点图如图所示.
由图可知,x,y线性相关.将数据代入相应公式可得数据表: (3)利用所求回归方程求出下列数据:1.为了研究3月下旬的平均气温(x)与4月20日前棉花害虫化蛹高峰日(y)的关系,某地区观察了2007年至2011年的情况.得到下面数据:点拨: 非线性回归问题的处理技巧
一般地,有些非线性回归模型通过变换可以转化为线性回归模型,即借助于线性回归模型研究呈非线性回归关系的两个变量之间的关系.
(1)如果散点图中的点分布在一个直线状带形区域,可以选用线性回归模型来建模;
(2)如果散点图中的点的分布在一个曲线状带形区域,要先对变量作适当的变换,再利用线性回归模型来建模.非线性回归问题2.电容器充电后,电压达到100 V,然后开始放电,由经验知道,此后电压U随时间t变化的规律公式U=Aebt(b<0)表示,观测得时间t(s)时的电压U(V)如下表所示:
试求电压U对时间t的回归方程.解析: 对U=Aebt两边取自然对数得ln U=ln A+bt,
令y=ln U,a=ln A,即y=bt+a,
由所给数据可得其散点图为: 点拨: 1.独立性检验的一般步骤:
(1)提出假设H0:Ⅰ和Ⅱ没有关系;
(2)根据2×2列联表计算K2的观测值;
(3)根据K2的观测值与临界值的大小关系作统计推断.独立性检验2.可以用反证法的原理来解释独立性检验原理.
从上述对比中可以看出,假设检验的原理和反证法原理类似.不同之处:一是独立性检验中用有利于H0的小概率事件的发生代替了反证法中的矛盾;二是独立性检验中接受原假设的结论相当于反证法中没有找到矛盾.
把独立性检验的基本思想具体化到独立性检验中,就可以通过随机变量K2的值的大小来研究两个分类变量是否有相关关系. 调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表,试问婴儿的性别与出生的时间是否有关系?[思维点击] 根据列联表,将相应数据代入公式求K2. 3.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查如下表所示:
试问:50岁以上的人患慢性气管炎与吸烟习惯是否有关系?
解析: -5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位.
答案: B
4.若由一个2×2列联表中的数据计算得K2=6.630,则判断“这两个分类变量有关系”时,犯错误的最大概率是( )
A.0.025 B.0.01
C.0.005 D.0.001
解析: ∵P(K2>5.024)=0.025,
又K2=6.630>5.024,∴犯错误的最大概率为0.025.
答案: A
5.若由一个2×2列联表中的数据计算得K2=4.073,那么在犯错误的概率不超过________的前提下认为两变量有关系,已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
解析: 查表可知K2的观测值k=4.073≥3.841,因此在犯错误的概率不超过5%的前提下认为两变量有关系.
答案: 5%7.某产品的广告费支出x与销售额y(单位:百万元)之间有如下对应数据:
请画出散点图并用散点图粗略地判断x,y是否线性相关.解析: 散点图如图.
从散点图可以看出散点呈条状分布,所以x,y具有较强的线性相关关系.
8.某研究者欲考察某一高考试题的得分情况是否与性别有关系,统计结果如下:及格的人中男生有290人,女生有100人;不及格的人中男生有160人,女生有350人.试根据这些数据判断这一高考试题的得分情况与性别是否有关系.解析: 根据题中数据得如下列联表:谢谢观看!