课件26张PPT。第一章 统计案例章末复习课点击右图进入…Thank you for watching !章末综合测评(一) 统计案例
(时间:120分钟 满分:150分)
一、选择题(本大题共12小题,每小题5分,共60分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.下面是2×2列联表.
y1
y2
总计
x1
33
21
54
x2
a
13
46
总计
b
34
则表中a,b处的值应为( )
A.33,66 B.25,50
C.32,67 D.43,56
A [由2×2列联表知a+13=46,所以a=33,又b=a+33,所以b=33+33=66.]
2.根据一位母亲记录儿子3~9岁的身高数据,建立儿子身高(单位:cm)对年龄(单位:岁)的线性回归方程为=7.19x+73.93,若用此方程预测儿子10岁时的身高,有关叙述正确的是( )
A.身高一定为145.83 cm
B.身高大于145.83 cm
C.身高小于145.83 cm
D.身高在145.83 cm左右
D [用线性回归方程预测的不是精确值,而是估计值.当x=10时,y=145.83,只能说身高在145.83 cm左右.]
3.独立性检验中,假设H0:变量X与变量Y没有关系,则在H0成立的情况下,P(K2≥6.635)=0.010表示的意义是( )
A.变量X与变量Y有关系的概率为1%
B.变量X与变量Y没有关系的概率为99.9%
C.变量X与变量Y没有关系的概率为99%
D.变量X与变量Y有关系的概率为99%
D [∵P(K2≥6.635)=0.010,故有99%的把握认为变量X与变量Y有关系,故选D.]
4.已知对某散点图作拟合曲线及其对应的相关指数R2,如下表所示:
拟合曲线
直线
指数曲线
抛物线
二次曲线
y与x回归方程
=19.8x-463.7
=e0.27x-3.84
=0.367x2-202
=
相关指数R2
0.746
0.996
0.902
0.002
则这组数据模型的回归方程的最好选择应是( )
A.=19.8x-463.7
B.=e0.27x-3.84
C.=0.367x2-202
D.=
B [∵R2越大,拟合效果越好,∴应选择=e0.27x-3.84.]
5.下表是x和y之间的一组数据,则y关于x的回归直线必过( )
x
1
2
3
4
y
1
3
5
7
A.点(2,3) B.点(1.5,4)
C.点(2.5,4) D.点(2.5,5)
C [∵==,
==4.
∴y关于x的回归直线必过点(2.5,4).]
6.若两个变量的残差平方和是325,(yi-i)2=923,则随机误差对预报变量的贡献率约为( )
A.64.8% B.60%
C.35.2% D.40%
C [相关指数R2表示解释变量对于预报变量变化的贡献率,故随机误差对预报变量的贡献率为×100%=×100%≈35.2%,故选C.]
7.在一次调查后,根据所得数据绘制成如图所示的等高条形图,则( )
A.两个分类变量关系较弱
B.两个分类变量无关系
C.两个分类变量关系较强
D.无法判断
C [从条形图中可以看出,在x1中y1比重明显大于x2中y2的比重,所以两个分类变量的关系较强.]
8.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的截距是a,那么必有( )
A.b与r的符号相同
B.a与r的符号相同
C.b与r的符号相反
D.a与r的符号相反
A [当b>0时,两变量正相关,此时r>0;b<0时,两变量负相关,此时r<0.]
9.如图所示,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是( )
A.相关系数r变大
B.残差平方和变大
C.相关指数R2变大
D.解释变量x与预报变量y的相关性变强
B [由散点图知,去掉D后,x与y的相关性变强,且为正相关,所以r变大,R2变大,残差平方和变小.]
10.已知一个线性回归方程为=1.5x+45,其中x的取值依次为1,7,5,13,19,则=( )
A.58.5 B.46.5
C.60 D.75
A [∵=(1+7+5+13+19)=9,回归直线过样本点的中心(,),
∴=1.5×9+45=58.5.]
11.根据下面的列联表得到如下四个判断:
①至少有99.9%的把握认为“患肝病与嗜酒有关”;②至少有99%的把握认为“患肝病与嗜酒有关”;③在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒有关”;④在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒无关”.
嗜酒
不嗜酒
总计
患肝病
700
60
760
未患肝病
200
32
232
总计
900
92
992
其中正确命题的个数为( )
A.0 B.1
C.2 D.3
C [由列联表中数据可求得随机变量K2的观测值k=≈7.349>6.635,所以在犯错误的概率不超过0.01的前提下,认为“患肝病与嗜酒有关系”,即至少有99%的把握认为“患肝病与嗜酒有关系”.因此②③正确,故选C.]
12.某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示:
x
16
17
18
19
y
50
34
41
31
由上表可得线性回归方程=x+中的=-4,据此模型预测零售价为15元时,每天的销售量为( )
A.51个 B.50个
C.49个 D.48个
C [∵==17.5,
==39.
∴由39=-4×17.5+得=109.
∴当x=15时,=-4×15+109=49(个).]
二、填空题(本大题共4小题,每小题5分,共20分.把答案填在题中横线上)
13.已知下表所示数据的线性回归方程为=4x+242,则实数a=________.
x
2
3
4
5
6
y
251
254
257
a
266
262 [由题意,得=4,=(1 028+a),代入=4x+242,可得(1 028+a)=4×4+242,解得a=262.]
14.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到k=≈4.844,则认为“选修文科与性别有关系”出错的可能性为________.
0.05 [k≈4.844>3.841,故判断出错的概率为0.05.]
15.为预测某种产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取了8组观测值.计算知i=52,i=228,=478,iyi=1 849,则y关于x的回归方程是________.
y=11.47+2.62x [由已知数据计算可得=2.62,=11.47,所以回归方程是=11.47+2.62x.]
16.对于回归分析,下列说法中正确的有________.(填序号)
①在回归分析中,若变量间的关系是非确定性关系,则因变量不能由自变量唯一确定;②相关系数可以是正的也可以是负的;③回归分析中,如果R2=1,说明变量x与y之间是完全线性相关;④样本相关系数r∈(-∞,+∞).
①②③ [在回归分析中,样本相关系数r的范围是|r|≤1,
故④错误,①②③均正确.]
三、解答题(本大题共6小题,共70分.解答应写出文字说明、证明过程或演算步骤)
17.(本小题满分10分)如图是对用药与不用药,感冒已好与未好进行统计的等高条形图.若此次统计中,用药的患者是70人,不用药的患者是40人,试问:能否在犯错误的概率不超过0.001的前提下认为“感冒已好与用药有关”?
[解] 根据题中的等高条形图,可得在用药的患者中感冒已好的人数为70×=56,在不用药的患者中感冒已好的人数为40×=12.
2×2列联表如下:
感冒已好
感冒未好
总计
用药
56
14
70
不用药
12
28
40
总计
68
42
110
根据表中数据,得到
k=≈26.96>10.828.
因此,能在犯错误的概率不超过0.001的前提下认为感冒已好与用药有关系.
18.(本小题满分12分)网购已成为当今消费者最喜欢的购物方式之一,某机构对A,B,C,D四家同类运动服装网店的关注人数x(单位:千人)与其商品销售件数y(单位:百件)进行统计对比,得到表格:
网店名称
A
B
C
D
x
3
4
6
7
y
11
12
20
17
由散点图得知,可以用线性回归方程=x+来近似刻画它们之间的关系.
(1)试建立y关于x的回归方程;
(2)在(1)的回归模型中,请用R2说明销售件数的差异有多大程度是由关注人数引起的.(精确到0.01)
[解] (1)由表中数据可得==5,==15,xiyi=320,x=110,
===2,
所以=-=15-2×5=5,
故线性回归方程为=2x+5.
(2) (yi-)2=54, (yi-i)2=14,R2=1-=1-=0.74,
说明销售件数的差异有74%是由关注人数引起的.
19.(本小题满分12分)某学校高三年级有学生1 000名,经调查,其中750名同学经常参加体育锻炼(称为A类同学),另外250名同学不经常参加体育锻炼(称为B类同学),现用分层抽样方法(按A类、B类分两层)从该年级的学生中共抽取100名同学,如果以身高达165 cm作为达标的标准,对抽取的100名学生,得到以下列联表:
身高达标
身高不达标
总计
经常参加体育锻炼
40
不经常参加体育锻炼
15
总计
100
(1)完成上表;
(2)能否在犯错误的概率不超过0.05的前提下认为经常参加体育锻炼与身高达标有关系(K2的观测值精确到0.001)?
[解] (1)填写列联表如下:
身高达标
身高不达标
总计
经常参加体育锻炼
40
35
75
不经常参加体育锻炼
10
15
25
总计
50
50
100
(2)由列联表中的数据,得K2的观测值为
k=≈1.333<3.841.
所以不能在犯错误的概率不超过0.05的前提下认为经常参加体育锻炼与身高达标有关系.
20.(本小题满分12分)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了4次试验,得到数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
(1)在给定坐标系(如图)中画出表中数据的散点图;
(2)求y关于x的线性回归方程=x+;
(3)试预测加工10个零件需要的时间.
[解] (1)散点图如图所示:
(2)由表中数据得=3.5,=3.5,
(xi-)(yi-)=3.5,(xi-)2=5,
由公式计算得=0.7,=-=1.05,
所以所求线性回归方程为=0.7x+1.05.
(3)当x=10时,=0.7×10+1.05=8.05,
所以预测加工10个零件需要8.05小时.
21.(本小题满分12分)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的如图所示散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)·(yi-)
(wi-)·(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,=i.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=+u的斜率和截距的最小二乘估计分别为
=,=-.
[解] (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程,由于===68,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
22.(本小题满分12分)某食品厂为了检查甲乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的质量(单位:克),质量值落在(495,510]的产品为合格品,否则为不合格品.下表是甲流水线样本频数分布表,下图是乙流水线样本频率分布直方图.
甲流水线样本频数分布表
产品质量/克
频数
(490,495]
6
(495,500]
8
(500,505]
14
(505,510]
8
(510,515]
4
乙流水线样本频率分布直方图
(1)根据上表数据作出甲流水线样本频率分布直方图;
(2)若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少;
(3)由以上统计数据作出2×2列联表,并回答在犯错误的概率不超过多少的前提下认为“产品的包装质量与两条自动包装流水线的选择有关”.
[解] (1)甲流水线样本频率分布直方图如下:
(2)由题表知甲样本合格品数为8+14+8=30,由题图知乙样本中合格品数为(0.06+0.09+0.03)×5×40=36,故甲样本合格品的频率为=0.75,乙样本合格品的频率为=0.9,
据此可估计从甲流水线任取1件产品,该产品恰好是合格品的概率为0.75.
从乙流水线任取1件产品,该产品恰好是合格品的概率为0.9.
(3)2×2列联表如下:
甲流水线
乙流水线
总计
合格品
30
36
66
不合格品
10
4
14
总计
40
40
80
因为K2的观测值
k=≈3.117>2.706,所以在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关.
回归分析
【例1】 为研究某种图书每册的成本费y(元)与印刷数x(千册)的关系,收集了一些数据并作了初步处理,得到了下面的散点图及一些统计量的值.
(xi-
)2
(xi-
)(yi-)
(ui-
)2
(ui-)
(yi-)
15.25
3.63
0.269
2 085.5
-230.3
0.787
7.049
其中ui=,=ui.
(1)根据散点图判断:y=a+bx与y=c+哪一个更适合作为每册成本费y(元)与印刷数x(千册)的回归方程类型?(只要求给出判断,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(回归系数的结果精确到0.01);
(3)若每册书定价为10元,则至少应该印刷多少千册才能使销售利润不低于78 840元?(假设能够全部售出,结果精确到1)
(附:对于一组数据(ω1,v1),(ω2,v2),…,(ωn,vn),其回归直线=+ω的斜率和截距的最小二乘法估计分别为=,=-)
思路探究:(1)借助散点图求解;
(2)令u=―→建立y关于u的线性回归方程―→建立y关于x的线性回归方程;(3)建立利润函数f(x),解f(x)≥78.840得x的范围.
[解] (1)由散点图判断,y=c+适合作为每册成本费y(元)与印刷册数x(千册)的回归方程.
(2)令u=,先建立y关于u的线性回归方程,
由于==≈8.957≈8.96,
∴=-·=3.63-8.957×0.269≈1.22,
∴y关于u的线性回归方程为=1.22+8.96u,
从而y关于x的线性回归方程为=1.22+.
(3)假设印刷x千册,依题意:10x-·x≥78.840.
即8.78x≥87.8,解得x≥10,
∴至少印刷10千册才能使销售利润不低于78 840元.
求线性回归方程的基本步骤
注意:对非线性回归问题应利用变量代换,把问题化为线性回归分析问题,使之得到解决.
1.在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:
x(元)
14
16
18
20
22
y(件)
12
10
7
5
3
且知x与y具有线性相关关系,求出y关于x的线性回归方程,并说明拟合效果的好坏.
[解] =×(14+16+18+20+22)=18,
=×(12+10+7+5+3)=7.4,
=142+162+182+202+222=1 660,
=122+102+72+52+32=327,
iyi=14×12+16×10+18×7+20×5+22×3=620,
所以===-1.15,
所以=7.4+1.15×18=28.1,
所以y关于x的线性回归方程为=-1.15x+28.1,
列出残差表为
yi-i
0
0.3
-0.4
-0.1
0.2
yi-
4.6
2.6
-0.4
-2.4
-4.4
所以(yi-i)2=0.3,
(yi-)2=53.2,
R2=1-≈0.994.
所以R2≈0.994,拟合效果较好.
独立性检验
【例2】 户外运动已经成为一种时尚运动,某单位为了了解员工喜欢户外运动是否与性别有关,决定从本单位全体650人中采用分层抽样的办法抽取50人进行问卷调查,得到了如下列联表:
喜欢户外运动
不喜欢户外运动
总计
男性
5
女性
10
总计
50
已知在这50人中随机抽取1人,抽到喜欢户外运动的员工的概率是.
(1)请将上面的列联表补充完整;
(2)求该公司男、女员工各多少人;
(3)在犯错误的概率不超过0.005的前提下能否认为喜欢户外运动与性别有关?并说明你的理由.
下面的临界值表仅供参考:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
(参考公式:K2=,其中
n=a+b+c+d)
[解] (1)因为在全部50人中随机抽取1人抽到喜欢户外运动的员工的概率是,
所以喜欢户外运动的男女员工共30人,其中男员工20人,列联表补充如下:
喜欢户外运动
不喜欢户外运动
总计
男性
20
5
25
女性
10
15
25
总计
30
20
50
(2)该公司男员工人数为25÷50×650=325(人),则女员工有325人.
(3)K2的观测值k=≈8.333>7.879,所以在犯错误的概率不超过0.005的前提下认为喜欢户外运动与性别有关.
独立性检验的一般步骤
?1?提出假设H0:Ⅰ和Ⅱ没有关系;
?2?根据2×2列联表计算K2的观测值;
?3?根据K2的观测值与临界值的大小关系作统计推断.
2.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用条形图和独立性检验的方法判断.
[解] 建立性别与态度的2×2列联表如下:
肯定
否定
总计
男生
22
88
110
女生
22
38
60
总计
44
126
170
根据列联表中所给的数据,可求出男生中作肯定态度的频率为=0.2,女生中作肯定态度的频率为≈0.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系.
根据列联表中的数据得到K2的观测值
k=≈5.622>5.024.
因此,在犯错误的概率不超过0.025的前提下认为性别和态度有关系.