2018—2019学年高中数学新人教A版选修2-3训练题:第三章统计案例(4份)

文档属性

名称 2018—2019学年高中数学新人教A版选修2-3训练题:第三章统计案例(4份)
格式 zip
文件大小 1.1MB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2018-10-08 16:20:30

文档简介

第1课时 线性回归模型
A级 基础巩固
一、选择题
1.有下列说法:
①线性回归分析就是由样本点去寻找一条直线,贴近这些样本点的数学方法;
②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;
③通过回归方程=x+及其回归系数b,可以估计和观测变量的取值和变化趋势;
④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.
其中正确说法的个数是(   )
A.1     B.2     C.3     D.4
解析:①反映的是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③反映的是回归模型y=bx+a+e,其中e为随机误差,故也正确.④不正确,在求回归方程之前必须进行相关性检验,以体现两变量的关系.
答案:C
2.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的截距是a,那么必有(   )
A.b与r的符号相同 B.a与r的符号相同
C.b与r的符号相反 D.a与r的符号相反
解析:因为b>0时,两变量正相关,此时r>0;b<0时,两变量负相关,此时r<0.
答案:A
3.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合效果最好的是(  )
解析:用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合效果越好.
答案:A
4.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是(   )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
解析:回归方程中x的系数为0.85>0,因此y与x具有正的线性相关关系,A正确;由回归方程系数的意义可知回归直线过样本点的中心,,B正确;依据回归方程中y的含义可知,x每变化1个单位,y相应变化约0.85个单位,C正确;用回归方程对总体进行估计不能得到肯定的结论,故D错误.
答案:D
5.(2015·福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x/万元
8.2
8.6
10.0
11.3
11.9
支出y/万元
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程=x+,其中=0.76,=y-,.
据此估计,该社区一户年收入为15万元家庭的年支出为(  )
A.11.4万元 B.11.8万元
C.12.0万元 D.12.2万元
解析:由已知得 ==10(万元),
==8(万元),
故=8-0.76×10=0.4.
所以回归直线方程为=0.76x+0.4,社区一户年收入为15万元家庭年支出为=0.76x+0.4,社区一户年收入为15万元家庭支出为=0.76×15+0.4=11.8(万元).
答案:B
二、填空题
6.若施化肥量x(kg)与小麦产量y(kg)之间的回归直线方程为=250+4x,当施化肥量为50 kg时,预计小麦产量为________kg.
解析:把x=50代入=250+4x,得=450.
答案:450
7.已知x,y的取值如表所示:
x
0
1
3
4
y
2.2
4.3
4.8
6.7
若从散点图分析,y与x线性相关,且=0.95x+,则的值等于________.
解析:x=(0+1+3+4)=2,y==4.5,而回归直线方程过样本点的中心(2,4.5),
所以=y-0.95x=4.5-0.95×2=2.6.
答案:2.6
8.已知一个线性回归方程为=1.5x+45,其中x的取值依次为1,7,5,13,19,则=________.
解析:==9,因为回归直线方程过点(,),所以=1.5x+45=1.5×9+45=58.5.
答案:58.5
三、解答题
9.某医院用光电比色计检验尿汞时,得尿汞含量x(单位:mg/L)与消光系数y读数的结果如下:
尿汞含量x
2
4
6
8
10
消光系数y
64
138
205
285
360
(1)画出散点图;
(2)求回归方程.
解:(1)散点图如图所示:
(2)由图可知y与x的样本点大致分布在一条直线周围,因此可以用线性回归方程来拟合它.
设回归方程为=x+.
故所求的线性回归方程为=36.95x-11.3.
10.某个服装店经营某种服装,在某周内获纯利y(元)与该周每天销售这种服装件数x之间的一组数据关系表:
x
3
4
5
6
7
8
9
y
66
69
73
81
89
90
91
(1)求,;
(2)已知纯利y与每天销售件数x线性相关,试求出其回归方程.
解:(1)==6,
==.
(2)因为y与x有线性相关关系,
=-6×4.75=≈51.36.
故回归方程为=4.75x+51.36.
B级 能力提升
1.某学生四次模拟考试中,其英语作文的减分情况如下表:
考试次数x
1
2
3
4
所减分数y
4.5
4
3
2.5
显然所减分数y与模拟考试次数x之间有较好的线性相关关系,则其线性回归方程为(  )
A.y=0.7x+5.25 B.y=-0.6x+5.25
C.y=-0.7x+6.25 D.y=-0.7x+5.25
解析:由题意可知,所减分数y与模拟考试次数x之间为负相关,所以排除A.
考试次数的平均数为x=(1+2+3+4)=2.5,
所减分数的平均数为y=(4.5+4+3+2.5)=3.5,
即直线应该过点(2.5,3.5),代入验证可知直线y=-0.7x+5.25成立,故选D.
答案:D
2.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:
时间x
1
2
3
4
5
命中率y
0.4
0.5
0.6
0.6
0.4
小李这5天的平均投篮命中率为________,用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.
解析:这5天的平均投篮命中率为
==0.5,
==3.
所以==0.01,=-=0.47.
所以回归直线方程为=0.01x+0.47.
当x=6时,=0.01×6+0.47 =0.53.
答案:0.5 0.53
3.某市垃圾处理厂的垃圾年处理量(单位:千万吨)与资金投入量x(单位:千万元)有如下统计数据:
分类
2012年
2013年
2014年
2015年
2016年
资金投入量x/
千万元  
1.5
1.4
1.9
1.6
2.1
垃圾处理量y/
千万吨  
7.4
7.0
9.2
7.9
10.0
(1)若从统计的5年中任取2年,求这2年的垃圾处理量至少有一年不低于8.0 千万吨的概率;
(2)由表中数据求得线性回归方程为=4x+,该垃圾处理厂计划2017年的垃圾处理量不低于9.0千万吨,现由垃圾处理厂决策部门获悉2017年的资金投入量约为1.8千万元,请你预测2017年能否完成垃圾处理任务,若不能,缺口约为多少千万吨?
解:(1)从统计的5年垃圾处理量中任取2年的基本事件共10个:(7.4,7.0),(7.4,9.2),(7.4,7.9),(7.4,10.0),(7.0,9.2),(7.0,7.9),(7.0,10.0),(9.2,7.9),(9.2,10.0),(7.9,10.0),其中垃圾处理量至少有一年不低于8.0千万吨的基本事件有6个:(7.4,9.2),(7.4,10.0),(7.0,9.2),(7.0,10.0),(9.2,7.9),(9.2,10.0).
所以,这2年的垃圾处理量至少有一年不低于8.0千万吨的概率为P==.
(2)==1.7,
==8.3,
因为直线=4x+过样本中心点(,),
所以8.3=4×1.7+,解得=1.5.
所以=4x+1.5.
当x=1.8时,=4×1.8+1.5=8.7<9.0,
所以不能完成垃圾处理任务,缺口约为0.3千万吨.
第2课时 线性回归分析
A级 基础巩固
一、选择题
1.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做实验,并用回归分析方法分别求得相关系数r与残差平方和m如下表所示:
分类




r
0.82
0.78
0.69
0.85
m
106
115
124
103
则哪位同学的试验结果体现A、B两变量有更强的线性相关性(  )
A.甲       B.乙
C.丙 D.丁
解析:r越接近1,相关性越强,残差平方和m越小,相关性越强,所以选D正确.
答案:D
2.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数.r2表示变量V与U之间的线性相关系数,则(  )
A.r2<r1<0 B.0<r2<r1
C.r2<0<r1 D.r2=r1
解析:对于变量X与Y而言,Y随X的增大而增大,故变量Y与X正相关,即r1>0;对于变量U与V而言,V随U的增大而减小,故变量V与U负相关,即r2<0.故r2<0<r1.
答案:C
3.若某地财政收入x与支出y满足线性回归模型y=bx+a+e(单位:亿元),其中b=0.8,a=2,|e|<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过(  )
A.10亿元 B.9亿元 C.10.5亿元 D.9.5亿元
解析:x=10时,=0.8×10+2=10.
因为|e|<0.5,所以年支出预计不会超过10.5亿元.
答案:C
4.通过残差图我们发现在采集样本点过程中,样本点数据不准确的是(  )
A.第四个 B.第五个
C.第六个 D.第八个
解析:由题图可知,第六个的数据偏差最大,所以第六个数据不准确.
答案:C
5.如图所示,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是(  )
A.相关系数r变大
B.残差平方和变大
C.相关指数R2变大
D.解释变量x与预报变量y的相关性变强
解析:由散点图知,去掉D后,x与y的相关性变强,且为正相关,所以r变大,R2变大,残差平方和变小.
答案:B
二、填空题
6.若一组观测值(x1,y1),(x2,y2),…,(xn,yn)之间满足yi=bxi+a+ei(i=1,2,…,n),且ei恒为0,则R2为________.
解析:由ei恒为0,知yi=i,即yi-i=0,
答案:1
7.x,y满足如下表的关系:
x
0.2
0.6
1.0
1.2
1.4
1.6
1.8
2.0
2.2
y
0.04
0.36
1
1.4
1.9
2.5
3.2
3.98
4.82
则x,y之间符合的函数模型为________.
解析:通过数据发现y的值与x的平方值比较接近,所以x,y之间的函数模型为y=x2.
答案:y=x2
8.关于x与y,有如下数据:
x
2
4
5
6
8
y
30
40
60
50
70
有如下的两个模型:(1)=6.5x+17.5;(2)=7x+17.通过残差分析发现第(1)个线性回归模型比第(2)个拟合效果好.则R________R,Q1________Q2(用大于,小于号填空,R,Q分别是相关指数和残差平方和).
解析:根据相关指数和残差平方和的意义知R>R,Q1<Q2.
答案:> <
三、解答题
9.下表是某年美国旧轿车价格的调查资料.
使用年数
1
2
3
4
5
6
7
8
9
10
平均价格
(美元)
2 651
1 943
1 494
1 087
765
538
484
290
226
204
观察表中的数据,试问平均价格与使用年数间存在什么样的关系?
解:设x表示轿车的使用年数,y表示相应的平均价格,作出散点图.
由散点图可以看出y与x具有指数关系,
令z=ln y,变换得
x
1
2
3
4
5
6
7
8
9
10
z
7.883
7.572
7.309
6.991
6.640
6.288
6.182
5.670
5.421
5.318
作出散点图:
由图可知各点基本上处于一直线,由表中数据可求出线性回归方程:=8.166-0.298x.
因为新车的平均价格与使用年数具有指数关系,其非线性回归方程为=e8.166-0.298x.
10.关于x与y有以下数据:
x
2
4
5
6
8
y
30
40
60
50
70
已知x与y线性相关,由最小二乘法得=6.5.
(1)求y与x的线性回归方程;
(2)现有第二个线性模型:=7x+17,且R2=0.82.若与(1)的线性模型比较,哪一个线性模型拟合效果比较好,请说明理由.
解:(1)依题意设y与x的线性回归方程为=6.5x+.
==5,==50,因为=6.5x+经过(,),所以y与x的线性回归方程为=6.5x+17.5 .所以50=6.5×5+.所以=17.5.
(2)由(1)的线性模型得yi-yi与yi-的关系如下表所示:
yi-yi
-0.5
-3.5
10
-6.5
0.5
yi-
-20
-10
10
0
20
由于R=0.845,R2=0.82知R>R2,所以(1)的线性模型拟合效果比较好.
B级 能力提升
1.根据如下样本数据:
x
3
4
5
6
7
y
4.0
2.5
-0.5
0.5
-2.0
得到的回归方程为=bx+a,若a=7.9,则x每增加 1个单位,y就(  )
A.增加1.4个单位 B.减少1.4个单位
C.增加1.2个单位 D.减少1.2个单位
解析:易知x=×(3+4+5+6+7)=5,
y=×(4+2.5-0.5+0.5-2)=0.9,
所以样本点中心为(5,0.9),
所以0.9=5b+7.9,所以b=-1.4,
所以x每增加1个单位,y就减少1.4个单位.故选B.
答案:B
2.若某函数型相对一组数据的残差平方和为89,其相关指数为0.95,则总偏差平方和为________,回归平方和为________.
解析:因为R2=1-,
0.95=1-,所以总偏差平方和为1 780;回归平方和=总偏差平方和-残差平方和=1 780-89=1 691.
答案:1 780 1 691
3.某运动员训练次数与成绩之间的数据关系如下:
次数x
30
33
35
37
39
44
46
50
成绩y
30
34
37
39
42
46
48
51
(1)作出散点图;
(2)求出回归方程;
(3)作出残差图;
(4)计算相关指数R2;
(5)试预测该运动员训练47次及55次的成绩.
解:(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.
(2)=39.25,=40.875, =13 180,
=-=-0.003 88.
所以回归方程为=1.0415x-0.003 88.
(3)作残差图如图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.
(4)计算得相关指数R2=0.985 5,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.
(5)由上述分析可知,我们可用回归方程=1.041 5x-0.003 88作为该运动员成绩的预报值.
将x=47和x=55分别代入该方程可得y≈49和y≈57.
故预测该运动员训练47次和55次的成绩分别为49和57.
3.2 独立性检验的基本思想及其初步应用
A级 基础巩固
一、选择题
1.下面是2×2列联表:
变量
y1
y2
总计
x1
a
21
73
x2
2
25
27
总计
b
46
100
则表中a,b的值分别为(  )
A.94,96   B.52,50   C.52,54   D.54,52
解析:因为a+21=73,所以a=52,又a+2=b,所以b=54.
答案:C
2.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法中正确的是(  )
A.100个心脏病患者中至少有99人打鼾
B.1个人患心脏病,则这个人有99%的概率打鼾
C.100个心脏病患者中一定有打鼾的人
D.100个心脏病患者中可能一个打鼾的人都没有
解析:这是独立性检验,犯错误的概率在不超过0.01的前提下认为“打鼾与患心脏病有关”.这只是一个概率,即打鼾与患心脏病有关的可能性为99%.根据概率的意义可知答案应选D.
答案:D
3.下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图可以看出(  )
A.性别与喜欢理科无关
B.女生中喜欢理科的比为80%
C.男生比女生喜欢理科的可能性大些
D.男生不喜欢理科的比为60%
解析:从等高条形图可以看出,男生比女生喜欢理科的可能性大些.
答案:C
4.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是(   )
①若K2的观测值满足K2≥6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知有99%的把握认为吸烟与患病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;③从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误.
A.① B.①③
C.③ D.②
解析:①推断在100个吸烟的人中必有99人患有肺病,说法错误,排除A、B,③正确.排除D,所以选项C正确.
答案:C
5.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下表的列联表:
喜好程度


总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由K2=算得,
k=≈7.8.
附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
参照附表,得到的正确结论是(  )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
解析:由k≈7.8及P(K2≥6.635)=0.010可知,在犯错误的概率不超过1%的前提下认为“爱好该项运动与性别有关”,也就是有99%以上的把握认为“爱好该项运动与性别有关”.
答案:C
二、填空题
6.下列关于K2的说法中,正确的有________.
①K2的值越大,两个分类变量的相关性越大;
②若求出K2=4>3.841,则有95%的把握认为两个分类变量有关系,即有5%的可能性使得“两个分类变量有关系”的推断出现错误;
③独立性检验就是选取一个假设H0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则做出拒绝H0的推断.
解析:对于①,K2的值越大,只能说明我们有更大的把握认为二者有关系,却不能判断相关性大小,故①错误;根据独立性检验的概念和临界值表知②③正确.
答案: ②③
7.某小学对232名小学生调查发现:180名男生中有98名有多动症,另外82名没有多动症,52名女生中有2名有多动症,另外50名没有多动症,用独立性检验的方法判断多动症与性别________(填“有关”或“无关”).
解析:由题目数据列出如下列联表:
性别
多动症
无多动症
总计
男生
98
82
180
女生
2
50
52
总计
100
132
232
由表中数据可看到
k=≈42.117>10.828.
所以,在犯错误的概率不超过0.001的前提下,认为多动症与性别有关系.
答案:有关
8. 某卫生机构对366人进行健康体检,其中某项检测指标阳性家族史者糖尿病发病的有16人,不发病的有93人;阴性家族史者糖尿病发病的有17人,不发病的有240人,有________的把握认为糖尿病患者与遗传有关系.
解析:先作出如下糖尿病患者与遗传列联表(单位:人):
家族
糖尿病发病
糖尿病不发病
总计
阳性家族史
16
93
109
阴性家族史
17
240
257
总计
33
333
366
根据列联表中的数据,得到K2的观测值为k=≈6.067>5.024.故我们有97.5%的把握认为糖尿病患者与遗传有关系.
答案:97.5%
三、解答题
9.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
性别
是否需要志愿者     


需要
40
30
不需要
160
270
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关?
解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为=14%.
(2)由表中数据,得K2的观测值为
k=≈9.967.
因为9.967>6.635,所以可以在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关.
10.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示:
工作态度
积极支持企业改革
不太赞成企业改革
总计
工作积极
54
40
94
工作一般
32
63
95
总计
86
103
189
对于人力资源部的研究项目,根据上述数据能得出什么结论?
李明对该题进行了独立性检验的分析,结论是“在犯错误的概率不超过0.005的前提下,认为企业员工的工作积极性和对待企业改革的态度有关系”.他的结论正确吗?
解:由列联表中的数据求得K2的观测值为
k=≈10.759.
因为10.759>7.879,
所以在犯错误的概率不超过0.005的前提下认为企业员工的工作积极性和对待企业改革的态度有关系.
所以李明的结论正确.
B级 能力提升
1.有两个分类变量x,y,其2×2列联表如下表.其中a,15-a均为大于5的整数,若在犯错误的概率不超过0.1的前提下认为“x与y之间有关系”,则a的取值应为(   )
变量
y1
y2
x1
a
20-a
x2
15-a
30+a
A.5或6       B. 6或7
C.7 或8 D.8或9
解析:查表可知,要使在犯错误的概率不超过0.1的前提下,认为K2之间有关系,则K2>2.706,而K2===,要使K2>2.706得a>7.19或a<2.04.又因为a>5且15-a>5,a∈Z,所以a=8或9,故当a取8或9时在犯错误的概率不超过0.1的前提下,认为“x与y之间有关系”.
答案:D
2.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
分类
又发作过心脏病
未发作过心脏病
总计
心脏搭桥手术
39
157
196
血管清障手术
29
167
196
总计
68
324
392
试根据上述数据计算K2=________,比较这两种手术对病人又发作心脏病的影响有没有差别_________.
解析:提出假设H0:两种手术对病人又发作心脏病的影响没有差别.根据列联表中的数据,可以求得K2的观测值.k=≈1.78.
当H0成立时,K2=1.78,又K2<2.072的概率为0.85.所以,不能否定假设H0.也就是不能做出这两种手术对病人又发作心脏病的影响有差别的结论.
答案:1.78 不能做出这两种手术对病人又发作心脏病的影响有差别的结论
3.某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩的平均分(采用百分制),剔除平均分在30分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.
分数段
[40,50)
[50,60)
[60,70)
[70,80)
[80,90)
[90,100)
男生人数
3
9
18
15
6
9
女生人数
6
4
5
10
13
2
(1)估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;
(2)规定80分以上为优秀(含80分),请你根据已知条件作出2×2列联表,并判断是否在犯错误的概率不超过0.1的前提下认为数学成绩与性别有关.
性别
优秀
非优秀
总计
男生
女生
总计
100
解:男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,
女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,
因为男=女,所以从男、女生各自的平均分来看,并不能判断数学成绩与性别是否有关.
(2)由频数分布表可知,在抽取的100名学生中,“男生组”中数学成绩优秀的有15人,“女生组”中数学成绩优秀的有15人,据此可得2×2列联表如下:
性别
优秀
非优秀
总计
男生
15
45
60
女生
15
25
40
总计
30
70
100
可得K2的观测值为
k==≈1.79,
因为1.79<2.706,所以在犯错误的概率不超过0.1的前提下不能认为数学成绩与性别有关.
第三章 统计案例
章末评估验收(三)
(时间:120分钟 满分:150分)
一、选择题(本大题共12小题,每小题5分,共60分.在每小题给出的四个选项中,只有一项符合题目要求)
1.下列关于K2的说法正确的是(  )
A.K2在任何相互独立问题中都可以用来检验有关还是无关
B.K2的值越大,两个事件的相关性就越大
C.K2是用来判断两个分类变量是否有关系的,只对于两个分类变量适合
D.K2的观测值k的计算公式为k=
解析:K2是用来判断两个分类变量是否有关的,故A错;K2的值越大,只能说明有更大地把握认为二者有关系,却不能判断相关性的大小,B错;D中(ad-bc)应为(ad-bc)2.
答案:C
2.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图①;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图②.由这两个散点图可以判断(  )
图①      图②
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析:由题图①可知,x与y负相关.由题图②可知,u与v正相关.
答案:C
3.冶炼某种金属可以用旧设备和改造后的新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如下表所示:
分类
杂质高
杂质低
旧设备
37
121
新设备
22
202
根据以上数据,则(  )
A.含杂质的高低与设备改造有关
B.含杂质的高低与设备改造无关
C.设备是否改造决定含杂质的高低
D.以上答案都不对
解析:由已知数据得到如下2×2列联表
分类
杂质高
杂质低
总计
旧设备
37
121
158
新设备
22
202
224
总计
59
323
382
由公式k=≈13.11,
由于13.11>6.635,所以有99%的把握认为含杂质的高低与设备是否改造是有关的.
答案:A
4.为了考查两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是(   )
A.l1和l2有交点(s,t)
B.l1与l2相交,但交点不一定是(s,t)
C.l1与l2必定平行
D.l1与l2必定重合
解析:由回归直线定义知选A.
答案:A
5.相关变量x,y的样本数据如下:
x
1
2
3
4
5
y
2
2
3
5
6
经回归分析可得y与x线性相关,并由最小二乘法求得回归直线方程=1.1x+a,则a=(  )
A.0.1      B.0.2
C.0.3 D.0.4
解析:由题意,==3,
==3.6,
因为回归直线方程=1.1x+a过样本中心点(,),
所以3.6=1.1×3+a,
所以a=0.3.故选C.
答案:C
6.假设两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其列联表为:
分类
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
对于同一样本的以下各组数据,能说明X与Y有关的可能性最大的一组为(  )
A.a=5,b=4,c=3,d=2 B.a=5,b=3,c=4,d=2
C.a=2,b=3,c=4,d=5 D.a=2,b=3,c=5,d=4
解析:(1)利用|ad-bc|越大越有关进行判断.
(2)利用与相差越大越有关进行判断.
法一 对于A,|ad-bc|=|10-12|=2;
对于B,|ad-bc|=|10-12|=2;
对于C,|ad-bc|=|10-12|=2;
对于D,|ad-bc|=|8-15|=7.故选D.
法二 比较-.
A中,=;B中,=;
C中,=;D中,=.故选D.
答案:D
7.为预测某种产品的回收率y,需要研究它和原料有效成分的含量x之间的相关关系,现取了8组观察值.计算得=1 849,则y对x的回归方程是(  )
A.=11.47+2.62x B.=-11.47+2.62x
C.=2.62+11.47x D.=11.47-2.62x
解析:≈2.62,
=11.47,所以y对x的回归方程为=2.62x+11.47.
答案:A
8.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是(  )
A.总偏差平方和 B.残差平方和
C.回归平方 D.相关指数R2
解析:根据残差平方和的概念知选项B正确.
答案:B
9.废品率x%与每吨生铁成本y(元)之间的回归直线方程为=234+3x,表明(  )
A.废品率每增加1%,生铁成本增加3x元
B.废品率每增加1%,生铁成本每吨平均增加3元
C.废品率每增加1%,生铁成本增加234元
D.废品率不变,生铁成本为234元
解析:回归直线方程表示废品率x%与每吨生铁成本y(元)之间的相关关系.故回归直线方程=234+3x时,废品率每增加1%,生铁成本每吨平均增加3元.
答案:B
10.在一次对性别与是否说谎有关的调查中,得到如下数据,根据表中数据判断如下结论中正确的是(  )
性别
说谎
不说谎
总计

6
7
13

8
9
17
总计
14
16
30
A.在此次调查中有95%的把握认为是否说谎与性别有关
B.在此次调查中有99%的把握认为是否说谎与性别有关
C.在此次调查中有99.5%的把握认为是否说谎与性别有关
D.在此次调查中没有充分证据显示说谎与性别有关
解析:由表中数据得k=≈0.002 42<3.841.
因此没有充分证据认为说谎与性别有关,故选D.
答案:D
11.两个相关变量满足如下关系:
x
10
15
20
25
30
y
1 003
1 005
1 010
1 011
1 014
两变量的回归直线方程为(   )
A.=0.56x+997.4 B.=0.63x-231.2
C.=50.2x+501.4 D.=60.4x+400.7
解析:利用公式=997.4,所以回归直线方程为=0.56x+997.4.
答案:A
12.某社区为了了解本社区居民的受教育程度与年收入的关系,随机调查了100户居民,得到如下表所示的2×2列联表(单位:人):
分类
年收入5
万元以下
年收入5
万元及以上
总计
高中文化以上
10
45
55
高中文化及以下
15
30
45
总计
25
75
100
若推断“受教育程度与年收入有关系”,则这种推断犯错误的概率不超过(   )
A.2.5% B.2%
C.1.5% D.1%
解析:由列联表中的数据可得K2=≈9.818,由于9.818>6.635,所以推断“受教育程度与年收入有关系”,犯错误的概率不超过1%.
答案:D
二、填空题(本大题共4小题,每小题5分,共20分.把答案填在题中横线上)
13.下表是关于新生婴儿的性别与出生时间段调查的列联表,那么,A=________,B=________,C=________,D=________.
性别
晚上
白天
总计

45
A
92

B
35
C
总计
98
D
180
解析:由题意可知,A=92-45=47,D=180-98=82,B=98-45=53,C=180-92=88.
答案:47 53 88 82
14.由身高(cm)预报体重(kg)满足y=0.849x-85.712,若要找到41.638 kg的人,________是在150 cm的人群中(填“一定”或“不一定”).
解析:因为统计的方法是可能犯错误的,利用线性回归方程预报变量的值不是精确值,但一般认为实际测量值应在预报值左右.
答案:不一定
15.在研究硝酸钠的可溶性程度时,观测它在不同温度的水中的溶解度,得观测结果如下:
温度x/ ℃
0
10
20
50
70
溶解度y
66.7
76.0
85.0
112.3
128.0
由此得到回归直线的斜率是________.
解析:把表中的数据代入公式==0.880 9.
答案:0.880 9
16.从某项实验中,随机抽取四组实验数据,如下表所示:
x
1
2
3
4
y
0
2
3
3
则x=5时y的预报值是________.
解析:
答案:5.25
三、解答题 (本大题共6小题,共70分.解答应写出文字说明、证明过程或演算步骤)?
17.(本小题满分10分)某单位为了了解用电量y度与气温x℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:
气温/℃
18
13
10
-1
用电量/度
24
34
38
64
由表中数据得线性回归方程=x+中,≈-2,预测当气温为-4℃时,用电量为多少.
解:由题意得x=10,y=40,因为回归直线过点(x,y),
所以40=-2×10+.
所以=60,所以=-2x+60.
令x=-4,得=(-2)×(-4)+60=68.
所以当气温为-4 ℃时,预测用电量为68度.
18.(本小题满分12分)某学校高三年级有学生1 000名,经调查,其中750名同学经常参加体育锻炼(称为A类同学),另外250名同学不经常参加体育锻炼(称为B类同学),现用分层抽样方法(按A类、B类分两层)从该年级的学生中共抽查100名同学,如果以身高达165 cm作为达标的标准,对抽取的100名学生,得到以下列联表:
分类
身高达标
身高不达标
总计
经常参加体育锻炼
40
不经常参加体育锻炼
15
总计
100
(1)完成上表;
(2)能否在犯错误的概率不超过0.05的前提下认为经常参加体育锻炼与身高达标有关系(K2的观测值精确到0.001)?
解:(1)填写列联表如下:
分类
身高达标
身高不达标
总计
经常参加
体育锻炼
40
35
75
不经常参
加体育锻炼
10
15
25
总计
50
50
100
(2)由列联表中的数据,得K2的观测值为
k=≈1.333<3.841.
所以不能在犯错误的概率不超过0.05的前提下认为经常参加体育锻炼与身高达标有关系.
19.(本小题满分12分)某企业的某种产品产量与单位成本数据如下:
月份
1
2
3
4
5
6
产量/千件
2
3
4
3
4
5
单位成本/元
73
72
71
73
69
68
(1)试确定回归直线;
(2)产量每增加1 000件时,单位成本下降多少?
(3)假定产量为6 000件时,单位成本是多少?单位成本为70元时,产量应为多少件?
解:(1)设x表示每月产量(单位:千件),y表示单位成本(单位:元)作散点图.
由图知y与x间呈线性相关关系,设线性回归方程为=x+,
由公式可求得=-1.818,=77.363.
所以线性回归方程为=-1.818x+77.363.
(2)由线性回归方程知,每增加1 000件产量,单位成本下降1.818 元.
(3)当x=6 000时,y=-1.818×6+77.363=66.455(元),
当y=70时,70=-1.818x+77.363,得x=4.05(千件).
20.(本小题满分12分)某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:
分类
积极参加
班级工作
不太主动参
加班级工作
总计
学习积极性高
18
7
25
学习积极性一般
6
19
25
总计
24
26
50
(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?
(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关,并说明理由.
解:(1)积极参加班级工作的学生有24名,总人数为50名,概率为=.
不太主动参加班级工作且学习积极性一般的学生有19名,概率为.
(2)由K2公式得K2=≈11.5.
因为K2>10.828,所以有99.9%的把握认为学习积极性与对待班级工作的态度有关系.
21.(本小题满分12分)若一个人从出生到死亡,在每个生日都测量身高,并作出这些数据的散点图,这些点将不会落在一条直线上,但在一段时间内的增长数据有时可以用线性回归来分析,下表是一位母亲给儿子做的成长记录:
年龄/周岁
3
4
5
6
7
8
9
身高/cm
91.8
97.6
104.2
110.9
115.6
122.0
128.5
年龄/周岁
10
11
12
13
14
15
16
身高/cm
134.2
140.8
147.6
154.2
160.9
167.5
173.0
(1)年龄(解释变量)和身高(预报变量)之间具有怎样的相关关系?
(2)如果年龄相差5岁,则身高有多大差异(3~16岁之间)?
(3)如果身高相差20 cm,其年龄相差多少(3~16岁之间)?
(4)试判断该函数模型是否能够较好地反映年龄与身高的关系.
解:(1)设年龄x与身高y之间的回归直线方程为=x+,
由公式=,得≈6.286.
则=-≈72,所以=6.286x+72.
(2)如果年龄相差5岁,则预报变量变化6.286×5=31.43,即身高相差约31.4 cm.
(3)如果身高相差20 cm, 年龄相差Δx=≈3.182≈3(岁).
(4)计算可得R2=1-≈0。9994.
由R2=0。9994,表明年龄解释了99。94%的身高的变化,函数模型拟合效果较好,即该函数模型能够较好地反映年龄与身高的关系.
22.(本小题满分12分)假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:
x
15.0
25.58
30.0
36.6
44.4
y
39.4
42.9
42.9
43.1
49.2
(1)以x为解释变量,y为预报变量,作出散点图;
(2)求y与x之间的回归直线方程,对于基本苗数56.7预报其有效穗;
(3)计算各组残差,并计算残差平方和;
(4)求R2,并说明残差变量对有效穗的影响占百分之几.
解:(1)散点图如下:
(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.
设回归方程为=x+,
由已知数据可求得=30.316,=43.5,
所以R2=1-≈0.830.
所以解释变量小麦基本苗数对总效应贡献了约83%.
残差变量贡献了约1-83%=17%.