2017_2018学年高中数学第一章统计案例练习新人教A版选修1_2 (1)

文档属性

名称 2017_2018学年高中数学第一章统计案例练习新人教A版选修1_2 (1)
格式 zip
文件大小 342.6KB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2017-09-09 19:12:11

文档简介

回归分析的基本思想及其初步应用
A级 基础巩固
一、选择题
1.对变量x、y有观测数据(xi,yi)(i=1,2,…,10),得散点图①;对变量u、v有观测数据(ui,vi)(i=1,2,…,10),得散点图②.由这两个散点图可以判断( C )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
[解析] 图1中的数据y随x的增大而减小,因此变量x与y负相关;图2中的数据随着u的增大,v也增大,因此变量u与v正相关,故选C.
2.已知x和y之间的一组数据
x
0
1
2
3
y
1
3
5
7
则y与x的线性回归方程=x+必过点( D )
A.(2,2)      
B.(,0)
C.(1,2)
D.(,4)
[解析] ∵=(0+1+2+3)=,=(1+3+5+7)=4,∴回归方程=x+必过点(,4).
3.关于回归分析,下列说法错误的是( D )
A.回归分析是研究两个具有相关关系的变量的方法
B.散点图中,解释变量在x轴,预报变量在y轴
C.回归模型中一定存在随机误差
D.散点图能准确反应变量间的关系
[解析] 用散点图反映两个变量间的关系,存在误差,故选D.
4.在回归分析中,相关指数R2的值越大,说明残差平方和( B )
A.越大
B.越小
C.可能大也可能小
D.以上均错
[解析] 当R2越大时,残差平方和越小.
5.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是( A )
A.l1和l2有交点(s,t)
B.l1与l2相关,但交点不一定是(s,t)
C.l1与l2必定平行
D.l1与l2必定重合
[解析] 由题意知(s,t)是甲、乙两位同学所做试验的样本点的中心,而线性回归直线恒过样本点的中心,故选A.
6.关于随机误差产生的原因分析正确的是( D )
(1)用线性回归模型来近似真实模型所引起的误差;
(2)忽略某些因素的影响所产生的误差;
(3)对样本数据观测时产生的误差;
(4)计算错误所产生的误差.
A.(1)(2)(4)
B.(1)(3)
C.(2)(4)
D.(1)(2)(3)
[解析] 理解线性回归模型y=bx+a+e中随机误差e的含义是解决此问题的关键,随机误差可能由于观测工具及技术产生,也可能因忽略某些因素产生,也可以是回归模型产生,但不是计算错误.
二、填空题
7.回归分析是处理变量之间__相关__关系的一种数量统计方法.
[解析] 回归分析是处理变量之间相关关系的一种数量统计方法.
8.已知x、y的取值如下表:
x
0
1
3
4
y
2.2
4.3
4.8
6.7
若x、y具有线性相关关系,且回归方程为=0.95x+a,则a的值为__2.6__.
[解析] 由已知得=2,=4.5,而回归方程过点(,),则4.5=0.95×2+a,
∴a=2.6.
三、解答题
9.某电脑公司有6名产品推销员,其工作年限与年推销金额的数据如下表:
推销员编号
1
2
3
4
5
工作年限x/年
3
5
6
7
9
推销金额y/万元
2
3
3
4
5
(1)以工作年限为自变量,推销金额为因变量y,作出散点图;
(2)求年推销金额y关于工作年限x的线性回归方程;
(3)若第6名推销员的工作年限为11年,试估计他的年推销金额.
[解析] (1)依题意,画出散点图如图所示,
(2)从散点图可以看出,这些点大致在一条直线附近,设所求的线性回归方程为=x+.
则===0.5,=-=0.4,
∴年推销金额y关于工作年限x的线性回归方程为=0.5x+0.4.
(3)由(2)可知,当x=11时,
=0.5x+0.4=0.5×11+0.4=5.9(万元).
∴可以估计第6名推销员的年销售金额为5.9万元.
B级 素养提升
一、选择题
1.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x(万元)
8.2
8.6
10.0
11.3
11.9
支出y(万元)
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程=x+,其中=0.76,=-.据此估计,该社区一户年收入为15万元家庭的年支出为( B )
A.11.4万元
B.11.8万元
C.12.0万元
D.12.2万元
[解析] ==10,
==8,
=-=8-0.76×10=0.4,
所以当x=15时,=x+=11.8.
2.由一组数据(x1,y1)、(x2,y2)、…、(xn,yn)得到的回归直线方程=x+,则下列说法不正确的是( B )
A.直线=x+必过点(,)
B.直线=x+至少经过点(x1,y1)、(x2,y2)、…、(xn,yn)中的一个点
C.直线=x+的斜率为
D.直线=x+和各点(x1,y1)、(x2,y2)、…、(xn,yn)的偏差是该坐标平面上所有直线与这些点的偏差中最小的直线
3.某学校开展研究性学习活动,某同学获得一组实验数据如下表:
x
1.99
3
4
5.1
6.12
y
1.5
4.04
7.5
12
18.01
对于表中数据,现给出下列拟合曲线,其中拟合程度最好的是( D )
A.y=2x-2
B.y=()x
C.y=log2x
D.y=(x2-1)
[解析] 可以代入检验,当x取相应的值时,所求y与已知y相差平方和最小的便是拟合程度最高的.
4.在某种新型材料的研制中,试验人员获得了下列一组试验数据,现准备用下列四个函数中的一个近似地表示这些数据的规律,其中最接近的一个是( B )
x
1.95
3.00
3.94
5.10
6.12
y
0.97
1.59
1.98
2.35
2.61
A.y=2x
B.y=log2x
C.y=(x2-1)
D.y=2.61cosx
[解析] 作散点图,从图中观察可知,应为对数函数模型.
二、填空题
5.已知线性回归方程=0.75x+0.7,则x=11时,y的估计值是__8.95__.
[解析] 将x=11代入=0.75x+0.7,求得=8.25+0.7=8.95.
6.某市居民2011~2015年家庭年平均收入x(单位:万元)与年平均支出Y(单位:万元)的统计资料如下表:
年份
2011
2012
2013
2014
2015
收入x
11.5
12.1
13
13.5
15
支出Y
6.8
8.8
9.8
10
12
根据统计资料,居民家庭年平均收入的中位数是__13__,家庭年平均收入与年平均支出有__正__线性相关关系.
[解析] 把2011~2015年家庭年平均收入按从小到大顺序排列为11.5,12.1,13,13.3,15,因此中位数为13(万元),由统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正线性相关关系.
三、解答题
7.(2015·重庆文)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份
2010
2011
2012
2013
2014
时间代号t
1
2
3
4
5
储蓄存款y(千亿元)
5
6
7
8
10
(1)求y关于t的回归方程=t+;
(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.
附:回归方程=t+中,
=,=-
.
[解析] (1)
序号
t
y
t2
ty
1
1
5
1
5
2
2
6
4
12
3
3
7
9
21
4
4
8
16
32
5
5
10
25
50
15
36
55
120
由上表,=3,==7.2,=55,iyi=120.
∴==1.2.
=-=7.2-1.2×3=3.6.
∴所求回归直线方程=1.2t+3.6.
(2)当t=6时,代入=1.2×6+3.6=10.8(千亿元).
∴预测该地区2015年的人民币储蓄存款为10.8千亿元.
C级 能力提高
1.在如图所示的5组数据中,去掉__D(3,10)__后,剩下的4组数据线性相关性更强.
[解析] 根据散点图判断两变量的线性相关性,样本数据点越集中在某一直线附近,其线性相关性越强,显然去掉D(3,10)后,其余各点更能集中在某一直线的附近,即线性相关性更强.
2.关于x与y有如下数据:
x
2
4
5
6
8
y
30
40
60
50
70
有如下的两个线性模型:(1)=6.5x+17.5,(2)=7x+17.试比较哪一个拟合效果更好.
[解析] 由(1)可得yi-与yi-的关系如下表:
yi-i
-0.5
-3.5
10
-6.5
0.5
yi-
-20
-10
10
0
20
∴(yi-i)2=155,(yi-)2=1
000.
∴R=1-=1-=0.845.
由(2)可得yi-i与yi-的关系如下表:
yi-i
-1
-5
8
-9
-3
yi-
-20
-10
10
0
20
∴(yi-i)2=180,(yi-)2=1
000.
∴R=1-=1-=0.82.
∵R=0.845,R=0.82,0.845>0.82,
∴R>R.
∴(1)的拟合效果好于(2)的拟合效果.1.2
独立性检验的基本思想及其应用
A级 基础巩固
一、选择题
1.下列关于等高条形图的叙述正确的是( C )
A.从等高条形图中可以精确地判断两个分类变量是否有关系
B.从等高条例形图中可以看出两个变量频数的相对大小
C.从等高条形图可以粗略地看出两个分类变量是否有关系
D.以上说法都不对
[解析] 在等高条形图中仅能粗略判断两个分类变量的关系,故A错.在等高条形图中仅能找出频率,无法找出频数,故B错.
2.在2×2列联表中,两个比值________相差越大,两个分类变量之间的关系越强( A )
A.与   
B.与
C.与
D.与
[解析] 与相差越大,说明ad与bc相差越大,两个分类变量之间的关系越强.
3.在吸烟与患肺病是否有关的研究中,下列属于两个分类变量的是( C )
A.吸烟,不吸烟
B.患病,不患病
C.是否吸烟、是否患病
D.以上都不对
[解析] “是否吸烟”是分类变量,它的两个不同取值;吸烟和不吸烟;“是否患病”是分类变量,它的两个不同取值:患病和不患病.可知A、B都是一个分类变量所取的两个不同值.故选C.
4.下列是一个2×2列联表:
y1
y2
总计
x1
a
21
73
x2
2
25
27
总计
b
46
100
则该表中a、b的值分别为( C )
A.94,96
B.52,50
C.52,54
D.54,52
[解析] a=73-21=52,b=a+2=52+2=54.
5.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( C )
①若K2的观测值满足K2≥6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知有99%的把握认为吸烟与患病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;③从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误
A.① 
B.①③
C.③ 
D.②
[解析] ①推断在100个吸烟的人中必有99人患有肺病,说法错误,排除A,B,③正确.排除D,选C.
6.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
以下各组数据中,对于同一样本能说明X与Y有关系的可能性最大的一组为( D )
A.a=5,b=4,c=3,d=2
B.a=5,b=3,c=4,d=2
C.a=2,b=3,c=4,d=5
D.a=2,b=3,c=5,d=4
[解析] 比较|-|.
选项A中,|-|=;
选项B中,|-|=;
选项C中,|-|=;
选项D中,|-|=.故选D.
二、填空题
7.为了调查患慢性气管炎是否与吸烟有关,调查了339名50岁以下的人,调查结果如下表:
患慢性气管炎
未患慢性气管炎
合计
吸烟
43
162
205
不吸烟
13
121
134
合计
56
283
339
根据列表数据,求得K2的观测值k≈__7.469__.
[解析] K=≈7.469.
8.调查者通过随机询问72名男女中学生喜欢文科还是理科,得到如下列联表(单位:名)
性别与喜欢文科还是理科列联表
喜欢文科
喜欢理科
总计
男生
8
28
36
女生
20
16
36
总计
28
44
72
中学生的性别和喜欢文科还是理科__有__关系.(填“有”或“没有”)
[解析] 通过计算K2的观测值k=≈8.42>7.879.故我们有99.5%的把握认为中学生的性别和喜欢文科还是理科有关系.
三、解答题
9.运动员参加比赛前往往做热身运动,下表是一体育运动的研究机构对160位专业运动员追踪而得的数据,试问:由此数据,你认为运动员受伤与不做热身运动有关吗?
受伤
不受伤
总计
做热身
19
76
95
不做热身
45
20
65
总计
64
96
160
[解析] ∵a=19,b=76,c=45,d=20,a+b=95,c+d=65,a+c=64,b+d=96,n=160.
∴由计算公式得K2=≈38.974.
∵38.974>6.635,
∴有99%的把握认为运动员受伤与不做热身运动有关.
B级 素养提升
一、选择题
1.(2016·天津五区县高二检测)某研究中心为研究运动与性别的关系得到2×2列联表如下:
喜欢运动
不喜欢运动
合计
男生
60
20
80
女生
10
10
20
合计
70
30
100
则随机变量K2的观测值约为( A )
A.4.762
B.9.524
C.0.011
9
D.0.023
8
[解析] K2=≈4.762.
2.某研究机构为了研究中年人秃发与心脏病是否有关,随机调查了一些中年人的情况,具体数据如下表:
心脏病
无心脏病
秃发
20
300
不秃发
5
450
根据表中数据得到K2=≈15.968>6.635,所以断定秃发与心脏病有关系,那么这种判断出错的可能性为( D )
A.0.1
B.0.05
C.0.025
D.0.01
[解析] ∵K2>6.635,∴有99%的把握说秃发与患心脏病有关,故这种判断出错的可能性有1-0.99=0.01.
3.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:
认为作业多
认为作业不多
总数
喜欢玩电脑游戏
18
9
27
不喜欢玩电脑游戏
8
15
23
总数
26
24
50
则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为( B )
A.99%
B.95%
C.90%
D.无充分依据
[解析] 由表中数据得k=
≈5.059>3.841.
所以约有95%的把握认为两变量之间有关系.
4.某卫生机构对366人进行健康体检,其中某项检测指标阳性家族史者糖尿病发病的有16人,不发病的有93人;阴性家族史者糖尿病发病的有17人,不发病的有240人,有______的把握认为糖尿病患者与遗传有关系.( D )
A.99.9%
B.99.5%
C.99%
D.97.5%
[解析] 可以先作出如下列联表(单位:人):
糖尿病患者与遗传列联表
糖尿病发病
糖尿病不发病
总计
阳性家族史
16
93
109
阴性家族史
17
240
257
总计
33
333
366
根据列联表中的数据,得到K2的观测值为
k=≈6.067>5.024.
故我们有97.5%的把握认为糖尿病患者与遗传有关系.
5.有两个分类变量X,Y,其一组的2×2列联表如下所示,
Y1
Y2
X1
a
20-a
X2
15-a
30+a
其中a,15-a均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X,Y有关,则a的值为( C )
A.8
B.9
C.8,9
D.6,8
[解析] 根据公式,得K2的观测值k==>3.841,数据a>5且15-a>5,a∈Z,求得a=8,9满足题意.
二、填空题
6.某研究小组为了研究中学生的身体发育情况,在某中学随机抽出20名15至16周岁的男生将他们的身高和体重制成2×2列联表,根据列联表中的数据,可以在犯错误的概率不超过__0.25__的前提下认为该学校15至16周岁的男生的身高和体重之间有关系.
超重
不超重
总计
偏高
4
1
5
不偏高
3
12
15
总计
7
13
20
[解析] 根据公式K2=得,K2的观测值k=≈5.934,
因为k>5.024,因此在犯错误的概率不超过0.025的前提下认为该学校15至16周岁的男生的身高和体重之间有关系.
7.两个分类变量X、Y,它们的取值分别为x1、x2和y1、y2,其列联表为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
若两个分类变量X、Y独立,则下列结论:
①ad≈bc;②≈;③≈;④≈;
⑤≈0.
其中正确的序号是__①②⑤__.
[解析] ∵分类变量X、Y独立,
∴≈×,
化简得ad≈bc,故①⑤正确;
②式化简得ad≈bc,故②正确.
三、解答题
8.(2016·重庆八中高二检测)2016年夏季奥运会在巴西里约热内卢举行.体育频道为了解某地区关于奥运会直播的收视情况.随机抽取了100名观众进行调查.其中40岁以上的观众有55名.下面奥运会直播时间的频率分布表(时间:min):
分组
[0,20)
[20,40)
[40,60)
[60,80)
[80,100)
[100,120)
频率
0.1
0.18
0.22
0.25
0.2
0.05
将每天收看奥运会直播的时间不低于80
min的观众称为“奥运迷”.已知“奥运迷”中有10名40岁以上的观众.
(1)根据已知条件完成下面的2×2列联表;
非“奥运迷”
“奥运迷”
合计
40岁以下
40岁以上
合计
(2)并据此资料你是否有95%以上的把握认为“奥运迷”与年龄有关.
附:K2=
P(K2≥k)
0.05
0.01
k
3.841
6.635
[解析] (1)由题意得100名观众中“奥运迷”共有(0.2+0.05)×100=25名,其中40岁以上的“奥运迷”有10名,∴40岁以下的“奥运迷”有15名,∴2×2列联表如下:
非“奥运迷”
“奥运迷”
合计
40岁以下
30
15
45
40岁以上
45
10
55
合计
75
25
100
(2)K2=
≈4.862>3.841,
∴有95%以上的把握认为“奥运迷”与年龄有关.
C级 能力提高
1.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:
专业性别
非统计专业
统计专业

13
10

7
20
为了判断主修统计专业是否与性别有关系,根据表中的数据,得到
K2=≈4.844,
因为K2≥3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为 5% .
[解析] ∵k>3.841,所以有95%的把握认为主修统计专业与性别有关,出错的可能性为5%.
2.下表是某地区的一种传染病与饮用水的调查表:
得病
不得病
合计
干净水
52
466
518
不干净水
94
218
312
合计
146
684
830
(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;
(2)若饮用干净水得病5人,不得病50人;饮用不干净水得病9人,不得病22人.按此样本数据分析这种传染病是否与饮用水的卫生程度有关,并比较两种样本在反映总体时的差异.
[解析] (1)提出假设H0:传染病与饮用水的卫生程度无关.
由公式得K=≈54.21.
因为54.21>10.828,因此我们有99.9%的把握认为该地区这种传染病与饮用水的卫生程度有关.
(2)依题意得2×2列联表:
得病
不得病
合计
干净水
5
50
55
不干净水
9
22
31
合计
14
72
86
由公式得K=≈5.785.
由5.785>5.024,所以我们有97.5%的把握认为该种传染病与饮用水的卫生程度有关.
两个样本都能统计得到传染病与饮用水的卫生程度有关这一相同结论,但(1)问中我们有99.9%的把握肯定结论的正确性,(2)问中我们只有97.5%的把握肯定结论的正确性.