课件32张PPT。第三章 统计案例回归分析独立性检验按ESC键退出全屏播放本部分内容讲解结束
[A 基础达标]
1.对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(xn,yn),则下列说法中不正确的是( )
A.由样本数据得到的回归方程=x+必过样本点的中心(,)
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数R2来刻画回归效果,R2的值越小,说明模型的拟合效果越好
D.若变量y和x之间的相关系数r=-0.936 2,则变量y与x之间具有线性相关关系
解析:选C.R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好,故选C.
2.下列说法中正确的有:( )
①若r>0,则x增大时,y也相应增大;
②若r<0,则x增大时,y也相应增大;
③若r=1或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上.
A.①② B.②③
C.①③ D.①②③
解析:选C.若r>0,表示两个相关变量正相关,x增大时,y也相应增大,故①正确;r<0,表示两个变量负相关,x增大时,y相应减小,故②错误;|r|越接近1,表示两个变量相关性越高,|r|=1表示两个变量有确定的关系(即函数关系),故③正确.
3.若两个变量的残差平方和是325,=923,则随机误差对预报变量的贡献率约为( )
A.64.8% B.60%
C.35.2% D.40%
解析:选C.由题意可知随机误差对预报变量的贡献率约为≈0.352.
4.关于残差和残差图,下列说法正确的是( )
A.残差就是随机误差
B.残差图的纵坐标是残差
C.残差点均匀分布的带状区域的宽度越窄,说明模型拟合精度越高
D.残差点均匀分布的带状区域的宽度越窄,说明模型拟合精度越低
解析:选C.根据残差分析的概念可知,C选项正确.残差是真实值减去估计值.
5.某考察团对全国10个城市进行职工人均工资水平x(千元)与居民人均消费水平y(千元)统计调查,发现y与x具有相关关系,回归方程为=0.66x+1.562,若某城市居民人均消费水平为7.675(千元),估计该城市人均消费额占人均工资收入的百分比约为( )
A.72% B.83%
C.67% D.66%
解析:选B.因为当=7.675时,x=≈9.262,所以≈0.829≈83%.
6.根据如下所示的列联表得到如下四个判断:①在犯错误的概率不超过0.001的前提下认为患肝病与嗜酒有关;②在犯错误的概率不超过0.01的前提下认为患肝病与嗜酒有关;③认为患肝病与嗜酒有关的出错的可能为0.001%,④没有证据显示患肝病与嗜酒有关.
分类
嗜酒
不嗜酒
总计
患肝病
7 775
42
7 817
未患肝病
2 099
49
2 148
总计
9 874
91
9 965
其中正确命题的个数为( )
A.1 B.2
C.3 D.4
解析:选B.由列联表可求K2的观测值
k=≈56.632,
由56.632>10.828>6.635.
且P(K2≥10.828)≈0.001,P(K2≥6.635)≈0.010.
所以①,②均正确.
7.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如表),由最小二乘法求得回归方程=0.67x+54.9.
零件数x/个
10
20
30
40
50
加工时间y/min
62
75
81
89
现发现表中有一个数据看不清,请你推断出该数据的值为________.
解析:由表格知=30,得=0.67×30+54.9=75.
设表中的“模糊数字”为a.
则a+62+75+81+89=75×5,
所以a=68.
答案:68
8.(2019·济南高二检测)“双十一”已经成为网民们的网购狂欢节,某电子商务平台对某市的网民在今年“双十一”的网购情况进行摸底调查,用随机抽样的方法抽取了100人,其消费金额t(百元)的频率分布直方图如图所示:
(1)求网民消费金额t的平均值 和中位数t0.
(2)把下表中空格里的数填上,并判断能否在犯错误的概率不超过0.1的前提下认为网购消费与性别有关.
男
女
总计
t≥t0
t30
总计
45
附表:
P(K2≥k0)
0.15
0.10
0.05
k0
2.072
2.706
3.841
K2=
解:(1)以每组的中间值代表本组的消费金额,则网民消费金额t的平均值
=2.5×0.2+7.5×0.3+12.5×0.2+17.5×0.15+22.5×0.1+27.5×0.05=11.5.
直方图中第一组,第二组的频率之和为0.04×5+0.06×5=0.5.
所以t的中位数t0=10.
(2)
男
女
总计
t≥t0
25
25
50
t20
30
50
总计
45
55
100
K2的观测值k=
=≈1.01<2.706,
所以不能在犯错误的概率不超过0.1的前提下认为网购消费与性别有关.
9.某城市理论预测2013年到2017年人口总数与年份的关系如表所示:
年份2013+x(年)
0
1
2
3
4
人口数y(十万)
5
7
8
11
19
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,求出y关于x的线性回归方程=x+;
(3)据此估计2020年该城市人口总数.
解:(1)散点图如图:
(2)因为==2,
==10,
xiyi=0×5+1×7+2×8+3×11+4×19=132,
x=02+12+22+32+42=30,
所以==3.2,
=- =3.6;
所以线性回归方程为=3.2x+3.6.
(3)令x=7,则=3.2×7+3.6=26.
即估计2020年该城市人口总数为26十万.
[B 能力提升]
10.为了调查患慢性气管炎是否与吸烟有关,调查了100名50岁以下的人,调查结果如下表:
患慢性气管炎
未患慢性气管炎
总计
吸烟
20
20
40
不吸烟
5
55
60
总计
25
75
100
根据列联表数据,求得K2=________(保留3位有效数字),根据下表,在犯错误的概率不超过________的前提下认为患慢性气管炎与吸烟有关.
附:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
K2=.
解析:K2的观测值k=≈22.2>10.828.
所以在犯错误的概率不超过0.001的前提下认为患慢性气管炎与吸烟有关.
答案:22.2 0.001
11.某省电视台为了解该省卫视一档成语类节目的收视情况,抽查东、西部各5个城市,得到观看该节目的人数的统计数据(单位:千人),并画出如下茎叶图,其中一个数字被污损.
(1)求东部各城市观看该节目的观众的平均人数超过西部各城市观看该节目的观众的平均人数的概率;
(2)该节目的播出极大地激发了观众对成语知识学习积累的热情,现从观看节目的观众中随机统计了4位观众学习成语知识的周均时间(单位:小时)与年龄(单位:岁),并制作了如下对照表:
年龄x
20
30
40
50
周均学习成语知识时间y
2.5
3
4
4.5
根据表中数据,试求线性回归方程=x+,并预测年龄为60岁的观众周均学习成语知识的时间.
参考公式:=,=-.
解:(1)设被污损的数字为a,则a有10种情况.
由88+89+90+91+92>83+83+87+90+a+99,得a<8,
所以有8种情况使得东部各城市观看该节目的观众的平均人数超过西部各城市观看该节目的观众的平均人数,
所求概率为=.
(2)由表中数据,计算得=35,=3.5,===,
=-=3.5-×35=.
所以=x+.
当x=60时,=5.25.
即预测年龄为60岁的观众周均学习成语知识的时间为5.25小时.
12.(选做题)为了调查某地区成年人血液的一项指标,现随机抽取了成年男性、女性各20人组成一个样本,对他们的这项血液指标进行了检测,得到了如下茎叶图.根据医学知识,我们认为此项指标大于40为偏高,反之即为正常.
(1)依据上述样本数据研究此项血液指标与性别的关系,列出2×2列联表,并判断能否在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系?
(2)以样本估计总体,视样本频率为概率,现从本地区随机抽取成年男性、女性各2人,求此项血液指标为正常的人数X的分布列及数学期望.
附:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.025
0.010
0.005
k0
5.024
6.635
7.879
解:(1)由茎叶图可得2×2列联表:
正常
偏高
合计
男性
16
4
20
女性
12
8
20
合计
28
12
40
K2==≈1.905<6.635,
所以不能在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系.
(2)由样本数据可知,男性正常的概率为,女性正常的概率为.
此项血液指标为正常的人数X的可能取值为0,1,2,3,4.
P(X=0)==,
P(X=1)=C+C·=,
P(X=2)=+CC·+=,
P(X=3)=C+C·=,
P(X=4)==,
所以X的分布列为
X
0
1
2
3
4
P
所以E(X)=0×+1×+2×+3×+4×=2.8,
即此项血液指标为正常的人数X的数学期望为2.8.
章末综合检测(三)
(时间:120分钟,满分:150分)
一、选择题:本题共12小题,每小题5分,在每小题给出的四个选项中,只有一项是符合题目要求的.
1.在吸烟与患肺病是否有关的研究中,下列属于两个分类变量的是( )
A.吸烟,不吸烟
B.患病,不患病
C.是否吸烟,是否患病
D.以上都不对
解析:选C.“是否吸烟”是分类变量,它的两个不同取值:吸烟和不吸烟;“是否患病”是分类变量,它的两个不同取值:患病和不患病.可知A,B都是一个分类变量所取的两个不同值.故选C.
2.已知回归方程=x+,其中=3,且样本点的中心为(1,2),则回归直线方程为( )
A.=x+3
B.=-2x+3
C.=-x+3
D.=x-3
解析:选C.因为回归方程一定经过样本点的中心,所以只需将样本点的中心坐标代入方程,用待定系数法求出即可.
3.每一吨铸铁成本y(元)与铸件废品率x%建立的回归方程=56+8x,下列说法正确的是( )
A.废品率每增加1%,成本每吨增加64元
B.废品率每增加1%,成本每吨增加8%
C.废品率每增加1%,成本每吨增加8元
D.如果废品率增加1%,则每吨成本为56元
解析:选C.根据回归方程知y是关于x的单调递增函数,并且由系数知x每增加一个单位,y平均增加8个单位.
4.观察下列各图,其中两个分类变量之间关系最强的是( )
解析:选D.在四幅图中,D图中两个阴影条的高相差最明显,说明两个分类变量之间关系最强.
5.在一次独立性检验中,得出列联表如下:
A
总计
B
200
800
1 000
180
a
180+a
总计
380
800+a
1 180+a
且最后发现,没有充分证据显示两个变量A和B有关系,则a的可能值是( )
A.200 B.720
C.100 D.180
解析:选B.由表得K2的观测值k=,
当a=200时,k=≈103.37>2.706,
此时两个变量A和B有关联;
当a=720时,k==0,
由k≤2.706知此时没有充分的证据显示两个变量A和B有关联,则a的可能值是720.
6.下列关于K2的说法正确的是( )
A.K2在任何相互独立问题中都可以用来检验有关还是无关
B.K2的值越大,两个事件的相关性就越大
C.K2是用来判断两个分类变量是否有关系的,只对于两个分类变量适合
D.K2的观测值k的计算公式为
k=
解析:选C.K2是用来判断两个分类变量是否有关的,故A错;K2的值越大,只能说明有更大地把握认为二者有关系,却不能判断相关性的大小,B错;D中(ad-bc)应为(ad-bc)2.
7.以下关于线性回归的判断,正确的个数是( )
①若散点图中所有点都在一条直线附近,则这条直线为回归直线;
②散点图中的绝大多数点都线性相关,个别特殊点不影响线性回归,如图中的A,B,C三点;
③已知回归直线方程为=0.50x-0.81,则x=25时,y的估计值为11.69;
④回归直线方程的意义是它反映了样本整体的变化趋势.
A.0 B.1
C.2 D.3
解析:选D.能使所有数据点都在它附近的直线不止一条,而据回归直线的定义知只有按最小二乘法求得回归系数,得到的直线=x+才是回归直线,所以①不对;②正确;将x=25代入=0.50x-0.81,得=11.69,所以③正确;④正确.故选D.
8.根据一组样本数据(x1,y1),(x2,y2),…,(xn,yn)的散点图分析存在线性相关关系,求得其回归方程=0.85x-85.7,则在样本点(165,57)处的残差为( )
A.54.55 B.2.45
C.3.45 D.111.55
解析:选B.把x=165代入=0.85x-85.7,得y=0.85×165-85.7=54.55,故残差为57-54.55=2.45.
9.在第29届北京奥运会上,中国健儿取得了51金、21银、28铜的好成绩,稳居金牌榜榜首,由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见,有网友为此进行了调查,在参加调查的2 548名男性中有1 560名持反对意见,2 452名女性中有1 200名持反对意见,在运用这些数据说明性别对判断“中国进入了世界体育强国之列”是否有关系时,用什么方法最有说服力( )
A.平均数与方差
B.回归直线方程
C.独立性检验
D.概率
解析:选C.根据所学内容以及此题所提供的数据可知,要想回答性别对判断“中国进入了世界体育强国之列”是否有关系时,用独立性检验最有说服力.
10.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )
表1
成绩
性别
不及格
及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
表2
视力
性别
好
差
总计
男
4
16
20
女
12
20
32
总计
16
36
52
表3
智商
性别
偏高
正常
总计
男
8
12
20
女
8
24
32
总计
16
36
52
表4
阅读量
性别
丰富
不丰富
总计
男
14
6
20
女
2
30
32
总计
16
36
52
A.成绩 B.视力
C.智商 D.阅读量
解析:选D.结合各列联表中数据,得K2的观测值分别为k1,k2,k3,k4.
因为k1==,
k2==,
k3==,
k4==,
则k4>k2>k3>k1,所以阅读量与性别有关联的可能性最大.
11.某学校开展研究性学习活动,某同学获得一组实验数据如下:(1.99,1.5),(3,4.04),(4,7.5),(5.1,12),(6.12,18.01).对于这组数据,现在给出以下拟合曲线,其中拟合程度最好的是( )
A.y=2x-2 B.y=
C.y=log2x D.y=(x2-1)
解析:选D.本题若求R2或残差来分析拟合效果,运算将很烦琐,计算量太大,可以将各组数据代入检验,发现D最接近.故选D.
12.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归方程=x+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是( )
A.>b′,>a′ B.>b′,<a′
C.<b′,>a′ D.<b′,<a′
解析:选C.法一:b′=2,a′=-2,
由公式=求得,
=,=-=-×=-,
所以<b′,>a′.
法二:过(1,0)和(2,2)的直线方程为y=2x-2,
画出六点的散点图,回归直线的大概位置如图所示,
显然b′>,>a′.
二、填空题:本题共4小题,每小题5分.
13.下表是降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对应数据,根据表中提供的数据,求出y关于x的线性回归方程=0.7x+0.35,那么表中m的值为________.
x
3
4
5
6
y
2.5
m
4
4.5
解析:因为根据所给的表格可以求出
==4.5,==,
因为这组数据的样本点的中心在线性回归直线上,
所以=0.7×4.5+0.35,所以m=3.
答案:3
14.图书馆工作人员想知道每天到图书馆的人数x(百人)与借出的图书本数y(百本)之间的关系,已知上个月图书馆共开放25天,且得到资料:xi=200,yi=300,x=1 660,y=3 696,xiyi=2 436,则y对x的回归直线方程为________.
解析:将已知量代入回归直线方程可得=7.2,=0.6.
答案:=7.2+0.6x
15.某高校“统计专业”课程的教师随机调查了选该课的一些学生情况,具体数据如表:
专业
性别
非统计专业
统计专业
男
13
10
女
7
20
为了判断主修统计专业是否与性别有关系,根据表中的数据,得到随机变量K2的观测值
k=≈4.844>3.841.
因此,判定主修统计专业与性别有关系,那么这种判断出错的概率不超过________.
解析:根据k>3.841,可判断在犯错误的概率不超过0.05的前提下,认为主修统计专业与性别有关系.故出错的概率不超过0.05.
答案:0.05
16.某小卖部为了了解热茶销售量y(杯)与气温x(℃)之间的关系,随机统计了某4天卖出的热茶的杯数与当天气温,并制作了对照表:
气温(℃)
18
13
10
-1
杯数
24
34
38
64
由表中数据算得线性回归方程=x+中的≈-2,预测当气温为-5℃时,热茶销售量为________杯.
解析:根据表格中的数据可求得=×(18+13+10-1)=10,=×(24+34+38+64)=40.
所以=-=40-(-2)×10=60,所以=-2x+60,当x=-5时,=-2×(-5)+60=70.
答案:70
三、解答题:解答应写出文字说明、证明过程或演算步骤.
17.(本小题满分10分)冶炼某种金属可以用旧设备和改造后的新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如表所示.
杂质高
杂质低
旧设备
37
121
新设备
22
202
根据表中数据试判断含杂质的高低与设备改造有无关系.
解:由已知数据得到如下2×2列联表:
杂质高
杂质低
合计
旧设备
37
121
158
新设备
22
202
224
合计
59
323
382
K2的观测值k=≈13.11,由于13.11>10.828,故有99.9%的把握认为含杂质的高低与设备改造是有关的.
18.(本小题满分12分)2018年某市开展了“寻找身边的好老师”活动,市六中积极行动,认真落实,通过微信关注评选“身边的好老师”,并对选出的五位“好老师”的班主任的工作年限和被关注数量进行了统计,得到如下数据:
班主任工作年限x(单位:年)
4
6
8
10
12
被关注数量y(单位:百人)
10
20
40
60
50
(1)若“好老师”的被关注数量y与其班主任的工作年限x满足线性回归方程,试求回归方程=x+,并就此分析:“好老师”的班主任工作年限为15年时被关注的数量;
(2)若用(i=1,2,3,4,5)表示统计数据时被关注数量的“即时均值”(四舍五入到整数),从“即时均值”中任选2组,求这2组数据之和小于8的概率.
解:(1)=8,=36,
==6,
=36-48=-12,
所以=6x-12,
当x=15时,=6×15-12=78(百人).
(2)这5次统计数据,被关注数量的“即时均值”分别为3,3,5,6,4.
从5组“即时均值”任选2组,共有C=10种情况,其中2组数据之和小于8为(3,3),(3,4),(3,4)共3种情况,所以这2组数据之和小于8的概率为.
19.(本小题满分12分)某手机生产企业为了解消费者对某款手机功能的认同情况,通过销售部随机抽取50名购买该款手机的消费者,并发出问卷调查(满分50分),该问卷只有30份给予回复,这30份的评分如表:
男
47,36,28,48,29,48,44,50,46,46,42,45,50,37,35,49
女
38,35,37,48,47,36,38,45,39,29,49,28,44,33
(1)完成下面的茎叶图,并求16名男消费者评分的中位数与14名女消费者评分的平均值.
(2)若大于40分为“满意”,否则为“不满意”,完成2×2列联表,并判断是否在犯错误的概率不超过0.05的前提下认为消费者对该款手机的“满意度”与性别有关.
满意
不满意
总计
男
女
总计
参考公式:K2=,其中n=a+b+c+d
参考数据:
P(K2≥k0)
0.05
0.025
0.01
k0
3.841
5.024
6.635
解:(1)茎叶图如图.
由图可知男消费者评分的中位数是45.5,
女消费者评分的平均值为×(38+35+37+48+47+36+38+45+39+29+49+28+44+33)=39.
(2)由已知数据得2×2列联表如表,
满意
不满意
总计
男
11
5
16
女
5
9
14
总计
16
14
30
K2的观测值k=≈3.274<3.841,所以不能在犯错误的概率不超过0.05的前提下认为消费者对该款手机的“满意度”与性别有关.
20.(本小题满分12分)在统计学中,偏差是指个别测定值与测定的平均值之差,在成绩统计中,我们把某个同学的某科考试成绩与该科班平均分的差叫某科偏差,班主任为了了解个别学生的偏科情况,对学生数学偏差x(单位:分)与物理偏差y(单位:分)之间的关系进行学科偏差分析,决定从全班56位同学中随机抽取一个容量为8的样本进行分析,得到他们的两科成绩偏差数据如表:
学生序号
1
2
3
4
5
6
7
8
数学偏差x/分
20
15
13
3
2
-5
-10
-18
物理偏差y/分
6.5
3.5
3.5
1.5
0.5
-0.5
-2.5
-3.5
(1)已知x与y之间具有线性相关关系,求y关于x的线性回归方程.
(2)若这次考试该班数学平均分为118分,物理平均分为90.5,试预测数学成绩126分的同学的物理成绩.
参考数据:xiyi=324,x=1 256.
解:(1)由题意得,
==,
==,
===,
所以=-=-×=,
故线性回归方程为=x+.
(2)由题意,设该同学的物理成绩为ω,则物理偏差为ω-90.5
而数学偏差为126-118=8,
则(1)的结论可得,ω-90.5=×8+,解得ω=93,所以,可以预测这位同学的物理成绩为93分.
21.(本小题满分12分)孝汉城铁开通后,C5302、C5321两列车乘务组工作人员为了了解乘坐两列车的乘客每月的需求情况,分别在两个车次各随机抽取了100名旅客进行调查,下面是根据调查结果,绘制了乘车次数的频率分布直方图和频数分布表.
C5321次乘客月乘坐次数频数分布表
乘车次数分组
频数
[0,5)
15
[5,10)
20
[10,15)
25
[15,20)
24
[20,25)
11
[25,30]
5
(1)若将频率视为概率,月乘车次数不低于15次的称之为“老乘客”,试问:哪一车次的“老乘客”较多,简要说明理由.
(2)已知在C5321次列车随机抽到的50岁以上人员有35名,其中有10名是“老乘客”,由条件完成下面2×2列联表,并根据资料判断,能否在犯错误的概率不超过0.1的前提下认为年龄与乘车次数有关,并说明理由.
老乘客
新乘客
总计
50岁以上
________
________
________
50岁以下
________
________
________
总计
________
________
________
附:K2=(其中n=a+b+c+d为样本总量)
P(K2≥k0)
0.25
0.15
0.10
0.05
0.025
k0
1.323
2.072
2.706
3.841
5.024
解:(1)根据题意,C5302次“老乘客”的概率为P1=(0.052+0.04+0.008)×5=0.5,
C5321次“老乘客”的概率为P2==0.4,
因为P1>P2,所以C5302次老乘客较多.
(2)填写列联表如下:
老乘客
新乘客
总计
50岁以上
10
25
35
50岁以下
30
35
65
总计
40
60
100
计算K2的观测值k=≈2.93>2.706,所以能够在犯错误的概率不超过0.1的前提下认为年龄与乘车次数有关.
22.(本小题满分12分)国家政府工作报告明确提出,要坚决打好蓝天保卫战,加快解决燃煤污染问题,全面实施散煤综合治理.实施煤改电工程后,某县城的近六个月的月用煤量逐渐减少,6月至11月的用煤量如下表所示:
月份x
6
7
8
9
10
11
用煤量y(千吨)
4.5
***
3
2.5
2
1.2
(1)由于某些原因,y中一个数据丢失,但根据6至9月份的数据得出样本平均值是3.5,求出丢失的数据.
(2)请根据6至9月份的数据,求出y关于x的线性回归方程=x+.
(3)现在用(2)中得到的线性回归方程中得到的估计数据与10月、11月的实际数据的误差来判断该地区的改造项目是否达到预期,若误差均不超过0.3,则认为该地区的改造已经达到预期,否则认为改造未达预期,请判断该地区的煤改电项目是否达预期?(参考公式:线性回归方程=x+,其中==
解:(1)设丢失的数据为m,
则4.5+m+3+2.5=3.5×4得m=4,即丢失的数据是4.
(2)由数据求得=7.5,
由公式求得===-0.7,
所以=-=8.75,
所以y关于x的线性回归方程为=-0.7x+8.75.
(3)当x=10时,=1.75,|1.75-2|=0.25<0.3,同样,当x=11时,=1.05,|1.05-1.2|=0.15<0.3,
所以,该地区的煤改电项目已经达到预期.