(共21张PPT)
章末整合
专题一 回归分析?
例1某地收集到的新房屋的销售价格y和房屋的面积x的数据如下表:
房屋面积x/m2
115
110
80
135
105
销售价格y/万元
24.8
21.6
18.4
29.2
22
(1)画出数据对应的散点图;
(2)若y与x线性相关,建立y关于x的经验回归方程;
(3)根据(2)的结果估计当房屋面积为150
m2时的销售价格.
解:(1)数据对应的散点图如图所示.
方法技巧
经验回归方程的求法及应用
变式训练1已知某连锁经营公司的5个零售店某月的销售额和利润额资料如下表:
商店名称
A
B
C
D
E
销售额x/千万元
3
5
6
7
9
利润额y/千万元
2
3
3
4
5
(1)画出散点图;
(2)根据如下的参考公式与参考数据,建立利润额y与销售额x的经验回归方程;
(3)若该公司还有一个零售店某月销售额为10千万元,试估计它的利润额是多少.
解:(1)散点图如下.
专题二 一元线性回归模型分析?
例2在研究弹簧伸长长度y(单位:cm)与拉力x(单位:N)的关系时,对不同拉力的6根弹簧进行测量,测得如下表中的数据:
x/N
5
10
15
20
25
30
y/cm
7.25
8.12
8.95
9.90
10.9
11.8
若依据散点图可知x与y线性相关,且由最小二乘法求出的经验回归方程为
=0.18x+6.34,求R2,并利用R2说明拟合效果.
解:列表求值如下:
方法技巧
一元线性回归模型拟合问题的求解策略
在一元线性回归模型中,R2与相关系数r都能刻画模型拟合数据的效果.|r|越大,R2就越大,用模型拟合数据的效果就越好.
变式训练2关于x与y有以下数据:
x
2
4
5
6
8
y
30
40
60
50
70
专题三 独立性检验?
例3为了调查胃病是否与生活规律有关联,在某地对540名40岁以上的人进行了调查,结果是:患胃病者生活不规律的共60人,患胃病者生活规律的共20人,未患胃病者生活不规律的共260人,未患胃病者生活规律的共200人.
(1)根据以上数据列出2×2列联表;
(2)依据α=0.005的独立性检验,能否认为40岁以上的人患胃病与生活规律有关联?
解:(1)由题意可列2×2列联表如下:
类型
患胃病
未患胃病
合计
生活规律
20
200
220
生活不规律
60
260
320
合计
80
460
540
(2)零假设为H0:40岁以上的人患胃病与生活规律无关联.根据列联表得
依据α=0.005的独立性检验,我们推断H0不成立,即认为40岁以上的人患胃病和生活规律有关联.
方法技巧
独立性检验的一般步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式计算χ2;
(3)比较χ2与临界值xα的大小关系,得到推断结论.
变式训练3为了解某班学生喜爱打篮球是否与性别有关联,对本班50人进行问卷调查得到了如下的列联表:
性别
喜爱打篮球
不喜爱打篮球
合计
男生
?
5
?
女生
10
?
?
合计
?
?
50
已知在全部50人中随机抽取1人抽到喜爱打篮球的学生的概率为0.6.
(1)请将上面的列联表补充完整(不用写计算过程).
(2)依据α=0.01的独立性检验,能否认为喜爱打篮球与性别有关联?说明你的理由.
解:(1)依题意可知喜爱打篮球的学生的人数为50×0.6=30.
列联表补充如下:
性别
喜爱打篮球
不喜爱打篮球
合计
男生
20
5
25
女生
10
15
25
合计
30
20
50
(2)零假设为H0:喜爱打篮球与性别无关联.根据列表中的数据,经计
性检验,我们推断H0不成立,即认为喜爱打篮球与性别有关联.第八章测评
(时间:120分钟 满分:150分)
一、选择题(本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.(2020陕西绥德中学高二月考)在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关联时,最有说服力的方法是( )
A.平均数与方差
B.回归分析
C.独立性检验
D.概率
答案C
2.(2019天津高二期中)一般地,在两个分类变量的独立性检验过程中有如下表格:
α
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
xα
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
已知两个分类变量X和Y,零假设为H0:X和Y有关联.如果依据α=0.025的独立性检验,我们推断H0不成立,即认为X和Y有关联,那么χ2可以位于的区间是
( )
A.(0.025,0.05)
B.(0.010,0.025)
C.[3.841,5.024)
D.[5.024,7.879)
答案D
3.从某高中女学生中选取10名学生,根据其身高(单位:cm)、体重(单位:kg)数据,得到体重关于身高的经验回归方程=0.85x-85,用来刻画回归效果的R2=0.6,则下列说法正确的是( )
A.这些女学生的体重和身高具有非线性相关关系
B.这些女学生的体重差异有60%是由身高引起的
C.身高为170
cm的女学生的体重一定为59.5
kg
D.这些女学生的身高每增加0.85
cm,其体重约增加1
kg
解析因为经验回归方程为=0.85x-85,且刻画回归效果的R2=0.6,所以这些女学生的体重和身高具有线性相关关系,故A错误;这些女学生的体重差异有60%是由身高引起的,故B正确;当x=170时,=0.85×170-85=59.5,预测身高为170
cm的女学生体重为59.5
kg,故C错误;这些女学生的身高每增加0.85
cm,其体重约增加0.85×0.85=0.722
5(kg),故D错误.
故选B.
答案B
4.(2020山西大同一中高二月考)下列关于回归分析的说法错误的是( )
A.经验回归直线一定过()
B.在残差图中,残差比较均匀地落在水平的带状区域中,说明选用的模型比较合适
C.两个模型的残差平方和越小的模型拟合的效果越好
D.若甲、乙两个模型的R2分别约为0.98和0.80,则模型乙的拟合效果更好
解析对于A,经验回归直线一定过(),正确;
对于B,可用残差图判断模型的拟合效果,残差比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高,故正确;
对于C,可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好,故正确;
对于D,因为R2取值越大,说明残差平方和越小,模型的拟合效果越好,又因为甲、乙两个模型的R2分别约为0.98和0.80,且0.98>0.80,所以甲模型的拟合效果好,故不正确.
故选D.
答案D
5.(2020江苏高二期末)对某同学7次考试的数学成绩x和物理成绩y进行分析,下面是该生7次考试的成绩.
数学
88
83
117
92
108
100
112
物理
94
91
108
96
104
101
106
发现他的物理成绩y与数学成绩x是线性相关的,利用最小二乘法得到经验回归方程为=0.5x+.若该生的数学成绩达到130分,则估计他的物理成绩是( )
A.114.5分
B.115分
C.115.5分
D.116分
解析由题可知=100,=100,
所以-0.5=100-0.5×100=50.
当x=130时,=0.5×130+50=115.
故选B.
答案B
6.(2020广西南宁三中高二期中)某企业有两个分厂生产某种零件,为了研究两个分厂生产零件的质量是否有差异,随机从两个分厂生产的零件中各抽取了500件,具体数据如下表所示:
类别
甲厂
乙厂
合计
优质品
360
320
680
非优质品
140
180
320
合计
500
500
1
000
零假设为H0:两个分厂生产零件的质量无差异.根据表中数据得χ2=≈7.353,从而断定两个分厂生产零件的质量有差异,则这种判断出错的最大可能性为( )
附表:
α
0.10
0.05
0.025
0.010
0.005
0.001
xα
2.706
3.841
5.024
6.635
7.879
10.828
A.0.1
B.0.01
C.0.05
D.0.001
解析由题意可知7.879>χ2>6.635,根据附表可得这种判断出错的最大可能性为0.01.故选B.
答案B
7.(2020河北高三月考)某市2015年至2019年新能源汽车年销量y(单位:百台)与年份代号x的数据如下表:
年份
2015
2016
2017
2018
2019
年份代号x
0
1
2
3
4
年销量y
10
15
20
m
35
若根据表中的数据用最小二乘法求得y关于x的经验回归方程为=6.5x+9,则表中m的值为( )
A.22
B.25.5
C.28.5
D.30
解析由=2,代入经验回归方程=6.5x+9,可得=6.5×2+9=22.
结合表中数据可知=22,解得m=30.
故选D.
答案D
8.(2020辽宁高三二模)已知某设备的使用年限x(单位:年)和所支出的维修费用y(单位:万元)有如下的统计资料,
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
由上表可得经验回归方程x+0.08,若规定当维修费用y>12时该设备必须报废,则据此模型预测该设备使用年限的最大值为( )
A.7
B.8
C.9
D.10
解析由已知表格得(2+3+4+5+6)=4,(2.2+3.8+5.5+6.5+7.0)=5,
又因为经验回归直线恒过(),所以有5=4b+0.08,解得b=1.23,
所以经验回归方程=1.23x+0.08.
由y>12,得1.23x+0.08>12,解得x>9.69.
因为x∈N
,
所以据此模型预测该设备使用年限的最大值为9.
故选C.
答案C
二、选择题(本题共4小题,每小题5分,共20分.在每小题给出的选项中,有多项符合题目要求.全部选对的得5分,有选错的得0分,部分选对的得3分)
9.(2020江苏常熟中学高二月考)设某高中的男生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的经验回归方程为=0.85x-80.71,则下列结论正确的是( )
A.y与x正相关
B.经验回归直线过()
C.若该高中某男生身高增加1
cm,则其体重约增加0.85
kg
D.若该高中某男生身高为170
cm,则可断定其体重必为63.79
kg
解析对于A,由=0.85>0可得y与x正相关,故A正确;
对于B,由经验回归方程的性质可得经验回归直线过(),故B正确;
对于C,该高中某男生身高增加1
cm,由经验回归方程中的=0.85可知,其体重约增加0.85
kg,故C正确;
对于D,若该高中某男生身高为170
cm,则其体重约(不是断定)为63.79
kg,故D错误.
故选ABC.
答案ABC
10.给出以下四个说法,其中正确的说法是( )
A.残差分布的带状区域的宽度越窄,R2越小
B.在刻画经验回归模型的拟合效果时,R2的值越大,说明拟合的效果越好
C.在经验回归方程=0.5x+12中,当解释变量x每增加一个单位时,响应变量增加0.5个单位
D.对分类变量X与Y,若它们的χ2越小,则推断X与Y有关联时犯错误的概率越小
解析在回归分析时,残差图中残差分布的带状区域的宽度越窄,说明拟合精度越高,R2的绝对值越接近1,故A错误.
用R2来刻画回归的效果时,R2值越大,说明模型的拟合效果越好,故B正确.
在经验回归方程=0.5x+12中,当解释变量x每增加一个单位时,响应变量增加0.5个单位,故C正确.
对分类变量X与Y,它们的χ2越小,推断X与Y有关联时犯错误的概率越大;χ2越大,推断X与Y有关联时犯错误的概率越小.故D错误.
故选BC.
答案BC
11.(2020山东烟台教育科学研究院高三模拟)某校计划在课外活动中新增攀岩项目,为了解学生喜欢攀岩和性别是否有关联,面向学生开展了一次随机调查,其中参加调查的男、女生人数相同,男生喜欢攀岩的占80%,女生不喜欢攀岩的占70%,则( )
参考公式:χ2=.
α
0.05
0.01
xα
3.841
6.635
A.参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多
B.参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多
C.若参与调查的男、女生人数均为100人,则依据α=0.01的独立性检验认为喜欢攀岩和性别有关联
D.无论参与调查的男、女生人数为多少,都可以依据α=0.01的独立性检验认为喜欢攀岩和性别有关联
解析由题意设参加调查的男、女生人数均为m人,则得到如下2×2列联表:
性别
喜欢攀岩
不喜欢攀岩
合计
男生
0.8m
0.2m
m
女生
0.3m
0.7m
m
合计
1.1m
0.9m
2m
所以参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多,参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数少,故A正确,B错误.
零假设为H0:喜欢攀岩和性别无关联.由列联表中的数据,计算得到χ2=,
当m=100时,χ2=≈50.505>6.635=x0.01,
所以当参与调查的男、女生人数均为100人时,依据α=0.01的独立性检验,我们推断H0不成立,即认为喜欢攀岩和性别有关联,故C正确,D错误.故选AC.
答案AC
12.(2020山东高三三模)2020年3月12日,国务院新闻办公室发布会重点介绍了改革开放40年,特别是党的十八大以来我国脱贫攻坚、精准扶贫取得的显著成绩,这些成绩为全面脱贫初步建成小康社会奠定了坚实的基础.统计局公布的2010~2019年年底的贫困人口和贫困发生率统计图如图所示,则下面结论正确的是( )
(年底贫困人口的经验回归方程为=-1
609.9x+15
768(其中x=年份-2009),贫困发生率的经验回归方程为=-1.672
9x+16.348(其中x=年份-2009))
A.2010~2019年十年间脱贫人口逐年减少,贫困发生率逐年下降
B.2012~2019年连续八年每年减贫超过1
000万,且2019年贫困发生率最低
C.2010~2019年十年间超过1.65亿人脱贫,其中2015年贫困发生率低于6%
D.根据图中趋势线可以预测,到2020年底我国将实现全面脱贫
解析每年脱贫的人口如下表所示:
时间
贫困人口
脱贫人口
2009年底至2010年年底
16
566
2010年底至2011年年底
12
238
4
328
2011年底至2012年年底
9
899
2
339
2012年底至2013年年底
8
249
1
650
2013年底至2014年年底
7
017
1
232
2014年底至2015年年底
5
575
1
442
2015年底至2016年年底
4
335
1
240
2016年底至2017年年底
3
046
1
289
2017年底至2018年年底
1
660
1
386
2018年底至2019年年底
551
1
109
因为缺少2009年年底数据,所以无法统计十年间脱贫人口的数据,故A错误,C错误;
根据上表可知2012~2019年连续八年每年减贫超过1
000万,且2019年贫困发生率最低,故B正确;
根据上表可知,2012~2019年连续八年每年减贫超过1
000万,2019年年底贫困人口为551万人,故预计到2020年底我国将实现全面脱贫,故D正确.
故选BD.
答案BD
三、填空题(本题共4小题,每小题5分,共20分)
13.某高校“统计初步”课程的教师随机统计了一些学生的情况,具体数据如下表:
性别
不选该课程
选择该课程
男
13
10
女
7
20
根据表中的数据,依据α= 独立性检验认为选择该门课程与性别有关联.?
解析零假设为H0:选择该门课程与性别无关联.根据表中的数据,得到
χ2=≈4.84>3.841=x0.05,
依据α=0.05的独立性检验,我们推断H0不成立,即认为选择该门课程与性别有关联.
答案0.05
14.(2020山西高二月考)为了比较甲、乙、丙、丁四组数据的线性相关程度的强弱,某人分别计算了甲、乙、丙、丁四组数据的样本相关系数,其数值分别为-0.95,0.87,0.58,0.92,则这四组数据中线性相关程度最强的是 组数据.?
解析因为样本相关系数的绝对值越大,线性相关程度越强,所以甲组数据的线性相关程度最强.
答案甲
15.(2020广东高三模拟)某厂2020年1~4月份用水量(单位:百吨)的一组数据如下表:
月份x
1
2
3
4
用水量y
2.5
3
4
4.5
根据上表可画出散点图(图略),由散点图可知,用水量y与月份x之间有较明显的线性相关关系,其经验回归方程是x+1.75,则预测2020年6月份该厂的用水量为 百吨.?
解析由题意可知=2.5,
=3.5.
又因为经验回归直线经过(),
所以3.5=2.5+1.75,
解得=0.7.
所以=0.7x+1.75.
当x=6时,=0.7×6+1.75=5.95.
所以预测2020年6月份该厂的用水量为5.95百吨.
答案5.95
16.世界20个地区受教育程度的人口百分比与人均收入的散点图如图所示,样本点基本集中在一个条型区域,因此两个变量具有线性相关关系.利用散点图中的数据建立的经验回归方程为=3.193x+88.193.若受教育程度的人口百分比相差10%,则其人均收入相差 美元.?
解析设受教育程度的人口百分比分别为a%,b%,且a-b=10,
根据经验回归方程为=3.193x+88.193,
可知收入相差大约为3.193×a+88.193-(3.193×b+88.193)=3.193×10=31.93,
即受教育程度的人口百分比相差10%,则其人均收入相差约31.93美元.
答案31.93
四、解答题(本题共6小题,共70分.解答应写出文字说明、证明过程或演算步骤)
17.(10分)(2020福建建瓯芝华中学高二月考)某种商品价格与该商品日需求量之间的几组对照数据如下表:
价格x/(元/kg)
10
15
20
25
30
日需求量y/kg
11
10
8
6
5
由上表数据可知,日需求量y与价格x线性相关.
(1)求y关于x的经验回归方程;
(2)利用(1)中的经验回归方程,计算当价格为40元/kg时,日需求量y的预测值为多少?
参考公式:经验回归方程x+,其中
解(1)由所给数据计算得
(10+15+20+25+30)=20,(11+10+8+6+5)=8,
(xi-)2=(-10)2+(-5)2+02+52+102=250,
(xi-)(yi-)=-10×3+(-5)×2+0×0+5×(-2)+10×(-3)=-80,
所以=-0.32,
=8+0.32×20=14.4.所以所求经验回归方程为=-0.32x+14.4.
(2)由(1)知当x=40时,=-0.32×40+14.4=1.6,故当价格为40元/kg时,日需求量的预测值为1.6
kg.
18.(12分)(2020福建高三模拟)足不出户,手机下单,送菜到家,轻松逛起手机“菜市场”,拎起手机“菜篮子”.在省时省心的同时,线上买菜也面临着质量不佳、物流滞后等问题.“指尖”上的菜篮子该如何守护“舌尖”上的幸福感?某手机APP(应用程序)公司为了解这款APP使用者的满意度,对一小区居民开展“线上购买食品满意度调查”活动,邀请每位使用者填写一份满意度测评表(满分100分).该公司最后共收回1
100份测评表,随机抽取了100份作为样本,得到如下数据:
评分
[40,50)
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
合计
男性
1
4
7
13
12
8
45
女性
0
5
9
11
16
14
55
(1)从表中数据估计收回的测评表评分不小于80分的女性人数.
(2)该公司根据经验,对此APP使用者划分“用户类型”:评分不小于80分的为“A类用户”,评分小于80分的为“B类用户”.
(ⅰ)请根据100个样本数据,完成下面列联表:
A类用户
B类用户
合计
男性
45
女性
55
合计
100
(ⅱ)依据α=0.05的独立性检验,能否认为“用户类型”与性别有关联?
附:χ2=
α
0.050
0.010
0.001
xα
3.841
6.635
10.828
解(1)根据统计数据可知不小于80分的女性比例为.
所以可估计评分不小于80分的女性人数为×1
100=330.
(2)(ⅰ)根据题意,填写列联表如下;
性别
A类用户
B类用户
合计
男性
20
25
45
女性
30
25
55
合计
50
50
100
(ⅱ)零假设为H0:“用户类型”与性别无关联.根据列联表计算χ2=≈1.010<3.841=x0.05,
依据α=0.05的独立性检验,没有充分证据推断出H0不成立,因此可以认为H0成立,即认为“用户类型”与性别无关联.
19.(12分)为推行“新课堂”教学法,某化学老师分别用传统教学和“新课堂”两种不同的教学方式,在甲、乙两个平行班级进行教学实验,为了比较教学效果,期中考试后,分别从两个班级中各随机抽取20名学生的成绩进行统计,结果如下表:记成绩不低于70分者为“成绩优良”.
分数
[50,59)
[60,69)
[70,79)
[80,89)
[90,100]
甲班频数
5
6
4
4
1
乙班频数
1
3
6
5
5
(1)由以上统计数据填写下面2×2列联表,依据α=0.025的独立性检验,能否认为成绩优良与教学方式有关联?
成绩
甲班
乙班
合计
优良
不优良
合计
(2)现从上述40人中,学校按成绩是否优良采用分层随机抽样的方法抽取8人进行考核.在这8人中,记成绩不优良的乙班人数为X,求X的分布列及数学期望.
附:χ2=.
α
0.10
0.05
0.025
0.010
xα
2.706
3.841
5.024
6.635
解(1)
成绩
甲班
乙班
合计
优良
9
15
25
不优良
11
4
15
合计
20
20
40
零假设为H0:成绩优良与教学方式无关联.根据2×2列联表中的数据,可得χ2=≈5.227>5.024=x0.025,
依据α=0.025的独立性检验,我们推断H0不成立,即认为成绩优良与教学方式有关联.
(2)由列联表可知在8人中成绩不优良的人数为×8=3,则X的可能取值为0,1,2,3.
P(X=0)=;
P(X=1)=;
P(X=2)=;
P(X=3)=.
所以X的分布列为
X
0
1
2
3
P
E(X)=0×+1×+2×+3×.
20.(12分)某省从2021年开始,高考采用“3+1+2”的模式,取消文理分科,即“3”包括语文、数学、外语,为必考科目,“1”表示从物理、历史中任选一门,“2”表示从生物、化学、地理、政治中选择两门,共计六门考试科目.某高中从高一年级2
000名学生(其中女生900人)中,采用分层随机抽样的方法抽取n名学生进行调查.
(1)已知抽取的n名学生中含男生110人,求n的值及抽取到的女生人数.
(2)学校计划在高二上学期开设选修中的“物理”和“历史”两个科目,为了了解学生对这两个科目的选课情况,对在(1)的条件下抽取到的学生进行问卷调查(假定每名学生在这两个科目中必须选择一个科目且只能选择一个科目).下表是根据调查结果得到的2×2列联表,请将列联表补充完整,依据α=0.005的独立性检验能否认为选择科目与性别有关联?说明你的理由.
选择物理
选择历史
合计
男生
50
女生
30
合计
(3)在(2)的条件下,从抽取的选择“物理”的学生中按分层随机抽样抽取6人,再从这6名学生中抽取2人,对“物理”的选课意向作深入了解,求2人中至少有1名女生的概率.
附:χ2=.
解(1)因为,所以n=200.所以女生人数为200-110=90.
(2)零假设为H0:选择科目与性别无关联.列联表为:
性别
选择物理
选择历史
合计
男生
60
50
110
女生
30
60
90
合计
90
110
200
所以χ2=≈8.999>7.879=x0.005,
所以依据α=0.005的独立性检验,我们推断H0不成立,即认为选择科目与性别有关联.
(3)从90个选择物理的学生中采用分层随机抽样的方法抽6名,
这6名学生中有4名男生,记为a,b,c,d;2名女生记为A,B,
抽取2人所有的情况为(a,b),(a,c),(a,d),(a,A),(a,B),(b,c),(b,d),(b,A),(b,B),(c,d),(c,A),(c,B),(d,A),(d,B),(A,B)共15种,
选取的2人中至少有1名女生情况的有(a,A),(a,B),(b,A),(b,B),(c,A),(c,B),(d,A),(d,B),(A,B)共9种,
故所求概率P=.
21.(12分)(2020河南高三模拟)新冠肺炎疫情期间,各地均响应“停课不停学,停课不停教”的号召,开展了网课学习.为了检查网课学习的效果,某机构对2
000名学生进行了网上调查,发现有些学生上网课时有家长在旁督促,而有些没有.将这2
000名学生网课学习后通过考试分成“成绩上升”和“成绩没有上升”两类,对应的人数如下表所示:
类别
成绩上升
成绩没有上升
合计
有家长督
促的学生
500
300
800
没有家长
督促的学生
700
500
1
200
合计
1
200
800
2
000
(1)依据α=0.1的独立性检验,能否认为家长督促学生上网课与学生的成绩上升有关联?
(2)从有家长督促的800名学生中按成绩是否上升,采用分层随机抽样的方法抽出8人,再从这8人中随机抽取3人做进一步调查,记抽到一名成绩上升的学生得1分,抽到一名成绩没有上升的学生得-1分,抽取3名学生的总得分用X表示,求X的分布列和均值.
附:χ2=.
α
0.100
0.050
0.010
0.001
xα
2.706
3.841
6.635
10.828
解(1)零假设为H0:家长督促学生上网课与学生的成绩上升无关联.由题中数据可知,
χ2=≈3.472>2.706=x0.1.
依据α=0.1的独立性检验,我们推断H0不成立,即认为家长督促学生上网课与学生的成绩上升有关联.
(2)由题意可知,从有家长督促的800名学生中按分层随机抽样法抽出8人,其中成绩上升的有5人,成绩没有上升的有3人,再从这8人中随机抽取3人,随机变量X所有可能取的值为-3,-1,1,3,
则P(X=-3)=,
P(X=-1)=,
P(X=1)=,
P(X=3)=.
所以X的分布列为
X
-3
-1
1
3
P
E(X)=-3×-1×+1×+3×.
22.(12分)(2020甘肃镇原中学高二期中)近期某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期.由于推广期内优惠力度较大,吸引了越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次(单位:十人次),统计数据如下表所示:
x
1
2
3
4
5
6
7
y
6
11
21
34
66
101
196
根据以上数据,绘制了散点图.
(1)根据散点图判断,在推广期内,y=a+bx与y=c·dx(c,d均为大于零的常数)哪一个适宜作为扫码支付的人次y关于活动推出天数x的经验回归模型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中的数据,求y关于x的经验回归方程,并预测活动推出第8天使用扫码支付的人次.
参考数据:其中vi=lg
yi,vi
xiyi
xivi
100.54
62.14
1.54
2
535
50.12
3.47
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归方程u的斜率和截距的最小二乘估计分别为.
(3)微信是现代生活进行信息交流的重要工具,据统计,某公司200名员工中90%的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信在一小时以上.若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,则使用微信的人中75%是青年人.若规定每天使用微信时间在一小时以上为经常使用微信,则经常使用微信的员工中都是青年人.依据α=0.001的独立性检验,能否认为经常使用微信与年龄有关联?
附:
α
0.05
0.025
0.010
0.005
0.001
xα
3.841
5.024
6.635
7.879
10.828
χ2=
解(1)根据散点图判断y=c·dx适宜作为扫码支付的人次y关于活动推出天数x的经验回归模型.
(2)由(1)知y=c·dx,两边同时取对数得lg
y=lg
c+(lg
d)·x,
由题意知vi=lg
yi,=1.54,xivi=50.12,=4,
=12+22+32+42+52+62+72=140,
所以lg
d==0.25,
所以lg
c=-lg
d·=1.54-0.25×4=0.54.所以v=0.54+0.25x,即lg
y=0.54+0.25x,
则y关于x的经验回归方程为=100.54+0.25x=3.47×100.25x,
当x=8时,=3.47×102=347,故预测活动推出第8天使用扫码支付的人次为347.
(3)由已知得该公司员工中使用微信的有200×90%=180(人),
经常使用微信的有180-60=120(人),其中青年人有120×=80(人),使用微信的人中青年人有180×75%=135(人).
作出列联表如下:
类型
青年人
中年人
合计
经常使用微信
80
40
120
不经常使用微信
55
5
60
合计
135
45
180
零假设为H0:经常使用微信与年龄无关联.将列联表中的数据代入公式可得χ2=≈13.333>10.828=x0.001,
依据α=0.001的独立性检验,我们推断H0不成立,即认为经常使用微信与年龄有关联.