中小学教育资源及组卷应用平台
第47讲-变量的相关性与统计案例
考情分析
1.了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系,会通过相关系数比较多组成对数据的相关性;
2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件,会用一元线性回归模型进行预测;3.理解2×2列联表的统计意义,了解2×2列联表独立性检验及其应用.
知识梳理
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.
2.回归分析
对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求回归直线方程;(ⅲ)用回归直线方程作预报.
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归直线方程的求法——最小二乘法.
设具有线性相关关系的两个变量x,y的一组观察值为(xi,yi)(i=1,2,…,n),则回归直线方程=x+的系数为:
称为样本点的中心.
(3)相关系数
①计算相关系数r,r有以下性质:|r|≤1,并且|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱;②|r|>r0.05,表明有95%的把握认为变量x与y之间具有线性相关关系,回归直线方程有意义;否则寻找回归直线方程毫无意义.
3.独立性检验
(1)2×2列联表
B
总计
A
n11
n12
n1+
A
n21
n22
n2+
总计
n+1
n+2
n
其中n1+=n11+n12,n2+=n21+n22,n+1=n11+n21,n+2=n12+n22,n=n11+n21+n12+n22.
(2)χ2统计量
χ2=.
(3)两个临界值:3.841与6.635
当χ2>3.841时,有95%的把握说事件A与B有关;
当χ2>6.635时,有99%的把握说事件A与B有关;
当χ2≤3.841时,认为事件A与B是无关的.
[微点提醒]
1.求解回归方程的关键是确定回归系数,,应充分利用回归直线过样本中心点(,).
2.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.
3.根据回归方程计算的值,仅是一个预报值,不是真实发生的值.
经典例题
考点一 相关关系的判断
【例1】
(1)观察下列各图形,
其中两个变量x,y具有相关关系的图是( )
A.①②
B.①④
C.③④
D.②③
(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )
A.甲
B.乙
C.丙
D.丁
解析 (1)由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.
(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.
答案 (1)C (2)D
规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.
2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关系数r越大,相关性越强.若r>0,则正相关;r<0时,则负相关.
3.线性回归直线方程中:>0时,正相关;<0时,负相关.
考点二 线性回归方程及应用
【例2】某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:
年份x
2013
2014
2015
2016
2017
储蓄存款y(千亿元)
5
6
7
8
10
表1
为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2
012,z=y-5得到下表2:
时间代号t
1
2
3
4
5
Z
0
1
2
3
5
表2
(1)求z关于t的线性回归方程;
(2)通过(1)中的方程,求出y关于x的回归方程;
(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?
(附:对于线性回归方程=x+,
其中=eq
\f(\o(∑,\s\up8(n),\s\do6(i=1))xiyi-n\o(x,\s\up6(-))·\o(y,\s\up6(-)),\o(∑,\s\up8(n),\s\do6(i=1))x-n\o(x,\s\up6(-))2),=-)
解 (1)=3,=2.2,tizi=45,t=55,
==1.2,
=-=2.2-3×1.2=-1.4,
所以=1.2t-1.4.
(2)将t=x-2
012,z=y-5,代入=1.2t-1.4,
得y-5=1.2(x-2
012)-1.4,即=1.2x-2
410.8.
(3)因为=1.2×2
022-2
410.8=15.6,
所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.
规律方法 1.(1)正确理解计算,的公式和准确的计算是求线性回归方程的关键.
(2)回归直线方程=x+必过样本点中心(,).
2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.
(2)对于非线性回归分析问题,应先进行变量代换,
求出代换后的回归直线方程,再求非线性回归方程.
考点三 独立性检验
【例3】环境问题是当今世界共同关注的问题,我国环保总局根据空气污染指数PM2.5浓度,制定了空气质量标准:
空气污染指数
(0,50]
(50,100]
(100,150]
(150,200]
(200,300]
(300,+∞)
空气质量等级
优
良
轻度污染
中度污染
重度污染
严重污染
某市政府为了打造美丽城市,节能减排,从2010年开始考察了连续六年11月份的空气污染指数,绘制了频率分布直方图,经过分析研究,决定从2016年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,若11月份被限行的概率为0.05.
(1)求频率分布直方图中m的值;
(2)若按分层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少有一天空气质量是中度污染的概率;
(3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:
空气质量
优
良
轻度污染
中度污染
重度污染
严重污染
天数
11
27
11
7
3
1
根据限行前6年180天与限行后60天的数据,计算并填写2×2列联表,并回答是否有95%的把握认为空气质量的优良与汽车尾气的排放有关.
空气质量优、良
空气质量污染
总计
限行前
限行后
总计
解 (1)因为限行分单双号,王先生的车被限行的概率为0.05,
所以空气重度污染和严重污染的概率应为0.05×2=0.1,
由频率分布直方图可知(0.004+0.006+0.005+m)×50+0.1=1,解得m=0.003.
(2)因为空气质量良好与中度污染的天气的概率之比为0.3∶0.15=2∶1,
按分层抽样的方法从中抽取6天,则空气质量良好的天气被抽取的有4天,记作A1,A2,A3,A4,
空气中度污染的天气被抽取的有2天,记作B1,B2,
从这6天中随机抽取2天,所包含的基本事件有(A1,A2),(A1,A3),(A1,A4),(A1,B1),(A1,B2),(A2,A3),(A2,A4),(A2,B1),(A2,B2),(A3,A4),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共15个,
记事件A为“至少有一天空气质量是中度污染”,则事件A所包含的事件有(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共9个,
故P(A)==,即至少有一天空气质量是中度污染的概率为.
(3)2×2列联表如下:
空气质量优、良
空气质量污染
总计
限行前
90
90
180
限行后
38
22
60
总计
128
112
240
由表中数据可得,
χ2=≈3.214<3.841,所以没有95%的把握认为空气质量的优良与汽车尾气的排放有关.
规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足n11n22-n12n21≈0.|n11n22-n12n21|越小,说明两个变量之间关系越弱;|n11n22-n12n21|越大,说明两个变量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表:
(2)根据公式计算χ2的值;
(3)比较χ2的值与临界值的大小关系,作统计推断.
[方法技巧]
1.求回归方程,关键在于正确求出系数a^,b^
,由于a^
,b^
的计算量大,计算时应仔细谨慎,分步进行,避免因计算而产生错误.
2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.
课时作业
1.(2020·全国高三月考(理))已知变量,,都是正数,与的回归方程:,且每增加1个单位,减少2个单位,与的回归方程:,则(
)
A.与正相关,与正相关
B.与正相关,与负相关
C.与负相关,与正相关
D.与负相关,与负相关
【答案】D
【解析】由题意,得:,故与正相关,与负相关,可得:与负相关.
2.(2020·全国高三(文))设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1cm,则其体重约增加0.85kg
D.若该大学某女生身高为170cm,则可断定其体重必为58.79kg
【答案】D
【解析】
根据y与x的线性回归方程为
y=0.85x﹣85.71,则
=0.85>0,y
与
x
具有正的线性相关关系,A正确;
回归直线过样本点的中心(),B正确;
该大学某女生身高增加
1cm,预测其体重约增加
0.85kg,C正确;
该大学某女生身高为
170cm,预测其体重约为0.85×170﹣85.71=58.79kg,D错误.
3.(2020·河南洛阳·高三月考(文))我国在有效防控疫情的同时积极有序推进复工复产,各旅游景区也逐渐恢复开放.某景区对重新开放后的月份与该月游客的日平均人数(单位:千人/天)进行了统计分析,得出下表数据:
月份
日平均人数
若与线性相关.且求得其线性回归方程为,则表中的值为(
)
A.
B.
C.
D.无法确定
【答案】B
【解析】由表格中的数据可得,,
将点的坐标代入回归直线方程得,解得.
4.(2020·湖北襄城·襄阳四中高三月考(文))某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如表),由最小二乘法求得回归方程为.
零件数个
10
20
30
40
50
加工时间
62
75
81
89
现发现表中有一个数据模糊看不清,则该数据为(
)
A.68
B.68.3
C.68.5
D.70
【答案】A
【解析】,
设模糊看不清的数据为,
则,
∴,即.
5.(2020·西安市长安区第五中学高三月考(文))若变量之间是线性相关关系,则由数据表得到的回归直线必过定点(
)
A.
B.
C.
D.
【答案】C
【解析】解:因为
所以回归直线必过定点
故选:C
6.(2020·江苏常州·高二期末)对某同学7次考试的数学成绩x和物理成绩y进行分析,下面是该生7次考试的成绩.
数学
88
83
117
92
108
100
112
物理
94
91
108
96
104
101
106
发现他的物理成绩y与数学成绩x是线性相关的,利用最小二乘法得到线性回归方程为=,若该生的数学成绩达到130分,估计他的物理成绩大约是(
)
A.114.5
B.115
C.115.5
D.116
【答案】B
【解析】由题可知:,,
所以,
当时
,
7.(2020·广东月考)在一项调查中有两个变量和,下图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为关于的回归方程的函数类型是(
)
A.
B.
C.
D.()
【答案】B
【解析】散点图呈曲线,排除A选项,且增长速度变慢,排除选项C、D,故选B.
8.(2020·宁夏高三其他(文))通过随机询问200名性别不同的大学生是否爱好踢毽子运动,计算得到统计量的观测值,参照附表,得到的正确结论是(
)
0.10
0.05
0.025
2.706
3.841
5.024
A.有97.5%以上的把握认为“爱好该项运动与性别有关”
B.有97.5%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关”
【答案】C
【解析】解:∵计算得到统计量值的观测值,
参照题目中的数值表,得到正确的结论是:
在犯错误的概率不超过5%的前提下,认为“爱好该运动与性别有关”.
9.(2020·西安市长安区第五中学高三月考(文))对于相关系数,下列说法中正确的是(
)
A.越大,线性相关程度越强
B.越小,线性相关程度越强
C.越大,线性相关程度越弱,越小,线性相关程度越强
D.,且越接近,线性相关程度越强,越接近,线性相关程度越弱
【答案】D
【解析】解:对于选项A,越大,线性相关程度越强,即A错误;
对于选项B,越小,线性相关程度越弱,即B错误;
对于选项C,越大,线性相关程度越强,越小,线性相关程度越弱,
即C错误;
对于选项D,,且越接近,线性相关程度越强,越接近,线性相关程度越弱,即D正确,
10.(2020·河南高二期末(理))对两个变量进行回归分析,得到一组样本数据:,则下列说法中不正确的是(
)
A.由样本数据得到的回归方程必过样本中心
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数来刻画回归效果,越小,说明模型的拟合效果越好
D.若变量之间的相关系数为,则变量之间具有线性相关关系
【答案】C
【解析】解:样本中心点在直线上,故A正确,
残差平方和越小的模型,拟合效果越好,故B正确,
R2越大拟合效果越好,故C不正确,
当r的值大于0.75时,表示两个变量具有线性相关关系,故选C
11.(2020·全国高三课时练习(理))某医疗研究所为了检验某种血清能起到预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,利用2×2列联表计算得K2的观测值.
附表:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
则作出“这种血清能起到预防感冒的作用”出错的可能性不超过(
)
A.95%
B.5%
C.97.5%
D.2.5%
【答案】B
【解析】由题意知观测值k2≈3.918>3.841,所以对照题中的附表得P(K2≥k)=0.05=5%.
12.(2020·渝中·重庆巴蜀中学高三月考)用最小二乘法得到一组数据(其中、、、、)的线性回归方程为,若,,则当时,的预报值为(
)
A.
B.
C.
D.
【答案】B
【解析】由题意可得,,
由于回归直线过样本的中心点,所以,,解得.
所以,回归直线方程为,当时,.
13.(2020·四川新都·高三开学考试(理))给出下列说法:
①回归直线恒过样本点的中心,且至少过一个样本点;
②两个变量相关性越强,则相关系数就越接近1;
③某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的方差;
④在回归直线方程中,当解释变量增加一个单位时,预报变量平均减少0.5个单位.
其中说法正确的是(
)
A.①②④
B.②③④
C.①③④
D.②④
【答案】B
【解析】解:对于①中,回归直线恒过样本点的中心,但不一定过一个样本点,所以不正确;
对于②中,根据相关系数的意义,可得两个变量相关性越强,则相关系数就越接近1,所以是正确的;
对于③中,根据平均数的计算公式可得,根据方差的计算公式,所以是正确的;
对于④中,根据回归系数的含义,可得在回归直线方程中,当解释变量增加一个单位时,预报变量平均减少0.5个单位,所以是正确的.
14.(2018·黑龙江大庆中学高三一模(文))下表提供了某厂节能降耗技术改造后在生产产品过程中记录的产量(吨)与相应的生产能耗(吨)的几组对应数据,根据表中提供的数据,求出关于的线性回归方程为,则下列结论错误的是(
)
3
4
5
6
2.5
4
4.5
A.产品的生产能耗与产量呈正相关
B.回归直线一定过
C.产品每多生产1吨,则相应的生产能耗约增加0.7吨
D.的值是3.15
【答案】D
【解析】由题意,==4.5,
∵=0.7x+0.35,
∴=0.7×4.5+0.35=3.5,
∴t=4×3.5﹣2.5﹣4﹣4.5=3,故选D.
15.(2020·云南昆明一中高三其他(理))我国目前部分普通高中学生在高一升高二时面临着选文理科的问题,某学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图
根据这两幅图中的信息,下列统计结论正确的是(
)
A.样本中的男生数量多于女生数量
B.样本中有理科意愿的学生数量少于有文科意愿的学生数量
C.对理科有意愿的男生人数多于对文科有意愿的男生人数
D.对文科有意愿的女生人数多于对理科有意愿的女生人数
【答案】C
【解析】由等高堆积条形图1可知,不管是文科还是理科,女生占比均高于男生,故样本中的女生数量多于男生数量,A错误;从图2可以看出男生和女生中选择理科的人数均高于选择文科的人数,
16.(2019·陕西韩城·高三月考(文))在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为(
)
A.-1
B.0
C.
D.1
【答案】D
【解析】由题设知,所有样本点(xi,yi)(i=1,2,…,n)都在直线上,
∴这组样本数据完全正相关,故其相关系数为1,故选D.
根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.
17.(多选题)(2020·江西高三其他(文))某大型电子商务平台每年都会举行“双11”商业促销狂欢活动,现统计了该平台从2011年到2019年共9年“双11”当天的销售额(单位:亿元)并作出散点图,将销售额y看成以年份序号x(2011年作为第1年)的函数.运用excel软件,分别选择回归直线和三次多项式回归曲线进行拟合,效果如下图,则下列说法错误的是(
)
A.销售额y与年份序号x呈正相关关系
B.根据三次多项式函数可以预测2020年“双11”当天的销售额约为8454亿元
C.销售额y与年份序号x线性相关不显著
D.三次多项式回归曲线的拟合效果好于回归直线的拟合效果
【答案】BC
【解析】对于A,散点从左下到右上分布,所以销售额y与年份序号x呈正相关关系,故A正确,不符合题意;
对于B,令,由三次多项式函数得,所以2020年“双11”当天的销售额约为2684.54亿元,故B错误,符合题意;
对于C,因为相关系数,非常接近1,故销售额y与年份序号x线性相关显著,故C错误,符合题意;
对于D,用三次多项式回归曲线拟合的相关指数,而回归直线拟合的相关指数,相关指数越大,拟合效果越好,故D正确,不符合题意.
18.(多选题)(2020·琼山·海南中学高三月考)(多选题)下列说法正确的是(
)
A.在回归直线方程中,当解释变量每增加1个单位时,预报变量平均减少2.3个单位
B.两个具有线性相关关系的变量,当相关指数的值越接近于0,则这两个变量的相关性就越强
C.若两个变量的相关指数,则说明预报变量的差异有88%是由解释变量引起的
D.在回归直线方程中,相对于样本点的残差为
【答案】CD
【解析】对于,根据回归直线方程,当解释变量每增加1个单位时,预报变量平均减少个单位,错误;
对于,当相关指数的值越接近于,两个变量的相关性就越强,错误;
对于,由相关指数的意义可知正确;
对于,当解释变量时,预报变量,则样本点的残差为,正确.
19.(多选题)(2020·琼山·海南中学月考)已知由样本数据点集合,求得的回归直线方程为,且,现发现两个数据点和误差较大,去除后重新求得的回归直线l的斜率为1.2,则(
)
A.变量x与y具有正相关关系
B.去除后的回归方程为
C.去除后y的估计值增加速度变快
D.去除后相应于样本点的残差为0.05
【答案】AB
【解析】因为回归直线方程为,,
所以变量x与y具有正相关关系.故A正确.
当时,,
样本点为,去掉两个数据点和后,样本点还是,
又因为去除后重新求得的回归直线l的斜率为1.2,
所以,
解得,
所以去除后的回归方程为,故B正确.
因为,所以去除后y的估计值增加速度变慢,故C错误.
因为,
所以,故D错误.
20.(多选题)(2020·河北高三月考)2020年初以来,技术在我国已经进入高速发展的阶段,手机的销量也逐渐上升,某手机商城统计了近5个月来手机的实际销量,如下表所示:
月份
2020年2月
2020年3月
2020年4月
2020年5月
2020年6月
月份编号
1
2
3
4
5
销量部
37
104
196
216
若与线性相关,且求得线性回归方程为,则下列说法正确的是(
)
A.
B.与正相关
C.与的相关系数为负数
D.8月份该手机商城的手机销量约为36.5万部
【答案】AB
【解析】由表中数据,计算得,所以,
于是得,解得,故A正确;
由回归方程中的的系数为正可知,与正相关,且其相关系数,故B正确,C错误;
8月份时,,(万部),故D错误.
21.(2020·广西南宁三中高三其他(理))国家放开二胎政策后,不少家庭开始生育二胎,随机调查110名性别不同且为独生子女的高中生,其中同意生二胎的高中生占随机调查人数的,统计情况如下表:
同意
不同意
合计
男生
20
女生
20
合计
110
(l)求,的值
(2)根据以上数据,能否有99%的把握认为同意生二胎与性别有关?请说明理由.
附:
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【解析】(1)依题,;
(2),,
查表可得,有99%的把握认为同意生二胎与性别有关.
22.(2020·陕西西安·高新一中高三期末(文))某地区在“精准扶贫”工作中切实贯彻习近平总书记提出的“因地制宜”的指导思想,扶贫工作小组经过多方调研,综合该地区的气候、地质、地理位置等特点,决定向当地农户推行某类景观树苗种植.工作小组根据市场前景重点考察了A,B两种景观树苗,为对比两种树苗的成活率,工作小组进行了引种试验,分别引种树苗A,B各50株,试验发现有80%的树苗成活,未成活的树苗A,B株数之比为1:3.
(1)完成2×2列联表,并据此判断是否有99%的把握认为树苗A,B的成活率有差异?
A
B
合计
成活株数
未成活株数
合计
50
50
100
0.05
0.010
0.005
0.001
3.841
6.635
7.879
10.828
(2)已知树苗A经引种成活后再经过1年的生长即可作为景观树A在市场上出售,但每株售价y(单位:百元)受其树干的直径x(单位:cm)影响,扶贫工作小组对一批已出售的景观树A的相关数据进行统计,得到结果如下表:
直径x
10
15
20
25
30
单株售价y
4
8
10
16
27
根据上述数据,判断是否可用线性回归模型拟合y与x的关系?并用相关系数r加以说明.
(一般认为,为高度线性相关)
参考公式及数据:相关系数
.
【解析】解:试验发现有80%的树苗成活,故不成活20株,未成活的树苗A,B株数之比为1:3.
树苗未成活有5株,成活45株,树苗未成活有15株,成活35株,
(1)列联表如下:
A
B
合计
成活株数
45
35
80
未成活株数
5
15
20
合计
50
50
100
,
故没有99%的把握认为二者有差异;
(2).
.
23.(2020·贵州遵义·高三其他(理))为激活国内消费布场,挽回疫情造成的损失,国家出台一系列的促进国内消费的优惠政策,某机构从某一电商的线上交易大数据中来跟踪调查消费者的购买力,界定3至8月份购买商品在5000元以上人群属“购买力强人群”,购买商品在5000元以下人群属“购买力弱人群”.现从电商平台消费人群中随机选出200人,发现这200人中属购买力强的人数占80%,并将这200人按年龄分组,记第1组,第2组,第3组,第4组,第5组,得到的频率分布直方图,如图所示.
(1)求出频率分布直方图中的a值和这200人的平均年龄;
(2)从第2,3,5组中用分层抽样的方法抽取12人,并再从这12人中随机抽取3人进行电话回访,求这三人恰好属于不同组别的概率;
(3)把年龄在第1,2,3组的居民称为青少年组,年龄在第4,5组的居民称为中老年组,若选出的200人中“购买力弱人群”的中老年人有20人,问是否有99%的把握认为是否“购买力强人群”与年龄有关?
附:
0.150
0.100
0.050
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
,
【解析】(1)由题意得:,
所以,
200人的平均年龄为:;
(2)依题意按照分层抽样从第2组中抽取3人,第3组中抽取7人,第5组中抽取2人;再从这12人中抽取3人一共有种结果;其中这三人恰好来自不同组别有
故这三人恰好属于不同组别的概率
(3)由题意可得列联表为:
购买力强人群
购买力弱人群
合计
青少年组
100
20
120
中老年组
60
20
80
合计
160
40
200
故,
故没有99%的把握认为是否“购买力强人群”与年龄有关.
24.(2020·山东济南外国语学校高三月考)根据统计,某蔬菜基地西红柿亩产量的增加量(百千克)与某种液体肥料每亩使用量(千克)之间的对应数据的散点图,如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合与的关系,请计算相关系数并加以说明(若,则线性相关程度很高,可用线性回归模型拟合);
(2)求关于的回归方程,并预测液体肥料每亩使用量为千克时,西红柿亩产量的增加量约为多少?
附:相关系数公式,回归方程中斜率和截距的最小二乘估计公式分别为:,.
【解析】(1)因为,.
,
,
.
.
∴可用线性回归模型拟合与的关系;
(2),.
∴.
当时,.
∴预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为9.9百千克.
25.(2020·云南昆明一中月考(理))学校食堂统计了最近天到餐厅就餐的人数(百人)与食堂向食材公司购买所需食材(原材料)的数量(袋),得到如下统计表:
第一天
第二天
第三天
第四天
第五天
就餐人数(百人)
13
9
8
10
12
原材料(袋)
32
23
18
24
28
(1)根据所给的组数据,求出关于的线性回归方程;
(2)已知购买食材的费用(元)与数量(袋)的关系为,投入使用的每袋食材相应的销售单价为元,多余的食材必须无偿退还食材公司,据悉下周一大约有人到食堂餐厅就餐,根据(1)中求出的线性回归方程,预测食堂应购买多少袋食材,才能获得最大利润,最大利润是多少?(注:利润L
=销售收入-原材料费用)
参考公式:,
参考数据:,,
【解析】(1)由所给数据可得:,,
,,
故关于的线性回归方程为.
(2)因为,所以当时,即预计需要购买食材袋,
因为,
所以当时,利润,
此时当时,,
当时,由题意可知,剩余的食材只能无偿退还,
此时当时,,
当时,利润,
综上所述,食堂应购买袋食,才能获得最大利润,最大利润为元.
21世纪教育网
www.21cnjy.com
精品试卷·第
2
页
(共
2
页)
HYPERLINK
"http://21世纪教育网(www.21cnjy.com)
"
21世纪教育网(www.21cnjy.com)中小学教育资源及组卷应用平台
第47讲-变量的相关性与统计案例
考情分析
1.了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系,会通过相关系数比较多组成对数据的相关性;
2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件,会用一元线性回归模型进行预测;3.理解2×2列联表的统计意义,了解2×2列联表独立性检验及其应用.
知识梳理
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.
2.回归分析
对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求回归直线方程;(ⅲ)用回归直线方程作预报.
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归直线方程的求法——最小二乘法.
设具有线性相关关系的两个变量x,y的一组观察值为(xi,yi)(i=1,2,…,n),则回归直线方程=x+的系数为:
称为样本点的中心.
(3)相关系数
①计算相关系数r,r有以下性质:|r|≤1,并且|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱;②|r|>r0.05,表明有95%的把握认为变量x与y之间具有线性相关关系,回归直线方程有意义;否则寻找回归直线方程毫无意义.
3.独立性检验
(1)2×2列联表
B
总计
A
n11
n12
n1+
A
n21
n22
n2+
总计
n+1
n+2
n
其中n1+=n11+n12,n2+=n21+n22,n+1=n11+n21,n+2=n12+n22,n=n11+n21+n12+n22.
(2)χ2统计量
χ2=.
(3)两个临界值:3.841与6.635
当χ2>3.841时,有95%的把握说事件A与B有关;
当χ2>6.635时,有99%的把握说事件A与B有关;
当χ2≤3.841时,认为事件A与B是无关的.
[微点提醒]
1.求解回归方程的关键是确定回归系数,,应充分利用回归直线过样本中心点(,).
2.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.
3.根据回归方程计算的值,仅是一个预报值,不是真实发生的值.
经典例题
考点一 相关关系的判断
【例1】
(1)观察下列各图形,
其中两个变量x,y具有相关关系的图是( )
A.①②
B.①④
C.③④
D.②③
(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )
A.甲
B.乙
C.丙
D.丁
解析 (1)由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.
(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.
答案 (1)C (2)D
规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.
2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关系数r越大,相关性越强.若r>0,则正相关;r<0时,则负相关.
3.线性回归直线方程中:>0时,正相关;<0时,负相关.
考点二 线性回归方程及应用
【例2】某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:
年份x
2013
2014
2015
2016
2017
储蓄存款y(千亿元)
5
6
7
8
10
表1
为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2
012,z=y-5得到下表2:
时间代号t
1
2
3
4
5
Z
0
1
2
3
5
表2
(1)求z关于t的线性回归方程;
(2)通过(1)中的方程,求出y关于x的回归方程;
(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?
(附:对于线性回归方程=x+,
其中=eq
\f(\o(∑,\s\up8(n),\s\do6(i=1))xiyi-n\o(x,\s\up6(-))·\o(y,\s\up6(-)),\o(∑,\s\up8(n),\s\do6(i=1))x-n\o(x,\s\up6(-))2),=-)
解 (1)=3,=2.2,tizi=45,t=55,
==1.2,
=-=2.2-3×1.2=-1.4,
所以=1.2t-1.4.
(2)将t=x-2
012,z=y-5,代入=1.2t-1.4,
得y-5=1.2(x-2
012)-1.4,即=1.2x-2
410.8.
(3)因为=1.2×2
022-2
410.8=15.6,
所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.
规律方法 1.(1)正确理解计算,的公式和准确的计算是求线性回归方程的关键.
(2)回归直线方程=x+必过样本点中心(,).
2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.
(2)对于非线性回归分析问题,应先进行变量代换,
求出代换后的回归直线方程,再求非线性回归方程.
考点三 独立性检验
【例3】环境问题是当今世界共同关注的问题,我国环保总局根据空气污染指数PM2.5浓度,制定了空气质量标准:
空气污染指数
(0,50]
(50,100]
(100,150]
(150,200]
(200,300]
(300,+∞)
空气质量等级
优
良
轻度污染
中度污染
重度污染
严重污染
某市政府为了打造美丽城市,节能减排,从2010年开始考察了连续六年11月份的空气污染指数,绘制了频率分布直方图,经过分析研究,决定从2016年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,若11月份被限行的概率为0.05.
(1)求频率分布直方图中m的值;
(2)若按分层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少有一天空气质量是中度污染的概率;
(3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:
空气质量
优
良
轻度污染
中度污染
重度污染
严重污染
天数
11
27
11
7
3
1
根据限行前6年180天与限行后60天的数据,计算并填写2×2列联表,并回答是否有95%的把握认为空气质量的优良与汽车尾气的排放有关.
空气质量优、良
空气质量污染
总计
限行前
限行后
总计
解 (1)因为限行分单双号,王先生的车被限行的概率为0.05,
所以空气重度污染和严重污染的概率应为0.05×2=0.1,
由频率分布直方图可知(0.004+0.006+0.005+m)×50+0.1=1,解得m=0.003.
(2)因为空气质量良好与中度污染的天气的概率之比为0.3∶0.15=2∶1,
按分层抽样的方法从中抽取6天,则空气质量良好的天气被抽取的有4天,记作A1,A2,A3,A4,
空气中度污染的天气被抽取的有2天,记作B1,B2,
从这6天中随机抽取2天,所包含的基本事件有(A1,A2),(A1,A3),(A1,A4),(A1,B1),(A1,B2),(A2,A3),(A2,A4),(A2,B1),(A2,B2),(A3,A4),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共15个,
记事件A为“至少有一天空气质量是中度污染”,则事件A所包含的事件有(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共9个,
故P(A)==,即至少有一天空气质量是中度污染的概率为.
(3)2×2列联表如下:
空气质量优、良
空气质量污染
总计
限行前
90
90
180
限行后
38
22
60
总计
128
112
240
由表中数据可得,
χ2=≈3.214<3.841,所以没有95%的把握认为空气质量的优良与汽车尾气的排放有关.
规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足n11n22-n12n21≈0.|n11n22-n12n21|越小,说明两个变量之间关系越弱;|n11n22-n12n21|越大,说明两个变量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表:
(2)根据公式计算χ2的值;
(3)比较χ2的值与临界值的大小关系,作统计推断.
[方法技巧]
1.求回归方程,关键在于正确求出系数a^,b^
,由于a^
,b^
的计算量大,计算时应仔细谨慎,分步进行,避免因计算而产生错误.
2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.
课时作业
1.(2020·全国高三月考(理))已知变量,,都是正数,与的回归方程:,且每增加1个单位,减少2个单位,与的回归方程:,则(
)
A.与正相关,与正相关
B.与正相关,与负相关
C.与负相关,与正相关
D.与负相关,与负相关
2.(2020·全国高三(文))设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1cm,则其体重约增加0.85kg
D.若该大学某女生身高为170cm,则可断定其体重必为58.79kg
3.(2020·河南洛阳·高三月考(文))我国在有效防控疫情的同时积极有序推进复工复产,各旅游景区也逐渐恢复开放.某景区对重新开放后的月份与该月游客的日平均人数(单位:千人/天)进行了统计分析,得出下表数据:
月份
日平均人数
若与线性相关.且求得其线性回归方程为,则表中的值为(
)
A.
B.
C.
D.无法确定
4.(2020·湖北襄城·襄阳四中高三月考(文))某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如表),由最小二乘法求得回归方程为.
零件数个
10
20
30
40
50
加工时间
62
75
81
89
现发现表中有一个数据模糊看不清,则该数据为(
)
A.68
B.68.3
C.68.5
D.70
5.(2020·西安市长安区第五中学高三月考(文))若变量之间是线性相关关系,则由数据表得到的回归直线必过定点(
)
A.
B.
C.
D.
6.(2020·江苏常州·高二期末)对某同学7次考试的数学成绩x和物理成绩y进行分析,下面是该生7次考试的成绩.
数学
88
83
117
92
108
100
112
物理
94
91
108
96
104
101
106
发现他的物理成绩y与数学成绩x是线性相关的,利用最小二乘法得到线性回归方程为=,若该生的数学成绩达到130分,估计他的物理成绩大约是(
)
A.114.5
B.115
C.115.5
D.116
7.(2020·广东月考)在一项调查中有两个变量和,下图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为关于的回归方程的函数类型是(
)
A.
B.
C.
D.()
8.(2020·宁夏高三其他(文))通过随机询问200名性别不同的大学生是否爱好踢毽子运动,计算得到统计量的观测值,参照附表,得到的正确结论是(
)
0.10
0.05
0.025
2.706
3.841
5.024
A.有97.5%以上的把握认为“爱好该项运动与性别有关”
B.有97.5%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关”
9.(2020·西安市长安区第五中学高三月考(文))对于相关系数,下列说法中正确的是(
)
A.越大,线性相关程度越强
B.越小,线性相关程度越强
C.越大,线性相关程度越弱,越小,线性相关程度越强
D.,且越接近,线性相关程度越强,越接近,线性相关程度越弱
10.(2020·河南高二期末(理))对两个变量进行回归分析,得到一组样本数据:,则下列说法中不正确的是(
)
A.由样本数据得到的回归方程必过样本中心
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数来刻画回归效果,越小,说明模型的拟合效果越好
D.若变量之间的相关系数为,则变量之间具有线性相关关系
11.(2020·全国高三课时练习(理))某医疗研究所为了检验某种血清能起到预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,利用2×2列联表计算得K2的观测值.
附表:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
则作出“这种血清能起到预防感冒的作用”出错的可能性不超过(
)
A.95%
B.5%
C.97.5%
D.2.5%
12.(2020·渝中·重庆巴蜀中学高三月考)用最小二乘法得到一组数据(其中、、、、)的线性回归方程为,若,,则当时,的预报值为(
)
A.
B.
C.
D.
13.(2020·四川新都·高三开学考试(理))给出下列说法:
①回归直线恒过样本点的中心,且至少过一个样本点;
②两个变量相关性越强,则相关系数就越接近1;
③某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的方差;
④在回归直线方程中,当解释变量增加一个单位时,预报变量平均减少0.5个单位.
其中说法正确的是(
)
A.①②④
B.②③④
C.①③④
D.②④
14.(2018·黑龙江大庆中学高三一模(文))下表提供了某厂节能降耗技术改造后在生产产品过程中记录的产量(吨)与相应的生产能耗(吨)的几组对应数据,根据表中提供的数据,求出关于的线性回归方程为,则下列结论错误的是(
)
3
4
5
6
2.5
4
4.5
A.产品的生产能耗与产量呈正相关
B.回归直线一定过
C.产品每多生产1吨,则相应的生产能耗约增加0.7吨
D.的值是3.15
15.(2020·云南昆明一中高三其他(理))我国目前部分普通高中学生在高一升高二时面临着选文理科的问题,某学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图
根据这两幅图中的信息,下列统计结论正确的是(
)
A.样本中的男生数量多于女生数量
B.样本中有理科意愿的学生数量少于有文科意愿的学生数量
C.对理科有意愿的男生人数多于对文科有意愿的男生人数
D.对文科有意愿的女生人数多于对理科有意愿的女生人数
16.(2019·陕西韩城·高三月考(文))在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为(
)
A.-1
B.0
C.
D.1
17.(多选题)(2020·江西高三其他(文))某大型电子商务平台每年都会举行“双11”商业促销狂欢活动,现统计了该平台从2011年到2019年共9年“双11”当天的销售额(单位:亿元)并作出散点图,将销售额y看成以年份序号x(2011年作为第1年)的函数.运用excel软件,分别选择回归直线和三次多项式回归曲线进行拟合,效果如下图,则下列说法错误的是(
)
A.销售额y与年份序号x呈正相关关系
B.根据三次多项式函数可以预测2020年“双11”当天的销售额约为8454亿元
C.销售额y与年份序号x线性相关不显著
D.三次多项式回归曲线的拟合效果好于回归直线的拟合效果
18.(多选题)(2020·琼山·海南中学高三月考)(多选题)下列说法正确的是(
)
A.在回归直线方程中,当解释变量每增加1个单位时,预报变量平均减少2.3个单位
B.两个具有线性相关关系的变量,当相关指数的值越接近于0,则这两个变量的相关性就越强
C.若两个变量的相关指数,则说明预报变量的差异有88%是由解释变量引起的
D.在回归直线方程中,相对于样本点的残差为
19.(多选题)(2020·琼山·海南中学月考)已知由样本数据点集合,求得的回归直线方程为,且,现发现两个数据点和误差较大,去除后重新求得的回归直线l的斜率为1.2,则(
)
A.变量x与y具有正相关关系
B.去除后的回归方程为
C.去除后y的估计值增加速度变快
D.去除后相应于样本点的残差为0.05
20.(多选题)(2020·河北高三月考)2020年初以来,技术在我国已经进入高速发展的阶段,手机的销量也逐渐上升,某手机商城统计了近5个月来手机的实际销量,如下表所示:
月份
2020年2月
2020年3月
2020年4月
2020年5月
2020年6月
月份编号
1
2
3
4
5
销量部
37
104
196
216
若与线性相关,且求得线性回归方程为,则下列说法正确的是(
)
A.
B.与正相关
C.与的相关系数为负数
D.8月份该手机商城的手机销量约为36.5万部
21.(2020·广西南宁三中高三其他(理))国家放开二胎政策后,不少家庭开始生育二胎,随机调查110名性别不同且为独生子女的高中生,其中同意生二胎的高中生占随机调查人数的,统计情况如下表:
同意
不同意
合计
男生
20
女生
20
合计
110
(l)求,的值
(2)根据以上数据,能否有99%的把握认为同意生二胎与性别有关?请说明理由.
附:
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
22.(2020·陕西西安·高新一中高三期末(文))某地区在“精准扶贫”工作中切实贯彻习近平总书记提出的“因地制宜”的指导思想,扶贫工作小组经过多方调研,综合该地区的气候、地质、地理位置等特点,决定向当地农户推行某类景观树苗种植.工作小组根据市场前景重点考察了A,B两种景观树苗,为对比两种树苗的成活率,工作小组进行了引种试验,分别引种树苗A,B各50株,试验发现有80%的树苗成活,未成活的树苗A,B株数之比为1:3.
(1)完成2×2列联表,并据此判断是否有99%的把握认为树苗A,B的成活率有差异?
A
B
合计
成活株数
未成活株数
合计
50
50
100
0.05
0.010
0.005
0.001
3.841
6.635
7.879
10.828
(2)已知树苗A经引种成活后再经过1年的生长即可作为景观树A在市场上出售,但每株售价y(单位:百元)受其树干的直径x(单位:cm)影响,扶贫工作小组对一批已出售的景观树A的相关数据进行统计,得到结果如下表:
直径x
10
15
20
25
30
单株售价y
4
8
10
16
27
根据上述数据,判断是否可用线性回归模型拟合y与x的关系?并用相关系数r加以说明.
(一般认为,为高度线性相关)
参考公式及数据:相关系数
.
23.(2020·贵州遵义·高三其他(理))为激活国内消费布场,挽回疫情造成的损失,国家出台一系列的促进国内消费的优惠政策,某机构从某一电商的线上交易大数据中来跟踪调查消费者的购买力,界定3至8月份购买商品在5000元以上人群属“购买力强人群”,购买商品在5000元以下人群属“购买力弱人群”.现从电商平台消费人群中随机选出200人,发现这200人中属购买力强的人数占80%,并将这200人按年龄分组,记第1组,第2组,第3组,第4组,第5组,得到的频率分布直方图,如图所示.
(1)求出频率分布直方图中的a值和这200人的平均年龄;
(2)从第2,3,5组中用分层抽样的方法抽取12人,并再从这12人中随机抽取3人进行电话回访,求这三人恰好属于不同组别的概率;
(3)把年龄在第1,2,3组的居民称为青少年组,年龄在第4,5组的居民称为中老年组,若选出的200人中“购买力弱人群”的中老年人有20人,问是否有99%的把握认为是否“购买力强人群”与年龄有关?
附:
0.150
0.100
0.050
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
,
24.(2020·山东济南外国语学校高三月考)根据统计,某蔬菜基地西红柿亩产量的增加量(百千克)与某种液体肥料每亩使用量(千克)之间的对应数据的散点图,如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合与的关系,请计算相关系数并加以说明(若,则线性相关程度很高,可用线性回归模型拟合);
(2)求关于的回归方程,并预测液体肥料每亩使用量为千克时,西红柿亩产量的增加量约为多少?
附:相关系数公式,回归方程中斜率和截距的最小二乘估计公式分别为:,.
25.(2020·云南昆明一中月考(理))学校食堂统计了最近天到餐厅就餐的人数(百人)与食堂向食材公司购买所需食材(原材料)的数量(袋),得到如下统计表:
第一天
第二天
第三天
第四天
第五天
就餐人数(百人)
13
9
8
10
12
原材料(袋)
32
23
18
24
28
(1)根据所给的组数据,求出关于的线性回归方程;
(2)已知购买食材的费用(元)与数量(袋)的关系为,投入使用的每袋食材相应的销售单价为元,多余的食材必须无偿退还食材公司,据悉下周一大约有人到食堂餐厅就餐,根据(1)中求出的线性回归方程,预测食堂应购买多少袋食材,才能获得最大利润,最大利润是多少?(注:利润L
=销售收入-原材料费用)
参考公式:,
参考数据:,,
21世纪教育网
www.21cnjy.com
精品试卷·第
2
页
(共
2
页)
HYPERLINK
"http://21世纪教育网(www.21cnjy.com)
"
21世纪教育网(www.21cnjy.com)