2018年高考数学一轮复习真题精讲精练(2013-2017):
9.3 变量间的相关关系、统计案例
考纲剖析
1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.
2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.
3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.
4.了解回归分析的基本思想、方法及其简单应用.
知识回顾
1.两个变量的线性相关
(1)正相关
在散点图中,点散布在从 的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关
在散点图中,点散布在从 的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在 附近,就称这两个变量之间具有线性相关关系,这条直线叫做 .
2.回归方程
(1)最小二乘法
求回归直线,使得样本数据的 的方法叫做最小二乘法.
(2)回归方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数.
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量 ;
当r<0时,表明两个变量 .
r的绝对值越接近于1,表明两个变量的线性相关性 .
r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大
于 时,认为两个变量有很强的线性相关性.
4.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量.
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(一)线性回归分析
1.首先利用散点图判断两个变量是否线性相关.
2.求回归方程.
(1)线性回归方程中的截距和斜率都是通过样本估计而来的,存在着误差,这种误差可能导致预报结果的偏差.21·世纪*教育网
(2)回归方程中的表示增加1个单位时的变化量为.
(3)可以利用回归方程预报在取某一个值时的估计值.
3.相关系数
利用相关系数来衡量两个变量之间的线性相关的强弱.
4.建立回归模型的步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).
(4)按一定规则估计回归方程中的参数(如最小二乘法).
(5)得出结果后分析残差是否异常(个别数据对应残差过大,或残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否适合等.
注:回归方程只适用于我们所研究的样本的总体,而且一般都有时间性.样本的取值范围一般不能超过回归方程的适用范围,否则没有实用价值.
(二)非线性回归分析
1.非线性回归模型:当回归方程不是形如时称之为非线性回归模型.
2.非线性回归模型的拟合效果:对于给定的样本点,两个含有未知数的模型,其中都是未知参数.
可按如下的步骤比较它们的拟合效果:
(1)分别建立对应于两个模型的回归方程,其中分别是参数的估计值;
(2)分别计算两个回归方程的残差平方和;
(3)若<,则;
反之,
(三)独立性检验
注:利用图形来判断两个变量之间是否有关系,可以结合所求的数值来进行比较.作图应注意单位统一、图形准确,但它不能给出我们两个分类变量有关或无关的精确的可信程度,若要作出精确的判断,可以作独立性检验的有关计算.
小结
1.求回归方程,关键在于正确求出系数,,由于,的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.
2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求线性回归方程.
3.根据K2的值可以判断两个分类变量有关的可信程度.
精讲方法
二、变量间的相关关系
(一)利用散点图判断两个变量的相关关系
1.散点图
在散点图中,如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.
注:函数关系是一种理想的关系模型,而相关关系是一种更为一般的情况.
2.正相关、负相关
从散点图可知,即一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关.如年龄的值由小变大时,体内脂肪含量也在由小变大.
反之,如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关.
(二)求回归方程
最小二乘法
(1)最小二乘法是种有效地求回归方程的方法,它保证了各点与此直线在整体上最接近,最能反映样本观测数据的规律.
(2)最小二乘法估计的一般步骤:
①作出散点图,判断是否线性相关;
②如果是,则用公式求a、b,写出回归方程;
③根据方程进行估计.
注:如果两个变量不具有线性相关关系,即使求出回归方程也毫无意义,而且用其进行估计和预测也是不可信的.
(三)利用回归方程对总体进行估计
注: 利用回归方程可以进行预测估计总体,回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制,依据自变量的取值估计和预报因变量值的基础和依据,有广泛的应用.
例题精讲
考点一 两个变量间的相关关系
【例题1】(2016-2017山东烟台期中)观察下列散点图,其中两个变量的相关关系判断正确的是(? ??)
A.?a为正相关,b为负相关,c为不相关???????????????????B.?a为负相关,b为不相关,c为正相关C.?a为负相关,b为正相关,c为不相关???????????????????D.?a为正相关,b为不相关,c为负相关
【答案】D
【考点】两个变量的线性相关
【解析】【解答】解:根据散点图,由相关性可知: 图a各点散布在从左下角到右上角的区域里,是正相关;图b中各点分布不成带状,相关性不明确,所以不相关;图c中各点分布在从左上方到右下方的区域里,是负相关.故选:D.【分析】根据散点图中点的分布特征,结合相关性的定义,即可得出结论.
【变式训练1】甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并由回归分析法分别求得相关指数R与残差平方和m如下表:
甲
乙
丙
丁
R
0.85
0.78
0.69
0.82
m
103
106
124
115
则哪位同学的试验结果体现A,B两变量更强的线性相关性( )
A.?甲?????????????????????????????????????????B.?乙?????????????????????????????????????????C.?丙?????????????????????????????????????????D.?丁21·cn·jy·com
考点二 线性回归方程及其应用
【例题2】(2017广东惠州惠东高考适应性)已知某企业的近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:21*cnjy*com
(1)试问这3年的前7个月中哪个月的月平均利润较高?
(2)通过计算判断这3年的前7个月的总利润的发展趋势;
(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估测第3年8月份的利润.
月份x
1
2
3
4
利润y(单位:百万元)
4
4
6
6
相关公式: = = , = ﹣ x.
【答案】(1)解:由折线图可知5月和6月的平均利润最高(2)解:第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元),第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元), 第3年前7个月的总利润为4+4+6+6+7+6+8=41百万元),所以这3年的前7个月的总利润呈上升趋势(3)解:∵ , ,1×4+2×4+3×6+4×6=54, ∴ , ∴ ,∴ ,当x=8时, (百万元),∴估计8月份的利润为940万元
【考点】线性回归方程
【解析】【分析】(1)结合图象读出结论即可;(2)根据图象累加判断结论即可(3)分别求出对应的系数 , 的值,代入回归方程即可.
【变式训练2】(2017四川大教育联盟三诊)第96届(春季)全国糖酒商品交易会于2017年3月23日至25日在四川举办.交易会开始前,展馆附近一家川菜特色餐厅为了研究参会人数与餐厅所需原材料数量的关系,查阅了最近5次交易会的参会人数x(万人)与餐厅所用原材料数量t(袋),得到如下数据:
第一次
第二次
第三次
第四次
第五次
参会人数x(万人)
11
9
8
10
12
原材料t(袋)
28
23
20
25
29
(Ⅰ)请根据所给五组数据,求出t关于x的线性回归方程 ;(Ⅱ)已知购买原材料的费用C(元)与数量t(袋)的关系为 投入使用的每袋原材料相应的销售收入为600元,多余的原材料只能无偿返还.若餐厅原材料现恰好用完,据悉本次交易会大约有14万人参加,根据(Ⅰ)中求出的线性回归方程,预测餐厅应购买多少袋原材料,才能获得最大利润,最大利润是多少?(注:利润L=销售收入﹣原材料费用).(参考公式: = , )
考点三 独立性检验
【例题3】(2017四川成都三诊)几个月前,成都街头开始兴起“mobike”、“ofo”等共享单车,这样的共享单车为很多市民解决了最后一公里的出行难题,然而,这种模式也遇到了一些让人尴尬的问题,比如乱停乱放,或将共享单车占为“私有”等. 为此,某机构就是否支持发展共享单车随机调查了50人,他们年龄的分布及支持发展共享单车的人数统计如表:
年龄
[15,20)
[20,25)
[25,30)
[30,35)
[35,40)
[40,45)
受访人数
5
6
15
9
10
5
支持发展共享单车人数
4
5
12
9
7
3
(1)由以上统计数据填写下面的2×2列联表,并判断能否在犯错误的概率不超过0.1的前提下,认为年龄与是否支持发展共享单车有关系;
年龄低于35岁
年龄不低于35岁
合计
支持
不支持
合计
(2)若对年龄在[15,20)[20,25)的被调查人中随机选取两人进行调查,记选中的4人中支持发展共享单车的人数为X,求随机变量X的分布列及数学期望. 参考数据:
P(K2≥k)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
参考公式:K2= ,其中n=a+b+c+d.
【答案】(1)解:根据表中数据填写2×2列联表如下,
年龄低于35岁
年龄不低于35岁
合计
支持
30
10
40
不支持
5
5
10
合计
35
15
50
计算K2= ≈2.381<2.706,所以不能在犯错误的概率不超过0.1的前提下,认为年龄与是否支持发展共享单车有关系(2)解:根据题意,选出的4人中支持发展共享单车的人数为X,则X的可能取值为2,3,4; 所以P(X=2)= ? = ,P(X=3)= ? + ? = ,P(X=4)= ? = ;∴随机变量X的分布列为:
X
2
3
4
P
??
??
??
数学期望为EX=2× +3× +4× =
【考点】独立性检验的应用
【解析】【分析】(1)根据表中数据填写2×2列联表,计算K2 , 对照临界值表即可得出结论;(2)根据题意知X的可能取值,求出对应的概率值,写出X的分布列,计算数学期望值.
【变式训练3】(2017全国100所名校冲刺卷)企业需为员工缴纳社会保险,缴费标准是根据职工本人上一年度月平均工资(单位:元)的8%缴纳,某企业员工甲在2010年至2016年各年中每月所缴纳的养老保险数额y(单位:元)与年份序号t的统计如表:
?年份
?2010
2011
2012
2013
2014
2015
2016
?t
?1
?2
?3
?4
?5
?6
?7
?y
?270
?330
?390
?450
?490
?540
?610
(1)求y关于t的线性回归方程 = t+ ;
(2)按照这种变化趋势,利用(1)中回归方程,预测2017年该员工每月的平均工资(精确到0.1). 参考公式和数据: = , = ﹣b , tiyi=13860, ti2=140.
真题精析
一、单选题
1.(2017?山东)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为 = x+ ,已知 xi=225, yi=1600, =4,该班某学生的脚长为24,据此估计其身高为( )
A.?160??????????????????????????????????????B.?163??????????????????????????????????????C.?166??????????????????????????????????????D.?170
2.(2014?重庆)已知变量x与y正相关,且由观测数据算得样本平均数 =3, =3.5,则由该观测数据算得的线性回归方程可能是(?? )
A.?=0.4x+2.3????????????????????B.?=2x﹣2.4????????????????????C.?=﹣2x+9.5????????????????????D.?=﹣0.3x+4.4
4.(2015·福建)若变量x,y 满足约束条件则?的最小值等于?(??????)
A.?????????????????????????????????????????B.?-2????????????????????????????????????????C.???????????????????????????????????????D.?2
5.(2014?江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是(?? ) 表1
???? 成绩性别
不及格
及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
表2
? 视力性别
好
差
总计
男
4
16
20
女
12
20
32
总计
16
36
52
表3
? 智商性别
偏高
正常
总计
男
8
12
20
女
8
24
32
总计
16
36
52
表4
? 阅读量性别
丰富
不丰富
总计
男
14
6
20
女
2
30
32
总计
16
36
52
A.?成绩????????????????????????????????????B.?视力?????????????????????????????????C.?智商?????????????????????????????D.?阅读量21世纪教育网版权所有
二、填空题
6.(2015·北京卷)高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级中的排名情况如下图所示,甲、乙、丙为该班三位学生.
从这次考试成绩看,①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是________?;②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是 ________?? .
三、综合题
7.(2014?新课标II)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如表: 【来源:21·世纪·教育·网】
年份
2007
2008
2009
2010
2011
2014
2013
年份代号t
1
2
3
4
5
6
7
人均纯收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为: = , = ﹣ .
8.(2016?全国)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1﹣7分别对应年份2008﹣2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以证明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据: =9.32, =40.17, =0.55, ≈2.646.参考公式: ,回归方程 中斜率和截距的最小二乘估计公式分别为:, .
9.(2015·新课标I卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的宣传费xi和年销售量yi=1;2…8数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
56.3
6.8
289.8
1.6
1469
108.8
表中wi=,=
(1)根据散点图判断,y=a+bx与y=c+d,哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由);
(2)根据(I)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x , y的关系为z=0.2y-x,根据(II)的结果回答下列问题:(i)当年宣传费x=90时,年销售量及年利润的预报值时多少?(ii)当年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),……,(un,vn),其回归线v=的斜率和截距的最小二乘估计分别为:
10.(2012?辽宁)电视传媒公司为了了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图: 将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面2×2列联表,并据此资料你是否认为“体育迷”与性别有关?
非体育迷
体育迷
合计
男
女
10
55
合计
(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X,若每次抽取的结果是相互独立的,求X的分布列,期望E(X)和方差D(X)
P( K2≥k)
0.05
0.01
k
3.841
6.635
11.(2017?新课标Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下: (Ⅰ)记A表示时间“旧养殖法的箱产量低于50kg”,估计A的概率;(Ⅱ)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50kg
箱产量≥50kg
旧养殖法
新养殖法
(Ⅲ)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行比较.附:
P(K2≥K)
0.050
0.010
0.001
K
3.841
6.635
10.828
K2= .
12.(2017?新课标Ⅰ卷)为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:(12分)21教育网
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得 = xi=9.97,s= = =0.212, ≈18.439, (xi﹣ )(i﹣8.5)=﹣2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16. www.21-cn-jy.com
(1)求(xi , i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小). 21*cnjy*com
(2)一天内抽检零件中,如果出现了尺寸在( ﹣3s, +3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在( ﹣3s, +3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(xi , yi)(i=1,2,…,n)的相关系数r= , ≈0.09.
模拟题精练
一、单选题
1.(2017重庆九校联考二模)某汽车的使用年数x与所支出的维修费用y的统计数据如表:
?使用年数x(单位:年)
?1
?2
?3
?4
?5
?维修总费用y(单位:万元)
?0.5
?1.2
?2.2
?3.3
?4.5
根据上表可得y关于x的线性回归方程 = x﹣0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(?? )
A.?8年?????????????????????????????????????B.?9年?????????????????????????????????????C.?10年?????????????????????????????????????D.?11年2·1·c·n·j·y
2.(2017广西桂林崇左一模)在两个变量y与x的回归模型中,分别选择了四个不同的模型,它们的相关指数R2如下,其中拟合效果最好的为(?? )
A.?模型①的相关指数为0.976??????????????????????????????????B.?模型②的相关指数为0.776C.?模型③的相关指数为0.076??????????????????????????????????D.?模型④的相关指数为0.351
3.(2017江西抚州临川三中三模)在两个变量y与x的回归模型中,分别选择了四个不同的模型,它们的相关指数R2如下,其中拟合效果最好的为(?? )
A.?模型①的相关指数为0.976??????????????????????????????????B.?模型②的相关指数为0.776C.?模型③的相关指数为0.076??????????????????????????????????D.?模型④的相关指数为0.351
4.(天津市和平区2016-2017期末)在下列各散点图中,两个变量具有正相关关系的是(?? )
A.????????????????????????????????????????B.?C.????????????????????????????????????????D.?
二、填空题
5.(2016-2017江苏宿迁泗阳期中)分解因式:5x2+6xy﹣8y2=________.
6.(湖北宜昌七校教学2016-2017期末)已知x和y之间的一组数据,若x、y具有线性相关关系,且回归方程为 =x+a,则a的值为________. 【来源:21cnj*y.co*m】
x
0
1
2
3
y
1
3
5
7
三、综合题
7.(2017河南南阳、信阳一模)为了对2016年某校中考成绩进行分析,在60分以上的全体同学中随机抽出8位,他们的数学分数(已折算为百分制)从小到大排是60、65、70、75、80、85、90、95,物理分数从小到大排是72、77、80、84、88、90、93、95. 参考公式:相关系数 ,回归直线方程是: ,其中 ,参考数据: , , , . www-2-1-cnjy-com
(1)若规定85分以上为优秀,求这8位同学中恰有3位同学的数学和物理分数均为优秀的概率;
(2)若这8位同学的数学、物理、化学分数事实上对应如下表:
学生编号
1
2
3
4
5
6
7
8
数学分数x
60
65
70
75
80
85
90
95
物理分数y
72
77
80
84
88
90
93
95
化学分数z
67
72
76
80
84
87
90
92
①用变量y与x、z与x的相关系数说明物理与数学、化学与数学的相关程度;②求y与x、z与x的线性回归方程(系数精确到0.01),当某同学的数学成绩为50分时,估计其物理、化学两科的得分. 【出处:21教育名师】
8.(2017四川内江数学)某工厂为了解用电量y与气温x℃之间的关系,随机统计了5天的用电量与当天气温,得到如下统计表:
曰期
8月1曰
8月7日
8月14日
8月18日
8月25日
平均气温(℃)
33
30
32
30
25
用电量(万度)
38
35
41
36
30
xiyi=5446, xi2=4538, = , = ﹣
(1)请根据表中的数据,求出y关于x的线性回归方程.据气象預报9月3日的平均气温是 23℃,请预测9月3日的用电量;(结果保留整数)
(2)请从表中任选两天,记用电量(万度)超过35的天数为ξ,求ξ的概率分布列,并求其数学期望和方差.
9.(河北邯郸2017-2018高三摸底卷)共享单车是指企业在校园、地铁站点、公交站点、居民区、商业区、公共服务区等提供自行车单车共享服务,是共享经济的一种新形态.一个共享单车企业在某个城市就“一天中一辆单车的平均成本(单位:元)与租用单车的数量(单位:千辆)之间的关系”进行调查研究,在调查过程中进行了统计,得出相关数据见下表:
?租用单车数量x(千辆)
?2
?3
?4
?5
?8
?每天一辆车平均成本y(元)
?3.2
?2.4
?2
?1.9
?1.7
根据以上数据,研究人员分别借助甲、乙两种不同的回归模型,得到两个回归方程,方程甲: (1)= +1.1,方程乙: (2)= +1.6.
(1)为了评价两种模型的拟合效果,完成以下任务:①完成下表(计算结果精确到0.1)(备注: =yi﹣ , 称为相应于点(xi , yi)的残差(也叫随机误差);
? 租用单车数量x(千辆)
?2
?3
?4
?5
?8
?每天一辆车平均成本y(元)
?3.2
? 2.4
?2
?1.9
? 1.7
?模型甲
?估计值 (1)
?2.4
?2.1
?1.6
?残差 (1)
?0
﹣0.1
?0.1
模型乙
估计值 ?(2)
?2.3
?2
1.9
残差 (2)
?0.1
?0
?0
②分别计算模型甲与模型乙的残差平方和Q1及Q2 , 并通过比较Q1 , Q2的大小,判断哪个模型拟合效果更好.
(2)这个公司在该城市投放共享单车后,受到广大市民的热烈欢迎,共享单车常常供不应求,于是该公司研究是否增加投放.根据市场调查,这个城市投放8千辆时,该公司平均一辆单车一天能收入10元,6元收入的概率分别为0.6,0.4;投放1万辆时,该公司平均一辆单车一天能收入10元,6元的概率分别为0.4,0.6.问该公司应该投放8千辆还是1万辆能获得更多利润?(按(1)中拟合效果较好的模型计算一天中一辆单车的平均成本,利润=收入﹣成本).
10.(2017广东东莞北师大石竹附中三模)鹰潭市龙虎山花语世界位于中国第八处世界自然遗产,世界地质公元、国家自然文化双遗产地、国家AAAAA级旅游景区﹣﹣龙虎山主景区排衙峰下,是一座独具现代园艺风格的花卉公园,园内汇集了3000余种花卉苗木,一年四季姹紫嫣红花香四溢.花园景观融合法、英、意、美、日、中六大经典园林风格,景观设计唯美新颖.玫瑰花园、香草花溪、台地花海、植物迷宫、儿童乐园等景点错落有致,交相呼应又自成一体,是世界园艺景观的大展示.该景区自2015年春建成试运行以来,每天游人如织,郁金香、向日葵、虞美人等赏花旺季日入园人数最高达万人.某学校社团为了解进园旅客的具体情形以及采集旅客对园区的建议,特别在2017年4月1日赏花旺季对进园游客进行取样调查,从当日12000名游客中抽取100人进行统计分析,结果如下:(表一)
年龄
频数
频率
男
女
[0,10)
10
0.1
5
5
[10,20)
①
②
③
④
[20,30)
25
0.25
12
13
[30,40)
20
0.2
10
10
[40,50)
10
0.1
6
4
[50,60)
10
0.1
3
7
[60,70)
5
0.05
1
4
[70,80)
3
0.03
1
2
[80,90)
2
0.02
0
2
合计
100
1.00
45
55
(1)完成表格一中的空位①﹣④,并在答题卡中补全频率分布直方图,并估计2017年4月1日当日接待游客中30岁以下人数. 【版权所有:21教育】
(2)完成表格二,并问你能否有97.5%的把握认为在观花游客中“年龄达到50岁以上”与“性别”相关?
50岁以上
50岁以下
合计
男生
女生
合计
P(K2≥k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
(参考公式:k2= ,其中n=a+b+c+d)
(3)按分层抽样(分50岁以上与50以下两层)抽取被调查的100位游客中的10人作为幸运游客免费领取龙虎山内部景区门票,再从这10人中选取2人接受电视台采访,设这2人中年龄在50岁以上(含)的人数为ξ,求ξ的分布列及数学期望.
11.(2017辽宁辽南模拟)有甲、乙两个班级进行数学考试,按照大于等于120分为优秀,120分以下为非优秀统计成绩后,得到如下2×2列联表:(单位:人).
优秀
非优秀
总计
甲班
10
乙班
30
总计
105
已知在全部105人中随机抽取1人成绩是优秀的概率为 ,
(1)请完成上面的2 x×2列联表,并根据表中数据判断,是否有95%的把握认为“成绩与班级有关系”?
(2)若甲班优秀学生中有男生6名,女生4名,现从中随机选派3名学生参加全市数学竞赛,记参加竞赛的男生人数为X,求X的分布列与期望. 附:K2=
P(K2≥k)
0.15
0.10
0.05
0.010
k
2.072
2.706
3.841
6.635
12.(2017山西晋中祁县模拟)某印刷厂为了研究印刷单册书籍的成本y(单位:元)与印刷册数x(单位:千册)之间的关系,在印制某种书籍时进行了统计,相关数据见下表:
印刷册数 (千册)
2
3
4
5
8
单册成本 (元)
3.2
2.4
2
1.9
1.7
根据以上数据,技术人员分别借助甲、乙两种不同的回归模型,得到两个回归方程,方程甲: = ,方程乙: = . 21cnjy.com
(1)为了评价两种模型的拟合效果,完成以下任务. ①完成下表(计算结果精确到0.1);
印刷册数x(千册)
2
3
4
5
8
单册成本y(元)
3.2
2.4
2
1.9
1.7
模型甲
估计值
?
2.4
2.1
?
1.6
残差
?
0
﹣0.1
?
0.1
模型乙
估计值
?
2.3
2
1.9
?
残差
?
0.1
0
0
?
②分别计算模型甲与模型乙的残差平方和Q1及Q2 , 并通过比较Q1 , Q2的大小,判断哪个模型拟合效果更好.
(2)该书上市之后,受到广大读者热烈欢迎,不久便全部售罄,于是印刷厂决定进行二次印刷.根据市场调查,新需求量为8千册(概率0.8)或10千册(概率0.2),若印刷厂以每册5元的价格将书籍出售给订货商,问印刷厂二次印刷8千册还是10千册能获得更多利润?(按(1)中拟合效果较好的模型计算印刷单册书的成本)
13(广西钦州2016-2017期末)冶炼某种金属可以用旧设备和改造后的新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如表所示: 根据以上数据试判断含杂质的高低与设备改造有无关系?
14.(2017青海西宁四中、五中、十四中三校模拟)学校为了了解高三学生每天自主学习中国古典文学的时间,随机抽取了高三男生和女生各50名进行问卷调查,其中每天自主学习中国古典文学的时间超过3小时的学生称为“古文迷”,否则为“非古文迷”,调查结果如表:
古文迷
非古文迷
合计
男生
26
24
50
女生
30
20
50
合计
56
44
100
(Ⅰ)根据表中数据能否判断有60%的把握认为“古文迷”与性别有关?(Ⅱ)现从调查的女生中按分层抽样的方法抽出5人进行调查,求所抽取的5人中“古文迷”和“非古文迷”的人数;(Ⅲ)现从(Ⅱ)中所抽取的5人中再随机抽取3人进行调查,记这3人中“古文迷”的人数为ξ,求随机变量ξ的分布列与数学期望.参考公式:K2= ,其中n=a+b+c+d.参考数据:21教育名师原创作品
P(K2≥k0)
0.50
0.40
0.25
0.05
0.025
0.010
k0
0.455
0.708
1.321
3.841
5.024
6.635
15.(2017内蒙古包头包钢一中二模)某位同学进行寒假社会实践活动,为了对白天平均气温与某奶茶店的某种饮料销量之间的关系进行分析研究,他分别记录了1月11日至1月15日的白天平均气温x(°C)与该小卖部的这种饮料销量y(杯),得到如下数据:
日??? 期
1月11日
1月12日
1月13日
1月14日
1月15日
平均气温x(°C)
9
10
12
11
8
销量y(杯)
23
25
30
26
21
(Ⅰ)若先从这五组数据中抽出2组,求抽出的2组数据恰好是相邻2天数据的概率;(Ⅱ)请根据所给五组数据,求出y关于x的线性回归方程 = x+ ;(Ⅲ)根据(Ⅱ)中所得的线性回归方程,若天气预报1月16日的白天平均气温7(°C),请预测该奶茶店这种饮料的销量.(参考公式: = , = ﹣ )
16.(2017山西太原五中二模)随着移动互联网的快速发展,基于互联网的共享单车应运而生.某市场研究人员为了了解共享单车运营公司M的经营状况,对该公司最近六个月内的市场占有率进行了统计,并绘制了相应的折线图. (Ⅰ)由折线图可以看出,可用线性回归模型拟合月度市场占有率y与月份代码x之间的关系.求y关于x的线性回归方程,并预测M公司2017年4月份的市场占有率;(Ⅱ)为进一步扩大市场,公司拟再采购一批单车.现有采购成本分别为1000元/辆和1200元/辆的A、B两款车型可供选择,按规定每辆单车最多使用4年,但由于多种原因(如骑行频率等)会导致车辆报废年限各不相同.考虑到公司运营的经济效益,该公司决定先对两款车型的单车各100辆进行科学模拟测试,得到两款单车使用寿命频数表如下:
报废年限车型
1年
2年
3年
4年
总计
A
20
35
35
10
100
B
10
30
40
20
100
经测算,平均每辆单车每年可以带来收入500元.不考虑除采购成本之外的其他成本,假设每辆单车的使用寿命都是整数年,且以频率作为每辆单车使用寿命的概率.如果你是M公司的负责人,以每辆单车产生利润的期望值为决策依据,你会选择采购哪款车型?参考数据:, , =17.5.参考公式:回归直线方程为 其中 = , = ﹣ .
17.(2017四川绵阳三诊)共享单车进驻城市,绿色出行引领时尚,某市有统计数据显示,2016年该市共享单车用户年龄等级分布如图1所示,一周内市民使用单车的频率分布扇形图如图2所示,若将共享单车用户按照年龄分为“年轻人”(20岁~39岁)和“非年轻人”(19岁及以下或者40岁及以上)两类,将一周内使用的次数为6次或6次以上的称为“经常使用单车用户”,使用次数为5次或不足5次的称为“不常使用单车用户”,已知在“经常使用单车用户”中有 是“年轻人”. (Ⅰ)现对该市市民进行“经常使用共享单车与年龄关系”的调查,采用随机抽样的方法,抽取一个容量为200的样本,请你根据图表中的数据,补全下列2×2列联表,并根据列联表的独立性检验,判断能有多大把握可以认为经常使用共享单车与年龄有关?使用共享单车情况与年龄列联表
?
?年轻人
非年轻人
合计
?经常使用共享单车用户
?
?
?120
?不常使用共享单车用户
?
?
?80
?合计
?160
?40
?200
(Ⅱ)将频率视为概率,若从该市市民中随机任取3人,设其中经常使用共享单车的“非年轻人”人数为随机变量X,求X的分布列与期望.(参考数据:
?P(K2≥k0)
?0.15
?0.10
0.050
?0.025
?0.010
k0
?2.072
?2.706
?3.841
?5.024
?6.635
其中,K2= ,n=a+b+c+d)
18.(2017湖北襄阳五中三模)近年来,微信越来越受欢迎,许多人通过微信表达自己、交流思想和传递信息,微信是现代生活中进行信息交流的重要工具.而微信支付为用户带来了全新的支付体验,支付环节由此变得简便而快捷.某商场随机对商场购物的100名顾客进行统计,其中40岁以下占 ,采用微信支付的占 ,40岁以上采用微信支付的占 . (Ⅰ)请完成下面2×2列联表:
40岁以下
40岁以上
合计
使用微信支付
未使用微信支付
合计
并由列联表中所得数据判断有多大的把握认为“使用微信支付与年龄有关”?(Ⅱ)若以频率代替概率,采用随机抽样的方法从“40岁以下”的人中抽取2人,从“40岁以上”的人中抽取1人,了解使用微信支付的情况,问至少有一人使用微信支付的概率为多少?参考公式: ,n=a+b+c+d.参考数据:2-1-c-n-j-y
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.760
3.841
6.635
10.828
19.(2017广西白色模拟)某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销量y(单位:万件)之间的关系如表:
x
1
2
3
4
y
12
28
42
56
(Ⅰ)在图中画出表中数据的散点图;(Ⅱ)根据(Ⅰ)中的散点图拟合y与x的回归模型,并用相关系数加以说明;(Ⅲ)建立y关于x的回归方程,预测第5年的销售量约为多少?.附注:参考数据: , , .参考公式:相关系数 ,回归方程 中斜率和截距的最小二乘法估计公式分别为: , .
2018年高考数学一轮复习真题精讲精练(2013-2017):
9.3 变量间的相关关系、统计案例(答案)
知识回顾
1.两个变量的线性相关
(1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2.回归方程
(1)最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数.
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.
r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
例题精讲
考点一 两个变量间的相关关系
【变式训练1】甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并由回归分析法分别求得相关指数R与残差平方和m如下表:
甲
乙
丙
丁
R
0.85
0.78
0.69
0.82
m
103
106
124
115
则哪位同学的试验结果体现A,B两变量更强的线性相关性( )
A.?甲?????????????????????????????????????????B.?乙???????????????????????????????????????C.?丙?????????????????????????????????????D.?丁2-1-c-n-j-y
【答案】A
【考点】两个变量的线性相关
【解析】【解答】在验证两个变量之间的线性相关关系中,相关系数的绝对值越接近于1,相关性越强,残差平方和越小,相关性也越强;四个选项中甲的相关系数绝对值最大,且甲的残差平方和最小;所以,甲的试验结果体现A、B两变量有更强的线性相关性.故选:A.【分析】根据两个变量之间的相关系数的绝对值越接近于1,相关性越强;残差平方和越小,相关性越强,即可得出正确的结论。
考点二 线性回归方程及其应用
【变式训练2】(2017四川大教育联盟三诊)第96届(春季)全国糖酒商品交易会于2017年3月23日至25日在四川举办.交易会开始前,展馆附近一家川菜特色餐厅为了研究参会人数与餐厅所需原材料数量的关系,查阅了最近5次交易会的参会人数x(万人)与餐厅所用原材料数量t(袋),得到如下数据:
第一次
第二次
第三次
第四次
第五次
参会人数x(万人)
11
9
8
10
12
原材料t(袋)
28
23
20
25
29
(Ⅰ)请根据所给五组数据,求出t关于x的线性回归方程 ;(Ⅱ)已知购买原材料的费用C(元)与数量t(袋)的关系为 投入使用的每袋原材料相应的销售收入为600元,多余的原材料只能无偿返还.若餐厅原材料现恰好用完,据悉本次交易会大约有14万人参加,根据(Ⅰ)中求出的线性回归方程,预测餐厅应购买多少袋原材料,才能获得最大利润,最大利润是多少?(注:利润L=销售收入﹣原材料费用).(参考公式: = , )
【答案】解:(Ⅰ)由数据,求得 , , 10×25+12×29=1273,102+122=510,= ,,∴t关于x的线性回归方程为 .(Ⅱ)由(Ⅰ)中求出的线性回归方程,当x=14时, ,即预计需要原材料34.2袋,∵ ∴,若t<35,利润L=600t﹣(300t+20)=300t﹣20,当t=34时,利润Lmax=300×34﹣20=10180元;若t≥35,利润L=600×34.2﹣290t=20520﹣290t,当t=35时,利润Lmax=20520﹣290×35=10370元;综上所述,该餐厅应购买35袋原材料,才能获得最大利润,最大利润是10370元
【考点】线性回归方程
【解析】【分析】(1)由题意求出 , , , ,代入公式求值,从而得到回归直线方程;(2)由(Ⅰ)中求出的线性回归方程,当x=14时, ,根据分段函数C讨论其利润.
考点三 独立性检验
【变式训练3】(2017全国100所名校冲刺卷)企业需为员工缴纳社会保险,缴费标准是根据职工本人上一年度月平均工资(单位:元)的8%缴纳,某企业员工甲在2010年至2016年各年中每月所缴纳的养老保险数额y(单位:元)与年份序号t的统计如表:
?年份
?2010
2011
2012
2013
2014
2015
2016
?t
?1
?2
?3
?4
?5
?6
?7
?y
?270
?330
?390
?450
?490
?540
?610
(1)求y关于t的线性回归方程 = t+ ;
(2)按照这种变化趋势,利用(1)中回归方程,预测2017年该员工每月的平均工资(精确到0.1). 参考公式和数据: = , = ﹣b , tiyi=13860, ti2=140.
【答案】(1)解:∵ =4, =440, tiyi=13860, ti2=140, ∴ = =55, =220,所求回归方程为 =55t+220(2)解:将t=8代入(1)中的回归方程,得 =55×8+220=660, 故预测2017年该员工每月的平均工资为 =8250
【考点】独立性检验的应用
【解析】【分析】(1)根据数据求出样本平均数以及对应的系数即可求y关于t的线性回归方程;(2)根据条件进行估计预测即可得到结论.
真题精析
一、单选题
1.(2017?山东)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为 = x+ ,已知 xi=225, yi=1600, =4,该班某学生的脚长为24,据此估计其身高为( )
A.?160??????????????????????????????????????B.?163??????????????????????????????????????C.?166??????????????????????????????????????D.?170
【答案】C
【考点】线性回归方程
【解析】【解答】解:由线性回归方程为 =4x+ ,则 = xi=22.5, = yi=160,则数据的样本中心点(22.5,160),由回归直线经过样本中心点,则 = ﹣4x=160﹣4×22.5=70,∴回归直线方程为 =4x+70,当x=24时, =4×24+70=166,则估计其身高为166,故选C.【分析】由数据求得样本中心点,由回归直线方程必过样本中心点,代入即可求得 ,将x=24代入回归直线方程即可估计其身高.
2.(2014?重庆)已知变量x与y正相关,且由观测数据算得样本平均数 =3, =3.5,则由该观测数据算得的线性回归方程可能是(?? )
A.?=0.4x+2.3???????????????? ????B.?=2x﹣2.4???????????????????
C.?=﹣2x+9.5???????????????????? D.?=﹣0.3x+4.4
【答案】A
【考点】线性回归方程
【解析】【解答】解:∵变量x与y正相关,∴可以排除C,D;样本平均数 =3, =3.5,代入A符合,B不符合,故选:A.【分析】变量x与y正相关,可以排除C,D;样本平均数代入可求这组样本数据的回归直线方程.【出处:21教育名师】
3.(2014?湖北)根据如下样本数据,得到回归方程 =bx+a,则(?? )
x
3
4
5
6
7
8
y
4.0
2.5
﹣0.5
0.5
﹣2.0
﹣3.0
A.?a>0,b>0?????????????????????B.?a>0,b<0???????????????????C.?a<0,b>0???????????????????D.?a<0,b<0
【答案】B
【考点】线性回归方程
【解析】【解答】解:由题意可知:回归方程经过的样本数据对应的点附近,是减函数,所以b<0,且回归方程经过(3,4)与(4,3.5)附近,所以a>0. 故选:B.【分析】通过样本数据表,容易判断回归方程中,b、a的符号.
4.(2015·福建)若变量x,y 满足约束条件则?的最小值等于?(??????)
A.?????????????????????????????????????????B.?-2????????????????????????????????????????C.?????????????????????????????????????????D.?2
【答案】A
【考点】线性回归方程
【解析】【解答】作图,首先要对目标函数进行分析,什么时候目标函数取到最大值,解该类题目时候,往往还要将目标直线的斜率和可行域边界的斜率比较,否则很容易出错,属于基础题
5.(2014?江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是(?? ) 表1
???? 成绩性别
不及格
及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
表2
? 视力性别
好
差
总计
男
4
16
20
女
12
20
32
总计
16
36
52
表3
? 智商性别
偏高
正常
总计
男
8
12
20
女
8
24
32
总计
16
36
52
表4
? 阅读量性别
丰富
不丰富
总计
男
14
6
20
女
2
30
32
总计
16
36
52
A.?成绩????????????????????????????????????B.?视力???????????????????????????????????C.?智商??????????????????????????????D.?阅读量21教育名师原创作品
【答案】D
【考点】独立性检验的应用
【解析】【解答】解:表1:X2= ≈0.009; 表2:X2= ≈1.769;表3:X2= ≈1.3;表4:X2= ≈23.48,∴阅读量与性别有关联的可能性最大,故选:D.【分析】根据表中数据,利用公式,求出X2 , 即可得出结论.
二、填空题
6.(2015·北京卷)高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级中的排名情况如下图所示,甲、乙、丙为该班三位学生.
从这次考试成绩看,①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是________?;②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是 ________?? .
【答案】乙;数学
【考点】散点图
【解析】【解答】①由图可知,甲的语文成绩排名比总成绩排名靠后;而乙的语文成绩排名比总成绩排名靠前,故填乙。②由图可知,比丙的数学成绩排名还靠后的人比较多;而总成绩的排名中比丙排名靠后的人数比较少,所以丙的数学成绩的排名是更靠前,故填数学。【分析】本题主要考查的是散点图,属于容易题.解题时一定要抓住重要字眼“语文”和“更”,否则很容易出现错误.解此类图象题一定要观察仔细,分析透彻,提取必要的信息.
三、综合题
7.(2014?新课标II)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如表:
年份
2007
2008
2009
2010
2011
2014
2013
年份代号t
1
2
3
4
5
6
7
人均纯收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为: = , = ﹣ .
【答案】(1)解:由题意, = ×(1+2+3+4+5+6+7)=4, = ×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∴ = = =0.5,= ﹣ =4.3﹣0.5×4=2.3.∴y关于t的线性回归方程为 =0.5t+2.3;(2)解:由(1)知,b=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元. 将2015年的年份代号t=9代入 =0.5t+2.3,得:=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元
【考点】线性回归方程
【解析】【分析】(1)根据所给的数据,利用最小二乘法可得横标和纵标的平均数,横标和纵标的积的和,与横标的平方和,代入公式求出b的值,再求出a的值,写出线性回归方程.(2)根据上一问做出的线性回归方程,代入所给的t的值,预测该地区2015年农村居民家庭人均纯收入,这是一个估计值.
8.(2016?全国)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1﹣7分别对应年份2008﹣2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以证明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据: =9.32, =40.17, =0.55, ≈2.646.参考公式: ,回归方程 中斜率和截距的最小二乘估计公式分别为:, .
【答案】(1)解:由折线图看出,y与t之间存在较强的正相关关系,理由如下:∵ = ≈ ≈ ≈0.996,∵0.996>0.75,故y与t之间存在较强的正相关关系;(2)解: = ≈ ≈0.10,≈1.331﹣0.10×4≈0.93,∴y关于t的回归方程 =0.103+0.93,2016年对应的t值为9,故 =0.10×9+0.93=1.83,预测2016年我国生活垃圾无害化处理量为1.83亿吨.
【考点】线性回归方程
【解析】【分析】(1)由折线图看出,y与t之间存在较强的正相关关系,将已知数据代入相关系数方程,可得答案;(2)根据已知中的数据,求出回归系数,可得回归方程,2016年对应的t值为9,代入可预测2016年我国生活垃圾无害化处理量.本题考查的知识点是线性回归方程,回归分析,计算量比较大,计算时要细心.
9.(2015·新课标I卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的宣传费xi和年销售量yi=1;2…8数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
56.3
6.8
289.8
1.6
1469
108.8
表中wi=,=
(1)根据散点图判断,y=a+bx与y=c+d,哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由);
(2)根据(I)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x , y的关系为z=0.2y-x,根据(II)的结果回答下列问题:(i)当年宣传费x=90时,年销售量及年利润的预报值时多少?(ii)当年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),……,(un,vn),其回归线v=的斜率和截距的最小二乘估计分别为:
【答案】(1)y=c+d适合作为年销售y关于年宣传费用x的回归方程类型。(2)=100.6+68(3)46.24
【考点】线性回归方程
【解析】【解答】(I)由散点图及所给函数图像即可选出适合作为拟合的函数;(II)令w=,先求出建立y关于w的线性回归方程,即可y关于x的回归方程;(III) : (i) 利用y关于x的回归方程先求出年销售量y预报值,再根据年利率z与x,y的关系为z=0.2y-x即可年利润z的预报值,(ii) 根据(II)的结果知,利润z的预报值,列出关于x的方程,利用二次函数求最值的方法即可求出年利润取最大值时的年宣传费用.试题解析:(I)由散点图可以判断,y=c+d适合作为年销售y关于年宣传费用x的回归方程类型。(II)令w=,先建立y关于w的线性回归方程,由于∴∴y关于w的线性回归方程为=100.6+68w,? ∴y关于x的回归方程为=100.6+68.(III)(i)由(II)知,当x=49时,年销量y的预报值,=100.6+68=576.6,=576.6x0.2-49=66.32 (ii)根据(II)的结果知,年利润z的预报值=0.2(100.6+68)-x=-x+13.6+20.12,∴ 当==6.8,即x=46.24时,取得最大值。【分 析】本题考查了非线性拟合及非线性回归方程的求解与应用,是源于课本的试题类型,解答非线性拟合问题,先作出散点图,再根据散点图选择合适的函数类型,设 出回归方程,利用换元法将非线性回归方程化为线性回归方程,求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,即可 求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.21*cnjy*com
10.(2012?辽宁)电视传媒公司为了了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图: 将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面2×2列联表,并据此资料你是否认为“体育迷”与性别有关?
非体育迷
体育迷
合计
男
女
10
55
合计
(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X,若每次抽取的结果是相互独立的,求X的分布列,期望E(X)和方差D(X)
P( K2≥k)
0.05
0.01
k
3.841
6.635
【答案】(1)解:由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:
非体育迷
体育迷
合计
男
30
15
45
女
45
10
55
合计
75
25
100
将2×2列联表中的数据代入公式计算,得:K2= = ≈3.03,因为3.03<3.841,所以没有理由认为“体育迷”与性别有关.(2)解:由频率分布直方图知抽到“体育迷”的频率是0.25,将频率视为概率,即从观众中抽取到一名“体育迷”的概率是 ,由题意X∽B(3, ),从而分布列为
X
0
1
2
3
P
所以E(X)=np=3× = .D(X)=npq=3× × = .
【考点】频率分布直方图,独立性检验的应用
【解析】【分析】(1)根据所给的频率分布直方图得出数据列出列联表,再代入公式计算得出K2 , 与3.841比较即可得出结论;(2)由题意,用频率代替概率可得出从观众中抽取到一名“体育迷”的概率是 ,由于X∽B(3, ),从而给出分布列,再由公式计算出期望与方差即可www-2-1-cnjy-com
11.(2017?新课标Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下: (Ⅰ)记A表示时间“旧养殖法的箱产量低于50kg”,估计A的概率;(Ⅱ)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50kg
箱产量≥50kg
旧养殖法
新养殖法
(Ⅲ)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行比较.附:
P(K2≥K)
0.050
0.010
0.001
K
3.841
6.635
10.828
K2= .
【答案】解:(Ⅰ)根据题意,由旧养殖法的频率分布直方图可得: P(A)=(0.012+0.014+0.024+0.034+0.040)×5=0.62;(Ⅱ)根据题意,补全列联表可得:21世纪教育网版权所有
箱产量<50kg
箱产量≥50kg
总计
旧养殖法
62
38
100
新养殖法
34
66
100
总计
96
104
200
则有K2= ≈7.853>6.635,故有99%的把握认为箱产量与养殖方法有关;(Ⅲ)由频率分布直方图可得:旧养殖法100个网箱产量的平均数 1=(27.5×0.012+32.5×0.014+37.5×0.024+42.5×0.034+47.5×0.040+52.5×0.032+57.5×0.032+62.5×0.012+67.5×0.012)×5=5×9.42=47.1;新养殖法100个网箱产量的平均数 2=(37.5×0.004+42.5×0.020+47.5×0.044+52.5×0.068+57.5×0.046+62.5×0.010+67.5×0.008)×5=5×10.47=52.35;比较可得: 1< 2 , 故新养殖法更加优于旧养殖法.
【考点】频率分布直方图,独立性检验,独立性检验的应用
【解析】【分析】(Ⅰ)根据题意,由旧养殖法的频率分布直方图计算可得答案; (Ⅱ)由频率分布直方图可以将列联表补全,进而计算可得K2= ≈7.853>6.635,与附表比较即可得答案;(Ⅲ)由频率分布直方图计算新旧养殖法产量的平均数,比较即可得答案.
12.(2017?新课标Ⅰ卷)为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:(12分)
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得 = xi=9.97,s= = =0.212, ≈18.439, (xi﹣ )(i﹣8.5)=﹣2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
(1)求(xi , i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
(2)一天内抽检零件中,如果出现了尺寸在( ﹣3s, +3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在( ﹣3s, +3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(xi , yi)(i=1,2,…,n)的相关系数r= , ≈0.09.
【答案】(1)解:r= = =﹣0.18.∵|r|<0.25,∴可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i) =9.97,s=0.212,∴合格零件尺寸范围是(9.334,10,606),显然第13号零件尺寸不在此范围之内,∴需要对当天的生产过程进行检查.(ii)剔除离群值后,剩下的数据平均值为 =10.22,=16×0.2122+16×9.972=1591.134,∴剔除离群值后样本方差为 (1591.134﹣9.222﹣15×10.022)=0.008,∴剔除离群值后样本标准差为 ≈0.09. 2·1·c·n·j·y
【考点】众数、中位数、平均数,极差、方差与标准差,相关系数
【解析】【分析】(1.)代入数据计算,比较|r|与0.25的大小作出结论;(2.)(i)计算合格零件尺寸范围,得出结论;(ii)代入公式计算即可.
模拟题精练
一、单选题
1.(2017重庆九校联考二模)某汽车的使用年数x与所支出的维修费用y的统计数据如表:
?使用年数x(单位:年)
?1
?2
?3
?4
?5
?维修总费用y(单位:万元)
?0.5
?1.2
?2.2
?3.3
?4.5
根据上表可得y关于x的线性回归方程 = x﹣0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(?? )
A.?8年?????????????????????????????????????B.?9年?????????????????????????????????????C.?10年????????????????????????????????D.?11年
【答案】D
【考点】线性回归方程
【解析】【解答】解:计算 = ×(1+2+3+4+5)=3,= ×(0.5+1.2+2.2+3.3+4.5)=2.34;?代入回归方程 = x﹣0.69得2.34= ×3﹣0.69,解得 =1.01;∴回归方程为 =1.01x﹣0.69,令 =1.01x﹣0.69≥10,解得x≥10.6≈11,据此模型预测该汽车最多可使用11年.故选:D.【分析】计算 、 ,求出回归系数,写出回归方程,据此模型预测该汽车最多可使用年限.
2.(2017广西桂林崇左一模)在两个变量y与x的回归模型中,分别选择了四个不同的模型,它们的相关指数R2如下,其中拟合效果最好的为(?? )
A.?模型①的相关指数为0.976??????????????????????????????????B.?模型②的相关指数为0.776C.?模型③的相关指数为0.076??????????????????????????????????D.?模型④的相关指数为0.351
【答案】A
【考点】相关系数
【解析】【解答】解:根据相关指数R2的值越大,模型拟合的效果越好, 比较A、B、C、D选项,A的相关指数最大,∴模型①拟合的效果最好.故选:A.【分析】相关指数R2的值越大,模型拟合的效果越好,可得答案.
3.(2017江西抚州临川三中三模)在两个变量y与x的回归模型中,分别选择了四个不同的模型,它们的相关指数R2如下,其中拟合效果最好的为(?? )
A.?模型①的相关指数为0.976??????????????????????????????????B.?模型②的相关指数为0.776C.?模型③的相关指数为0.076??????????????????????????????????D.?模型④的相关指数为0.351
【答案】A
【考点】相关系数
【解析】【解答】解:根据相关指数R2的值越大,模型拟合的效果越好, 比较A、B、C、D选项,A的相关指数最大,∴模型①拟合的效果最好.故选:A.【分析】相关指数R2的值越大,模型拟合的效果越好,可得答案.
4.(天津市和平区2016-2017期末)在下列各散点图中,两个变量具有正相关关系的是(?? )
A.????????????????????????????????????????B.?C.????????????????????????????????????????D.?
【答案】D
【考点】散点图
【解析】【解答】解:根据题意,依次分析选项:对于A、是相关关系,但不是正相关关系,不符合题意;对于B、是相关关系,但是负相关关系,不符合题意;对于C、所示的散点图中,样本点不成带状分布,则这两个变量不具有线性相关关系,不符合题意;对于D、是相关关系,且是正相关关系,符合题意;故答案为:D.【分析】根据两个变量的散点图,样本点成带状分布,这两个变量具有线性相关关系;而正相关关系的散点图是从左下角向右上角变化,由此判断得出正确的结论。
二、填空题
5.(2016-2017江苏宿迁泗阳期中)分解因式:5x2+6xy﹣8y2=________.
【答案】(x+2y)(5x﹣4y)
【考点】最小二乘法
【解析】【解答】解:5x2+6xy﹣8y2=(x+2y)(5x﹣4y).故答案为:(x+2y)(5x﹣4y).【分析】将多项式第三项分为2y与﹣4y的乘积,第一项分为x与5x,利用十字相乘法,得到分解结果.
6.(湖北宜昌七校教学2016-2017期末)已知x和y之间的一组数据,若x、y具有线性相关关系,且回归方程为 =x+a,则a的值为________. 21·世纪*教育网
x
0
1
2
3
y
1
3
5
7
【答案】2.5
【考点】线性回归方程
【解析】【解答】解:根据表中数据,计算 = ×(0+1+2+3)=1.5, = ×(1+3+5+7)=4,代回归方程 =x+a中,计算a= ﹣ =4﹣1.5=2.5.故答案为:2.5.【分析】根据表中数据计算 、 ,代回归方程中求出a的值.
三、综合题
7.(2017河南南阳、信阳一模)为了对2016年某校中考成绩进行分析,在60分以上的全体同学中随机抽出8位,他们的数学分数(已折算为百分制)从小到大排是60、65、70、75、80、85、90、95,物理分数从小到大排是72、77、80、84、88、90、93、95. 参考公式:相关系数 ,回归直线方程是: ,其中 ,参考数据: , , , .
(1)若规定85分以上为优秀,求这8位同学中恰有3位同学的数学和物理分数均为优秀的概率;
(2)若这8位同学的数学、物理、化学分数事实上对应如下表:
学生编号
1
2
3
4
5
6
7
8
数学分数x
60
65
70
75
80
85
90
95
物理分数y
72
77
80
84
88
90
93
95
化学分数z
67
72
76
80
84
87
90
92
①用变量y与x、z与x的相关系数说明物理与数学、化学与数学的相关程度;②求y与x、z与x的线性回归方程(系数精确到0.01),当某同学的数学成绩为50分时,估计其物理、化学两科的得分. 21cnjy.com
【答案】(1)解:这8位同学中恰有3位同学的数学和物理分数均为优秀, 则需要先从物理4 个优秀分数中选出3个与数学分数对应,不同的种数是 (或 ),然后剩下的5个数学分数和物理分数任意对应,不同的种数是 ;根据乘法原理,满足条件的不同种数是 ;这8位同学的物理分数和数学分数分别对应种数共有 ,故所求的概率为 (2)解:①变量y与x、z与x的相关系数分别是 ,可以看出:物理与数学、化学与数学成绩都是高度正相关;②设y与x、z与x的线性回归方程分别是 ,根据所给的数据,计算出,,所以y与x、z与x的回归方程分别是、 ,当x=50时, ,∴当该生的数学为50分时,其物理、化学成绩分别约为66.85分、61.2分
【考点】两个变量的线性相关,线性回归方程
【解析】【分析】(1)求出从这8位同学中恰有3位同学的数学和物理分数均为优秀的基本事件数,以及这8位同学的物理分数和数学分数分别对应基本事件数,计算所求的概率值(2)①变量y与x、z与x的相关系数,得出物理与数学、化学与数学成绩都是高度正相关;②求出y与x、z与x的线性回归方程,由此计算x=50时y与z的值即可.
8.(2017四川内江数学)某工厂为了解用电量y与气温x℃之间的关系,随机统计了5天的用电量与当天气温,得到如下统计表:
曰期
8月1曰
8月7日
8月14日
8月18日
8月25日
平均气温(℃)
33
30
32
30
25
用电量(万度)
38
35
41
36
30
xiyi=5446, xi2=4538, = , = ﹣
(1)请根据表中的数据,求出y关于x的线性回归方程.据气象預报9月3日的平均气温是 23℃,请预测9月3日的用电量;(结果保留整数)
(2)请从表中任选两天,记用电量(万度)超过35的天数为ξ,求ξ的概率分布列,并求其数学期望和方差.
【答案】(1)解:计算 = ×(33+30+32+30+25)=30,= ×(38+35+41+36+30)=36,又 xiyi=5446, xi2=4538,∴回归系数为 = = = ,= ﹣ =36﹣ ×30=﹣ ,∴回归方程为 = x﹣ ;当x=23时, = ×23﹣ = ≈27.53,即预测9月3日的用电量约为28万度;(结果保留整数)(2)解:根据题意知,ξ的可能取值为0,1,2;且P(ξ=0)= = ,P(ξ=1)= = ,P(ξ=2)= = ,所以ξ的概率分布列为
ξ
0
1
2
P
??
??
??
数学期望为E(ξ)=0× +1× +2× =1.2,方差为D(ξ)=(0﹣1.2)2× +(1﹣1.2)2× +(2﹣1.2)2× =0.36
【考点】线性回归方程,离散型随机变量及其分布列,离散型随机变量的期望与方差
【解析】【分析】(1)计算 、 ,求出回归系数,写出回归方程,利用回归方程计算x=23时 的值即可;(2)根据题意知ξ的可能取值,计算对应的概率值,写出ξ的概率分布列,计算数学期望和方差.
9.(河北邯郸2017-2018高三摸底卷)共享单车是指企业在校园、地铁站点、公交站点、居民区、商业区、公共服务区等提供自行车单车共享服务,是共享经济的一种新形态.一个共享单车企业在某个城市就“一天中一辆单车的平均成本(单位:元)与租用单车的数量(单位:千辆)之间的关系”进行调查研究,在调查过程中进行了统计,得出相关数据见下表:
?租用单车数量x(千辆)
?2
?3
?4
?5
?8
?每天一辆车平均成本y(元)
?3.2
?2.4
?2
?1.9
?1.7
根据以上数据,研究人员分别借助甲、乙两种不同的回归模型,得到两个回归方程,方程甲: (1)= +1.1,方程乙: (2)= +1.6.
(1)为了评价两种模型的拟合效果,完成以下任务:①完成下表(计算结果精确到0.1)(备注: =yi﹣ , 称为相应于点(xi , yi)的残差(也叫随机误差);
? 租用单车数量x(千辆)
?2
?3
?4
?5
?8
?每天一辆车平均成本y(元)
?3.2
? 2.4
?2
?1.9
? 1.7
?模型甲
?估计值 (1)
?2.4
?2.1
?1.6
?残差 (1)
?0
﹣0.1
?0.1
模型乙
估计值 ?(2)
?2.3
?2
1.9
残差 (2)
?0.1
?0
?0
②分别计算模型甲与模型乙的残差平方和Q1及Q2 , 并通过比较Q1 , Q2的大小,判断哪个模型拟合效果更好.
(2)这个公司在该城市投放共享单车后,受到广大市民的热烈欢迎,共享单车常常供不应求,于是该公司研究是否增加投放.根据市场调查,这个城市投放8千辆时,该公司平均一辆单车一天能收入10元,6元收入的概率分别为0.6,0.4;投放1万辆时,该公司平均一辆单车一天能收入10元,6元的概率分别为0.4,0.6.问该公司应该投放8千辆还是1万辆能获得更多利润?(按(1)中拟合效果较好的模型计算一天中一辆单车的平均成本,利润=收入﹣成本).
【答案】(1)解:(1)①经计算,可得下表(计算结果精确到0.1);
? 租用单车数量x(千辆)
?2
?3
?4
?5
?8
?每天一辆车平均成本y(元)
?3.2
? 2.4
?2
?1.9
? 1.7
?模型甲
?估计值 (1)
3.1
?2.4
?2.1
1.9
?1.6
?残差 (1);
0.1
?0
﹣0.1
?0
?0.1
模型乙
估计值 ?(2)
3.2
?2.3
?2
1.9
1.7
残差 (2)
0
?0.1
?0
?0
?0
②计算模型甲的残差平方Q1=0.12+(﹣0.1)2+0.12=0.03,模型乙的残差平方Q2=0.12=0.01;∴Q1>Q2 , 故模型乙的拟合效果更好;(2)若该城市投放共享单车为8千辆时,则该公司获得每辆车一天的收入期望为:10×0.6+6×0.4=8.4(元),所以该公司一天获得的总利润为(8.4﹣1.7)×8000=53600(元);若投放共享单车为1万辆时,则每辆车的成本为 +1.6=1.664(元),每辆车一天的收入期望为10×0.4+6×0.6=7.6(元),所以该公司一天获得的总利润为(7.6﹣1.664)×10000=59360(元);由59360>53600,∴投放1万辆能获得更多利润,应该增加到投放1万辆.
【考点】线性回归方程
【解析】【分析】(1)①通过题意进行计算填写表中的数据,②计算模型甲、乙的残差平方,不难得出模型乙的拟合效果更好,(2)分别计算投放8千辆和1万辆时,公司一天获得的总利润,可知道投放1万辆获得更多的利润.
10.(2017广东东莞北师大石竹附中三模)鹰潭市龙虎山花语世界位于中国第八处世界自然遗产,世界地质公元、国家自然文化双遗产地、国家AAAAA级旅游景区﹣﹣龙虎山主景区排衙峰下,是一座独具现代园艺风格的花卉公园,园内汇集了3000余种花卉苗木,一年四季姹紫嫣红花香四溢.花园景观融合法、英、意、美、日、中六大经典园林风格,景观设计唯美新颖.玫瑰花园、香草花溪、台地花海、植物迷宫、儿童乐园等景点错落有致,交相呼应又自成一体,是世界园艺景观的大展示.该景区自2015年春建成试运行以来,每天游人如织,郁金香、向日葵、虞美人等赏花旺季日入园人数最高达万人.某学校社团为了解进园旅客的具体情形以及采集旅客对园区的建议,特别在2017年4月1日赏花旺季对进园游客进行取样调查,从当日12000名游客中抽取100人进行统计分析,结果如下:(表一)
年龄
频数
频率
男
女
[0,10)
10
0.1
5
5
[10,20)
①
②
③
④
[20,30)
25
0.25
12
13
[30,40)
20
0.2
10
10
[40,50)
10
0.1
6
4
[50,60)
10
0.1
3
7
[60,70)
5
0.05
1
4
[70,80)
3
0.03
1
2
[80,90)
2
0.02
0
2
合计
100
1.00
45
55
(1)完成表格一中的空位①﹣④,并在答题卡中补全频率分布直方图,并估计2017年4月1日当日接待游客中30岁以下人数. 21·cn·jy·com
(2)完成表格二,并问你能否有97.5%的把握认为在观花游客中“年龄达到50岁以上”与“性别”相关?
50岁以上
50岁以下
合计
男生
女生
合计
P(K2≥k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
(参考公式:k2= ,其中n=a+b+c+d)
(3)按分层抽样(分50岁以上与50以下两层)抽取被调查的100位游客中的10人作为幸运游客免费领取龙虎山内部景区门票,再从这10人中选取2人接受电视台采访,设这2人中年龄在50岁以上(含)的人数为ξ,求ξ的分布列及数学期望.
【答案】(1)解:15|0.15|7|8 完成频率分布直方图如下: 30岁以下频率为:0.1+0.15+0.25=0.5,以频率作为概率,估计2017年7月1日当日接待游客中30岁以下人数为:12000×0.5=6000(2)解:5|40|45|15|40|55|20|80|100|K2= = ≈4.04<5.024, 所以没有97.5%的把握认为在观花游客中“年龄达到50岁以上”与“性别”相关(3)解:由分层抽样应从这10人中抽取50岁以上人数:10×0.2=2人,50岁以下人数ξ的取值可能0,1,2; P(ξ=0)= = ,P(ξ=1)= = ,P(ξ=2)= = ;∴ξ的分布列为:21教育网
ξ
0
1
2
P
数学期望为Eξ=0× +1× +2× =
【考点】独立性检验,离散型随机变量及其分布列,离散型随机变量的期望与方差
【解析】【解答】(1.)完成表格一中的空位①﹣④,如下:
年龄
频数
频率
男
女
[0,10)
10
0.1
5
5
[10,20)
15
0.15
7
8
[20,30)
25
0.25
12
13
[30,40)
20
0.2
10
10
[40,50)
10
0.1
6
4
[50,60)
10
0.1
3
7
[60,70)
5
0.05
1
4
[70,80)
3
0.03
1
2
[80,90)
2
0.02
0
2
合计
100
1.00
45
55
(2.)完成表格,如下:
50岁以上
50岁以下
合计
男生
5
40
45
女生
15
40
55
合计
20
80
100
【分析】(1)由频率分布表的性质能完成表(一),从而能完成频率分布直方图,进而求出30岁以下频率,以频率作为概率,估计2017年7月1日当日接待游客中30岁以下人数;(2)完成表格,求出观测值K2 , 对照临界值表即可得出结论;(3)由分层抽样原理,结合题意得出ξ的取值可能,计算相应的概率,写出ξ的分布列,计算数学期望值.
11.(2017辽宁辽南模拟)有甲、乙两个班级进行数学考试,按照大于等于120分为优秀,120分以下为非优秀统计成绩后,得到如下2×2列联表:(单位:人).
优秀
非优秀
总计
甲班
10
乙班
30
总计
105
已知在全部105人中随机抽取1人成绩是优秀的概率为 ,
(1)请完成上面的2 x×2列联表,并根据表中数据判断,是否有95%的把握认为“成绩与班级有关系”? www.21-cn-jy.com
(2)若甲班优秀学生中有男生6名,女生4名,现从中随机选派3名学生参加全市数学竞赛,记参加竞赛的男生人数为X,求X的分布列与期望. 附:K2=
P(K2≥k)
0.15
0.10
0.05
0.010
k
2.072
2.706
3.841
6.635
【答案】(1)解:由已知,两个班的优秀学生人数为105× =30,填写2×2列联表如下;
优秀
非优秀
总计
甲班
10
45
55
乙班
20
30
50
总计
30
75
105
计算K2= = = ≈6.109>3.841,所以有95%的把握认为“成绩与班级有关系”(2)解:根据题意,X的所有可能取值为0,1,2,3; 计算P(X=0)= = = ,P(X=1)= = = ,P(X=2)= = = ,P(X=3)= = ;∴随机变量X的分布列为:21*cnjy*com
X
0
1
2
3
【考点】独立性检验
【解析】【分析】(1)由已知填写列联表,计算观测值,对照临界值即可得出结论;(2)根据题意知X的所有可能值,计算对应的概率,写出随机变量X的分布列,计算数学期望值.
P
??
??
??
数学期望为E(X)=0× +1× +2× +3× = ;或X服从超几何分布,且N=10,M=6,n=3,所以E(X)= = = .【来源:21cnj*y.co*m】
12.(2017山西晋中祁县模拟)某印刷厂为了研究印刷单册书籍的成本y(单位:元)与印刷册数x(单位:千册)之间的关系,在印制某种书籍时进行了统计,相关数据见下表:
印刷册数 (千册)
2
3
4
5
8
单册成本 (元)
3.2
2.4
2
1.9
1.7
根据以上数据,技术人员分别借助甲、乙两种不同的回归模型,得到两个回归方程,方程甲: = ,方程乙: = . 【来源:21·世纪·教育·网】
(1)为了评价两种模型的拟合效果,完成以下任务. ①完成下表(计算结果精确到0.1);
印刷册数x(千册)
2
3
4
5
8
单册成本y(元)
3.2
2.4
2
1.9
1.7
模型甲
估计值
?
2.4
2.1
?
1.6
残差
?
0
﹣0.1
?
0.1
模型乙
估计值
?
2.3
2
1.9
?
残差
?
0.1
0
0
?
②分别计算模型甲与模型乙的残差平方和Q1及Q2 , 并通过比较Q1 , Q2的大小,判断哪个模型拟合效果更好. 【版权所有:21教育】
(2)该书上市之后,受到广大读者热烈欢迎,不久便全部售罄,于是印刷厂决定进行二次印刷.根据市场调查,新需求量为8千册(概率0.8)或10千册(概率0.2),若印刷厂以每册5元的价格将书籍出售给订货商,问印刷厂二次印刷8千册还是10千册能获得更多利润?(按(1)中拟合效果较好的模型计算印刷单册书的成本)
【答案】(1)解:①经计算,可得下表:
印刷册数x(千册)
2
3
4
5
8
单册成本y(元)
3.2
2.4
2
1.9
1.7
模型甲
估计值
3.1
2.4
2.1
1.9
1.6
残差
0.1
0
﹣0.1
0
0.1
模型乙
估计值
3.2
2.3
2
1.9
1.7
残差
0
0.1
0
0
0
②模型甲的残差平方和Q1=0.12+(﹣0.1)2+0.12=0.03,模型乙的残差平方和Q2=0.12=0.01,∴Q1>Q2 , 模型乙的拟合效果更好(2)解:若二次印刷8千册,则印刷厂获利为(5﹣1.7)×8000=26400(元), 若二次印刷10千册,由(1)可知,单册书印刷成本为 (元)故印刷总成本为16640(元),设新需求量为X(千册),印刷厂利润为Y(元),则
X
8
10
Y
0.8
0.2
EX=8×0.8+10×0.2=8.4,故EY=5×1000×EX﹣16640=42000﹣16640=25360,故印刷8千册对印刷厂更有利
【考点】回归分析,离散型随机变量的期望与方差
【解析】【分析】(1)①计算对应的数值,填表即可;②计算模型甲、模型乙的残差平方和,比较即可得出结论;(2)计算二次印刷时的成本和利润,求出数学期望(均值),即可得出结论.
13(广西钦州2016-2017期末)冶炼某种金属可以用旧设备和改造后的新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如表所示: 根据以上数据试判断含杂质的高低与设备改造有无关系?
【答案】解:由已知数据得到如下2×2列联表 由公式K2= ≈13.11,由于13.11>10.828,故有99.9%的把握认为含杂质的高低与设备是否改造是有关的.
【考点】两个变量的线性相关
【解析】【分析】根据所给的数据写出列联表,把列联表的数据代入观测值的公式,求出两个变量之间的观测值,把观测值同临界值表中的数据进行比较,得到有99.9%的把握认为含杂质的高低与设备是否改造是有关的.
14.(2017青海西宁四中、五中、十四中三校模拟)学校为了了解高三学生每天自主学习中国古典文学的时间,随机抽取了高三男生和女生各50名进行问卷调查,其中每天自主学习中国古典文学的时间超过3小时的学生称为“古文迷”,否则为“非古文迷”,调查结果如表:
古文迷
非古文迷
合计
男生
26
24
50
女生
30
20
50
合计
56
44
100
(Ⅰ)根据表中数据能否判断有60%的把握认为“古文迷”与性别有关?(Ⅱ)现从调查的女生中按分层抽样的方法抽出5人进行调查,求所抽取的5人中“古文迷”和“非古文迷”的人数;(Ⅲ)现从(Ⅱ)中所抽取的5人中再随机抽取3人进行调查,记这3人中“古文迷”的人数为ξ,求随机变量ξ的分布列与数学期望.参考公式:K2= ,其中n=a+b+c+d.参考数据:
P(K2≥k0)
0.50
0.40
0.25
0.05
0.025
0.010
k0
0.455
0.708
1.321
3.841
5.024
6.635
【答案】解:(Ⅰ)由列联表得K2= ≈0.6494<0.708, 所以没有60%的把握认为“古文迷”与性别有关.(Ⅱ)调查的50名女生中“古文迷”有30人,“非古文迷”有20人,按分层抽样的方法抽出5人,则“古文迷”的人数为 =3人,“非古文迷”有 =2人.即抽取的5人中“古文迷”和“非古文迷”的人数分别为3人和2人(Ⅲ)因为ξ为所抽取的3人中“古文迷”的人数,所以ξ的所有取值为1,2,3.P(ξ=1)= = ,P(ξ=2)= = ,P(ξ=3)= = .所以随机变量ξ的分布列为
ξ
1
2
3
P
??
??
??
于是Eξ=1× +2× +3× =
【考点】线性回归方程
【解析】【分析】(Ⅰ)求出K2 , 与临界值比较,即可得出结论;(Ⅱ)调查的50名女生中“古文迷”有30人,“非古文迷”有20人,按分层抽样的方法抽出5人,即可得出结论;(Ⅲ)ξ的所有取值为1,2,3.求出相应的概率,即可求随机变量ξ的分布列与数学期望.
15.(2017内蒙古包头包钢一中二模)某位同学进行寒假社会实践活动,为了对白天平均气温与某奶茶店的某种饮料销量之间的关系进行分析研究,他分别记录了1月11日至1月15日的白天平均气温x(°C)与该小卖部的这种饮料销量y(杯),得到如下数据:
日??? 期
1月11日
1月12日
1月13日
1月14日
1月15日
平均气温x(°C)
9
10
12
11
8
销量y(杯)
23
25
30
26
21
(Ⅰ)若先从这五组数据中抽出2组,求抽出的2组数据恰好是相邻2天数据的概率;(Ⅱ)请根据所给五组数据,求出y关于x的线性回归方程 = x+ ;(Ⅲ)根据(Ⅱ)中所得的线性回归方程,若天气预报1月16日的白天平均气温7(°C),请预测该奶茶店这种饮料的销量.(参考公式: = , = ﹣ )
【答案】解:(Ⅰ)设“选取的2组数据恰好是相邻2天数据”为事件A, 所有基本事件(m,n)(其中m,n为1月份的日期数)有:(11,12),(11,13),(11,14),(11,15),(12,13),(12,14),(12,15),(13,14),(13,15),(14,15),共有10种.事件A包括的基本事件有(11,12),(12,13),(13,14),(14,15)共4种.所以 ?为所求.(Ⅱ)由数据,求得 , .由公式,求得 , ,所以y关于x的线性回归方程为 .(Ⅲ)当x=7时, .所以该奶茶店这种饮料的销量大约为19杯
【考点】线性回归方程
【解析】【分析】(Ⅰ)根据题意列举出从5组数据中选取2组数据共有10种情况,每种情况都是可能出现的,满足条件的事件包括的基本事件有4种.根据等可能事件的概率做出结果.(Ⅱ)根据所给的数据,先做出x,y的平均数,即做出本组数据的样本中心点,根据最小二乘法求出线性回归方程的系数,写出线性回归方程.(Ⅲ)利用线性回归方程,x取7,即可预测该奶茶店这种饮料的销量.
16.(2017山西太原五中二模)随着移动互联网的快速发展,基于互联网的共享单车应运而生.某市场研究人员为了了解共享单车运营公司M的经营状况,对该公司最近六个月内的市场占有率进行了统计,并绘制了相应的折线图. (Ⅰ)由折线图可以看出,可用线性回归模型拟合月度市场占有率y与月份代码x之间的关系.求y关于x的线性回归方程,并预测M公司2017年4月份的市场占有率;(Ⅱ)为进一步扩大市场,公司拟再采购一批单车.现有采购成本分别为1000元/辆和1200元/辆的A、B两款车型可供选择,按规定每辆单车最多使用4年,但由于多种原因(如骑行频率等)会导致车辆报废年限各不相同.考虑到公司运营的经济效益,该公司决定先对两款车型的单车各100辆进行科学模拟测试,得到两款单车使用寿命频数表如下:
报废年限车型
1年
2年
3年
4年
总计
A
20
35
35
10
100
B
10
30
40
20
100
经测算,平均每辆单车每年可以带来收入500元.不考虑除采购成本之外的其他成本,假设每辆单车的使用寿命都是整数年,且以频率作为每辆单车使用寿命的概率.如果你是M公司的负责人,以每辆单车产生利润的期望值为决策依据,你会选择采购哪款车型?参考数据:, , =17.5.参考公式:回归直线方程为 其中 = , = ﹣ .
【答案】解:(Ⅰ)由题意, =3.5, =16, = =2, = ﹣ ? =16﹣2×3.5=9, ∴ =2x+9,x=7时, =2×7+9=23,即预测M公司2017年4月份(即x=7时)的市场占有率为23%;(Ⅱ)由频率估计概率,每辆A款车可使用1年,2年,3年、4年的概率分别为0.2,0.35,0.35,0.1,∴每辆A款车的利润数学期望为(500﹣1000)×0.2+(1000﹣1000)×0.35+(1500﹣1000)×0.35+(2000﹣1000)×0.1=175元;每辆B款车可使用1年,2年,3年、4年的概率分别为0.1,0.3,0.4,0.2,∴每辆B款车的利润数学期望为(500﹣1200)×0.1+(1000﹣1200)×0.3+(1500﹣1200)×0.4+(2000﹣1200)×0.2=150元;∵175>150,∴应该采购A款车.
【考点】线性回归方程
【解析】【分析】(Ⅰ)求出回归系数,可得回归方程,即可得出结论;(Ⅱ)分别计算相应的数学期望,即可得出结论.
17.(2017四川绵阳三诊)共享单车进驻城市,绿色出行引领时尚,某市有统计数据显示,2016年该市共享单车用户年龄等级分布如图1所示,一周内市民使用单车的频率分布扇形图如图2所示,若将共享单车用户按照年龄分为“年轻人”(20岁~39岁)和“非年轻人”(19岁及以下或者40岁及以上)两类,将一周内使用的次数为6次或6次以上的称为“经常使用单车用户”,使用次数为5次或不足5次的称为“不常使用单车用户”,已知在“经常使用单车用户”中有 是“年轻人”. (Ⅰ)现对该市市民进行“经常使用共享单车与年龄关系”的调查,采用随机抽样的方法,抽取一个容量为200的样本,请你根据图表中的数据,补全下列2×2列联表,并根据列联表的独立性检验,判断能有多大把握可以认为经常使用共享单车与年龄有关?使用共享单车情况与年龄列联表
?
?年轻人
非年轻人
合计
?经常使用共享单车用户
?
?
?120
?不常使用共享单车用户
?
?
?80
?合计
?160
?40
?200
(Ⅱ)将频率视为概率,若从该市市民中随机任取3人,设其中经常使用共享单车的“非年轻人”人数为随机变量X,求X的分布列与期望.(参考数据:
?P(K2≥k0)
?0.15
?0.10
0.050
?0.025
?0.010
k0
?2.072
?2.706
?3.841
?5.024
?6.635
其中,K2= ,n=a+b+c+d)
【答案】解:(Ⅰ) 100|20|60|20于是a=100,b=20,c=60,d=20,∴K2= ≈2.083>2.072,即有85%的把握可以认为经常使用共享单车与年龄有关.(Ⅱ)由(Ⅰ)的列联表可知,经常使用共享单车的“非年轻人”占样本总数的频率为 =10%,即在抽取的用户中出现经常使用单车的“非年轻人”的概率为0.1,∵X~B(3,0.1),X=0,1,2,3,∴P(X=0)=(1﹣0.1)3=0.729,P(X=1)= ,P(X=2)= ,P(X=3)=0.13=0.001,∴X的分布列为:
X
0
1
2
3
P
0.729
0.243
0.027
0.001
∴X的数学期望E(X)=0×0.729+1×0.243+2×0.027+3×0.001=0.3
【考点】独立性检验,离散型随机变量及其分布列,离散型随机变量的期望与方差
【解析】【解答】解:(Ⅰ)补全的列联表如下:
年轻人
非年轻人
合计
经常使用共享单车
100
20
120
不常使用共享单车
60
20
80
合计
160
40
200
【分析】(Ⅰ)补全的列联表,求出K2≈2.083>2.072,从而有85%的把握可以认为经常使用共享单车与年龄有关. (Ⅱ)经常使用共享单车的“非年轻人”占样本总数的频率为10%,从而X~B(3,0.1),由此能出X的分布列和数学期望E(X).
18.(2017湖北襄阳五中三模)近年来,微信越来越受欢迎,许多人通过微信表达自己、交流思想和传递信息,微信是现代生活中进行信息交流的重要工具.而微信支付为用户带来了全新的支付体验,支付环节由此变得简便而快捷.某商场随机对商场购物的100名顾客进行统计,其中40岁以下占 ,采用微信支付的占 ,40岁以上采用微信支付的占 . (Ⅰ)请完成下面2×2列联表:
40岁以下
40岁以上
合计
使用微信支付
未使用微信支付
合计
并由列联表中所得数据判断有多大的把握认为“使用微信支付与年龄有关”?(Ⅱ)若以频率代替概率,采用随机抽样的方法从“40岁以下”的人中抽取2人,从“40岁以上”的人中抽取1人,了解使用微信支付的情况,问至少有一人使用微信支付的概率为多少?参考公式: ,n=a+b+c+d.参考数据:
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.760
3.841
6.635
10.828
【答案】解:(Ⅰ)由已知可得,40岁以下的有100× =60人,使用微信支付的有60× =40人,40岁以上使用微信支付有40× =10人. ∴2×2列联表为:
40岁以下
40岁以上
合计
使用微信支付
40
10
50
未使用微信支付
20
30
50
合计
60
40
100
由列联表中的数据计算可得K2的观测值为k= = ,由于 >10.828,∴有99.9%的把握认为“使用微信支付与年龄有关”;(Ⅱ) 若以频率代替概率,采用随机抽样的方法从“40岁以下”的人中抽取2人,这两人使用微信支付分别记为A,B,则P(A)=P(B)= ,从“40岁以上”的人中抽取1人,这个人使用微信支付记为C,则P(C)= ,显然A,B,C相互独立,则至少有一人使用微信支付的概率为P=1﹣P( )=1﹣ × × = .故至少有一人使用微信支付的概率为
【考点】独立性检验
【解析】【分析】(Ⅰ)由40岁以下的有100× =60人,使用微信支付的有60× =40人,40岁以上使用微信支付有40× =10人.即可完成2×2列联表,根据2×2列联表求得观测值K2与参考值对比即可求得答案;(Ⅱ)分别求得“40岁以下”的人中抽取2人,这两人使用微信支付的概率,从“40岁以上”的人中抽取1人,这个人使用微信支付的概率,根据独立事件的概率公式,即可求得答案.
19.(2017广西白色模拟)某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销量y(单位:万件)之间的关系如表:
x
1
2
3
4
y
12
28
42
56
(Ⅰ)在图中画出表中数据的散点图;(Ⅱ)根据(Ⅰ)中的散点图拟合y与x的回归模型,并用相关系数加以说明;(Ⅲ)建立y关于x的回归方程,预测第5年的销售量约为多少?.附注:参考数据: , , .参考公式:相关系数 ,回归方程 中斜率和截距的最小二乘法估计公式分别为: , .
【答案】解:(Ⅰ)作出散点图如图: (Ⅱ)由(Ⅰ)散点图可知,各点大致分布在一条直线附近,由题中所给表格及参考数据得: , , , , , , , .∵y与x的相关系数近似为0.9996,说明y与x的线性相关程度相当大,∴可以用线性回归模型拟合y与x的关系.(Ⅲ)由(Ⅱ)知: , , , , , , ,故y关于x的回归直线方程为 ,当x=5时, ,所以第5年的销售量约为71万件
【考点】散点图,线性回归方程
【解析】【分析】(Ⅰ)在图中画出表中数据直接画出散点图;(Ⅱ)根据(Ⅰ)中的散点图拟合y与x的回归模型,计算y与x的相关系数近似为0.9996,说明y与x的线性相关程度相当,说明可以用线性回归模型拟合y与x的关系;(Ⅲ)求出回归直线方程,然后求解第5年的销售量.