第一章统计案例学案+滚动训练+章末检测

文档属性

名称 第一章统计案例学案+滚动训练+章末检测
格式 zip
文件大小 2.7MB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2019-05-24 14:16:07

文档简介


§1.1 回归分析的基本思想及其初步应用
学习目标 1.了解回归分析的必要性及其一般步骤.2.了解随机误差的概念.3.会作散点图,并会求线性回归方程.4.利用残差分析来判断线性回归模型的拟合效果.5.掌握建立回归模型的基本步骤,并通过实例进一步学习回归分析的基本思想及其初步应用.
知识点一 回归分析的相关概念
思考1 相关关系是确定性关系吗?函数关系呢?
答案 相关关系是一种非确定性关系,而函数关系是一种确定性关系.
思考2 请问产生随机误差的主要原因有哪些?
答案 (1)所选用的模型不恰当;(2)忽略了某些因素的影响;(3)存在测量误差.
梳理 (1)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.若两个变量之间具有线性相关关系,则称相应的回归分析为线性回归分析.
(2)线性回归方程为=x+ ,且=,=-,其中=i,=i,(,)称为样本点的中心,回归直线一定过样本点的中心.
(3)样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数y=bx+a来描述它们之间的关系,而是用线性回归模型y=bx+a+e来表示,其中a和b为模型的未知参数,e称为随机误差,自变量x称为解释变量,因变量y称为预报变量.
预报变量y的值由解释变量x和随机误差e共同确定,即解释变量x只能解释部分预报变量y的变化.
知识点二 回归模型的模拟效果
思考 如何评价回归模型拟合效果的优劣?
答案 计算相关指数R2的值,R2越接近于1,效果就越好.
梳理 
残差
把随机误差的估计值i称为相应于点(xi,yi)的残差
残差图
作图时纵坐标为残差,横坐标可以选为样本编号,或解释变量的数值,这样作出的图形称为残差图
残差
图法
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高
残差平方和
残差平方和为(yi-i)2,残差平方和越小,模型的拟合效果越好
相关指数R2
R2=1-,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好
1.回归方程=x+中的表示当x每增加一个单位时,的变化量.( √ )
2.R2越大,残差平方和越小,即模型的拟合效果越好;R2越小,残差平方和越大,即模型的拟合效果越差.( √ )
3.散点图是判断两个变量是否有相关关系的工具之一.( √ )
4.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为1.( √ )
5.回归直线=x+不一定过点(,).( × )
类型一 线性回归方程的求解
例1 现有某高新技术企业年研发费用投入x(百万元)与企业年利润y(百万元)之间具有线性相关关系,近5年的年科研费用和年利润具体数据如下表:
年科研费用x(百万元)
1
2
3
4
5
企业所获利润y(百万元)
2
3
4
4
7
(1)画出散点图;
(2)求y对x的线性回归方程.
考点 回归分析
题点 建立回归模型的基本步骤
解 (1)散点图如下图所示:
(2)由题意可知,==3,
==4,
iyi=1×2+2×3+3×4+4×4+5×7=71,
=12+22+32+42+52=55,
根据公式,可求得==1.1,
=4-1.1×3=0.7,
故所求线性回归方程为=1.1x+0.7.
引申探究 
在例1基础上,试估计当x=10时,企业所获利润为多少?
解 依上例得=1.1x+0.7,
将x=10代入,得=11.7(百万元).
故估计企业所获利润为11.7百万元.
反思与感悟 (1)求线性回归方程的基本步骤
①列出散点图,从直观上分析数据间是否存在线性相关关系.
②计算:,,,iyi.
③代入公式求出=x+中参数,的值.
④写出线性回归方程并对实际问题作出估计.
(2)需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.
跟踪训练1 假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下的统计数据:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
由此资料可知y对x呈线性相关关系.
(1)求线性回归方程;
(2)求使用年限为10年时,该设备的维修费用为多少?
考点 线性回归方程
题点 求线性回归方程
解 (1)由上表中的数据可得
=4,=5,=90,iyi=112.3,
∴===1.23,
∴=-=5-1.23×4=0.08.
∴线性回归方程为=1.23x+0.08.
(2)当x=10时,=1.23×10+0.08=12.38.
即使用年限为10年时,该设备的维修费用为12.38万元.
类型二 回归模型的效果
例2 某运动员训练次数与运动员成绩之间的数据关系如下:
编号
1
2
3
4
5
6
7
8
次数(x)
30
33
35
37
39
44
46
50
成绩(y)
30
34
37
39
42
46
48
51
(1)作出散点图;
(2)求出线性回归方程;
(3)作出残差图,并说明模型的拟合效果;
(4)计算R2,并说明其含义.
考点 残差分析与相关指数
题点 残差及相关指数的应用
解 (1)该运动员训练次数(x)与成绩(y)之间的散点图如图所示.
(2)可求得=39.25,=40.875,=12 656,iyi=13 180,
∴==≈1.041 5,
=-=-0.003 875,
∴线性回归方程为=1.041 5x-0.003 875.
(3)作残差图如图所示,
由图可知,残差点比较均匀地分布在水平的带状区域中,说明选用的模型比较合适.
(4)R2=1-=0.985 5,说明了该运动员成绩差异有98.55%是由训练次数引起的.
反思与感悟 (1)该类题属于线性回归问题,解答本题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.
(2)刻画回归效果的三种方法
①残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
②残差平方和法:残差平方和(yi-i)2越小,模型的拟合效果越好.
③相关指数法:R2=1-越接近1,表明回归的效果越好.
跟踪训练2 (1)甲、乙、丙、丁4位同学各自对A,B两变量进行回归分析,分别得到散点图与残差平方和(yi-i)2如下表:




散点图
残差平方和
115
106
124
103
则________同学的试验结果体现拟合A,B两变量间关系的模型的拟合效果最好.
考点 残差分析与相关指数
题点 残差及相关指数的应用
答案 丁
解析 残差平方和越小,模型的拟合效果越好,因丁对应的残差平方和最小,故丁所对应的模型拟合效果最好.
(2)关于x与y有如下数据:
x
2
4
5
6
8
y
30
40
60
50
70
现有两个线性模型:(1)=6.5x+17.5;(2)=7x+17.试比较哪一个拟合效果更好.
考点 残差分析与相关指数
题点 残差及相关指数的应用
解 由(1)可得yi-i与yi-的关系如下表:
yi-i
-0.5
-3.5
10
-6.5
0.5
yi-
-20
-10
10
0
20
∴(yi-i)2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155,
(yi-)2=(-20)2+(-10)2+102+02+202=1 000.
∴R=1-=1-=0.845.
由(2)可得yi-i与yi-的关系如下表:
yi-i
-1
-5
8
-9
-3
yi-
-20
-10
10
0
20
∴(yi-i)2=(-1)2+(-5)2+82+(-9)2+(-3)2=180,
(yi-)2=(-20)2+(-10)2+102+02+202=1 000.
∴R=1-=1-=0.82.
由于R=0.845,R=0.82,0.845>0.82,
∴R>R.
∴(1)的拟合效果好于(2)的拟合效果.
1.设回归方程为=7-3x,当变量x增加两个单位时(  )
A.y平均增加3个单位 B.y平均减少3个单位
C.y平均增加6个单位 D.y平均减少6个单位
考点 线性回归分析
题点 回归直线的概念
答案 D
解析 因为两个相关变量为负相关关系.
2.已知x与y之间的一组数据:
x
0
1
2
3
y
1
3
5
7
则y与x的线性回归方程=x+必过点(  )
A.(2,2) B.(1,2)
C.(1.5,0) D.(1.5,4)
考点 线性回归方程
题点 样本点中心的性质
答案 D
解析 过样本点中心.
3.在回归分析中,相关指数R2的值越大,说明残差平方和(  )
A.越大 B.越小
C.可能大也可能小 D.以上均不正确
考点 残差分析与相关指数
题点 残差及相关指数的概念
答案 B
解析 因为R2=1-,
所以当R2越大时,(yi-i)2越小,
即残差平方和越小,故选B.
4.某学生课外活动兴趣小组对两个相关变量收集到5组数据如表:
x
10
20
30
40
50
y
62

75
81
89
由最小二乘法求得回归方程为=0.67x+54.9,现发现表中有一个数据模糊不清,请推断该点数据的值为________.
考点 线性回归方程
题点 样本点中心的性质
答案 68
解析 由题意可得=(10+20+30+40+50)=30,
设要求的数据为t,
则有=(62+t+75+81+89)=,
因为回归直线=0.67x+54.9过样本点的中心(,),
所以=0.67×30+54.9,解得t=68.
5.已知方程=0.85x-82.71是根据女大学生的身高预报她的体重的回归方程,其中x的单位是cm,的单位是kg,那么针对某个体(160,53)的残差是________.
考点 残差分析与相关指数
题点 残差及相关指数的运算
答案 -0.29
解析 把x=160代入=0.85x-82.71,
可得=0.85×160-82.71=53.29,
所以残差=y-=53-53.29=-0.29.
回归分析的步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);
(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程=x+);
(4)按一定规则估计回归方程中的参数;
(5)得出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等.
一、选择题
1.某同学在研究性学习中,收集到某制药厂今年前5个月甲胶囊生产产量(单位:万盒)的数据如下表所示:
x(月份)
1
2
3
4
5
y(万盒)
5
5
6
6
8
若x,y线性相关,线性回归方程为=0.7x+,估计该制药厂6月份生产甲胶囊产量为(  )
A.8.0万盒 B.8.1万盒
C.8.9万盒 D.8.6万盒
考点 线性回归方程
题点 样本点中心的性质
答案 B
解析 回归直线一定过样本点的中心.由已知数据可得=3,=6,代入线性回归方程,可得=-0.7=3.9,即线性回归方程为=0.7x+3.9.把x=6代入,可近似得=8.1,故选B.
2.如图所示,由这两个散点图可以判断(  )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
考点 线性回归分析
题点 回归直线的概念
答案 C
解析 图(1)中的数据随着x的增大y减小,因此变量x与变量y负相关;
图(2)中的数据随着u的增大v增大,因此u与v正相关.
3.已知变量x与y负相关,且由观测数据求得样本平均数=3,=3.5,则由该观测数据求得的线性回归方程可能是(  )
A.=-2x+9.5 B.=2x-2.4
C.=-0.3x-4.4 D.=0.4x+2.3
考点 线性回归方程
题点 求线性回归方程
答案 A
解析 因为变量x与y负相关,所以排除B,D,将样本平均数=3,=3.5代入选项验证可知,选项A符合题意.
4.对具有线性相关关系的变量x,y,有一组观测数据(xi,yi)(i=1,2,…,8),其线性回归方程是=x+,若x1+x2+x3+…+x8=3,y1+y2+y3+…+y8=6,则实数的值是(  )
A. B.
C. D.
考点 线性回归方程
题点 样本点中心的性质
答案 D
解析 由x1+x2+x3+…+x8=3,y1+y2+y3+…+y8=6可知样本点的中心为,将该点坐标代入回归方程=x+,得=.
5.若对某地区人均工资x(万元)与该地区人均消费y(万元)进行调查统计得y与x具有线性相关关系,且线性回归方程为=0.7x+2.1,若该地区人均消费水平为10.5,则估计该地区人均消费额占人均工资收入的百分比约为(  )
A.75% B.87.5%
C.70% D.10.5%
考点 线性回归方程
题点 线性回归方程的应用
答案 B
解析 y=10.5时,由=0.7x+2.1得x==12,
故得×100%=87.5%.
6.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关试验用回归分析的方法分别求得相关系数r如下表:




r
0.82
0.78
0.69
0.85
则这四位同学的试验结果能体现出A,B两变量有更强的线性相关性的是(  )
A.甲 B.乙
C.丙 D.丁
考点 线性相关系数
题点 线性相关系数的概念及计算
答案 D
解析 由相关系数的意义可知,相关系数的绝对值越接近于1,相关性越强,结合题意可知丁的线性相关性更强,故选D.
7.某化工厂为预测某产品的回收率y,而要研究它和原料有效成分含量之间的相关关系,现取了8对观测值,计算得i=52,i=228,=478,iyi=1 849,则y与x的线性回归方程是(  )
A.=11.47+2.62x
B.=-11.47+2.62x
C.=2.62+11.47x
D.=11.47-2.62x
考点 线性回归方程
题点 求线性回归方程
答案 A
解析 由题中数据得=6.5,=28.5,
∴===≈2.62,
=-≈28.5-2.62×6.5=11.47,
∴y与x的线性回归方程是=2.62x+11.47,故选A.
二、填空题
8.若一个样本的总偏差平方和为80,残差平方和为60,则相关指数R2为________.
考点 残差分析与相关指数
题点 残差及相关指数的运算
答案 0.25
解析 R2=1-=0.25.
9.已知样本数据点(xi,yi)(i=1,2,3,…,n)在某一条直线上,则相关系数r的值为________.
考点 线性相关系数
题点 线性相关系数的概念及计算
答案 ±1
解析 由题意知r=±1.
10.关于随机误差产生的原因分析正确的有________.(填序号)
①用线性回归模型来近似真实模型所引起的误差;
②忽略某些因素的影响所产生的误差;
③对样本数据观测时产生的误差;
④计算错误所产生的误差.
考点 回归分析
题点 回归分析的概念和意义
答案 ①②③
解析 理解线性回归模型y=bx+a+e中随机误差e的含义是解决此问题的关键,随机误差可能由于观测工具及技术产生,也可能因忽略某些因素而产生,也可以是回归模型产生,但不是计算错误.故随机误差产生的原因分析正确的是①②③.
三、解答题
11.已知x,y之间的一组数据如下表:
x
0
1
2
3
y
1
3
5
7
(1)分别计算:,,x1y1+x2y2+x3y3+x4y4,x+x+x+x;
(2)已知变量x与y线性相关,求出回归方程.
考点 线性回归方程
题点 求线性回归方程
解 (1)==1.5,==4,
x1y1+x2y2+x3y3+x4y4=0×1+1×3+2×5+3×7=34,
x+x+x+x=02+12+22+32=14.
(2)==2,
=- =4-2×1.5=1,
故=2x+1.
12.某服装批发市场1-5月份的服装销售量x与利润y的统计数据如下表:
月份
1
2
3
4
5
销售量x(万件)
3
6
4
7
8
利润y(万元)
19
34
26
41
46
(1)从这五个月的利润中任选2个,分别记为m,n,求事件“m,n均不小于30”的概率;
(2)已知销售量x与利润y大致满足线性相关关系,请根据前4个月的数据,求出y关于x的线性回归方程=x+;
(3)若由线性回归方程得到的利润的估计数据与真实数据的误差不超过2万元,则认为得到的利润的估计数据是理想的.请用表格中第5个月的数据检验由(2)中回归方程所得的第5个月的利润的估计数据是否理想?
参考公式:=,=-.
考点 线性回归分析
题点 回归直线的应用
解 (1)所有的基本事件为(19,34),(19,26),(19,41),(19,46),(34,26),(34,41),(34,46),(26,41),(26,46),(41,46),共10个.
记“m,n均不小于30”为事件A,则事件A包含的基本事件为(34,41),(34,46),(41,46),共3个.
所以P(A)=.
(2)由前4个月的数据可得,
=5,=30,iyi=652,=110.
所以===5.2,
=30-5.2×5=4,
所以线性回归方程为=5.2x+4,
(3)由题意得,当x=8时,
=45.6,|45.6-46|=0.4<2;
所以利用(2)中的回归方程所得的第5个月的利润估计数据是理想的.
13.在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:
x
14
16
18
20
22
y
12
10
7
5
3
求出y对x的线性回归方程,并说明拟合效果的程度.
考点 残差分析与相关指数
题点 残差及相关指数的应用
解 =(14+16+18+20+22)=18,
=(12+10+7+5+3)=7.4.
=142+162+182+202+222=1 660,
iyi=14×12+16×10+18×7+20×5+22×3=620,
可得回归系数===-1.15,
所以=7.4+1.15×18=28.1,
所以线性回归方程为=-1.15x+28.1.
列出残差表:
yi-i
0
0.3
-0.4
-0.1
0.2
yi-
4.6
2.6
-0.4
-2.4
-4.4
则(yi-i)2=0.3,(yi-)2=53.2.
R2=1-≈0.994.
所以回归模型的拟合效果很好.
四、探究与拓展
14.某公司的广告费支出x(万元)与销售额y(万元)之间有下表所示的对应数据,由资料显示y对x呈线性相关关系,根据下表提供的数据得到回归方程=x+中的=6.5,
x
2
4
5
6
8
y
30
40
60
50
70
预测销售额为115万元时,约需________万元广告费.
考点 线性回归分析
题点 回归直线的应用
答案 15
解析 因为=×(2+4+5+6+8)=5,
=×(30+40+60+50+70)=50,
所以50=6.5×5+,则=17.5,
所以当y=115时,6.5x=115-17.5,得x=15,
即约需广告费为15万元.
15.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
(1)在给定的坐标系中画出表中数据的散点图;
(2)求出y关于x的线性回归方程=x+,并在坐标系中画出回归直线;
(3)试预测加工10个零件需要多少时间?

考点 线性回归方程
题点 求线性回归方程
解 (1)散点图如图.
(2)由表中数据得iyi=52.5,
=3.5,=3.5,=54,
所以===0.7,
所以=- =3.5-0.7×3.5=1.05.
所以=0.7x+1.05.
回归直线如图中所示.
(3)将x=10代入线性回归方程,得=0.7×10+1.05=8.05,
所以预测加工10个零件需要8.05小时.
§1.2 独立性检验的基本思想及其初步应用
学习目标 1.了解分类变量的意义.2.了解2×2列联表的意义.3.了解随机变量K2的意义.4.通过对典型案例的分析,了解独立性检验的基本思想与方法.
知识点一 分类变量及2×2列联表
思考 某城市随机抽取一年(365天)内100天的空气质量指数API(Air Pollution Index)的监测数据,结果统计如下:
API
[0,50)
[50,100)
[100,150)
[150,200)
[200,250)
[250,300]
大于300
空气质量


轻微污染
轻度污染
中度污染
中度重污染
重度污染
天数
10
15
20
30
7
6
12
若本次抽取的样本数据有30天是在供暖季,其中有7天为重度污染,完成下面表格.
非重度污染
重度污染
总计
供暖季
非供暖季
总计
100
答案 
非重度污染
重度污染
总计
供暖季
23
7
30
非供暖季
65
5
70
总计
88
12
100
梳理 (1)分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表
①定义:列出的两个分类变量的频数表,称为列联表.
②2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表.
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
知识点二 等高条形图
1.与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
2.如果通过计算或等高条形图发现和相差很大,就判断两个分类变量之间有关系.
知识点三 独立性检验
1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
2.K2=.
其中n=a+b+c+d为样本容量.
3.独立性检验的具体做法
(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
(2)利用公式计算随机变量K2的观测值k.
(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.

1.利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.( √ )
2.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K2的观测值k=27.63,根据这一数据进行分析,我们有理由认为打鼾与患心脏病是无关的.( × )
3.在独立性检验中,当K2≥6.635时,我们有99%的把握认为两分类变量有关,是指“两分类变量有关”这一结论的可信度为99%,而不是两分类变量有关系的概率为99%.( √ )
4.独立性检验的基本思想类似于反证法.( √ )
5.利用K2进行独立性检验,可对推断犯错误的概率作出估计,其估计可靠性与样本容量n无关.( × )
6.列联表仅对两个分类变量汇总统计.( √ )
类型一 直观分析两个分类变量的关联性
例1 为调查某生产线上某质量监督员甲在不在场对产品质量的好坏有无影响,现统计数据如下:质量监督员甲在场时,990件产品中合格品有982件,次品有8件;甲不在场时,510件产品中合格品有493件,次品有17件.试分别用列联表和等高条形图对数据进行分析.
考点 定性分析的两类方法
题点 利用图形定性分析
解 根据题目所给数据得如下2×2列联表:
合格品数
次品数
总计
甲在场
982
8
990
甲不在场
493
17
510
总计
1 475
25
1 500
由列联表看出|ad-bc|=|982×17-493×8|=12 750,数较大,所以可在某种程度上认为“质量监督员甲在不在场与产品质量有关”.
等高条形图如图所示.
所以由等高条形图可知,在某种程度上,可认为“质量监督员甲在不在场与产品质量有关”.
反思与感悟 (1)利用列联表直接计算ad-bc,如果差的绝对值很大,就判断两个分类变量之间有关系.
(2)在等高条形图中展示列联表数据的频率特征,比较图中两个深色条的高可以发现两者频率不一样而得出结论.这种直观判断的不足之处在于不能给出推断“两个分类变量有关系”犯错误的概率.
跟踪训练1 某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,试作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
考点 定性分析的两类方法
题点 用图形定性分析
解 考前心情紧张与性格类型列联表如下:
性格内向
性格外向
总计
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
总计
426
594
1 020
ad-bc=332×381-213×94=106 470,
∴|ad-bc|比较大,说明考前心情是否紧张与性格类型有关.
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向占的比例,从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前心情是否紧张与性格类型有关.
类型二 由K2进行独立性检验
例2 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示.
又发作过心脏病
未发作过心脏病
总计
心脏搭桥手术
39
157
196
血管清障手术
29
167
196
总计
68
324
392
试根据上述数据比较这两种手术对病人又发作过心脏病的影响有没有差别.
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 假设病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术没有关系,由表中数据得a=39,b=157,c=29,d=167,a+b=196,c+d=196,a+c=68,b+d=324,n=392,
由公式得K2的观测值
k=≈1.779.
因为k≈1.779<2.706,所以不能得出病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术有关系的结论,即这两种手术对病人又发作过心脏病的影响没有差别.
反思与感悟 (1)独立性检验的关注点
在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.
(2)独立性检验的具体做法
①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k0.
②利用公式K2=计算随机变量K2的观测值k.
③如果k≥k0,推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
跟踪训练2 某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.
(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;
(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
K2=(其中n=a+b+c+d)
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 (1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.
所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A1,A2,A3;
25周岁以下组工人有40×0.05=2(人),记为B1,B2.
从中随机抽取2名工人,所有的可能结果共有10种,它们是(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).
其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).
故所求的概率P=.
(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:
生产能手
非生产能手
总计
25周岁以上组
15
45
60
25周岁以下组
15
25
40
总计
30
70
100
由公式得K2的观测值
k==≈1.786.
又因为1.786<2.706,
所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.
1.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下列联表:
喜欢程度


总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由K2=算得,
k=≈7.8,
附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
参照附表,得到的正确结论是(  )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 C
解析 结合给定数据和附表,得选项C正确.
2.(2018·山东临沂期末)下列关于等高条形图的叙述正确的是(  )
A.从等高条形图中可以精确地判断两个分类变量是否有关系
B.从等高条形图中可以看出两个变量频数的相对大小
C.从等高条形图中可以粗略地看出两个分类变量是否有关系
D.以上说法都不对
考点 定性分析的两类方法
题点 利用图形定性分析
答案 C
解析 在等高条形图中仅能粗略判断两个分类变量的关系,故A错;在等高条形图中仅能够找出频率,无法找出频数,故B错;显然C正确,故选C.
3.为了调查患慢性气管炎是否与吸烟有关,调查了339名50岁以下的人,调查结果如下表:
患慢性气管炎
未患慢性气管炎
总计
吸烟
43
162
205
不吸烟
13
121
134
总计
56
283
339
根据列表数据,求得K2的观测值k≈________.
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 7.469
解析 k=≈7.469.
4.两个分类变量X,Y,它们的取值分别为x1,x2和y1,y2,其列联表为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
若两个分类变量X,Y独立,则下列结论:
①ad≈bc;
②≈;
③≈;
④≈;
⑤≈0.
其中正确的序号是________.
考点 定性分析的两类方法
题点 利用列联表定性分析
答案 ①②⑤
解析 因为分类变量X,Y独立,
所以≈×,
化简得ad≈bc,故①⑤正确;②式化简得ad≈bc,故②正确.故填①②⑤.
5.“全国文明城市”称号是最有价值的城市品牌,某市为创建第五届“全国文明城市”,开展了“创建文明城市人人有责”活动.为了了解哪些人更关注“创城”活动,随机抽取了年龄在10~70岁之间的100人进行调查,并按年龄绘制如下频数分布表.
年龄(岁)
[10,20)
[20,30)
[30,40)
[40,50)
[50,60)
[60,70]
频数
15
a
35
b
5
5
(1)求表中a,b的值,并补全频率分布直方图;
(2)把年龄落在区间[10,30)和[30,70]内的人分别称为“青少年人”和“中老年人”,若“中老年人”中有35人关注“创城”活动,根据已知条件完成下面的2×2列联表,据此统计结果能否有99%的把握认为“中老年人”比“青少年人”更关注“创新”活动?
关注
不关注
总计
青少年人
中老年人
35
总计
50
50
100
附:参考公式和临界值表:
P(K2≥k0)
0.05
0.01
0.001
k0
3.841
6.635
10.828
K2=,其中n=a+b+c+d.
考点 独立性检验及其基本思想
题点 独立性检验的思想
解 (1)由频率分布直方图知[20,30)的频率为0.3,
∴=0.3,a=30,b=100-(15+30+35+5+5)=10.
(2)依题意可知,“青少年人”共有15+30=45人,
“中老年人”共有100-45=55人,
完成2×2列联表如下:
关注
不关注
总计
青少年人
15
30
45
中老年人
35
20
55
总计
50
50
100
结合列联表的数据得
K2=
=≈9.091,
∵P(K2≥6.635)=0.01,9.091>6.635,
∴有99%的把握认为“中老年人”比“青少年人”更关注“创城”活动.
1.列联表与等高条形图
列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有相关关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有相关关系.
2.对独立性检验思想的理解
独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2的值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.
一、选择题
1.如图所示的是调查某地区男、女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出(  )
A.性别与喜欢理科无关
B.女生中喜欢理科的比例约为80%
C.男生比女生喜欢理科的可能性大些
D.男生中不喜欢理科的比例约为60%
考点 定性分析的两类方法
题点 利用图形定性分析
答案 C
解析 由题图可知女生中喜欢理科的比例约为20%,男生中喜欢理科的比例约为60%,因此男生比女生喜欢理科的可能性大些.故选C.
2.下列关于K2的说法正确的是(  )
A.K2在任何相互独立的问题中都可以用来检验有关系还是无关系
B.K2的值越大,两个事件的相关性就越大
C.K2是用来判断两个分类变量是否有关系的随机变量,只对两个分类变量适用
D.K2的观测值的计算公式为k=
答案 C
解析 本题主要考查对K2的理解,K2是用来判断两个分类变量是否有关系的随机变量,所以A错;K2的值越大,说明我们能以更大的把握认为两个分类变量有关系,不能判断相关性的大小,所以B错;D中(ad-bc)应为(ad-bc)2.
3.下面是一个2×2列联表:
y1
y2
总计
x1
a
21
73
x2
8
25
33
总计
b
46
则表中a,b处的值分别为(  )
A.94,96 B.52,50
C.54,52 D.52,60
考点 分类变量与列联表
题点 求列联表中的数据
答案 D
解析 ∵a+21=73,∴a=52.
又b=a+8=52+8=60.故选D.
4.利用独立性检验来考虑两个分类变量X与Y是否有关系时,通过查阅下表来确定“X与Y有关系”的可信度.如果k>3.841,那么就有把握认为“X与Y有关系”的百分比为(  )
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
A.95% B.5%
C.2.5% D.97.5%
答案 A
解析 因为k>3.841,所以有把握认为“X与Y有关系”的百分比为95%.故选A.
5.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:
认为作业多
认为作业不多
总计
喜欢玩电脑游戏
18
9
27
不喜欢玩电脑游戏
8
15
23
总计
26
24
50
则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为(  )
A.99% B.97.5%
C.95% D.无充分依据
考点 分类变量与列联表
题点 求观测值
答案 B
解析 由表中数据得K2的观测值k=≈5.059>5.024.
所以约有97.5%的把握认为两变量之间有关系.故选B.
6.通过随机询问250名不同性别的大学生在购买食物时是否看营养说明书,得到如下2×2联表:


总计
读营养说明书
90
60
150
不读营养说明书
30
70
100
总计
120
130
250
从调查的结果分析,认为性别和读营养说明书的关系为(  )
A.95%以上认为无关
B.90%~95%认为有关
C.95%~99.9%认为有关
D.99.9%以上认为有关
答案 D
解析 根据题意,得K2=≈21.63>10.828,
∴有99.9%的把握认为性别和看营养说明书有关.故选D.
7.若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是(  )
A.100个吸烟者中至少有99人患有肺癌
B.1个人吸烟,那么这个人有99%的概率患有肺癌
C.在100个吸烟者中一定有患肺癌的人
D.在100个吸烟者中可能一个患肺癌的人也没有
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 D
解析 独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生.
8.在2×2列联表中,两个比值相差越大,两个分类变量有关系的可能性就越大,那么这两个比值为(  )
A.与 B.与
C.与 D.与
考点 定性分析的两类方法
题点 利用图形定性分析
答案 A
解析 由题意,==,因为|ad-bc|的值越大,两个分类变量有关系的可能性就越大,故选A.
9.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
优秀
非优秀
总计
甲班
10
b
乙班
c
30
总计
105
已知在全部105人中随机抽取1人,成绩优秀的概率为,参考下面所给附表,则下列说法正确的是(  )
P(K2≥k0)
0.10
0.05
0.025
k0
2.706
3.841
5.024
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”
D.根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 C
解析 ∵成绩优秀的概率为,
∴成绩优秀的学生数是105×=30.
成绩非优秀的学生数是75,
∴c=20,b=45,选项A,B错误.
又根据列联表中的数据,得到K2的观测值k=≈6.109>5.024,
因此有97.5%的把握认为“成绩与班级有关系”.故选C.
二、填空题
10.有两个分类变量X,Y,其列联表如图所示,
Y1
Y2
X1
a
20-a
X2
15-a
30+a
其中a,15-a均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X,Y有关,则a的值为________.
考点 分类变量与列联表
题点 求列联表中的数据
答案 8或9
解析 根据公式,得K2的观测值
k=
=>3.841,根据a>5且15-a>5,
a∈Z,求得当a=8,9时满足题意.
11.为研究某新药的疗效,给100名患者服用此药,跟踪调查后得下表中的数据:
无效
有效
总计
男性患者
15
35
50
女性患者
6
44
50
总计
21
79
100
设H:服用此药的效果与患者的性别无关,则K2的观测值k≈________(小数点后保留3位有效数字),从而得出结论;服用此药的效果与患者的性别有关,这种判断出错的可能性为________.
考点 分类变量与列联表
题点 求观测值
答案 4.882 5%
解析 由公式计算得K2的观测值k≈4.882,
∵k>3.841,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.
三、解答题
12.某学校高三年级共有1 000名学生,其中男生650人,女生350人,为了调查学生周末的休闲方式,用分层抽样的方法抽查了200名学生.
(1)完成下面的2×2列联表:
不喜欢运动
喜欢运动
总计
女生
50
男生
总计
100
200
(2)在抽取的样本中,调查喜欢运动女生的运动时间,发现她们的运动时间介于30分钟到90分钟之间,下图是测量结果的频率分布直方图,若从区间段[40,50)和[60,70)的所有女生中随机抽取两名女生,求她们的运动时间在同一区间段的概率.
考点 分类变量与列联表
题点 求列联表中的数据
解 (1)根据分层抽样的定义,可知抽取男生130人,女生70人,
不喜欢运动
喜欢运动
总计
女生
50
20
70
男生
50
80
130
总计
100
100
200
(2)由频率分布直方图可知在[40,50)内的人数为2,设为m,n,
在[60,70)内的人数为4,设为a,b,c,d.
设“两人的运动时间在同一区间段”的事件为A.
从中抽取两名女生的可能情况有:
(m,n),(m,a),(m,b),(m,c),(m,d),(n,a),(n,b),(n,c),(n,d),(a,b),(a,c),(a,d),(b,c),(b,d),(c,d),
两人的运动时间恰好在同一区间段的可能情况有7种.
结合古典概型,得P(A)=.
13.随着“全面二孩”政策推行,我市将迎来生育高峰.今年元旦伊始,我市各医院产科就已经是一片忙碌,至今热度不减.卫生部门进行调查统计,期间发现各医院的新生儿中,不少都是“二孩”;在市中医院,共有40个狗宝宝降生,其中20个是“二孩”宝宝;市湘东医院共有30个狗宝宝降生,其中10个是“二孩”宝宝.
(1)从两个医院当前出生的所有宝宝中按分层抽样方法抽取7个宝宝做健康咨询.
①在市中医院出生的一孩宝宝中抽取多少个?
②若从7个宝宝中抽取两个宝宝进行体检,求这两个宝宝恰出生不同医院且均属“二孩”的概率;
(2)根据以上数据,能否有85%的把握认为一孩或二孩宝宝的出生与医院有关?
P(K2≥k0)
0.40
0.25
0.15
0.10
k0
0.708
1.323
2.072
2.706
K2=
考点 独立性检验及其基本思想
题点 独立性检验的思想
解 (1)①由分层抽样知在市中医院出生的宝宝有7×=4个,
其中一孩宝宝有2个.
②在抽取7个宝宝中,市中医院出生的一孩宝宝2人,分别记为A1,B1,二孩宝宝2人,分别记为a1,b1,湘东医院出生的一孩宝宝2人,分别记为A2,B2,二孩宝宝1人,记为a2,从7人中抽取2人的一切可能结果所组成的基本事件为:
Ω={(A1,B1),(A1,a1),(A1,b1),(A1,A2),(A1,B2),(A1,a2),(B1,a1),(B1,b1),
(B1,A2),(B1,B2),(B1,a2),(a1,b1),(a1,A2),(a1,B2),(a1,a2),(b1,A2),(b1,B2),
(b1,a2),(A2,B2),(A2,a2),(B2,a2)}.
用A表示:“两个宝宝恰出生不同医院且均属二孩”,
则A={(a1,a2),(b1,a2)},
∴P(A)=,
(2)2×2列联表
一孩
二孩
总计
中医院
20
20
40
湘东医院
20
10
30
总计
40
30
70
K2==≈1.944<2.072,
故没有85%的把握认为一孩、二孩宝宝的出生与医院有关.
四、探究与拓展
14.2014年世界杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:
不喜欢西班牙队
喜欢西班牙队
总计
高于40岁
p
q
50
不高于40岁
15
35
50
总计
a
b
100
若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为,则有超过________的把握认为年龄与西班牙队的被喜欢程度有关.
附:K2=.
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
考点 分类变量与列联表
题点 求列联表
答案 95%
解析 设“从所有人中任意抽取一个,取到喜欢西班牙队的人”为事件A,
由已知得P(A)==,
所以p=25,q=25,a=40,b=60.
K2==≈4.167>3.841.
故有超过95%的把握认为年龄与西班牙队的被喜欢程度有关.
15.2017年12月1日,“国际教育信息化大会”在山东青岛开幕,为了解哪些人更关注“国际教育信息化大会”,某机构随机抽取了年龄在15~75岁之间的100人进行调查,并按年龄绘制成频率分布直方图,如图所示,其分组区间为:[15,25),[25,35),[35,45),[45,55),[55,65),[65,75],把年龄落在区间[15,35)和[35,75]内的人分别称为“青少年”和“中老年”.
(1)根据频率分布直方图求样本的中位数(保留两位小数)和众数;
(2)根据已知条件完成下面的2×2列联表,并判断能否有99%的把握认为“中老年”比“青少年”更加关注“国际教育信息化大会”:
关注
不关注
总计
青少年
15
中老年
总计
50
50
100
附:参考公式K2=,其中n=a+b+c+d.
临界值表:
P(K2≥k0)
0.05
0.010
0.001
k0
3.841
6.635
10.828
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 (1)根据频率分布直方图可知样本的众数为40,
因为(0.015+0.030)×10=0.45,
设样本的中位数为x,则(x-35)×0.035=0.5-0.45,
所以x=35≈36.43,
即样本的中位数约为36.43.
(2)依题意可知,抽取的“青少年”共有100×(0.015+0.030)×10=45人,
“中老年”共有100-45=55人.
完成的2×2列联表如下:
关注
不关注
总计
青少年
15
30
45
中老年
35
20
55
总计
50
50
100
结合列联表的数据得K2=
=≈9.091>6.635,
所以有99%的把握认为“中老年”比“青少年”更加关注“国际教育信息化大会”.
滚动训练(一)
一、选择题
1.根据变量x,y的观测数据得到的散点图如图所示,则(  )
A.变量x与y正相关
B.变量x与y负相关
C.变量x与y可能正相关,也可能负相关
D.变量x与y没有相关性
考点 线性回归分析
题点 回归直线的概念
答案 A
解析 图中的数据y随x的增大而增大,因此变量x与y正相关,故选A.
2.下列两个变量之间的关系不是函数关系的是(  )
A.角度和它的余弦值
B.正方形的边长和面积
C.正n边形的边数和内角度数和
D.人的年龄和身高
考点 回归分析
题点 回归分析的概念和意义
答案 D
解析 函数关系就是变量之间的一种确定性关系.A,B,C三项中的两个变量之间都是函数关系,可以写出相应的函数表达式,分别为f(θ)=cos θ,g(a)=a2,h(n)=(n-2)π.D选项中的两个变量之间不是函数关系,对于年龄确定的人群,仍可以有不同的身高,故选D.
3.在建立u与v的回归模型时,选择了4种不同模型,其中拟合最好的为(  )
A.相关指数R2为0.75的模型
B.相关指数R2为0.90的模型
C.相关指数R2为0.25的模型
D.相关指数R2为0.55的模型
考点 残差分析与相关指数
题点 残差及相关指数的应用
答案 B
解析 相关指数R2的值越大,意味着残差平方和越小,也就是说模型的拟合效果越好,故选B.
4.两个变量x与y的散点图如图,可用如下函数进行拟合,比较合理的是(  )
A.y=a·xb B.y=a+bln x
C.y=a·ebx D.y=a·e
答案 B
解析 由散点图知,此曲线类似对数型函数曲线,可用函数y=a+bln x进行拟合.故选B.
5.已知以下结论:
①事件A与B的关系越密切,K2的值就越大;
②K2的大小是判定事件A与B是否相关的唯一依据;
③若判定两事件A与B有关,则A发生B一定发生.
其中正确的有(  )
A.0个 B.1个
C.2个 D.3个
考点 独立性检验思想的应用
题点 独立性检验在分类变量中的应用
答案 B
解析 ①正确;对于②,判断A与B是否相关的方式很多,可以用列联表,也可以借助图形或概率运算,故②错误;对于③,两事件A与B有关,说明两者同时发生的可能性相对来说较大,但并不是A发生了B一定发生,故③错误.正确的只有1个,故选B.
6.在新媒体时代,酒香也怕巷子深,宣传是让大众最快了解自己产品的最有效的手段,已知某种产品的宣传费用x与销售总额y的统计数据如下表所示:
宣传费用x万元
4
2
3
5
销售总额y万元
49
26
39
54
根据上表求得的线性回归方程=x+中的为9.4,据此模型预报宣传费用为6万元时销售额为(  )
A.63.6万元 B.65.5万元
C.67.7万元 D.72万元
考点 线性回归分析
题点 回归直线的应用
答案 B
解析 由数据统计表可得=3.5,=42,根据回归直线的性质得点(3.5,42)在回归直线上,代入方程=9.4x+可得=9.1,故线性回归方程为=9.4x+9.1,因此当x=6时,估计销售额=9.4×6+9.1=65.5(万元).故选B.
7.考察棉花种子经过处理跟生病之间的关系得到如下表数据:
种子处理
种子未处理
总计
生病
32
101
133
不生病
61
213
274
总计
93
314
407
根据以上数据,则(  )
A.种子是否经过处理跟是否生病有关
B.种子是否经过处理跟是否生病无关
C.种子是否经过处理决定是否生病
D.以上都是错误的
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 B
解析 因为K2的观测值k=≈0.164 1<2.706,所以有90%的把握可判断种子是否经过处理与是否生病无关,故选B.
8.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是(  )
考点 残差分析与相关指数
题点 残差及相关指数的应用
答案 A
解析 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.
二、填空题
9.若对于变量y与x的10组统计数据的回归模型中,相关指数R2=0.95,又知残差平方和为120.53,那么(yi-)2=________.
考点 残差分析与相关指数
题点 残差及相关指数的应用
答案 2 410.6
解析 依题意,由0.95=1-,所以(yi-)2=2 410.6.
10.如果由一个2×2列联表中的数据计算得k=4.073,那么有________的把握认为两变量有关系,已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
考点 独立性检验思想的应用
题点 独立性检验在分类变量中的应用
答案 95%
解析 因为K2的观测值k=4.073>3.841,
P(K2≥3.841)≈0.05,
所以有95%的把握认为两变量有关系.
11.考古学家通过始祖鸟化石标本发现:其股骨长度x(cm)与肱骨长度y(cm)的线性回归方程为=1.197x-3.660,由此估计,当股骨长度为50 cm时,肱骨长度的估计值为________cm.
答案 56.19
解析 根据线性回归方程=1.197x-3.660,将x=50代入,得=56.19,则肱骨长度的估计值为56.19 cm.
三、解答题
12.抽测了10名13岁男生的身高x(单位:cm)和体重y(单位:kg),得到如下数据:
x
157
153
151
158
156
159
160
158
160
162
y
45.5
44
42
46
44.5
45
46.5
47
45
49
(1)画出散点图;
(2)你能从散点图中发现身高与体重近似成什么关系吗?
(3)如果近似成线性关系,试画出一条直线来近似地表示这种关系.
考点 线性回归分析
题点 回归直线的应用
解 (1)散点图如图所示:
(2)从散点图可知,当身高增加时,体重也增加,而且这些点在一条直线附近摆动,因此身高与体重线性相关.
(3)作出直线如图所示:
13.某学习小组对春季昼夜温差大小与某花卉种子发芽多少之间的关系进行研究,他们分别记录了3月11日至3月15日的每天昼夜温差与实验室每天每100颗种子浸泡后的发芽数,得到如下资料:
日期
3月11日
3月12日
3月13日
3月14日
3月15日
昼夜温差(℃)
10
11
13
12
8
发芽数(颗)
23
25
30
26
16
(1)从3月11日至3月15日中任选2天,记发芽的种子数分别为m,n,求事件“m,n均不小于25”的概率;
(2)请根据3月12日至3月14日的三组数据,令昼夜温差为x,发芽数为y,求出y关于x的线性回归方程=x+;
(3)若由线性回归方程得到的估计数据与所需要检验的数据误差均不超过2颗,则认为得到的线性回归方程是可靠的,试用3月11日与3月15日的两组数据检验,问(2)中所得的线性回归方程是否可靠?
(参考公式:=或=,=-b)
考点 线性回归分析
题点 回归直线的应用
解 (1)m,n的所有取值情况有(23,25),(23,30),(23,26),(23,16),(25,30),(25,26),(25,16),(30,26),(30,16),(26,16),共有10个.
设m,n“均不小于25”为事件A,则包含的基本事件有(25,30),(25,26),(30,26),所以P(A)=,故事件A的概率为.
(2)由数据得=12,=27,3 =972,iyi=977,
=434,32=432,
由公式,得==,=27-×12=-3,
所以y关于x的线性回归方程为=x-3.
(3)当x=10时,=22,|22-23|<2,当x=8时,=17,|17-16|<2,
所以得到的线性回归方程是可靠的.
四、探究与拓展
14.在画两个变量的散点图时,下面哪个叙述是正确的(  )
A.预报变量在x轴上,解释变量在y轴上
B.解释变量在x轴上,预报变量在y轴上
C.可以选择两个变量中任意一个变量在x轴上
D.可以选择两个变量中任意一个变量在y轴上
考点 回归分析
题点 回归分析的概念和意义
答案 B
解析 通常把自变量x称为解释变量,因变量y称为预报变量.故选B.
15.某高三理科班共有60名同学参加某次考试,从中随机挑选出5名同学,他们的数学成绩x与物理成绩y如下表:
数学成绩x
145
130
120
105
100
物理成绩y
110
90
102
78
70
数据表明y与x之间有较强的线性关系.
(1)求y关于x的线性回归方程;
(2)该班一名同学的数学成绩为110分,利用(1)中的回归方程,估计该同学的物理成绩;
(3)本次考试中,规定数学成绩达到125分为优秀,物理成绩达到100分为优秀.若该班数学优秀率与物理优秀率分别为50%和60%,且除去抽走的5名同学外,剩下的同学中数学优秀但物理不优秀的同学共有5人,填写下面2×2列联表,判断能否在犯错误的概率不超过0.01的前提下认为数学优秀与物理优秀有关?
物理优秀
物理不优秀
总计
数学优秀
数学不优秀
总计
60
参考数据:回归直线的系数=,=-.
K2=,
P(K2≥6.635)=0.01,
P(K2≥10.828)=0.001.
考点 独立性检验思想的应用
题点 分类变量与统计、概率的综合性问题
解 (1)由题意可知=120,=90,
故=
====0.8,
=90-120×0.8=-6,
故线性回归方程为=0.8x-6.
(2)将x=110代入上述方程,得=0.8×110-6=82.
(3)由题意可知,该班数学优秀人数及物理优秀人数分别为30,36.
抽出的5人中,数学优秀但物理不优秀的共1人,
故全班数学优秀但物理不优秀的共6人.
于是可以得到下面2×2列联表:
物理优秀
物理不优秀
总计
数学优秀
24
6
30
数学不优秀
12
18
30
总计
36
24
60
于是K2==10>6.635,
因此在犯错误的概率不超过0.01的前提下,可以认为数学优秀与物理优秀有关.
章末检测试卷(一)
(时间:120分钟 满分:150分)
一、选择题(本大题共12小题,每小题5分,共60分)
1.对有线性相关关系的两个变量建立的线性回归方程=+x中,回归系数 (  )
A.可以小于0 B.大于0
C.能等于0 D.只能小于0
考点 线性回归分析
题点 回归直线的概念
答案 A
解析 ∵=0时,则r=0,这时不具有线性相关关系,但可以大于0也可以小于0.
2.一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为y=7.19x+73.93.用这个模型预测这个孩子10岁时的身高,则正确的叙述是(  )
A.身高一定是145.83 cm
B.身高在145.83 cm以上
C.身高在145.83 cm以下
D.身高在145.83 cm左右
考点 线性回归分析
题点 回归直线的应用
答案 D
解析 根据回归模型,估计值是145.83 cm左右.
3.下表显示出样本中变量y随变量x变化的一组数据,由此判断它最可能是(  )
x
4
5
6
7
8
9
10
y
14
18
19
20
23
25
28
A.线性函数模型 B.二次函数模型
C.指数函数模型 D.对数函数模型
考点 回归分析
题点 建立回归模型的基本步骤
答案 A
解析 画出散点图(图略)可以得到这些样本点在某一条直线上或该直线附近,故最可能是线性函数模型.
4.为了探究患慢性气管炎与吸烟有无关系,调查了339名50岁以上的人,结果如下表所示,则认为50岁以上的人患慢性气管炎与吸烟习惯有关系的把握大约为(  )
患慢性气管炎
未患慢性气管炎
总计
吸烟
43
162
205
不吸烟
13
121
134
总计
56
283
339
A.98% B.99.5%
C.99% D.90%
考点 独立性检验思想的应用
题点 独立性检验在分类变量中的应用
答案 C
解析 设患慢性气管炎与吸烟无关.
a=43,b=162,c=13,d=121,a+b=205,c+d=134,a+c=56,b+d=283,n=339.
所以K2的观测值为k=≈7.469.
因此k>6.635,故有99%的把握认为患慢性气管炎与吸烟有关.
5.下表是性别与是否喜欢足球的统计列联表,依据表中的数据,可得到(  )
喜欢足球
不喜欢足球
总计

40
28
68

5
12
17
总计
45
40
85
A.观测值k=9.564 B.观测值k=3.564
C.观测值k<2.706 D.观测值k>3.841
考点 分类变量与列联表
题点 求观测值
答案 D
解析 由题意可得K2的观测值
k==≈4.722>3.841,故选D.
6.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取60名高中生做问卷调查,得到以下数据:(  )
作文成绩优秀
作文成绩一般
总计
课外阅读量较大
22
10
32
课外阅读量一般
8
20
28
总计
30
30
60
则下列说法正确的是(  )
A.在样本数据中没有发现足够证据支持结论“作文成绩优秀与课外阅读量大有关”
B.在犯错误的概率不超过0.001的前提下认为“作文成绩优秀与课外阅读量大有关”
C.在犯错误的概率不超过0.05的前提下认为“作文成绩优秀与课外阅读量大有关”
D.在犯错误的概率不超过0.005的前提下认为“作文成绩优秀与课外阅读量大有关”
考点 独立性检验思想的应用
题点 独立性检验在分类变量中的应用
答案 D
解析 由题意可得K2的观测值
k=
=≈9.643>7.879,故在犯错误的概率不超过0.005的前提下认为作文成绩优秀与课外阅读量大有关.故选D.
7.某个服装店经营某种服装,在某周内获纯利y(元),与该周每天销售这种服装件数x之间的一组数据关系见表:
x(件)
3
4
5
6
7
8
9
y(元)
66
69
73
81
89
90
91
已知=280,=45 309,iyi=3 487,纯利y与每天销售件数x之间线性相关,则线性回归方程为(  )
A.=4.75x+51.36 B.=4.57x-52.08
C.=4.57x+52.08 D.=4.57x-5.08
考点 线性回归方程
题点 求线性回归方程
答案 A
解析 据题意,得==6,
=≈79.86.
因为y与x有线性相关关系,
设线性回归方程为=x+,
则===4.75,
=79.86-6×4.75=51.36.
所以线性回归方程为=4.75x+51.36,故选A.
8.根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为=x+,则(  )
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
考点 线性回归分析
题点 线性回归方程的应用
答案 B
解析 作出散点图如下:
观察图象可知,回归直线=x+的斜率<0,
当x=0时,=>0.故>0,<0.
9.假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其中2×2列联表为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
对同一样本,以下数据能说明X与Y有关的可能性最大的一组是(  )
A.a=5,b=4,c=3,d=2
B.a=5,b=3,c=4,d=2
C.a=2,b=3,c=4,d=5
D.a=3,b=2,c=4,d=5
考点 分类变量与列联表
题点 求列联表中的数据
答案 D
解析 对于同一样本,|ad-bc|越小,说明x与y相关性越弱,而|ad-bc|越大,说明x与y相关性越强,通过计算知,对于A,B,C都有|ad-bc|=|10-12|=2.对于选项D,有|ad-bc|=|15-8|=7,显然7>2.
10.高三某班学生每周用于数学学习的时间x(单位:小时)与数学成绩y(单位:分)之间有如下数据:
x
24
15
23
19
16
11
20
16
17
13
y
92
79
97
89
64
47
83
68
71
59
根据上表可得回归方程的系数≈3.53.若某学生每周用于数学学习的时间为18小时,则可预测该学生的数学成绩(结果保留整数)是(  )
A.71分 B.80分 C.74分 D.77分
考点 线性回归分析
题点 线性回归方程的应用
答案 D
解析 学生每周用于数学学习的时间的平均值
==17.4(小时),数学成绩的平均值
==74.9(分),所以=-=74.9-3.53×17.4=13.478.
当x=18时,=3.53×18+13.478=77.018≈77,
所以预测该学生的数学成绩为77分.
11.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是(  )
表1
  成绩
性别
不及格
及格
总计

6
14
20

10
22
32
总计
16
36
52
表2
  视力
性别


总计

4
16
20

12
20
32
总计
16
36
52
表3
  智商
性别
偏高
正常
总计

8
12
20

8
24
32
总计
16
36
52
表4
  阅读量
性别
丰富
不丰富
总计

14
6
20

2
30
32
总计
16
36
52
A.成绩 B.视力
C.智商 D.阅读量
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 D
解析 结合各列联表中数据,得K2的观测值分别为k1,k2,k3,k4.
因为k1==,
k2==,
k3==,
k4==,
则k4>k2>k3>k1,所以阅读量与性别有关联的可能性最大.
12.设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的回归直线(如图所示),以下结论中正确的是(  )
A.x和y的相关系数为直线l的斜率
B.x和y的相关系数在0到1之间
C.当n为偶数时,分布在l两侧的样本点的个数一定相同
D.直线l过点(,)
考点 线性回归分析
题点 线性回归方程的应用
答案 D
解析 两个变量的相关系数不是直线的斜率,有专门的计算公式,所以A错误;两个变量的相关系数在-1到0之间,所以B错误;C中n为偶数时,分布在l两侧的样本点的个数可以不相同,所以C错误;根据线性回归方程一定经过样本点中心可知D正确.
二、填空题(本大题共4小题,每小题5分,共20分)
13.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的线性回归方程为=0.254x+0.321.由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
考点 线性回归分析
题点 回归直线的应用
答案 0.254
解析 线性回归方程=x+中字母的意义为随着自变量增加或减少1个单位的函数值的变化量,即函数的平均变化率.本题中年收入每增加1万元,年饮食支出平均增加0.254万元.
14.统计推断,当________时,有95%的把握认为事件A与B有关;当________时,认为没有充分的证据显示事件A与B是有关的.
考点 分类变量与列联表
题点 求观测值
答案 k>3.841 k≤2.706
解析 当k>3.841时,就有95%的把握认为事件A与B有关,当k≤2.706时认为没有充分的证据显示事件A与B是有关的.
15.若一组观测值(x1,y1),(x2,y2),…,(xn,yn)之间满足yi=bxi+a+ei(i=1,2,…,n).若ei恒为0,则R2为________.
考点 残差分析与相关指数
题点 残差及相关指数的运算
答案 1
解析 ei恒为0,说明随机误差对yi贡献为0.
16.已知x,y之间的一组数据如下表:
x
2
3
4
5
6
y
3
4
6
8
9
对于表中数据,现给出如下拟合直线:①y=x+1;②y=2x-1;③y=x-;④y=x.其中拟和效果最好的是________.
考点 两个模型拟合效果的比较
题点 两个模型拟合效果的比较
答案 ④
解析 根据最小二乘法得变量x与y间的线性回归方程必过点(,),
则==4,
==6,
拟合直线①②不过点(4,6).
对于③,y=x-,当x=4时,y=6,
当x=6 时,y=9.2,
对于④,y=x,当x=4时,y=6,当x=6时,y=9.
综上可知,拟合效果最好的直线是④.
三、解答题(本大题共6小题,共70分)
17.(10分)为了调查某大学学生在某天上网的时间,随机对100名男生和100名女生进行了不记名的问卷调查,得到了如下的统计结果:
表1:男生上网时间与频数分布表
上网时间(分)
[30,40)
[40,50)
[50,60)
[60,70)
[70,80]
人数
5
25
30
25
15
表2:女生上网时间与频数分布表
上网时间(分)
[30,40)
[40,50)
[50,60)
[60,70)
[70,80]
人数
10
20
40
20
10
(1)若该大学共有女生750人,试估计其中上网时间不少于60分钟的人数;
(2)完成下面的2×2列联表,并回答能否有90%的把握认为“大学生上网时间与性别有关”.
上网时间少于60分钟
上网时间不少于60分钟
总计
男生
女生
总计
附:K2=,其中n=a+b+c+d为样本容量.
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
k0
0.455
0.708
1.323
2.072
2.706
P(K2≥k0)
0.05
0.025
0.010
0.005
0.001
k0
3.841
5.024
6.635
7.879
10.828
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 (1)设上网时间不少于60分钟的人数为x,
依题意有=,解得x=225,
所以估计其中上网时间不少于60分钟的人数是225.
(2)2×2列联表如下:
上网时间少于60分钟
上网时间不少于60分钟
总计
男生
60
40
100
女生
70
30
100
总计
130
70
200
由表中数据可得到K2=≈2.20<2.706,
故没有90%的把握认为“大学生上网时间与性别有关”.
18.(12分)一机器可以按不同的速度运转,其生产物件有一些会有缺点,每小时生产有缺点物件的多少,随机器运转速度而变化,用x表示转速(单位:转/秒),用y表示每小时生产的有缺点物件的个数,现观测得到(x,y)的四组观测值为(8,5),(12,8),(14,9),(16,11).若实际生产中所允许的每小时有缺点的物件数不超过10,则机器的速度每秒不得超过多少转?
考点 线性相关系数
题点 线性相关系数的应用
解 由于=(8+12+14+16)=12.5,
=(5+8+9+11)=8.25,
(xi-)(yi-)=25.5,(xi-)2=35,(yi-)2=18.75,
那么r=≈0.995>0.75,
因此,y与x之间具有很强的线性相关关系.
于是由公式,得=0.729,=-0.863,
那么y与x之间的线性回归方程为=0.729x-0.863,
由=0.729x-0.863≤10,得x≤14.901≈15,
即每小时有缺点的物件数不超过10时,机器的速度每秒不得超过15转.
19.(12分)有人发现了一个有趣的现象,中国人的邮箱名称里含有数字的比较多,而外国人的邮箱名称里含有数字的比较少.为了研究国籍和邮箱名称里是否含有数字的关系,他收集了124个邮箱名称,其中中国人的70个,外国人的54个,中国人的邮箱中有43个含数字,外国人的邮箱中有21个含数字.
(1)根据以上数据建立一个2×2列联表;
(2)他发现在这组数据中,外国人的邮箱名称里含数字的也不少,他不能断定国籍和邮箱名称里含有数字是否有关,你能帮他判断一下吗?
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 (1)2×2列联表如下:
中国人
外国人
总计
有数字
43
21
64
无数字
27
33
60
总计
70
54
124
(2)假设“国籍和邮箱名称里是否含有数字无关”.
由表中数据得k=≈6.201,
因为k>5.024,所以有理由认为假设“国籍和邮箱名称里是否含有数字无关”是不合理的,即有97.5%的把握认为“国籍和邮箱名称里是否含有数字有关”.
20.(12分)针对时下的“韩剧热”,某校团委对“学生性别和是否喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的,男生喜欢韩剧的人数占男生人数的,女生喜欢韩剧的人数占女生人数的.
(1)若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有多少人;
(2)若没有充分的证据显示是否喜欢韩剧和性别有关,则男生至多有多少人.
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 设男生人数为x,依题意可得列联表如下:
喜欢韩剧
不喜欢韩剧
总计
男生


x
女生



总计

x

(1)若有95%的把握认为是否喜欢韩剧和性别有关,
则k>3.841,
由K2==>3.841,
解得x>10.24,
∵,为正整数,∴若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人.
(2)若没有充分的证据显示是否喜欢韩剧和性别有关,则k≤2.706,
由K2==≤2.706,
解得x≤7.216,
∵,为正整数,
∴若没有充分的证据显示是否喜欢韩剧和性别有关,则男生至多有6人.
21.(12分)关于某设备的使用年限x和所支出的维修费用y(万元)有如下的统计资料:
x
1
2
3
4
y
0.5
1
1.5
3
(1)试用最小二乘法求出y关于x的线性回归方程;
(2)求相关指数R2,并说明使用年限对维修费用的影响占百分之几?
考点 残差分析与相关指数
题点 残差及相关指数的应用
解 (1)=,=,=30,iyi=19,
==,
=-=-×=-.
∴线性回归方程为=x-,
(2)依据题意,得
yi
0.5
1
1.5
3
i
0.3
1.1
1.9
2.7
i
0.2
-0.1
-0.4
0.3
R2=1-=1-≈0.914,
故使用年限对维修费用的影响占91.4%.
22.(12分)为了解中学生课余观看热门综艺节目“爸爸去哪儿”是否与性别有关,某中学一研究性学习小组从该校学生中随机抽取了n人进行问卷调查.调查结果表明:女生中喜欢观看该节目的占女生总人数的,男生喜欢看该节目的占男生总人数的.随后,该小组采用分层抽样的方法从这n份问卷中继续抽取了5份进行重点分析,知道其中喜欢看该节目的有3人.
(1)现从重点分析的5人中随机抽取了2人进行现场调查,求这两人都喜欢看该节目的概率;
(2)若有99%的把握认为“爱看该节目与性别有关”,则参与调查的总人数n至少为多少?
参考数据:
P(K2≥k0)
0.050
0.025
0.010
0.005
0.001
k0
3.841
5.024
6.635
7.879
10.828
K2=,其中n=a+b+c+d.
考点 独立性检验思想的应用
题点 分类变量与统计、概率的综合性问题
解 (1)记重点分析的5人中喜欢看该节目的为a,b,c,不喜欢看的为d,e,从5人中随机抽取2人,所有可能的结果有(a,b),(a,c),(a,d),(a,e),(b,c),(b,d),(b,e),(c,d),(c,e),(d,e),共10种,则这两人都喜欢看该节目的有3种,
∴P=,即这两人都喜欢看该节目的概率为.
(2)∵进行重点分析的5份中,喜欢看该节目的有3人,故喜欢看该节目的总人数为n,不喜欢看该节目的总人数为n.设这次调查问卷中女生总人数为a,男生总人数为b,a,b∈N*,则由题意可得2×2列联表如下:
喜欢看该节目的人数
不喜欢看该节目的人数
总计
女生
a
a
a
男生
b
b
b
总计
n
n
n

解得a=n,b=n,
∴正整数n是25的倍数,设n=25k,k∈N*,
则a=12k,a=4k,
b=3k,b=6k,
则K2==k.
由题意得k≥6.635,解得k≥1.59,
∵k∈N*,∴k=2,故n=50.
章末复习
学习目标 1.会求线性回归方程,并用回归直线进行预报.2.理解独立性检验的基本思想及实施步骤.
1.最小二乘法
对于一组数据(xi,yi),i=1,2,…,n,如果它们线性相关,则线性回归方程为=x+,其中==,=- .
2.2×2列联表
B

总计
A
a
b
a+b

c
d
c+d
总计
a+c
b+d
n
其中n=a+b+c+d为样本容量.
3.独立性检验
常用随机变量
K2=来检验两个变量是否有关系.
1.选用的模型不当是产生随机误差的原因之一.( √ )
2.相关系数r=-0.85,说明两个变量相关性较弱.( × )
3.在散点图大致呈线性时,求得回归方程才有意义.( √ )
4.等高条形图能展示列联表数据的占比.( √ )
5.利用随机变量K2进行独立性检验时,其值越小,犯错误的概率越小.( × )
6.独立性检验若得出结论有99%的可信度,则意味着这个结论一定是正确的.( × )
类型一 线性回归分析
例1 为了估计山上积雪融化后对下游灌溉的影响,在山下建立了一个观测站,测量了最大积雪深度x(尺)与当年灌溉面积y(千亩),得到连续10年的数据如下表:
年序
最大积雪深度x/尺
灌溉面积y/千亩
1
15.2
28.6
2
10.4
19.3
3
21.2
40.5
4
18.6
35.6
5
26.4
48.9
6
23.4
45.0
7
13.5
29.2
8
16.7
34.1
9
24.0
46.7
10
19.1
37.4
试求线性回归方程.
考点 线性回归方程
题点 求线性回归方程
解 为了研究这些数据中所蕴含的规律,我们把各年最大积雪深度作为横坐标,相应的灌溉面积作为纵坐标,作散点图如图所示.
从图中看到,数据点大致落在一条直线附近,这告诉我们变量x与y之间的关系大致可看作是线性关系;
从图中还看到,这些点又不都在一条直线上,这表明x与y的关系并没有确切到给定x就可以唯一确定y的程度.
事实上,还有许多其他因素对y产生影响,如当年的平均气温、当年的降雨量等,这些都是影响y取值的随机因素.
如果我们研究x与y的关系,利用公式,得:
=×(15.2+10.4+…+19.1)=18.85,
=×(28.6+19.3+…+37.4)=36.53,
(xi-)2=227.845,
(xi-)(yi-)=413.065,
(yi-)2=764.961.
于是=≈1.813,
≈36.53-1.813×18.85≈2.355.
从而线性回归方程为=1.813x+2.355.
反思与感悟 解决回归分析问题的一般步骤
(1)画散点图.根据已知数据画出散点图.
(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.
(3)回归分析.画残差图或计算R2,进行残差分析.
(4)实际应用.依据求得的回归方程解决实际问题.
跟踪训练1 菜农定期使用低害杀虫农药对蔬菜进行喷洒,以防止害虫的危害,但采集上市时蔬菜仍存有少量的残留农药,食用时需要用清水清洗干净,下表是用清水x(单位:千克)清洗该蔬菜1千克后,蔬菜上残留的农药y(单位:微克)的统计表:
x
1
2
3
4
5
y
58
54
39
29
10
(1)在坐标系中描出散点图,并判断变量x与y的相关性;
(2)若用解析式=cx2+d作为蔬菜农药残量与用水量x的回归方程,
令ω=x2,计算平均值和,完成以下表格(填在答题卡中),求出与x的回归方程.(c,d精确到0.1)
ω
1
4
9
16
25
y
58
54
39
29
10
ωi-
yi-
(3)对于某种残留在蔬菜上的农药,当它的残留量低于20微克时对人体无害,为了放心食用该蔬菜,请估计需要用多少千克的清水清洗一千克蔬菜?(精确到0.1,参考数据≈2.236)
考点 线性回归方程
题点 求线性回归方程
解 (1)作图(略),负相关.
(2)=11,=38,
ω
1
4
9
16
25
y
58
54
39
29
10
ωi-
-10
-7
-2
5
14
yi-
20
16
1
-9
-28
c=
==-2.008≈-2.0,
d=-c=38+2.0×11=60.0,
∴=-2.0ω+60.0=-2.0x2+60.0.
(3)当<20时,-2.0x2+60.0<20,x>2≈4.5,
∴为了放心食用该蔬菜,估计需要用4.5千克的清水清洗一千克蔬菜.
类型二 独立性检验
例2 某学生对其亲属30人的饮食习惯进行了一次调查,并用如图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)
(1)根据以上数据完成下面的2×2列联表:
主食蔬菜
主食肉类
总计
50岁以下
50岁以上
总计
(2)能否在犯错误的概率不超过0.010的前提下可以认为“其亲属的饮食习惯与年龄有关”?并写出简要分析.
参考公式:K2=
P(K2≥k0)
0.25
0.15
0.10
0.05
0.025
0.010
k0
1.323
2.072
2.706
3.841
5.024
6.635
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 (1)2×2列联表如下:
主食蔬菜
主食肉类
总计
50岁以下
4
8
12
50岁以上
16
2
18
总计
20
10
30
(2)因为K2的观测值k==10>6.635,
所以在犯错误的概率不超过0.010的前提下认为“其亲属的饮食习惯与年龄有关”.
反思与感悟 解决一般的独立性检验问题的步骤
(1)通过列联表确定a,b,c,d,n的值,根据实际问题需要的可信程度确定临界值k0.
(2)利用K2=求出K2的观测值k.
(3)如果k≥k0,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过α.
跟踪训练2 为了响应“文化强国建设”号召,某市把社区图书阅览室建设增列为重要的民生工程.为了解市民阅读需求,随机抽取市民200人做调查,统计显示,男士喜欢阅读古典文学的有64人,不喜欢的有56人;女士喜欢阅读古典文学的有36人,不喜欢的有44人.能否在犯错误的概率不超过0.25的前提下认为喜欢阅读古典文学与性别有关系?
附:K2=,其中n=a+b+c+d.
参考数据:
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
0.05
k0
0.455
0.708
1.323
2.072
2.706
3.841
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 根据所给条件,制作列联表如下:


总计
喜欢阅读古典文学
64
36
100
不喜欢阅读古典文学
56
44
100
总计
120
80
200
所以K2的观测值k===,
因为K2的观测值k=>1.323,
由所给临界值表可知,在犯错误的概率不超过0.25的前提下可以认为喜欢阅读古典文学与性别有关.
1.已知线性回归方程=2+2.5x,若变量x每增加1个单位,则(  )
A.y平均增加2.5个单位 B.y平均增加1个单位
C.y平均减少2.5个单位 D.y平均减少2个单位
考点 线性回归直线
题点 回归直线的应用
答案 A
解析 因为由=2+2.5x,得b=2.5>0,若变量x每增加1个单位,则y平均增加2.5个单位,故选A.
2.在对两个变量x,y进行回归分析时有以下操作:
①求回归方程;
②收集数据(xi,yi),i=1,2,…,n;
③对所求出的回归方程作出解释;
④根据所收集的数据绘制散点图.
则下列操作顺序正确的是(  )
A.③②④① B.①②④③
C.②①③④ D.②④①③
考点 回归分析
题点 回归分析的概念和意义
答案 D
解析 根据回归分析的思想,可知对两个变量x,y进行回归分析时,应先收集数据(xi,yi),然后绘制散点图,再求回归方程,最后对所求的回归方程作出解释,正确操作的顺序为②④①③,故选D.
3.某机构调查中学生的近视情况,了解到某校150名男生中有80名近视,140名女生中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力(  )
A.平均数 B.方差
C.回归分析 D.独立性检验
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 D
4.对于线性回归方程=x+,当x=3时,对应的y的估计值是17,当x=8时,对应的y的估计值是22,那么,该线性回归方程是________,根据线性回归方程判断当x=________时,y的估计值是38.
考点 线性回归分析
题点 回归直线的应用
答案 =x+14 24
解析 首先把两组值代入线性回归方程,得
解得
所以线性回归方程是=x+14.
令x+14=38,可得x=24,即当x=24时,y的估计值是38.
1.建立回归模型的基本步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)画出散点图,观察它们之间的关系;
(3)由经验确定回归方程的类型;
(4)按照一定的规则估计回归方程中的参数;
(5)得出结果后分析残差图是否有异常.
2.独立性检验是对两个分类变量间是否存在相关关系的一种案例分析方法.常用的直观方法为等高条形图,等高条形图由于是等高的,因此它能直观地反映两个分类变量之间的差异的大小,而利用假设的思想方法,计算出某一个随机变量K2的值来判断更精确些.
一、选择题
1.下列有关线性回归的说法不正确的是(  )
A.变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系叫做相关关系
B.在平面直角坐标系中用描点的方法得到的表示具有相关生活费的两个变量的一组数据的图形叫做散点图
C.线性回归方程最能代表观测值x,y之间的线性相关关系
D.任何一组观测值都能得到具有代表意义的线性回归方程
考点 回归分析
题点 回归分析的概念及意义
答案 D
解析 并不是任何一组观测值都能得到具有代表意义的线性回归方程.
2.若回归方程为=3-5x,则当变量x增加1个单位时(  )
A.y平均增加3个单位 B.y平均减少5个单位
C.y平均增加5个单位 D.y平均减少3个单位
考点 线性回归方程
题点 回归直线的应用
答案 B
解析 斜率的估计值是-5,说明x每增加1个单位,y平均减少5个单位.
3.某数学老师身高为176 cm,他爷爷、父亲和儿子的身高分别是173 cm,170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为(  )
A.183.5 cm B.180.5 cm
C.173 cm D.183 cm
考点 线性回归分析
题点 线性回归方程的应用
答案 A
解析 记从爷爷起向下各代依次为1,2,3,4,5用变量x表示,其中5代表孙子.各代人的身高为变量y,则有
x
1
2
3
4
y
173
170
176
182
计算知=2.5,=175.25.由回归系数公式得=3.3,
=-=175.25-3.3×2.5=167,∴线性回归方程为=3.3x+167,当x=5时,y=3.3×5+167=183.5,故预测其孙子的身高为183.5 cm.
4.如图所示,四个散点图中,不适合用线性回归模型拟合其中两个变量的是(  )
考点 回归分析
题点 回归分析的概念和意义
答案 A
解析 图A中的点不成线性排列,故两个变量不适合用线性回归模型拟合.
5.某化妆品公司为了增加其商品的销售利润,调查了该商品投入的广告费用x与销售利润y的统计数据如表:
广告费用x(万元)
2
3
5
6
销售利润y(万元)
5
7
9
11
由表中数据,得线性回归方程l:=x+,则下列结论正确的是(  )
A.<0 B.<0
C.直线l过点(4,8) D.直线l过点(2,5)
考点 线性回归方程
题点 样本点中心的应用
答案 C
解析 因为=1.4>0,=-=8-1.4×4=2.4>0,所以排除A,B;因为=1.4x+2.4,所以1.4×2+2.4=5.2≠5,所以点(2,5)不在直线l上,所以排除D;因为=4,=8,所以回归直线l过样本点的中心(4,8),故选C.
6.如图所示,5组数据(x,y)中去掉D(3,10)后,下列说法错误的是(  )
A.相关系数r变大
B.残差平方和变大
C.相关指数R2变大
D.解释变量x与预报变量y的相关性变强
考点 残差分析与相关指数
题点 残差及相关指数的应用
答案 B
解析 由题中散点图知,去掉D后,x与y的相关性变强,且为正相关,所以r变大,R2变大,残差平方和变小.
7.分类变量X和Y的2×2列联表如下:
Y
X
y1
y2
总计
x1
a
10
a+10
x2
c
30
c+30
总计
60
40
100
对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为(  )
A.a=45,c=15 B.a=40,c=20
C.a=35,c=25 D.a=30,c=30
考点 分类变量与列联表
题点 求列联表中的数据
答案 A
解析 由题意可得,当与相差越大时,X与Y有关系的可能性越大,分析四组选项,A中的a,c的值最符合题意,故选A.
二、填空题
8.从某中学的2014届高三学生中随机选取5名男生,其身高和体重的数据如下表所示:
身高x(cm)
160
165
170
175
180
体重y(kg)
63
66
70
72
74
根据上表可得线性回归方程=0.56x+,据此模型预测身高为172 cm的男生的体重约为________ kg.
考点 线性回归方程
题点 回归直线的应用
答案 70.12
解析 由题意可知,==170,
==69.
∵回归直线过点(,),
∴将点(170,69)代入线性回归方程,得=-26.2,
∴=0.56x-26.2,
当x=172时,=70.12(kg).
9.某中学为了调研学生的数学成绩和物理成绩是否有关系,随机抽取了189名学生进行调查,调查结果如下:在数学成绩较好的94名学生中,有54名学生的物理成绩较好,有40名学生的物理成绩较差;在成绩较差的95名学生中,有32名学生的物理成绩较好,有63名学生的物理成绩较差.根据以上的调查结果,利用独立性检验的方法可知,约有________的把握认为“学生的数学成绩和物理成绩有关系”.
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 99.5%
解析 根据题目中所给的数据可得到2×2列联表(略),
再由公式得k=≈10.76.
因为10.76>7.879,
所以约有99.5%的把握认为“学生的数学成绩和物理成绩有关系”.
10.给出下列五个命题:
①将A,B,C三种个体按3∶1∶2的比例分层抽样调查,若抽取的A种个体有9个,则样本容量为30;
②一组数据1,2,3,3,4,5的平均数、众数、中位数都相同;
③甲组数据的方差为5,乙组数据为5,6,9,10,5,那么这两组数据中比较稳定的是甲;
④已知具有相关关系的两个变量满足的线性回归方程为=1-2x,则x每增加1个单位,y平均减少2个单位;
⑤统计的10个样本数据为125,120,122,105,130,114,116,95,120,134,则样本数据落在[114.5,124.5)内的频率为0.4.
其中是真命题的为________.
考点 线性回归方程
题点 回归直线的应用
答案 ②④⑤
解析 ①样本容量为9÷=18,①是假命题;②数据1,2,3,3,4,5的平均数为×(1+2+3+3+4+5)=3,中位数为3,众数为3,都相同,②是真命题;③乙==7,s=×[(5-7)2+(6-7)2+(9-7)2+(10-7)2+(5-7)2]=×(4+1+4+9+4)=4.4,∴s>s,∴乙稳定,③是假命题;④是真命题;⑤数据落在[114.5,124.5)内的有120,122,116,120,共4个,故其频率为0.4,⑤是真命题.
三、解答题
11.某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如表资料:
日期
1月10日
2月10日
3月10日
4月10日
5月10日
6月10日
昼夜温差x(℃)
10
11
13
12
8
6
就诊人数y(个)
22
25
29
26
16
12
该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据恰好是相邻两个月的概率;
(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y关于x的线性回归方程y=bx+a;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问(2)中所得线性回归方程是否理想?
参考公式:b==,a=-b.
考点 线性回归分析
题点 回归直线的应用
解 (1)设抽到相邻两个月的数据为事件A.
因为从6组数据中选取2组数据共有15种情况,每种情况都是等可能出现的,其中抽到相邻两个月份的数据的情况有5种,所以P(A)==.
(2)由数据求得=11,=24,由公式求得b=,
再由a=-b=-.
所以y关于x的线性回归方程为=x-.
(3)当x=10时,=,<2;
同样,当x=6时,=,<2,
所以该小组所得线性回归方程是理想的.
12.为考察高中生的性别与是否喜欢数学课程之间的关系,在我市某普通中学高中生中随机抽取200名学生,得到如下2×2列联表:
喜欢数学课
不喜欢数学课
总计

30
60
90

20
90
110
总计
50
150
200
(1)根据独立性检验的基本思想,约有多大的把握认为“性别与喜欢数学课之间有关系”?
(2)若采用分层抽样的方法从喜欢数学课的学生中随机抽取5人,则男生和女生抽取的人数分别是多少?
考点 独立性检验及其基本思想
题点 独立性检验的思想
解 (1)∵K2=≈6.061>5.024,
∴约有97.5%以上的把握认为“性别与喜欢数学课之间有关系”.
(2)男生抽取的人数有:×5=3(人),
女生抽取的人数有:×5=2(人).
13.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.
(1)根据以上数据建立一个2×2列联表;
(2)判断性别与休闲方式是否有关系.
K2=(其中n=a+b+c+d)
P(K2≥k0)
0.05
0.025
0.010
k0
3.841
5.024
6.635
考点 分类变量与列联表
题点 求观测值
解 (1)2×2列联表:
休闲方式
性别    
看电视
运动
总计

43
27
70

21
33
54
总计
64
60
124
(2)假设“休闲方式与性别无关”
K2=≈6.201,
因为K2≥5.024,
所以有97.5%的把握认为“休闲方式与性别有关”.
四、探究与拓展
14.若某地财政收入x与支出y满足线性回归方程=bx+a+e(单位:亿元),其中b=0.8,a=2,|e|≤0.5,如果今年该地区财政收入为10亿元,则今年支出预计不会超过(  )
A.10亿元 B.9亿元
C.10.5亿元 D.9.5亿元
考点 线性回归分析
题点 回归直线的应用
答案 C
解析 代入数据得=10+e,因为|e|≤0.5,
得到||≤10.5,故支出不会超过10.5亿元.
15.为了响应厦门市政府“低碳生活,绿色出行”的号召,思明区委文明办率先全市发起“少开一天车,呵护厦门蓝”绿色出行活动.“从今天开始,从我做起,力争每周至少一天不开车,上下班或公务活动带头选择步行、骑车或乘坐公交车,鼓励拼车……”铿锵有力的话语,传递了绿色出行、低碳生活的理念.某机构随机调查了本市部分成年市民某月骑车次数,统计如下:
次数
人数
年龄
[0,10)
[10,20)
[20,30)
[30,40)
[40,50)
[50,60]
18岁至31岁
8
12
20
60
140
150
32岁至44岁
12
28
20
140
60
150
45岁至59岁
25
50
80
100
225
450
60岁及以上
25
10
10
18
5
2
联合国世界卫生组织于2013年确定新的年龄分段:44岁及以下为青年人,45岁至59岁为中年人,60岁及以上为老年人.用样本估计总体的思想,解决如下问题:
(1)估计本市一个18岁以上青年人每月骑车的平均次数;
(2)若月骑车次数不少于30次者称为“骑行爱好者”,根据这些数据,能否在犯错误的概率不超过0.001的前提下认为“骑行爱好者”与“青年人”有关?
考点 独立性检验及其基本思想
题点 独立性检验的思想
解 (1)
==42.75.
(2)根据题意,得出如下2×2列联表
骑行爱好者
非骑行爱好者
总计
青年人
700
100
800
非青年人
800
200
1 000
总计
1 500
300
1 800
K2==18>10.828.
根据这些数据,能在犯错误的概率不超过0.001的前提下认为“骑行爱好者”与“青年人”有关.