第三章统计学案+滚动训练+章末检测+模块检测

文档属性

名称 第三章统计学案+滚动训练+章末检测+模块检测
格式 zip
文件大小 1.3MB
资源类型 教案
版本资源 人教新课标B版
科目 数学
更新时间 2019-05-24 15:58:46

文档简介

模块综合试卷
(时间:120分钟 满分:150分)
一、选择题(本大题共12小题,每小题5分,共60分)
1.从甲地去乙地有3班火车,从乙地去丙地有2班轮船,从甲到丙地再无其他路可走,则从甲地去丙地可选择的旅行方式有(  )
A.5种 B.6种
C.7种 D.8种
答案 B
解析 第一步:从甲地去乙地共有3种走法;
第二步:从乙地去丙地共有2种走法.
由分步乘法计数原理知N=3×2=6.
2.从集合A={1,2,3,…,11}中任意取两个元素作为椭圆+=1方程中的m和n,则能组成落在矩形区域B={(x,y)||x|<11,|y|<9}内的椭圆的个数是(  )
A.43 B.72 C.86 D.90
答案 B
解析 根据题意,得m是不大于10的正整数,n是不大于8的正整数.但是当m=n时,+=1是圆而不是椭圆.先确定n,n有8种可能,对每一个确定的n,m有10-1=9种可能.故满足条件的椭圆有8×9=72(个).
3.设随机变量X服从正态分布N,集合A={x|x>X},集合B=,则A?B的概率为(  )
A. B. C. D.
答案 C
解析 由A?B得X>.
又∵μ=,∴P=.
4.两位学生一起去一家单位应聘,面试前,单位负责人对他们说:“我们要从面试的人中招聘3人,若每人被招聘的概率相同,则你们俩同时被招聘进来的概率是.”根据这位负责人的话,可以推断出参加面试的人数为(  )
A.5 B.7 C.8 D.9
答案 B
解析 设参加面试的人数为n,
则=,即=,
解得n=7,或n=-6(舍去),故选B.
5.由数字1,2,3,4,5组成没有重复数字的五位数,其中小于50 000的偶数共有(  )
A.60个 B.48个
C.36个 D.24个
答案 C
解析 个位数有A种排法,万位有A种,其余三位有A种,共有AAA=36(个).
6.给出以下四个说法:
①绘制频率分布直方图时,各小长方形的面积等于相应各组的组距;
②在刻画回归模型的拟合效果时,r2的值越大,说明拟合的效果越好;
③设随机变量ξ服从正态分布N(4,22),则P(ξ>4)=;
④对分类变量X与Y,若它们的统计量χ2越小,则判断“X与Y有关系”的犯错误的概率越小.
其中正确的说法是(  )
A.①④ B.②③ C.①③ D.②④
考点 独立性检验思想的应用
题点 独立性检验与线性回归方程、均值的综合应用
答案 B
解析 ①中各小长方形的面积等于相应各组的频率;②正确,相关指数r2越大,拟合效果越好,R2越小,拟合效果越差;③随机变量ξ服从正态分布N(4,22),正态曲线对称轴为x=4,所以P(ξ>4)=;④对分类变量X与Y,若它们的统计量χ2越小,则说明“X与Y有关系”的犯错误的概率越大.
7.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:


合计
爱好
40
20
60
不爱好
20
30
50
合计
60
50
110
算得:χ2=≈7.8.
附表:
P(χ2≥x0)
0.050
0.010
0.001
x0
3.841
6.635
10.828
参照附表,得到的正确结论是(  )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
答案 C
解析 根据独立性检验的定义,由χ2≈7.8>6.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”.
8.在一次独立性检验中,得出2×2列联表如下:
y1
y2
合计
x1
200
800
1 000
x2
180
m
180+m
合计
380
800+m
1 180+m
且最后发现,两个分类变量x和y没有任何关系,则m的可能值是(  )
A.200 B.720 C.100 D.180
答案 B
解析 计算χ2=,
当m=200时,
χ2=≈103.37>3.841,此时两个分类变量x和y有关系;
当m=720时,
χ2==0.
由χ2≤3.841知此时两个分类变量x和y没有任何关系,
则m的可能值是720.
9.在6的二项展开式中,x2的系数为(  )
A.- B. C.- D.
答案 C
解析 设含x2的项是二项展开式中第r+1项,
则Tr+1=C6-r·r
=C6-r(-2)rx3-r.令3-r=2,得r=1.
故x2的系数为C5(-2)=-.
10.甲、乙两工人在同样的条件下生产,日产量相等,每天出废品的情况如下表所示:
工人


废品数
0
1
2
3
0
1
2
3
概率
0.4
0.3
0.2
0.1
0.3
0.5
0.2
0
则有结论(  )
A.甲的产品质量比乙的产品质量好一些
B.乙的产品质量比甲的产品质量好一些
C.两人的产品质量一样好
D.无法判断谁的质量好一些
答案 B
解析 E(ξ甲)=0×0.4+1×0.3+2×0.2+3×0.1=1,
E(ξ乙)=0×0.3+1×0.5+2×0.2+3×0=0.9,
∵E(ξ甲)>E(ξ乙),
故甲每天出废品的数量比乙要多,
∴乙的产品质量比甲的产品质量好一些.
11.下列说法:
对具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i=1,2,…,8),其回归直线方程是 =x+ ,且x1+x2+x3+…+x8=2(y1+y2+y3+…+y8)=6,则实数 的值是(  )
A. B. C. D.
答案 B
解析 依题意可知样本点的中心为,
则=×+ ,解得 =.
12.某射手射击所得环数X的分布列如下:
X
7
8
9
10
P
x
0.1
0.3
y
已知X的期望E(X)=8.9,则y的值为(  )
A.0.2 B.0.3
C.0.4 D.0.5
答案 C
解析 由题意得
解得
二、填空题(本大题共4小题,每小题5分,共20分)
13.(x-y)4的展开式中x3y3的系数为________.
答案 6
解析 Tr+1=C(x)4-r(-y)r=C···(-1)r.
由已知4-=3,2+=3,∴r=2.
∴x3y3的系数为C(-1)2=6.
14.某城市新修建的一条道路上有12盏路灯,为了节省用电而又不能影响正常的照明,可以熄灭其中的3盏灯,但两端的灯不能熄灭,也不能熄灭相邻的两盏灯,则熄灯的方法有________种.(填数字)
考点 组合的应用
题点 有限制条件的组合问题
答案 56
解析 分析题意可知,最终剩余的亮着的灯共有9盏,且两端的必须亮着,所以可用插空的方法,共有8个空可选,所以熄灯的方法有C=56(种).
15.已知随机变量ξ~B(n,p),若E(ξ)=4,η=2ξ+3,D(η)=3.2,则P(ξ=2)=________.
答案 
解析 由已知np=4,4np(1-p)=3.2,∴n=5,p=0.8,
∴P(ξ=2)=Cp2(1-p)3=.
16.若由一个2×2列联表中的数据计算得χ2=4.073,那么有________的把握认为两变量有关系.(已知P(χ2≥3.841)≈0.05,P(χ2≥5.024)≈0.025)
答案 95%
解析 χ2=4.073≥3.841,因此有95%的把握认为两变量有关系.
三、解答题(本大题共6小题,共70分)
17.(10分)已知f(x)=(1+x)m+(1+x)n(m,n∈N+)展开式中x的系数为19,求f(x)的展开式中x2的系数的最小值.
解 f(x)=1+Cx+Cx2+…+Cxm+1+Cx+Cx2+…+Cxn,
由题意知m+n=19,m,n∈N+,
故x2项的系数为C+C=+=2+.
由m,n∈N+,根据二次函数的知识知,
当m=9或10时,上式有最小值,
也就是当m=9,n=10或m=10,n=9时,x2项的系数取得最小值,最小值为81.
18.(12分)抛掷一枚骰子(六个面上分别标以数字1,2,3,4,5,6).
(1)连续抛掷2次,求向上的数不同的概率;
(2)连续抛掷2次,求向上的数之和为6的概率;
(3)连续抛掷5次,求恰好出现3次向上的数为奇数的概率.
解 (1)设A表示事件“抛掷2次,向上的数不同”,
则P(A)==.
(2)设B表示事件“抛掷2次,向上的数之和为6”.
∵向上的数之和为6的结果有(1,5),(2,4),(3,3),(4,2),(5,1)共5种,∴P(B)==.
(3)设C表示事件“抛掷5次,恰好出现3次向上的数为奇数”.则P(C)=C23=.
19.(12分)生产工艺工程中产品的尺寸偏差X(mm)~N(0,22),如果产品的尺寸与现实的尺寸偏差的绝对值小于4 mm的为合格品,求生产5件产品的合格率不小于80%的概率.(精确到0.001)
解 由题意X~N(0,22),求得
P(|X|<4)=P(-4设Y表示5件产品中合格品个数,
则Y~B(5,0.954).∴P(Y≥5×0.8)=P(Y≥4)
=C×(0.954)4×0.046+C×(0.954)5≈0.191+0.790≈0.981.
故生产5件产品的合格率不小于80%的概率为0.981.
20.(12分)近年来,随着以煤炭为主的能源消耗大幅攀升、机动车持有量急剧增加,某市空气中的PM2.5(直径小于等于2.5微米的颗粒物)的含量呈逐年上升的趋势,如图是根据该市环保部门提供的2011年至2015年该市PM2.5年均浓度值画成的散点图.(为便于计算,把2011年编号为1,2012年编号为2,…,2015年编号为5)
(1)以PM2.5年均浓度值为因变量,年份的编号为自变量,利用散点图提供的数据,用最小二乘法求出该市PM2.5年均浓度值与年份编号之间的回归直线方程=x+;
(2)按世界卫生组织(WHO)过渡期-1的标准,空气中的PM2.5的年均浓度限值为35微克/立方米,该市若不采取措施,试预测到哪一年该市空气中PM2.5的年均浓度值将超过世界卫生组织(WHO)过渡期-1设定的限制.
参考公式:=,=-.
考点 线性回归分析
题点 回归直线方程的应用
解 (1)由散点图可得,变量xi,yi组成的几组数据为(1,13),(2,15),(3,20),(4,22),(5,25),则=3,=19,
所以==3.1.
=-=19-3.1×3=9.7.
所以所求回归直线方程为=3.1x+9.7.
(2)由3.1x+9.7>35,得x>8,因为x∈N,所以x=9.
故可预测到2019年该市空气中PM2.5的年均浓度值将超过世界卫生组织(WHO)过渡期-1设定的限值.
21.(12分)某校随机抽取100名学生,对学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:
积极参加班级工作
不太积极参加班级工作
合计
学习积极性高
40
学习积极性一般
30
合计
100
已知随机抽查这100名学生中的一名学生,抽到积极参加班级工作的学生的概率是0.6.
(1)请将上表补充完整(不用写计算过程);
(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关?并说明理由;
(3)从学习积极性高的同学中抽取2人继续调查,设积极参加班级工作的人数为X,求X的分布列和期望.
解 (1)2×2列联表如下:
积极参加班级工作
不太积极参加班级工作
合计
学习积极性高
40
10
50
学习积极性一般
20
30
50
合计
60
40
100
(2)由上表得χ2=
==16.667>6.635.
故有99%的把握认为学生的学习积极性与对待班级工作的态度有关.
(3)X的所有可能取值为0,1,2.
P(X=0)=,P(X=1)=,
P(X=2)=.
X
0
1
2
P



E(X)=0×+1×+2×=1.6.
即积极参加班级工作的人数X的期望为1.6.
22.(12分)某同学参加3门课程的考试.假设该同学第一门课程取得优秀成绩的概率为,第二、第三门课程取得优秀成绩的概率分别为p,q(p>q),且不同课程是否取得优秀成绩相互独立.记ξ为该生取得优秀成绩的课程数,其分布列为
ξ
0
1
2
3
P

a
b

(1)求该同学至少有1门课程取得优秀成绩的概率;
(2)求p,q的值;
(3)求数学期望E(ξ).
解 事件Ai表示“该生第i门课程取得优秀成绩”,i=1,2,3.
由题意知P(A1)=,P(A2)=p,P(A3)=q.
(1)由于事件“该同学至少有1门课程取得优秀成绩”与事件“ξ=0”是对立的,
所以该同学至少有1门课程取得优秀成绩的概率是
1-P(ξ=0)=1-=.
(2)由题意知
P(ξ=0)=P(1 2 3)=(1-p)(1-q)=,
P(ξ=3)=P(A1A2A3)=pq=.
整理得pq=,p+q=1.
由p>q,可得p=,q=.
(3)由题意知a=P(ξ=1)=P(A1 2 3)+P(1 A2 3)+P(1 2A3)=(1-p)(1-q)+p(1-q)+(1-p)q=.
b=P(ξ=2)=1-P(ξ=0)-P(ξ=1)-P(ξ=3)=.
E(ξ)=0×P(ξ=0)+1×P(ξ=1)+2×P(ξ=2)+3×P(ξ=3)=.
即数学期望为.
章末检测试卷(三)
(时间:120分钟 满分:150分)
一、选择题(本大题共12小题,每小题5分,共60分)
1.下列说法中正确的是(  )
A.相关关系是一种不确定的关系,回归分析是对相关关系的分析,因此没有实际意义
B.独立性检验对分类变量关系的研究没有100%的把握,所以独立性检验研究的结果在实际中也没有多大的实际意义
C.相关关系可以对变量的发展趋势进行预报,这种预报可能会是错误的
D.独立性检验如果得出的结论有99%的可信度,就意味着这个结论一定是正确的
考点 回归分析
题点 回归分析的概念和意义
答案 C
解析 相关关系虽然是一种不确定关系,但是回归分析可以在某种程度上对变量的发展趋势进行预报,这种预报在尽量减小误差的条件下可以对生产与生活起到一定的指导作用,独立性检验对分类变量的检验也是不确定的,但是其结果也有一定的实际意义.故选C.
2.根据一位母亲记录儿子3岁~9岁的身高数据,建立儿子身高(单位:cm)对年龄(单位:岁)的回归直线方程=7.19x+73.93,用此方程预测儿子10岁的身高,则下列有关叙述正确的是(  )
A.身高一定为145.83 cm
B.身高大于145.83 cm
C.身高小于145.83 cm
D.身高在145.83 cm左右
考点 线性回归分析
题点 回归直线方程的应用
答案 D
解析 用回归直线方程预测的不是精确值,而是估计值,当x=10时,=145.83,只能说身高在145.83 cm左右.
3.已知两个变量x和y之间具有线性相关性,甲、乙两个同学各自独立做了10次和15次试验,并且利用线性回归的方法求得回归直线分别为l1和l2.已知两个人在试验中发现对变量x的观测数据的平均数都为s,对变量y的观测数据的平均数都是t,则下列说法正确的是(  )
A.l1和l2必有交点(s,t)
B.l1与l2相交,但交点一定不是(s,t)
C.l1与l2必定平行
D.l1与l2必定重合
考点 回归直线方程
题点 样本中心点的应用
答案 A
解析 由于回归直线=x+恒过(,)点,又两人对变量x的观测数据的平均数都为s,对变量y的观测数据的平均数都为t,所以l1和l2恒过点(s,t).
4.某大学体育部为了解新生的身高与地域是否有关,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
不低于170 cm
低于170 cm
合计
北方学生
60
20
80
南方学生
10
10
20
合计
70
30
100
则下列说法正确的是(  )
A.有95%的把握认为“学生的身高是否超过170 cm与地域有关”
B.没有90%的把握认为“学生的身高是否超过170 cm与地域有关”
C.有97.5%的把握认为“学生的身高是否超过170 cm与地域有关”
D.没有95%的把握认为“学生的身高是否超过170 cm与地域有关”
附:χ2=
P(χ2≥x0)
0.25
0.15
0.10
0.05
0.025
x0
1.323
2.072
2.706
3.841
5.024
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 A
解析 将2×2列联表中的数据代入公式计算,得
χ2==≈4.762,
由于4.762>3.841,所以有95%的把握认为“学生的身高是否超过170 cm与地域有关”.故选A.
5.下列关于回归分析与独立性检验的说法正确的是(  )
A.回归分析和独立性检验没有什么区别
B.回归分析是对两个变量准确关系的分析,而独立性检验是分析两个变量之间的不确定性关系
C.回归分析研究两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关系的一种检验
D.独立性检验可以100%确定两个变量之间是否具有某种关系
答案 C
解析 由回归分析、独立性检验的意义知,回归分析与独立性检验都是研究两个变量之间的相关性,但方法与手段有所不同,研究角度不同,由其意义知,C正确.
6.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算χ2≈0.99,根据这一数据分析,则下列说法正确的是(  )
A.有99%的人认为该栏目优秀
B.有99%的人认为该栏目是否优秀与改革有关系
C.有99%的把握认为电视栏目是否优秀与改革有关系
D.没有理由认为电视栏目是否优秀与改革有关系
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 D
解析 只有χ2>6.635才能有99%的把握认为电视栏目是否优秀与改革有关系,而即使χ2>6.635也只是对“电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论.
7.某车间加工零件的数量x与加工时间y的统计数据如下表:
零件数x(个)
10
20
30
加工时间y(分钟)
21
30
39
现已求得上表数据的回归直线方程=x+中的值为0.9,则据此回归模型可以预测,加工100个零件所需要的加工时间约为(  )
A.84分钟 B.94分钟
C.102分钟 D.112分钟
考点 线性回归分析
题点 回归直线方程的应用
答案 C
解析 由已知可得=20,=30,
又=0.9,∴=-=30-0.9×20=12.
∴回归直线方程为=0.9x+12.
∴当x=100时,=0.9×100+12=102.
故选C.
8.某调查者从调查中获知某公司近年来科研费用支出x(万元)与公司所获得利润y(万元)的统计资料如下表:
序号
科研费用支出xi
利润yi
xiyi
x
1
5
31
155
25
2
11
40
440
121
3
4
30
120
16
4
5
34
170
25
5
3
25
75
9
6
2
20
40
4
合计
30
180
1 000
200
则利润y对科研费用支出x的回归直线方程为(  )
A.=2x+20 B.=2x-20
C.=20x+2 D.=20x-2
考点 回归直线方程
题点 求回归直线方程
答案 A
解析 设回归直线方程为=x+.
由表中数据得,==2,
∴=-=30-2×5=20,
∴回归直线方程为=2x+20.
9.已知x,y取值如表:
x
0
1
3
5
6
y
1
m
3m
5.6
7.4
画散点图分析可知,y与x线性相关,且求得回归直线方程为=x+1,则m等于(  )
A.0.5 B.1 C.1.5 D.2
考点 回归直线方程
题点 样本中心点的性质
答案 C
解析 根据题意,得=(0+1+3+5+6)=3,
=(1+m+3m+5.6+7.4)
=,
故样本点中心为,代入回归直线方程,得
=3+1,解得m=1.5.
10.独立性检验中,假设H0:变量X与变量Y没有关系,则在H0成立的情况下,P(χ2≥6.635)=0.010表示的意义是(  )
A.变量X与变量Y有关系的概率为1%
B.变量X与变量Y没有关系的概率为99.9%
C.变量X与变量Y没有关系的概率为99%
D.变量X与变量Y有关系的概率为99%
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 D
解析 由题意知变量X与Y没有关系的概率为0.01,即认为变量X与Y有关系的概率为99%.
11.根据某班学生数学、外语成绩得到的2×2列联表如下:
数优
数差
合计
外优
34
17
51
外差
15
19
34
合计
49
36
85
那么统计量χ2约为(  )
A.10.3 B.8 C.4.25 D.9.3
考点 分类变量与列联表
题点 求观测值
答案 C
解析 由公式得统计量
χ2=≈4.25.
12.下表给出5组数据(x,y),为选出4组数据使其线性相关程度最大,且保留第1组数据(-5,-3),则应去掉(  )
i
1
2
3
4
5
xi
-5
-4
-3
-2
4
yi
-3
-2
4
-1
6
A.第2组 B.第3组
C.第4组 D.第5组
答案 B
解析 画出散点图如图所示,应除去第3组,对应点的坐标是(-3,4).故选B.
二、填空题(本大题共4小题,每小题5分,共20分)
13.下列是关于出生男婴与女婴调查的列联表:
晚上
白天
合计
男婴
45
A
B
女婴
E
35
C
合计
98
D
180
那么A=__________,B=__________,C=__________,D=__________,E=__________.
考点 分类变量与列联表
题点 求列联表中的数据
答案 47 92 88 82 53
解析 ∵45+E=98,∴E=53,
∵E+35=C,∴C=88,
∵98+D=180,∴D=82,
∵A+35=D,∴A=47,
∵45+A=B,∴B=92.
14.已知样本容量为11,计算得i=510,i=214,回归方程为=0.3x+,则≈________,≈__________.(精确到0.01)
考点 回归直线方程
题点 样本点中心的应用
答案 46.36 5.55
解析 由题意得=i=,=i=,因为=0.3+,所以=0.3×+,可得≈5.55.
15.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表,由表中数据得回归直线方程=x+,其中=-2.现预测当气温为-4 ℃时,用电量的度数约为________.
气温x(℃)
18
13
10
-1
用电量y(度)
24
34
38
64
考点 回归直线方程
题点 回归直线方程的应用
答案 68
解析 由题意可知=(18+13+10-1)=10,
=(24+34+38+64)=40,=-2.
又回归直线=-2x+过点(10,40),故=60.
所以当x=-4时,=-2×(-4)+60=68.
16.在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁.为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:
感染
未感染
合计
服用
10
40
50
未服用
20
30
50
合计
30
70
100
附表:
P(χ2≥x0)
0.10
0.05
x0
6.635
3.841
参照附表,在犯错误的概率不超过________(填百分比)的前提下,认为“小鼠是否被感染与服用疫苗有关”.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 5%
解析 χ2=≈4.762>3.841,所以在犯错误的概率不超过5%的前提下,认为“小鼠是否被感染与服用疫苗有关”.
三、解答题(本大题共6小题,共70分)
17.(10分)已知10只狗的血球体积x(单位:mm3)及红血球数y(单位:百万)的测量值如下:
x
45
42
46
48
42
35
58
40
39
50
y
6.53
6.30
9.25
7.50
6.99
5.90
9.49
6.20
6.55
7.72
(1)画出散点图;
(2)求出y对x的回归直线方程;
(3)若血球体积为49 mm3,预测红血球数大约是多少?
考点 回归直线方程
题点 求回归直线方程
解 (1)散点图如图所示.
(2)设回归直线方程为=x+,由表中数据代入公式,得=≈0.16,
=- ≈0.12.
所以所求回归直线方程为=0.16x+0.12.
(3)把x=49代入回归直线方程得
=0.16×49+0.12≈7.96,计算结果表明,当血球体积为49 mm3时,红血球数大约为7.96百万.
18.(12分)为了调查某大学学生在某天上网的时间,随机对100名男生和100名女生进行了不记名的问卷调查,得到了如下的统计结果:
表1:男生上网时间与频数分布表
上网时间(分)
[30,40)
[40,50)
[50,60)
[60,70)
[70,80)
人数
5
25
30
25
15
表2:女生上网时间与频数分布表
上网时间(分)
[30,40)
[40,50)
[50,60)
[60,70)
[70,80)
人数
10
20
40
20
10
(1)若该大学共有女生750人,试估计其中上网时间不少于60分钟的人数;
(2)完成2×2列联表,并回答能否有95%的把握认为“大学生上网时间与性别有关”.
上网时间少于60分钟
上网时间不少于60分钟
合计
男生
女生
合计
考点 独立性检验及其基本思想
题点 独立性检验的综合应用
解 (1)设上网时间不少于60分钟的女生人数为x,
依题意有=,解得x=225,
所以估计上网时间不少于60分钟的女生有225人.
(2)2×2列联表如下:
上网时间少于60分钟
上网时间不少于60分钟
合计
男生
60
40
100
女生
70
30
100
合计
130
70
200
由表中数据可得统计量χ2=≈2.20<3.841,
故没有95%的把握认为“大学生上网时间与性别有关”.
19.(12分)有甲、乙两个班级进行数学考试,按照大于或等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的2×2列联表.已知从全部210人中随机抽取1人为优秀的概率为.
优秀
非优秀
合计
甲班
20
乙班
60
合计
210
请完成上面的2×2列联表,若按99%的可靠性要求,则能否认为“成绩与班级有关”?
考点 独立性检验及其基本思想
题点 独立性检验的综合应用
解 2×2列联表如下:
优秀
非优秀
合计
甲班
20
90
110
乙班
40
60
100
合计
60
150
210
由表中数据可得统计量χ2=≈12.2>6.635,
所以若按照99%的可靠性要求,则能够判断成绩与班级有关.
20.(12分)某校团对“学生性别与是否喜欢韩剧有关”作了一次调查,其中女生人数是男生人数的,男生喜欢韩剧的人数占男生人数的,女生喜欢韩剧的人数占女生人数的,若在犯错误的概率不超过0.05的前提下认为是否喜欢韩剧和性别有关,则男生至少有多少人?
考点 独立性检验及其基本思想
题点 独立性检验的综合应用
解 设男生人数为x,依题意可得列联表如下:
喜欢韩剧
不喜欢韩剧
合计
男生


x
女生



合计

x

若在犯错误的概率不超过0.05的前提下认为是否喜欢韩剧和性别有关,则χ2>3.841,
由χ2==x>3.841,
解得x>10.24,
∵,为正整数,∴若在犯错误的概率不超过0.05的前提下认为是否喜欢韩剧和性别有关,则男生至少有12人.
21.(12分)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图:
注:年份代码1-7分别对应年份2008-2014
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归直线方程(系数精确到0.01),预测2018年我国生活垃圾无害化处理量.
附注:
参考数据:i=9.32,iyi=40.17, =0.55,≈2.646.
考点 线性回归分析
题点 回归直线方程的应用
解 (1)由折线图中数据和附注中参考数据,得
=4,(ti-)2=28, =0.55,
(ti-)(yi-)=iyi-i=40.17-4×9.32=2.89,r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得==≈0.103.=-≈1.331-0.103×4≈0.92.
所以y关于t的回归直线方程为=0.92+0.10t.
将2018年对应的t=11代入回归直线方程得=0.92+0.10×11=2.02.
所以预测2018年我国生活垃圾无害化处理量约为2.02亿吨.
22.(12分)某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:
日期
12月1日
12月2日
12月3日
12月4日
12月5日
温差x(℃)
10
11
13
12
8
发芽数y(颗)
23
25
30
26
16
该农科所确定的研究方案是:先从这五组数据中选取2组,用剩下的3组数据求回归直线方程,再对被选取的2组数据进行检验.
(1)求选取的2组数据恰好是不相邻2天数据的概率;
(2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求出y关于x的回归直线方程=x+;
(3)若由回归直线方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的回归直线方程是可靠的,试问(2)中所得的回归直线方程是否可靠?
考点 线性回归分析
题点 回归直线方程的应用
解 (1)设事件A表示“选取的2组数据恰好是不相邻2天的数据”,则表示“选取的数据恰好是相邻2天的数据”.
基本事件总数为10,事件包含的基本事件数为4.
∴P()==,∴P(A)=1-P()=.
(2)=12,=27,iyi=977,=434,
∴===2.5,
=- =27-2.5×12=-3,∴=2.5x-3.
(3)由(2)知:当x=10时,=22,误差不超过2颗;
当x=8时,=17,误差不超过2颗.
故所求得的回归直线方程是可靠的.

§3.1 独立性检验
学习目标 1.理解2×2列联表的意义,会依据列联表中数据判断两个变量是否独立.2.掌握χ2统计量的意义和独立性检验的基本思想.
知识点一 2×2列联表和χ2统计量
1.2×2列联表
一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值类A和类B,Ⅱ也有两类取值类1和类2,得到如下列联表所示的抽样数据:

类1
类2
合计

类A
n11
n12
n1+
类B
n21
n22
n2+
合计
n+1
n+2
n
上述表格称为2×2列联表.
2.χ2统计量
χ2=,其中n=n11+n12+n21+n22.
知识点二 独立性检验
独立性检验
要推断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:
(1)作2×2列联表;
(2)根据2×2列联表计算χ2的值;
(3)查对临界值,作出判断.
1.事件A与B的独立性检验无关,即两个事件互不影响.( × )
2.χ2的大小是判断事件A与B是否相关的统计量.( √ )
3.列联表中的数据是两个分类变量的频数.( √ )
类型一 2×2列联表和χ2统计量
命题角度1 2×2列联表及应用
例1 为了解人们对于国家新颁布的“生育二孩放开”政策的热度,现在某市进行调查,随机抽调了55人,他们年龄的频数分布及支持“生育二孩放开”人数如下表:
年龄
[5,15)
[15,25)
[25,35)
[35,45)
[45,55)
[55,65)
频数
5
10
15
10
8
7
支持“生育二孩放开”
4
5
12
8
5
3
由以上统计数据填下面2×2列联表:
年龄不低于45岁的人数
年龄低于45岁的人数
合计
支持
a=
c=
不支持
b=
d=
合计
考点 分类变量与列联表
题点 求列联表中的数据
解 2×2列联表如下:
年龄不低于45岁的人数
年龄低于45岁的人数
合计
支持
a=8
c=29
37
不支持
b=7
d=11
18
合计
15
40
55
反思与感悟 准确理解给定信息,找准分类变量,然后依次填入相应空格内数据.
跟踪训练1 某校高二年级共有1 600名学生,其中男生960名,女生640名,该校组织了一次满分为100分的数学学业水平模拟考试.根据研究,在正式的学业水平考试中,本次成绩在[80,100)的学生可取得A等(优秀),在[60,80)的学生可取得B等(良好),在[40,60)的学生可取得C等(合格),不到40分的学生只能取得D等(不合格).为研究这次考试成绩优秀是否与性别有关,现按性别采用分层抽样的方法抽取100名学生,将他们的成绩按从低到高分成[30,40),[40,50),[50,60),[60,70),[70,80),[80,90),[90,100),七组加以统计,绘制成如图所示的频率分布直方图.
(1)估计该校高二年级学生在正式的数学学业水平考试中成绩不合格的人数;
(2)请你根据已知条件将下列2×2列联表补充完整.
数学成绩优秀
数学成绩不优秀
合计
男生
a=12
b=
女生
c=
d=34
合计
100
考点 分类变量与列联表
题点 求列联表中的数据
解 (1)设抽取的100名学生中,本次考试成绩不合格的有x人,根据题意得x=100×[1-10×(0.006+0.012×2+0.018+0.024+0.026)]=2.
据此估计该校高二年级学生在正式的数学学业水平考试中成绩不合格的人数为×1 600=32.
(2)根据已知条件得2×2列联表如下:
数学成绩优秀
数学成绩不优秀
合计
男生
a=12
b=48
60
女生
c=6
d=34
40
合计
18
82
100
命题角度2 χ2统计量及计算
例2 根据下表计算:
不看电视
看电视

37
85

35
143
则χ2≈________.(保留3位小数)
考点 定性分析的两类方法
题点 利用列联表定性分析
答案 4.514
解析 χ2=≈4.514.
反思与感悟 列联表中的数据信息与χ2统计量之间的关系要对应,其次,需对“卡方”公式的结构有清醒的认识.
跟踪训练2 已知列联表:
药物效果与动物试验列联表
患病
未患病
合计
服用药
10
45
55
未服药
20
30
50
合计
30
75
105
则χ2≈________.(结果保留3位小数)
考点 定性分析的两类方法
题点 利用列联表定性分析
答案 6.109
解析 χ2=≈6.109.
类型二 独立性检验
例3 某班主任对班级50名学生进行了作业量多少的调查,数据如下表:在喜欢玩电脑游戏的26人中,有20人认为作业多,6人认为作业不多;在不喜欢玩电脑游戏的24人中,有7人认为作业多,17人认为作业不多.
(1)根据以上数据建立一个2×2列联表;
(2)试问喜欢玩电脑游戏与认为作业多少是否有关系?
考点 独立性检验及其基本思想
题点 独立性检验的思想
解 (1)根据题中所给数据,得到如下列联表:
认为作业多
认为作业不多
合计
喜欢玩电脑游戏
20
6
26
不喜欢玩电脑游戏
7
17
24
合计
27
23
50
(2)由公式得χ2=≈11.458.
∵11.458>6.635,
∴有99%的把握认为喜欢玩电脑游戏与认为作业多少有关.
反思与感悟 独立性检验可以通过2×2列联表计算χ2的值,然后和临界值对照作出判断.
跟踪训练3 调查在2~3级风的海上航行中男女乘客的晕船情况,结果如下表所示:
晕船
不晕船
合计
男人
12
25
37
女人
10
24
34
合计
22
49
71
根据此资料,你是否认为在2~3级风的海上航行中男人比女人更容易晕船?
考点 独立性检验及其基本思想
题点 独立性检验的思想
解 由公式得χ2=≈0.08.
因为χ2<3.841,所以我们没有理由认为男人比女人更容易晕船.
1.下面是一个2×2列联表:
y1
y2
合计
x1
a
21
73
x2
7
25
32
合计
b
46
则表中a,b处的值分别为(  )
A.94,96 B.52,50
C.52,59 D.54,52
考点 分类变量与列联表
题点 求列联表中的数据
答案 C
解析 ∵a+21=73,∴a=52,b=a+7=52+7=59.
2.某科研机构为了研究中年人秃发与心脏病是否有关,随机调查了一些中年人的情况,具体数据如表:
心脏病
无心脏病
合计
秃发
20
300
320
不秃发
10
450
460
合计
30
750
780
根据表中数据得到χ2=≈8.478,因为χ2>6.635,则断定秃发与心脏病有关系,那么这种判断出错的可能性为(  )
A.0.1 B.0.05 C.0.025 D.0.01
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 D
解析 因为χ2>6.635,所以有99%的把握说秃发与患心脏病有关,故这种判断出错的可能性为1-0.99=0.01.
3.若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是(  )
A.100个吸烟者中至少有99人患有肺癌
B.1个人吸烟,那么这个人有99%的概率患有肺癌
C.在100个吸烟者中一定有患肺癌的人
D.在100个吸烟者中可能一个患肺癌的人也没有
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 D
解析 独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生.
4.某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集的数据包括________________________________________________________________________.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 女正教授人数、男正教授人数、女副教授人数、男副教授人数
5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.
总成绩好
总成绩不好
合计
数学成绩好
478
a
490
数学成绩不好
399
24
423
合计
b
c
913
(1)计算a,b,c的值;
(2)文科学生总成绩不好与数学成绩不好有关系吗?
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 (1)由478+a=490,得a=12.
由a+24=c,得c=12+24=36.
由b+c=913,得b=913-36=877.
(2)根据表中数据计算得
χ2=≈6.233>3.841,
所以有95%的把握认为文科学生总成绩不好与数学成绩不好有关系.
1.利用χ2=求出χ2的值,再利用临界值的大小来判断假设是否成立.
2.解题时应注意准确代数与计算,不可错用公式,准确进行比较与判断.
一、选择题
1.在2×2列联表中,四个变量的取值n11,n12,n21,n22应是(  )
A.任意实数 B.正整数
C.大于5的整数 D.非负整数
考点 分类变量与列联表
题点 求列联表中的数据
答案 C
2.如果有99%的把握认为“x与y有关系”,那么χ2满足(  )
A.χ2>6.635 B.χ2≥5.024
C.χ2≥7.879 D.χ2>3.841
考点 独立性检验思想的应用
题点 独立性检验在分类变量中的应用
答案 A
3.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是(  )
A.若χ2>6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病
B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病
C.若从χ2统计量中得出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误
D.以上三种说法都不正确
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 C
4.根据下面的列联表得到如下四个判断:
①有95%的把握认为“患肝病与嗜酒有关”;②有99%的把握认为“患肝病与嗜酒有关”;③在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒有关”;④在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒无关”.
嗜酒
不嗜酒
合计
患肝病
700
60
760
未患肝病
200
32
232
合计
900
92
992
其中正确命题的个数为(  )
A.0 B.1 C.2 D.3
考点 分类变量与列联表
题点 求观测值
答案 C
解析 由列联表中数据可求得χ2=≈7.349>6.635,所以在犯错误的概率不超过0.01的前提下,认为“患肝病与嗜酒有关系”,即有99%的把握认为“患肝病与嗜酒有关系”.因此②③正确,故选C.
5.有两个分类变量X与Y的一组数据,由其列联表计算得χ2≈4.523,则认为“X与Y有关系”犯错误的可能性为(  )
A.95% B.90% C.5% D.10%
答案 C
解析 P(χ2>3.841)≈0.05,而χ2≈4.523>3.841.这表明认为“X与Y有关系”是错误的可能性约为0.05,即认为“X与Y有关系”犯错误的概率为5%.
6.在2×2列联表中,两个分类变量有关系的可能性越大,相差越大的两个比值为(  )
A.与 B.与
C.与 D.与
考点 分类变量与列联表
题点 求列联表中的数据
答案 A
解析 以表格为例,
B

合计
A
n11
n12
n1+

n21
n22
n2+
合计
n+1
n+2
n
事件B发生与A相关性越强,则两个频率与相差越大.
7.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:
优秀
及格
合计
甲班
11
34
45
乙班
8
37
45
合计
19
71
90
则χ2统计量约为(  )
A.0.600 B.0.828 C.2.712 D.6.004
考点 分类变量与列联表
题点 求观测值
答案 A
解析 根据列联表中的数据,可得χ2=≈0.600.故选A.
二、填空题
8.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是________.(填序号)
①若χ2统计量=6.635,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;
②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;
③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 ③
解析 χ2统计量是支持确定有多大的把握认为“两个分类变量吃零食与性别有关系”的随机变量值,所以由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误,故填③.
9.为研究某新药的疗效,给100名患者服用此药,跟踪调查后得下表中的数据:
无效
有效
合计
男性患者
15
35
50
女性患者
6
44
50
合计
21
79
100
设H:服用此药的效果与患者的性别无关,则统计量χ2≈________(小数点后保留3位有效数字),从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 4.882 5%
解析 由公式计算得统计量χ2≈4.882,
∵χ2>3.841,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性判断出错.
10.某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:
不喜欢西班牙队
喜欢西班牙队
合计
高于40岁
p
q
50
不高于40岁
15
35
50
合计
a
b
100
若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为,则有________的把握认为年龄与西班牙队的被喜欢程度有关.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 95%
解析 设“从所有人中任意抽取一个,取到喜欢西班牙的人”为事件A,
由已知得P(A)==,
所以p=25,q=25,a=40,b=60.
χ2==≈4.167>3.841.
故有95%的把握认为年龄与西班牙队的被喜欢程度有关.
11.某高校“统计初步”课程的教师随机调查了一些学生,具体数据如下表所示,为了判断选修统计专业是否与性别有关系,根据表中数据,得到χ2=≈4.844,因为4.844>3.841.所以选修统计专业与性别有关系,那么这种判断出错的可能性为________.
没选统计专业
选统计专业

13
10

7
20
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 5%
三、解答题
12.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.
(1)根据以上数据建立一个2×2列联表;
(2)判断性别与休闲方式是否有关系.
考点 定性分析的两类方法
题点 利用列联表定性分析
解 (1)列联表如下:
休闲方式
性别   
看电视
运动
合计

43
27
70

21
33
54
合计
64
60
124
(2)χ2=≈6.201,
∵χ2>3.841,
∴有95%的把握认为性别与休闲方式有关.
四、探究与拓展
13.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠.在照射14天内的结果如表所示:
死亡
存活
合计
第一种剂量
14
11
25
第二种剂量
6
19
25
合计
20
30
50
进行统计分析时的统计假设是________.
考点 独立性检验及其基本思想
题点 独立性检验
答案 小白鼠的死亡与剂量无关
解析 根据独立性检验的基本思想可知,类似于反证法,即要确认“两个分量有关系”这一结论成立的可信程度,首先假设该结论不成立.对于本题,进行统计分析时的统计假设应为“小白鼠的死亡与剂量无关”.
14.2017年世界第一届轮滑运动会(the first edtion of Roller Games)在南京举行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者.调查发现,男、女志愿者分别有10人和6人喜爱轮滑,其余不喜爱.得到2×2列联表如下.
喜爱轮滑
不喜爱轮滑
合计

10
6
16

6
8
14
合计
16
14
30
(1)根据2×2列联表,判断能否在犯错误的概率不超过0.05的前提下认为性别与喜爱轮滑有关?
(2)从女志愿者中抽取2人参加接待工作,若其中喜爱轮滑的人数为ξ,求ξ的分布列和期望.
考点 独立性检验思想的应用
题点 独立性检验与回归直线方程、期望的综合应用
解 (1)由已知数据可求得χ2=≈1.158<3.841,
所以我们没有理由认为喜爱轮滑与性别有关.
(2)喜爱轮滑的人数ξ的可能取值为0,1,2,
则P(ξ=0)===,
P(ξ=1)==,
P(ξ=2)==.
所以喜爱轮滑的人数ξ的分布列为
ξ
0
1
2
P



所以喜爱轮滑的人数ξ的期望为E(ξ)=0×+1×+2×=.
§3.2 回归分析
学习目标 1.会建立线性回归模型分析两个变量间的相关关系.2.能通过相关系数判断两个变量间的线性相关程度.
知识点一 回归分析及回归直线方程
思考1 什么叫回归分析?
答案 回归分析是对具有相关关系的两个变量进行统计分析的一种方法.
思考2 回归分析中,利用回归直线方程求出的函数值一定是真实值吗?
答案 不一定是真实值,利用回归直线方程求的值,在很多时候是个预测值.
梳理 (1)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.若两个变量之间具有线性相关关系,则称相应的回归分析为线性回归分析.
(2)回归直线方程为=x+ ,且=,=-,其中=i,=i,(,)称为样本点的中心,回归直线一定过样本点的中心.
知识点二 相关系数
1.对于变量x与Y随机抽到的n对数据(x1,y1),(x2,y2),…,(xn,yn),检验统计量是样本相关系数
r=
=.
2.相关系数r的取值范围是[-1,1],|r|越接近1,变量之间的线性相关程度越强;|r|越接近0,变量之间的线性相关程度越弱.当|r|>r0.05时,表明有95%的把握认为两个变量之间具有线性相关关系.
1.求回归直线方程前可以不进行相关性检验.( × )
2.利用回归直线方程求出的值是准确值.( × )
类型一 回归直线方程
例1 若从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
求根据女大学生的身高预测体重的回归直线方程,并预测一名身高为172 cm的女大学生的体重.
考点 线性回归分析
题点 回归直线的应用
解 (1)画散点图
选取身高为自变量x,体重为因变量y,画出散点图,展示两个变量之间的关系,并判断二者是否具有线性关系.
由散点图可以发现,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用回归直线方程=x+ 来近似刻画它们之间的关系.
(2)建立回归方程由计算器可得=0.848,=-85.632.
于是得到回归直线方程为=0.848x-85.632.
(3)预测和决策
当x=172时,=0.848×172-85.632=60.224(kg).
即一名身高为172 cm的女大学生的体重预测值为60.224 kg.
反思与感悟 在使用回归直线方程进行预测时要注意
(1)回归直线方程只适用于我们所研究的样本的总体.
(2)我们所建立的回归直线方程一般都有时间性.
(3)样本取值的范围会影响回归直线方程的适用范围.
(4)不能期望回归直线方程得到的预测值就是因变量的精确值.
跟踪训练1 假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下的统计数据:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
由此资料可知y对x呈线性相关关系.
(1)求回归直线方程;
(2)求使用年限为10年时,该设备的维修费用为多少?
考点 回归直线方程
题点 求回归直线方程
解 (1)由题干表中的数据可得
=4,=5,=90,iyi=112.3,
∴===1.23,
∴=-=5-1.23×4=0.08.
∴回归直线方程为=1.23x+0.08.
(2)当x=10时,=1.23×10+0.08=12.38.
即使用年限为10年时,该设备的维修费用约为12.38万元.
类型二 相关性检验
例2 维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”y来衡量,这个指标越高,耐热水性能也越好,而甲醛浓度是影响缩醛化度的重要因素,在生产中常用甲醛浓度x(g/L)去控制这一指标,为此必须找出它们之间的关系,现安排一批实验,获得如下数据:
甲醛浓度(g/L)
18
20
22
24
26
28
30
缩醛化度(克分子%)
26.86
28.35
28.75
28.87
29.75
30.00
30.36
(1)画散点图;
(2)求回归直线方程;
(3)求相关系数r,并进行相关性检验.
考点 线性相关系数
题点 线性相关系数的概念及计算
解 (1)散点图如图.
(2)可以看出,两变量之间有近似的线性相关关系,下面用列表的方法计算 , .
i
xi
yi
x
xiyi
1
18
26.86
324
483.48
2
20
28.35
400
567
3
22
28.75
484
632.5
4
24
28.87
576
692.88
5
26
29.75
676
773.5
6
28
30.00
784
840
7
30
30.36
900
910.80

168
202.94
4 144
4 900.16
==24,=,
 ==≈0.264 3,
 =- =-0.264 3×24≈22.648,
∴回归直线方程为 =22.648+0.264 3x.
(3)y≈5 892,r=
= ≈0.96.
∵r=0.96>r0.05=0.754.
∴有95%的把握认为“甲醛浓度与缩醛化度有线性相关关系”,求得的回归直线方程有意义.
反思与感悟 根据已知数据求得回归直线方程后,可以利用相关系数和临界值r0.05比较,进行相关性检验.
跟踪训练2 为了研究3月下旬的平均气温(x)与4月20日前棉花害虫化蛹高峰日(y)的关系,某地区观察了2012年至2017年的情况,得到了下面的数据:
年份
2012
2013
2014
2015
2016
2017
x(℃)
24.4
29.6
32.9
28.7
30.3
28.9
y(日)
19
6
1
10
1
8
(1)对变量x,y进行相关性检验;
(2)据气象预测,该地区在2019年3月下旬平均气温为27℃,试估计2019年4月化蛹高峰日为哪天.
考点 线性相关系数
题点 线性相关系数的概念及计算
解 由已知条件可得下表:
i
1
2
3
4
5
6
xi
24.4
29.6
32.9
28.7
30.3
28.9
yi
19
6
1
10
1
8
≈29.13,=7.5,=5 130.92,=563,
iyi=1 222.6
(1)r= ≈-0.934 1.
查表知:r0.05=0.811.由|r|>r0.05可知,变量y和x存在线性相关关系.
(2)=≈-2.23,
=-≈72.46.
所以回归直线方程为=-2.23x+72.46.
当x=27时,=-2.23×27+72.46≈12.
据此,可估计该地区2019年4月12日为化蛹高峰日.
1.某商品销售量y(件)与销售价格x(元/件)呈负相关,则其回归直线方程可能是(  )
A. =-10x+200
B. =10x+200
C. =-10x-200
D. =10x-200
考点 
题点 
答案 A
解析 由于销售量y与销售价格x成负相关,故排除B,D.又当x=10时,A中y=100,而C中y=-300,C不符合题意,故选A.
2.下表是x和y之间的一组数据,则y关于x的回归直线必过(  )
x
1
2
3
4
y
1
3
5
7
A.点(2,3) B.点(1.5,4)
C.点(2.5,4) D.点(2.5,5)
考点 回归直线方程
题点 样本点中心的应用
答案 C
解析 回归直线必过样本点中心(,),即(2.5,4).
3.对变量y和x进行相关性检验,已知n为数据的对数,r是相关系数,且已知①n=3,r=0.995 0;②n=7,r=0.953 3;③n=15,r=0.301 2;④n=17,r=0.499 1.则变量y和x具有线性相关关系的是(  )
A.①和② B.①和③
C.②和④ D.③和④
考点 线性相关系数
题点 线性相关系数的应用
答案 C
解析 ①当n=3时,r0.05=0.997,所以|r|r0.05,表明有95%的把握认为x与y之间具有线性相关关系;③当n=15时,r0.05=0.514,所以|r|r0.05,表明有95%的把握认为x与y之间具有线性相关关系,所以②和④满足题意,故选C.
4.某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示:
x
16
17
18
19
y
50
34
41
31
由上表可得回归直线方程=x+中的=-5,据此模型预测当零售价为14.5元时,每天的销售量为(  )
A.51个 B.50个 C.54个 D.48个
考点 线性回归分析
题点 回归直线方程的应用
答案 C
解析 由题意知=17.5,=39,代入回归直线方程得
=126.5,126.5-14.5×5=54,故选C.
5.已知x,y之间的一组数据如下表:
x
0
1
2
3
y
1
3
5
7
(1)分别计算:,,x1y1+x2y2+x3y3+x4y4,x+x+x+x;
(2)已知变量x与y线性相关,求出回归直线方程.
考点 回归直线方程
题点 求回归直线方程
解 (1)==1.5,==4,
x1y1+x2y2+x3y3+x4y4=0×1+1×3+2×5+3×7=34,
x+x+x+x=02+12+22+32=14.
(2)==2,
=- =4-2×1.5=1,
故回归直线方程为=2x+1.
1.对具有线性相关关系的两个变量进行统计分析,可从散点图观察大致呈条状分布,可以求回归直线方程并进行预报.
2.通过求相关系数并和临界值r0.05比较可以判断两个变量是否有线性相关关系,求得的回归直线方程是否有意义.
一、选择题
1.根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归直线方程为=x+,则(  )
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
考点 线性回归分析
题点 回归直线方程的应用
答案 B
解析 作出散点图如下:
观察图象可知,回归直线=x+的斜率<0,
当x=0时,=>0.故>0,<0.
2.某同学在研究性学习中,收集到某制药厂今年前5个月甲胶囊生产产量(单位:万盒)的数据如下表所示:
x(月份)
1
2
3
4
5
y(万盒)
5
5
6
6
8
若x,y线性相关,回归直线方程为=0.7x+,估计该制药厂6月份生产甲胶囊产量为(  )
A.8.0万盒 B.8.1万盒 C.8.9万盒 D.8.6万盒
考点 回归直线方程
题点 样本点中心的应用
答案 B
解析 回归直线一定过样本点中心.由已知数据可得=3,=6,代入回归方程,可得=-0.7=3.9,即回归直线方程为=0.7x+3.9.把x=6代入,可近似得=8.1,故选B.
3.某化工厂为预测某产品的回收率y,而要研究它和原料有效成分含量之间的相关关系,现取了8对观测值,计算得i=52,i=228,=478,iyi=1 849,则y与x的回归直线方程是(  )
A.=2.62x+11.47 B.=2.62x-11.47
C.=11.47x+2.62 D.=-2.62x+11.47
考点 回归直线方程
题点 求回归直线方程
答案 A
解析 由题中数据得=6.5,=28.5,
∴===≈2.62,
=-≈28.5-2.62×6.5=11.47,
∴y与x的回归直线方程是=2.62x+11.47,故选A.
4.给定x与y的一组样本数据,求得相关系数r=-0.690,则(  )
A.y与x的线性相关性很强
B.y与x的相关性很强
C.y与x正相关
D.y与x负相关
考点 线性相关系数
题点 线性相关系数的应用
答案 D
解析 因为r<0,所以y与x负相关,又|r|∈[0.75,1]才表示y与x具有很强的线性相关性,所以选D.
5.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关试验,并用回归分析方法分别求得相关系数r如表:




r
0.82
0.78
0.69
0.85
则这四位同学的试验结果能体现出A,B两变量有更强的线性相关性的是(  )
A.甲 B.乙 C.丙 D.丁
考点 线性相关系数
题点 线性相关系数的概念及计算
答案 D
解析 由相关系数的意义可知,相关系数的绝对值越接近于1,相关性越强,结合题意可知丁的线性相关性更强,故选D.
6.每一吨铸铁成本yc(元)与铸件废品率x%建立的回归方程为yc=56+8x,那么下列说法正确的是(  )
A.废品率每增加1%,成本每吨增加64元
B.废品率每增加1%,成本每吨增加8%
C.废品率每增加1%,成本每吨增加8元
D.如果废品率增加1%,则每吨成本为56元
考点 回归直线方程
题点 回归直线方程的应用
答案 C
二、填空题
7.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为________.
考点 线性相关系数
题点 线性相关系数的概念及计算
答案 1
解析 根据样本相关系数的定义可知,当所有样本点都在一条直线上时,相关系数为1.
8.已知一个回归直线方程为=1.5x+45,x∈{1,5,7,13,19},则=________.
考点 回归直线方程
题点 样本点中心的应用
答案 58.5
解析 ∵==9,且=1.5x+45,
∴=1.5×9+45=58.5.
9.从某高校在校大学生中随机选取5名女大学生,由她们身高和体重的数据得到的回归直线方程为 =0.79x-73.56,数据列表是:
身高x(cm)
155
161
a
167
174
体重y(kg)
49
53
56
58
64
则其中的数据a=________.
考点 回归直线方程
题点 样本点中心的性质
答案 163
解析 由表中数据计算=×(49+53+56+58+64)=56,
根据回归直线经过样本点中心(,),可得56=0.79-73.56,
解得=164.由=×(155+161+a+167+174)=164,解得a=163.
10.2018年3月1日,某地物价部门对该地的5家商场的某商品一天的销售量及其价格进行调查,5家商场该商品的售价x元和销售量y件之间的一组数据如表所示,由散点图可知,销售量y与价格x之间有较好的线性相关关系,其回归直线方程是 =-3.2x+ ,则 =________.
价格x(元)
9
9.5
10
10.5
11
销售量y(件)
11
10
8
6
5
考点 线性回归分析
题点 回归直线的应用
答案 40
解析 由题意,得==10,==8,
∵回归直线方程是=-3.2x+ ,∴8=-3.2×10+ ,∴ =40.
三、解答题
11.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
(1)求y关于x的回归直线方程=x+;
(2)试预测加工10个零件需要多少时间?
考点 回归直线方程
题点 求回归直线方程
解 (1)由表中数据得iyi=52.5,
=3.5,=3.5,=54,
所以==0.7,
所以=- =1.05.
所以=0.7x+1.05.
(2)将x=10代入回归直线方程,
得=0.7×10+1.05=8.05,
所以预测加工10个零件需要8.05小时.
12.已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:
x
14
16
18
20
22
y
12
10
7
5
3
判断y与x是否具有线性相关关系?若有,求出其回归直线方程.
考点 回归直线方程
题点 求回归直线方程
解 作出散点图如图,可看出y与x具有线性相关关系.
=(14+16+18+20+22)=18,=(12+10+7+5+3)=7.4,
x=142+162+182+202+222=1 660,y=122+102+72+52+32=327,
xiyi=14×12+16×10+18×7+20×5+22×3=620,
所以===-1.15,
=7.4+1.15×18=28.1,
所以所求的回归直线方程是=-1.15x+28.1.
四、探究与拓展
13.如图是x和y的一组样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关系数最大.
考点 线性相关系数
题点 线性相关系数的应用
答案 D(3,10)
解析 经计算,去掉D(3,10)这一组数据后,其他4组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强.
14.为了分析某高三学生学习状态,对其下一阶段的学习提供指导性建议,现对他前7次考试的数学成绩x、物理成绩y进行分析,下面是该生7次考试的成绩.(单位:分)
数学成绩x
88
83
117
92
108
100
112
物理成绩y
94
91
108
96
104
101
106
(1)他的数学成绩与物理成绩哪个更稳定?请给出你的理由;
(2)已知该学生的物理成绩y与数学成绩x是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少分,并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.
考点 线性回归分析
题点 回归直线的应用
解 (1)=100+=100,
=100+=100,
s=142,s=,因为s>s,所以他的物理成绩更稳定.
(2)由于x与y之间具有线性相关关系,
经计算得=0.5,=100-0.5×100=50.
所以回归直线方程为=0.5x+50.
当y=115时,x=130.
估计他的数学成绩是130分.
建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高.
滚动训练五(§3.1~§3.2)
一、选择题
1.下列语句表示的事件中的因素不具有相关关系的是(  )
A.瑞雪兆丰年 B.名师出高徒
C.吸烟有害健康 D.喜鹊叫喜,乌鸦叫丧
考点 回归分析
题点 回归分析的概念和意义
答案 D
解析 “喜鹊叫喜,乌鸦叫丧”是一种迷信说法,它们之间无任何关系,故选D.
2.对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中相关性最强的模型是(  )
①模型Ⅰ的相关系数r为-0.98;②模型Ⅱ的相关系数r为0.80;③模型Ⅲ的相关系数r为-0.50;④模型Ⅳ的相关系数r为0.25.
A.Ⅰ B.Ⅱ C.Ⅲ D.Ⅳ
考点 线性相关系数
题点 线性相关系数的应用
答案 A
解析 相关系数的绝对值越大,其相关性越强,模型Ⅰ相关系数为-0.98,其绝对值最大,相关性也最强,故选A.
3.下列关于χ2的说法正确的是(  )
A.χ2在任何相互独立的问题中都可以用来检验有关系还是无关系
B.χ2的值越大,两个事件的相关性就越大
C.χ2是用来判断两个分类变量是否有关系的随机变量,只对两个分类变量适用
D.χ2=
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 C
解析 本题主要考查对χ2的理解,χ2是用来判断两个分类变量是否有关系的随机变量,所以A错;χ2的值越大,说明我们能以更大的把握认为两个分类变量有关系,不能判断相关性的大小,所以B错;D中(n11n22-n12n21)应为(n11n22-n12n21)2.
4.下列说法中,错误说法的个数是(  )
①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;
②回归直线方程=3-7x,变量x增加1个单位时,平均增加7个单位;
③在一个2×2列联表中,若χ2=13.079,则有99%以上的把握认为两个变量之间有关系.
A.0 B.1 C.2 D.3
考点 线性回归分析
题点 回归直线方程的应用
答案 B
解析 数据的方差与加了什么样的常数无关,故①正确;对于回归直线方程=3-7x,变量x增加1个单位时,平均减少了7个单位,故②错误;若χ2=13.079>6.635,则有99%以上的把握认为这两个变量之间有关系,故③正确.
5.某市政府调查市民收入增减与旅游愿望的关系时,采用独立性检验法抽查了3 000人,计算发现χ2=6.023,则市政府认为市民收入增减与旅游愿望有关系的可信度是(  )
A.90% B.95% C.97% D.99%
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 B
解析 由6.023>3.841,所以认为市民收入增减与旅游愿望有关系的可信度为95%.
6.高三某班学生每周用于数学学习的时间x(单位:小时)与数学成绩y(单位:分)之间有如下数据:
x
24
15
23
19
16
11
20
16
17
13
y
92
79
97
89
64
47
83
68
71
59
根据上表可得回归方程的系数≈3.53.若某学生每周用于数学学习的时间为18小时,则可预测该学生的数学成绩(结果保留整数)是(  )
A.71分 B.80分 C.74分 D.77分
考点 线性回归分析
题点 回归直线方程的应用
答案 D
解析 学生每周用于数学学习的时间的平均值
==17.4(小时),数学成绩的平均值
==74.9(分),所以=-=74.9-3.53×17.4=13.478.
当x=18时,=3.53×18+13.478=77.018≈77,所以预测该学生的数学成绩为77分.
二、填空题
7.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9.
零件数x(个)
10
20
30
40
50
加工时间y(min)
62
75
81
89
现发现表中有一个数据模糊看不清,请你推断出该数据的值为________.
考点 回归直线方程
题点 样本点中心的应用
答案 68
解析 由表知=30,设模糊不清的数据为m,则=(62+m+75+81+89)=,因为=0.67+54.9,即=0.67×30+54.9,解得m=68.
8.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场以降低生产成本,某白酒酿造企业市场部对该企业9月份的产品销量(千箱)与单位成本(元)的资料进行线性回归分析,结果如下:=,=71,=79,iyi=1 481,=≈-1.818 2,=71-(-1.818 2)×≈77.36,则销量每增加1千箱,单位成本下降________元.
考点 线性回归分析
题点 回归直线方程的应用
答案 1.818 2
解析 由已知得=-1.818 2x+77.36,销售量每增加1千箱,则单位成本下降1.818 2元.
9.为了调查患慢性气管炎是否与吸烟有关,调查了110名50岁以下的人,调查结构如下表:
患慢性气管炎
未患慢性气管炎
合计
吸烟
20
20
40
不吸烟
15
55
70
合计
35
75
110
根据列联表数据,求得χ2=________(保留3位有效数字),根据下表,在犯错误的概率不超过________的前提下认为患慢性气管炎与吸烟有关.
附:
P(χ2≥x0)
0.050
0.010
x0
3.841
6.635
χ2=.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 9.578 0.01
解析 χ2=≈9.578>6.635.
所以在犯错误的概率不超过0.01的前提下认为患慢性气管炎与吸烟有关.
三、解答题
10.从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储藏yi(单位:千元)的数据资料,算得i=80,i=20,iyi=184,=720.
(1)求家庭的月储蓄y对月收入x的回归直线方程=x+;
(2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
附:=,=-.
考点 线性回归分析
题点 回归直线方程的应用
解 (1)由题意,n=10,i=80,i=20,
∴==8,==2.
又-102=720-10×82=80,
iyi-10 =184-10×8×2=24,
由此得===0.3,
=-=2-0.3×8=-0.4,
故所求回归直线方程为=0.3 x-0.4.
(2)将x=7代入回归直线方程可以预测该家庭的月储蓄为=0.3×7-0.4=1.7(千元).
11.某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间(单位:时)的样本数据.
(1)应收集多少位女生样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为[0,2),[2,4),[4,6),[6,8),[8,10),[10,12).估计该校学生每周平均体育运动时间超过4小时的概率;
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4个小时,请完成每周平均体育运动时间与性别的列联表,并判断在犯错误的概率不超过0.05的前提下是否认为“该校学生的每周平均体育运动时间与性别有关”.
附:
P(χ2≥x0)
0.050
0.010
0.005
x0
3.841
6.635
7.879
χ2=.
考点 独立性检验思想的应用
题点 分类变量与统计、概率的综合性问题
解 (1)由分层抽样可得300×=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得学生每周平均体育运动超过4小时的频率为1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.样本数据中有210份是关于男生的,90份是关于女生的,可得每周平均体育运动时间与性别列联表:
男生
女生
合计
每周平均体育运动时间不超过4小时
45
30
75
每周平均体育运动时间超过4小时
165
60
225
合计
210
90
300
结合列联表可算得
χ2=≈4.762>3.841.
所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
四、探究与拓展
12.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y=3e2x+1的图象附近,则可通过转换得到的回归直线方程为________.
考点 非线性回归分析
题点 非线性回归分析
答案 u=1+ln 3+2v
解析 由y=3e2x+1,
得ln y=ln(3e2x+1),
即ln y=2x+1+ln 3,
令u=ln y,v=x,则回归直线方程为u=1+ln 3+2v.
13.甲、乙两机床加工同一种零件,抽检得到它们加工后的零件尺寸x(单位:cm)及个数y,如下表:
零件尺寸x
1.01
1.02
1.03
1.04
1.05
零件个数y

3
7
8
9
3

7
4
4
4
a
由表中数据得y关于x的回归直线方程为=-91+100x(1.01≤x≤1.05),其中合格零件尺寸为1.03±0.01(cm).完成下面列联表,并判断是否有99%的把握认为加工零件的质量与甲、乙有关?
合格零件数
不合格零件数
合计


合计
考点 独立性检验思想的应用
题点 独立性检验与回归直线方程的综合应用
解 =1.03,=,由=-91+100x知,=-91+100×1.03,所以a=11,由于合格零件尺寸为1.03±0.01 cm,故甲、乙加工的合格与不合格零件的数据表为:
合格零件数
不合格零件数
合计

24
6
30

12
18
30
合计
36
24
60
所以χ2==10,
因为χ2=10>6.635,故有99%的把握认为加工零件的质量与甲、乙有关.
章末复习
学习目标 1.会求回归直线方程,并用回归直线进行预报.2.理解独立性检验的基本思想及实施步骤.
1.最小二乘法
对于一组数据(xi,yi),i=1,2,…,n,如果它们线性相关,则回归直线方程为=x+,其中==,=- .
2.2×2列联表
2×2列联表如表所示:
B

合计
A
n11
n12
n1+

n21
n22
n2+
合计
n+1
n+2
n
其中n+1=n11+n21,n+2=n12+n22,
n1+=n11+n12,n2+=n21+n22,
n=n11+n21+n12+n22.
3.独立性检验
常用统计量
χ2=来检验两个变量是否有关系.
类型一 线性回归分析
例1 某城市理论预测2010年到2014年人口总数与年份的关系如表所示:
年份201x(年)
0
1
2
3
4
人口数y(十万)
5
7
8
11
19
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,求出y关于x的回归直线方程=x+;
(3)据此估计2019年该城市人口总数.
考点 回归分析思想的应用
题点 回归分析思想的应用
解 (1)散点图如图:
(2)因为==2,
==10,
iyi=0×5+1×7+2×8+3×11+4×19=132,
=02+12+22+32+42=30,
所以==3.2,
=- =3.6.
所以回归直线方程为=3.2x+3.6.
(3)令x=9,则=3.2×9+3.6=32.4,
故估计2019年该城市人口总数为32.4(十万).
反思与感悟 解决回归分析问题的一般步骤
(1)画散点图.根据已知数据画出散点图.
(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.
(3)实际应用.依据求得的回归方程解决实际问题.
跟踪训练1 某运动员训练次数与运动成绩之间的数据关系如下:
次数x
30
33
35
37
39
44
46
50
成绩y
30
34
37
39
42
46
48
51
(1)作出散点图;
(2)求出回归直线方程;
(3)计算相关系数并进行相关性检验;
(4)试预测该运动员训练47次及55次的成绩.
解 (1)作出该运动员训练次数x与成绩y之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.
(2)列表计算:
次数xi
成绩yi
x
y
xiyi
30
30
900
900
900
33
34
1 089
1 156
1 122
35
37
1 225
1 369
1 295
37
39
1 369
1 521
1 443
39
42
1 521
1 764
1 638
44
46
1 936
2 116
2 024
46
48
2 116
2 304
2 208
50
51
2 500
2 601
2 550
由上表可求得=39.25,=40.875,x=12 656,
y=13 731,xiyi=13 180,
∴ =≈1.041 5, =- =-0.003 88,
∴回归直线方程为y=1.041 5x-0.003 88.
(3)计算相关系数r=0.992 7,因此运动员的成绩和训练次数两个变量有较强的相关关系.
(4)由上述分析可知,我们可用回归直线方程y=1.041 5x-0.003 88作为该运动员成绩的预报值.
将x=47和x=55分别代入该方程可得y≈49和y≈57.故预测该运动员训练47次和55次的成绩分别为49和57.
类型二 独立性检验
例2 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:
喜爱打篮球
不喜爱打篮球
合计
男生
6
女生
10
合计
48
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为.
(1)请将上面的2×2列联表补充完整;(不用写计算过程)
(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由.
考点 独立性检验及其基本思想
题点 独立性检验的综合应用
解 (1)列联表补充如下:
喜爱打篮球
不喜爱打篮球
合计
男生
22
6
28
女生
10
10
20
合计
32
16
48
(2)由χ2=≈4.286.
因为4.286>3.841,所以能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关.
反思与感悟 通过公式χ2=
计算出χ2的值,再与临界值作比较,最后得出结论.
跟踪训练2 奥运会期间,为调查某高校学生是否愿意提供志愿者服务,用简单随机抽样方法从该校调查了60人,结果如下:
     是否愿意提供志愿者服务
性别
愿意
不愿意
男生
20
10
女生
10
20
(1)用分层抽样的方法在愿意提供志愿者服务的学生中抽取6人,其中男生抽取多少人?
(2)你能否在犯错误的概率不超过0.01的前提下认为该高校学生是否愿意提供志愿者服务与性别有关?
下面的临界值表供参考:
P(χ2≥k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
独立性检验统计量χ2=,其中n+1=n11+n21,n+2=n12+n22,n1+=n11+n12,n2+=n21+n22,n=n11+n21+n12+n22.
考点 独立性检验思想的应用
题点 分类变量与统计、概率的综合性问题
解 (1)由题意,可知男生抽取6×=4(人).
(2)χ2=≈6.667,由于6.667>6.635,所以能在犯错误的概率不超过0.01的前提下认为该高校学生是否愿意提供志愿者服务与性别有关.
1.“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时由高尔顿提出的,他的研究结果是子代的平均身高向中心回归.根据他的结论,在儿子的身高y与父亲的身高x的回归直线方程=x+中,的值(  )
A.在(-1,0)内 B.等于0
C.在(0,1)内 D.在[1,+∞)内
考点 线性回归分析
题点 回归直线方程的应用
答案 C
解析 子代平均身高向中心回归,应为正的真分数,故选C.
2.从某地区老人中随机抽取500人,其生活能否自理的情况如下表所示,则(  )
性别
人数
生活能否自理



178
278
不能
23
21
A.有95%的把握认为老人生活能否自理与性别有关
B.有99%的把握认为老人生活能否自理与性别有关
C.没有充分理由认为老人生活能否自理与性别有关
D.以上都不对
考点 
题点 
答案 C
解析 经计算,得χ2=≈2.925<3.841,
故我们没有充分的理由认为老人生活能否自理与性别有关.
3.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是(  )
A.①② B.②③ C.③④ D.①④
考点 线性回归分析
题点 回归直线方程的应用
答案 D
解析 ①中,回归方程中x的系数为正,不是负相关;④中,回归方程中x的系数为负,不是正相关,所以①④一定不正确.
4.对于回归直线方程=x+,当x=3时,对应的y的估计值是17,当x=8时,对应的y的估计值是22,那么,该回归直线方程是________,根据回归直线方程判断当x=________时,y的估计值是38.
考点 线性回归分析
题点 回归直线方程的应用
答案 =x+14 24
解析 首先把两组值代入回归直线方程,得
解得
所以回归直线方程是=x+14.
令x+14=38,可得x=24,即当x=24时,y的估计值是38.
1.建立回归模型的基本步骤
(1)确定研究对象,明确哪个变量是自变量,哪个变量是因变量.
(2)画出散点图,观察它们之间的关系.
(3)由经验确定回归方程的类型.
(4)按照一定的规则估计回归方程中的参数.
2.独立性检验是研究两个分类变量间是否存在相关关系的一种案例分析方法.
一、选择题
1.下表显示出样本中变量y随变量x变化的一组数据,由此判断它最可能是(  )
x
4
5
6
7
8
9
10
y
14
18
19
20
23
25
28
A.线性函数模型 B.二次函数模型
C.指数函数模型 D.对数函数模型
考点 回归分析
题点 建立回归模型的基本步骤
答案 A
解析 画出散点图(图略)可以得到这些样本点在某一条直线上或在该直线附近,故最可能是线性函数模型.
2.当χ2>3.841时,认为事件A与事件B(  )
A.有95%的把握有关
B.有99%的把握有关
C.没有理由说它们有关
D.不确定
答案 A
3.下表是某厂1~4月份用水量(单位:百吨)的一组数据:
月份x
1
2
3
4
用水量y
4.5
4
3
2.5
由散点图可知,用水量y与月份x之间有较好的线性相关关系,其回归直线方程是=-0.7x+,则等于(  )
A.10.5 B.5.15 C.5.2 D.5.25
考点 回归直线方程
题点 样本中心点的应用
答案 D
解析 样本点的中心为(2.5,3.5),将其代入回归直线方程可解得=5.25.
4.据统计,用于数学学习的时间(单位:小时)与成绩(单位:分)近似于线性相关关系,对某小组每周用于数学学习时间x与数学成绩y进行数据收集如表:
x
15
16
18
19
22
y
102
98
115
115
120
由表中样本数据求回归直线方程=x+,则点(,)与直线x+18y=110位置关系为(  )
A.点在直线左侧 B.点在直线右侧
C.点在直线上 D.无法确定
考点 回归直线方程
题点 样本点中心的性质
答案 C
解析 由题意知=18,=110,样本点中心为(18,110)在回归直线上,故110=18+,即点(,)在直线上.
5.某考察团对全国10大城市进行职工人均工资水平x(单位:千元)与居民人均消费水平y(单位:千元)统计调查,y与x具有线性相关关系,回归直线方程为=0.66x+1.562.若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为(  )
A.83% B.72% C.67% D.66%
考点 线性回归分析
题点 回归直线方程的应用
答案 A
解析 将y=7.675代入回归直线方程,可计算得x≈9.26,所以该城市人均消费额占人均工资收入的百分比约为7.675÷9.26≈0.83,即约为83%.
6.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是(  )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
考点 线性回归分析
题点 回归直线方程的应用
答案 C
解析 因为y=-0.1x+1,-0.1<0,所以x与y负相关.又y与z正相关,故可设z=ay+b(a>0),所以z=-0.1ax+a+b,-0.1a<0,所以x与z负相关.故选C.
二、填空题
7.已知x与y之间的一组数据:
x
0
2
4
6
y
a
3
5
3a
已求得关于y与x的回归直线方程为 =1.2x+0.55,则a=________.
考点 线性回归分析
题点 回归直线方程的应用
答案 2.15
解析 =3,=a+2,将(3,a+2)代入方程,得a+2=3.6+0.55,解得a=2.15.
8.某工厂为了新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单位x(元)
4
5
6
7
8
9
销量y(件)
90
84
83
80
75
68
由表中数据,求得回归直线方程为 =-4x+ ,若在这些样本点中任取一点,则它在回归直线左下方的概率为________.
考点 线性回归分析
题点 回归直线方程的应用
答案 
解析 由表中数据得=6.5,=80,由点(,)在直线 =-4x+ 上,得 =106,即回归直线方程为 =-4x+106,经过计算只有点(9,68)和(5,84)在直线的左下方,故所求概率为=.
9.若两个分类变量X与Y的2×2列联表为:
y1
y2
总计
x1
10
15
25
x2
40
16
56
总计
50
31
81
则“X与Y之间有关系”这个结论出错的可能性为________.
答案 0.01
解析 由列联表数据,可求得χ2=≈7.227>6.635.
因为P(χ2>6.635)≈0.01,
所以“x与y之间有关系”出错的可能性为0.01.
10.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得χ2≈3.918,经查临界值表知P(χ2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.
①在犯错误的概率不超过5%的前提下认为“这种血清能起到预防感冒的作用”;
②若某人未使用该血清,则他在一年中有95%的可能性得感冒;
③这种血清预防感冒的有效率为95%.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 ①
解析 查临界值表知P(χ2≥3.841)≈0.05,故有95%的把握认为“这种血清能起到预防感冒的作用”.95%仅是指“血清与预防感冒有关”的可信程度,但也有“在100个使用血清的人中一个患感冒的人也没有”的可能.故答案为①.
三、解答题
11.某城区为研究城镇居民家庭月人均生活费支出和月人均收入的相关关系,随机抽取10户进行调查,其结果如下:
月人均收入x(元)
300
390
420
520
570
月人均生活费y(元)
255
324
335
360
450
月人均收入x(元)
700
760
800
850
1 080
月人均生活费y(元)
520
580
600
630
750
(1)求出回归直线方程;
(2)试预测月人均收入为1 100元和月人均收入为1 200元的两个家庭的月人均生活费.
考点 
题点 
解 (1)通过计算可知=639,=480.4,
x=4 610 300,xiyi=3 417 560,
∴ =≈0.659 9, =- =58.723 9,
∴回归直线方程为 =0.659 9x+58.723 9.
(2)由以上分析可知,我们可以利用回归直线方程
 =0.659 9x+58.723 9来计算月人均生活费的预测值.
将x=1 100代入,得y≈784.61,
将x=1 200代入,得y≈850.60.
故预测月人均收入分别为1 100元和1 200元的两个家庭的月人均生活费分别为784.61元和850.60元.
12.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:
甲厂:
分组
[29.86,
29.90)
[29.90,
29.94)
[29.94,
29.98)
[29.98,
30.02)
[30.02,
30.06)
[30.06,
30.10)
[30.10,
30.14]
频数
12
63
86
182
92
61
4
乙厂:
分组
[29.86,
29.90)
[29.90,
29.94)
[29.94,
29.98)
[29.98,
30.02)
[30.02,
30.06)
[30.06,
30.10)
[30.10,
30.14]
频数
29
71
85
159
76
62
18
(1)试分别估计两个分厂生产的零件的优质品率;
(2)由以上统计数据填写下面的2×2列联表,并问能否在犯错误的概率不超过0.01的前提下认为“两个分厂生产的零件的质量有差异”?
甲厂
乙厂
合计
优质品
非优质品
合计
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为=72%;
乙厂抽查的产品中有'320件优质品,从而乙厂生产的零件的优质品率估计为=64%.
(2)2×2列联表如下:
甲厂
乙厂
合计
优质品
360
320
680
非优质品
140
180
320
合计
500
500
1 000
χ2=≈7.353>6.635,
所以在犯错误的概率不超过0.01的前提下认为“两个分厂生产的零件的质量有差异.”
四、探究与拓展
13.已知某地每单位面积菜地年平均使用氮肥量x(kg)与每单位面积蔬菜年平均产量y(t)之间的关系有如下数据:
年份
1985
1986
1987
1988
1989
1990
1991
1992
x(kg)
70
74
80
78
85
92
90
95
y(t)
5.1
6.0
6.8
7.8
9.0
10.2
10.0
12.0
年份
1993
1994
1995
1996
1997
1998
1999
x(kg)
92
108
115
123
130
138
145
y(t)
11.5
11.0
11.8
12.2
12.5
12.8
13.0
(1)求x与y之间的相关系数,并检验是否线性相关;
(2)若线性相关,求蔬菜产量y与使用氮肥量x之间的回归直线方程,并估计每单位面积菜地施肥150 kg时,每单位面积蔬菜的年平均产量.
(已知数据:=101,≈10.113 3,=161 125,=1 628.55,iyi=16 076.8)
解 (1)由已知数据,得每单位面积蔬菜产量与使用氮肥量的相关系数
r==
≈0.863 2>r0.05=0.514.
这说明每单位面积蔬菜产量与使用氮肥量之间存在着很强的线性相关关系.
(2)设所求的线性回归方程为=x+,
则=≈0.093 1,
=-=0.710 2,
则=0.093 1x+0.710 2.
当每单位面积菜地施肥150 kg时,每单位面积蔬菜的年平均产量=0.093 1×150+0.710 2=14.675 2(t).