章末复习
学习目标 1.会求线性回归方程,并用回归直线进行预报.2.理解独立性检验的基本思想及实施步骤.
一、线性回归分析
1.线性回归方程
在线性回归方程y=a+bx中,b==,a=-b.其中=xi,=yi.
2.相关系数
(1)相关系数r的计算公式
r=.
(2)相关系数r的取值范围是[-1,1],|r|值越大,变量之间的线性相关程度越高.
(3)当r>0时,b>0,称两个变量正相关;
当r<0时,b<0,称两个变量负相关;
当r=0时,称两个变量线性不相关.
二、条件概率
1.条件概率的概念
设A,B为两个事件,已知B发生的条件下,A发生的概率,称为B发生时A发生的条件概率,记为P(A|B).
2.计算公式
P(B|A)==.
三、独立事件
1.独立事件的概念
设A,B为两个事件,若P(AB)=P(A)P(B),则称事件A与事件B相互独立.
2.相互独立事件与互斥事件的对比
互斥事件
相互独立事件
定义
不可能同时发生的两个事件
事件A是否发生对事件B发生的概率没有影响
概率公式
P(A+B)=P(A)+P(B)
P(AB)=P(A)P(B)
四、独立性检验
1.2×2列联表
设A,B为两个变量,每一变量都可以取两个值,得到表格
B
A
B1
B2
总计
A1
a
b
a+b
A2
c
d
c+d
总计
a+c
b+d
n=a+b+c+d
其中,a表示变量A取A1,且变量B取B1时的数据,b表示变量A取A1,且变量B取B2时的数据;c表示变量A取A2,且变量B取B1时的数据;d表示变量A取A2,且变量B取B2时的数据.上表在统计中称为2×2列联表.
2.统计量
χ2=.
3.独立性检验
当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的.
当χ2>2.706时,有90%的把握判定变量A,B有关联.
当χ2>3.841时,有95%的把握判定变量A,B有关联.
当χ2>6.635时,有99%的把握判定变量A,B有关联.
类型一 回归分析
例1 如图所示的是某企业2011年至2017年污水净化量(单位:吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y和t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程,预测2019年该企业污水净化量.
附注:参考数据:=54,(ti-)(yi-)=21,≈3.74,(yi-)2=18.
参考公式:相关系数r=,回归方程y=a+bt中斜率和截距的最小二乘法估计公式分别为b=,a=-b.
考点 线性回归分析
题点 线性回归方程的应用
解 (1)由题意,=4,(ti-)(yi-)=21,
∴r==≈0.936.
∵0.936>0.75,
故y与t之间存在较强的正相关关系.
(2)由题意,=54,b===,
a=-b=54-×4=51,
∴y关于t的回归方程为y=t+51.
当t=9时,y=×9+51=57.75,预测2019年该企业污水净化量约为57.75吨.
反思与感悟 解决回归分析问题的一般步骤
(1)画散点图.根据已知数据画出散点图.
(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.
(3)实际应用.依据求得的回归方程解决实际问题.
跟踪训练1 某兴趣小组欲研究昼夜温差大小与患感冒人数之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10号的昼夜温差x(℃)与因患感冒而就诊的人数y,得到如下资料:
日期
昼夜温差x(℃)
就诊人数y(个)
1月10日
10
22
2月10日
11
25
3月10日
13
29
4月10日
12
26
5月10日
8
16
6月10日
6
12
该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据恰好是相邻两个月的概率;
(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y关于x的线性回归方程y=bx+a;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?
(参考公式:b==,a=-b)
考点 线性回归分析
题点 线性回归方程的应用
解 (1)设抽到相邻两个月的数据为事件A.
试验发生包含的事件是从6组数据中选取2组数据,共有15种情况,每种情况都是等可能出现的,其中抽到相邻两个月的数据的情况有5种,∴P(A)==.
(2)由数据求得=11,=24,由公式求得b=,
∴a=-b=-,
∴y关于x的线性回归方程为y=x-.
(3)当x=10时,y=,<2;
当x=6时,y=,<2.
∴该小组所得线性回归方程是理想的.
类型二 条件概率与独立事件
例2 (1)一个盒子中有6支好晶体管,4支坏晶体管,任取两次,每次取一支,第一次取后不放回,若已知第一支是好的,则第二支也是好的概率为________.
答案
解析 设Ai(i=1,2)表示“第i支是好的”.
由题意,得P(A1)==,
P(A1A2)=×=,
∴P(A2|A1)===.
(2)小张参加某电视台举办的百科知识竞赛的预选赛,只有闯过了三关的人才能参加决赛.按规则:只有过了第一关,才能去闯第二关;只有过了第二关,才能去闯第三关.对小张来说,过第一关的概率为0.8,如果不按规则去闯第一关,而直接去闯第二关能通过的概率为0.75,直接去闯第三关能通过的概率为0.5.
①求小张在第二关被淘汰的概率;
②求小张不能参加决赛的概率.
解 记“小张能过第一关”为事件A,“直接去闯第二关能通过”为事件B,“直接闯第三关能通过”为事件C,则P(A)=0.8,P(B)=0.75,P(C)=0.5.
①小张在第二关被淘汰的概率为
P(A)=P(A)[1-P(B)]=0.8×(1-0.75)=0.2.
②小张不能参加决赛的概率为1-P(ABC)=1-P(A)·P(B)P(C)=1-0.8×0.75×0.5=0.7.
反思与感悟 (1)要正确理解条件概率公式的意义,P(AB)为事件A,B同时发生的概率,P(A|B)表示在B发生的前提下,A发生的概率.
(2)在解决互斥事件、对立事件与独立事件的综合问题时,一般先利用独立事件的定义求出各互斥事件发生的概率,然后利用概率加法公式求概率.
(3)“至多”“至少”类题目可考虑利用对立事件的概率公式求解,以简化计算.
跟踪训练2 若某种动物由出生算起活到20岁的概率为0.8,活到25岁的概率为0.4,现有一只20岁的这种动物,则它能活到25岁的概率是________.
答案 0.5
解析 设“动物活到20岁”为事件A,“活到25岁”为事件B,则P(A)=0.8,P(B)=0.4,由于AB=B,所以P(AB)=P(B)=0.4.
所以20岁的动物活到25岁的概率为
P(B|A)====0.5.
类型三 独立性检验思想及应用
例3 奥运会期间,为调查某高校学生是否愿意提供志愿者服务,用简单随机抽样方法从该校调查了60人,结果如下:
是否愿意提供志愿者服务
性别
愿意
不愿意
男生
20
10
女生
10
20
(1)用分层抽样的方法在愿意提供志愿者服务的学生中抽取6人,其中男生抽取多少人?
(2)你能否在犯错误的概率不超过0.01的前提下认为该高校学生是否愿意提供志愿者服务与性别有关?
下面的临界值表供参考:
P(χ2≥k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
独立性检验统计量χ2=,其中n=a+b+c+d.
考点 独立性检验思想的应用
题点 分类变量与统计、概率的综合性问题
解 (1)由题意,可知男生抽取6×=4(人).
(2)χ2=≈6.667,由于6.667>6.635,所以能在犯错误的概率不超过0.01的前提下认为该高校学生是否愿意提供志愿者服务与性别有关.
反思与感悟 独立性检验问题的求解策略
通过公式χ2=
先计算χ2的值,再与临界值表作比较,最后得出结论.
跟踪训练3 某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主).
(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯;
(2)根据以上数据完成下列2×2列联表;
主食蔬菜
主食肉类
总计
50岁以下
50岁以上
总计
(3)在犯错误的概率不超过0.01的前提下,是否能认为“其亲属的饮食习惯与年龄有关”?
考点 独立性检验思想的应用
题点 独立性检验在分类变量中的应用
解 (1)30位亲属中50岁以上的人饮食多以蔬菜为主,50岁以下的人饮食多以肉类为主.
(2)2×2列联表如表所示:
主食蔬菜
主食肉类
总计
50岁以下
4
8
12
50岁以上
16
2
18
总计
20
10
30
(3)χ2==10>6.635,
故在犯错误的概率不超过0.01的前提下能够认为“其亲属的饮食习惯与年龄有关”.
1.下列相关系数r对应的变量间的线性相关程度最强的是( )
A.r=0.90 B.r=0.5
C.r=-0.93 D.r=0
考点 线性相关系数
题点 线性相关系数的应用
答案 C
2.某工程施工在很大程度上受当地年降水量的影响,施工期间的年降水量X(单位:mm)对工期延误天数Y的影响及相应的概率P如下表所示:
年降水量X
X<100
100≤X<200
200≤X<300
X≥300
工期延误天数Y
0
5
15
30
概率P
0.4
0.2
0.1
0.3
在年降水量X至少是100的条件下,工期延误小于30天的概率为( )
A.0.7B.0.5C.0.3D.0.2
考点 条件概率的定义及计算公式
题点 直接利用公式求条件概率
答案 B
解析 设事件A为“年降水量X至少是100”,事件B为“工期延误小于30天”,则P(B|A)===0.5,故选B.
3.某化妆品公司为了增加其商品的销售利润,调查了该商品投入的广告费用x与销售利润y的统计数据如下表:
广告费用x(万元)
2
3
5
6
销售利润y(万元)
5
7
9
11
由表中数据,得线性回归方程l:y=bx+a,则下列结论正确的是( )
A.b<0 B.a<0
C.直线l过点(4,8) D.直线l过点(2,5)
考点 线性回归方程
题点 样本点中心的应用
答案 C
解析 由表计算可得=4,=8,b=1.4>0,a=-b=8-1.4×4=2.4>0,所以排除A,B;因为y=1.4x+2.4,所以1.4×2+2.4=5.2≠5,所以点(2,5)不在直线l上,所以排除D;因为=4,=8,所以回归直线l过样本点的中心(4,8),故选C.
4.在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁.为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:
感染
未感染
总计
服用
10
40
50
未服用
20
30
50
总计
30
70
100
附表:
P(χ2≥k)
0.10
0.05
0.025
k
2.706
3.841
5.024
参照附表,在犯错误的概率不超过________(填百分比)的前提下,认为“小鼠是否被感染与服用疫苗有关”.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 5%
解析 χ2=≈4.762>3.841,所以在犯错误的概率不超过5%的前提下,认为“小鼠是否被感染与服用疫苗有关”.
5.对于线性回归方程y=bx+a,当x=3时,对应的y的估计值是17,当x=8时,对应的y的估计值是22,那么,该线性回归方程是_______,根据线性回归方程判断当x=______时,y的估计值是38.
考点 线性回归分析
题点 线性回归方程的应用
答案 y=x+14 24
解析 首先把两组值代入线性回归方程,得
解得
所以线性回归方程是y=x+14.
令x+14=38,可得x=24,即当x=24时,y的估计值是38.
1.建立回归模型的基本步骤
(1)确定研究对象,明确变量.
(2)画出散点图,观察它们之间的关系.
(3)由经验确定回归方程的类型.
(4)按照一定的规则估计回归方程中的参数.
2.条件概率的两个求解策略
(1)定义法:计算P(A),P(B),P(AB),利用P(A|B)=求解.
(2)缩小样本空间法:利用P(B|A)=求解.
其中(2)常用于古典概型的概率计算问题.
3.独立性检验是研究两个分类变量间是否存在相关关系的一种案例分析方法.
一、选择题
1.有人收集了春节期间平均气温x与某取暖商品销售额y的有关数据如表:
平均气温(℃)
-2
-3
-5
-6
销售额(万元)
20
23
27
30
则该商品销售额与平均气温有( )
A.确定性关系 B.正相关关系
C.负相关关系 D.函数关系
考点 回归分析
题点 回归分析的概念和意义
答案 C
解析 根据春节期间平均气温x与某取暖商品销售额y的有关数据知,y随x的减小而增大,是负相关关系,故选C.
2.如果χ2的观测值为8.654,可以认为“x与y无关”的可信度为( )
A.99.5%B.0.5%C.99%D.1%
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 B
解析 ∵8.654>7.879,∴x与y无关的可信度为0.5%.
3.根据如下样本数据:
x
3
4
5
6
7
y
4.0
a-5.4
-0.5
0.5
b-0.6
得到的线性回归方程为y=bx+a.若样本点的中心为(5,0.9),则当x每增加1个单位时,y就( )
A.增加1.4个单位 B.减少1.4个单位
C.增加7.9个单位 D.减少7.9个单位
考点 线性回归分析
题点 线性回归方程的应用
答案 B
解析 依题意得,=0.9,
故a+b=6.5,①
又样本点的中心为(5,0.9),故0.9=5b+a,②
联立①②,解得b=-1.4,a=7.9,则y=-1.4x+7.9,
可知当x每增加1个单位时,y就减少1.4个单位.
4.经过对统计量χ2的研究,得到了若干个临界值,当χ2<2.706时,我们认为事件A与B( )
A.在犯错误的概率不超过0.05的前提下有关系
B.在犯错误的概率不超过0.01的前提下有关系
C.没有充分理由认为A与B有关系
D.不能确定
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 C
解析 因为χ2<2.706,而犯错误的概率大于10%,
所以没有充分理由认为A与B有关系.
5.某考察团对10个城市的职工人均工资x(千元)与居民人均消费y(千元)进行调查统计,得出y与x具有线性相关关系,且回归方程为y=0.6x+1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )
A.66% B.67%
C.79% D.84%
考点 线性回归分析
题点 回归直线方程的应用
答案 D
解析 因为y与x具有线性相关关系,满足回归方程y=0.6x+1.2,该城市居民人均工资为x=5,所以可以估计该城市的职工人均消费水平y=0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为×100%=84%.
6.为了了解疾病A是否与性别有关,在某医院随机地对入院的50人进行了问卷调查,得到了如下的列联表:
患疾病A
不患疾病A
总计
男
20
5
25
女
10
15
25
总计
30
20
50
则认为疾病A与性别有关的把握约为( )
临界值表:
P(χ2≥k)
0.10
0.05
0.01
0.005
0.001
k
2.706
3.841
6.635
7.879
10.828
A.95% B.99%
C.99.5% D.99.9%
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 C
解析 由公式得χ2=≈8.333>7.879,故有(1-0.005)×100%=99.5%的把握认为疾病A与性别有关.
7.下列说法:
①设有一个线性回归方程y=3-5x,变量x增加一个单位时,y平均增加5个单位;
②回归方程y=bx+a必过(,);
③在一个2×2列联表中,由计算得χ2=13.079,则有99%的把握确认这两个变量间有关系.
其中错误的个数是( )
A.0B.1C.2D.3
答案 B
解析 回归方程中x的系数具备直线斜率的功能,对于回归方程y=3-5x,当x增加一个单位时,y平均减少5个单位,①错误;由线性回归方程的定义知,线性回归方程y=bx+a必过点(,),②正确;因为χ2>6.635,故有99%的把握确认这两个变量有关系,③正确.故选B.
二、填空题
8.将两枚质地均匀的骰子各掷一次,设事件A={两个点数互不相同},B={出现一个5点},则P(B|A)=________.
考点 条件概率的定义及计算公式
题点 利用缩小基本事件空间求条件概率
答案
解析 出现点数互不相同的共有n(A)=6×5=30(种),
出现一个5点,共有n(AB)=5×2=10(种),
所以P(B|A)==.
9.为了规定工时定额,需要确定加工零件所花费的时间,为此进行5次试验,得到5组数据(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5).根据收集到的数据可知x1+x2+x3+x4+x5=150,由最小二乘法求得线性回归方程为y=0.67x+54.9,则y1+y2+y3+y4+y5的值为________.
考点 线性回归方程
题点 样本点中心的应用
答案 375
解析 由题意,得=(x1+x2+x3+x4+x5)=30,且回归直线y=0.67x+54.9恒过点(,),则=0.67×30+54.9=75,所以y1+y2+y3+y4+y5=5=375.
10.某工厂为了调查工人文化程度与月收入之间的关系,随机调查了部分工人,得到如下表所示的2×2列联表(单位:人):
月收入2000元以下
月收入2000元及以上
总计
高中文化以上
10
45
55
高中文化及以下
20
30
50
总计
30
75
105
由2×2列联表计算可知,我们有________以上的把握认为“文化程度与月收入有关系”.
附:χ2=
P(χ2≥k)
0.15
0.10
0.05
0.025
0.01
0.001
k
2.072
2.706
3.841
5.024
6.635
10.828
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 97.5%
解析 由表中的数据可得χ2=≈6.109,
由于6.109>5.024,
所以我们有97.5%以上的把握认为“文化程度与月收入有关系”.
11.某炼钢厂废品率x(%)与成本y(元/吨)的线性回归方程为y=105.492+42.569x.当成本控制在176.5元/吨时,可以预计生产的1000吨钢中,约有________吨钢是废品.(结果保留两位小数)
考点 线性回归分析
题点 线性回归方程的应用
答案 16.68
解析 因为176.5=105.492+42.569x,解得x≈1.668,即当成本控制在176.5元/吨时,废品率约为1.668%,所以生产的1000吨钢中,约有1000×1.668%=16.68(吨)是废品.
三、解答题
12.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:
日期
12月1日
12月2日
12月3日
12月4日
12月5日
温差x(℃)
10
11
13
12
8
发芽数y(颗)
23
25
30
26
16
该农科所确定的研究方案是:先从这五组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验.
(1)求选取的2组数据恰好是不相邻2天数据的概率;
(2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程y=bx+a;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?
考点 线性回归分析
题点 线性回归方程的应用
解 (1)设事件A表示“选取的2组数据恰好是不相邻2天的数据”,则表示“选取的数据恰好是相邻2天的数据”.
基本事件总数为10,事件包含的基本事件数为4.
∴P()==,
∴P(A)=1-P()=.
(2)=12,=27,iyi=977,=434,
∴b===2.5,
a=-b=27-2.5×12=-3,
∴y=2.5x-3.
(3)由(2)知:当x=10时,y=22,误差不超过2颗;
当x=8时,y=17,误差不超过2颗.
故所求得的线性回归方程是可靠的.
四、探究与拓展
13.对某台机器购置后的运营年限x(x=1,2,3,…)与当年利润y的统计分析知具备线性相关关系,线性回归方程为y=10.47-1.3x,估计该台机器使用________年最合算.
考点 线性回归分析
题点 线性回归方程的应用
答案 8
解析 只要预计利润不为负数,使用该机器就算合算,即y≥0,所以10.47-1.3x≥0,解得x≤8.05,所以该台机器使用8年最合算.
14.某校高一年级理科有8个班,在一次数学考试中成绩情况分析如下:
班级
1
2
3
4
5
6
7
8
大于145分人数
6
6
7
3
5
3
3
7
不大于145分人数
39
39
38
42
40
42
42
38
附:xiyi=171,x=204.
(1)求145分以上成绩人数y对班级序号x的线性回归方程;(精确到0.0001)
(2)能否在犯错误的概率不超过0.01的前提下认为7班与8班的成绩是否优秀(大于145分)与班级有关系.
考点 独立性检验思想的应用
题点 独立性检验与线性回归方程、均值的综合应用
解 (1)=4.5,=5,xiyi=171,x=204,
b===-≈-0.2143,
a=-b=5-(-0.2143)×4.5≈5.9644,
∴线性回归方程为y=-0.2143x+5.9644.
(2)χ2==1.8,
∵1.8<6.635,
∴不能在犯错误的概率不超过0.01的前提下认为7班与8班的成绩是否优秀(大于145分)与班级有关系.