2.2 独立性检验 2.3 独立性检验的基本思想 2.4 独立性检验的应用
课后训练案巩固提升
一、A组
1.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:
y1
y2
总 计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
以下各组数据中,对于同一样本能说明X与Y有关系的可能性最大的一组为( )
A.a=5,b=4,c=3,d=2
B.a=5,b=3,c=4,d=2
C.a=2,b=3,c=4,d=5
D.a=2,b=3,c=5,d=4
解析:比较.
选项A中,;
选项B中,;
选项C中,;
选项D中,.故选D.
答案:D
2.对两个分类变量进行独立性检验的主要作用是( )
A.判断模型的拟合效果
B.对两个变量进行相关分析
C.给出两个分类变量有关系的可靠程度
D.估计预报变量的平均值
解析:独立性检验的目的就是明确两个分类变量有关系的可靠程度.
答案:C
3.为了研究男子的年龄与吸烟的关系,抽查了100个男人,按年龄超过和不超过40岁,吸烟量每天多于和不多于20支进行分组,如下表:
年龄
吸烟量
不超过40岁
超过40岁
合计
吸烟量不多于20支/天
50
15
65
吸烟量多于20支/天
10
25
35
合 计
60
40
100
则有 的把握认为吸烟与年龄有关.( )?
A.0
B.95%
C.99%
D.都不正确
解析:χ2=≈22.16>6.635.
故我们有99%的把握认为吸烟量与年龄有关.
答案:C
4.为了探究中学生的学习成绩是否与学习时间长短有关,在调查的500名学习时间较长的中学生中有39名学习成绩比较好,500名学习时间较短的中学生中有6名学习成绩比较好,那么你认为中学生的学习成绩与学习时间长短有关的把握为( )
A.0
B.95%
C.99%
D.都不正确
解析:计算出χ2与两个临界值比较.
χ2=≈25.340
3>6.635.
所以有99%的把握说中学生的学习成绩与学习时间长短有关,故选C.
答案:C
5.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由χ2=算得,
χ2=≈7.8.
附表:
P
0.050
0.010
0.001
χ2
3.841
6.635
10.828
参照附表,得到的正确结论是( )
A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
解析:由χ2≈7.8及P(χ2≥6.635)=0.010可知,在犯错误的概率不超过1%的前提下认为“爱好该项运动与性别有关”,也就是有99%以上的把握认为“爱好该项运动与性别有关”.
答案:A
6.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:
文艺节目
新闻节目
总计
20至40岁
40
18
58
大于40岁
15
27
42
总 计
55
45
100
由表中数据直观分析,收看新闻节目的观众是否与年龄有关: (填“是”或“否”).?
解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.
答案:是
7.某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人资料,得到如下列联表:
文化程度与月收入列联表(单位:人)
月收入2
000元以下
月收入2
000元及以上
总计
高中文化以上
10
45
55
高中文化及以下
20
30
50
总 计
30
75
105
由上表中数据计算得χ2=≈6.109,请估计有 把握认为文化程度与月收入有关系.?
解析:由于6.109>3.841,所以有95%的把握认为文化程度与月收入有关系.
答案:95%
8.在一次天气恶劣的飞行航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判定:在天气恶劣的飞行航程中,男乘客是否比女乘客更容易晕机?
解:根据题意,列出2×2列联表如下:
晕机
不晕机
总计
男乘客
24
31
55
女乘客
8
26
34
总计
32
57
89
假设在天气恶劣的飞行航程中,男乘客不比女乘客更容易晕机.
由公式可得χ2=≈3.689>2.706,
故有90%的把握认为“在天气恶劣的飞行航程中,男乘客比女乘客更容易晕机”.
9.在某测试中,卷面满分为100分,60分为及格,为了调查午休对本次测试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进行了测试成绩的统计,数据如下表所示:
分数段
29~40
41~50
51~60
61~70
71~80
81~90
91~100
午休考生人数
23
47
30
21
14
31
14
不午休考生人数
17
51
67
15
30
17
3
(1)根据上述表格完成列联表:
及格人数
不及格人数
总计
午休
不午休
总计
(2)根据列联表可以得出什么样的结论?对今后的复习有什么指导意义?
解:(1)根据题表中数据可以得到列联表如下:
及格人数
不及格人数
总计
午休
80
100
180
不午休
65
135
200
总计
145
235
380
(2)计算可知,午休的考生及格率为P1=,不午休的考生的及格率为P2=,则P1>P2,因此,可以粗略判断午休与考生考试及格有关系,并且午休的及格率高,所以在以后的复习中考生应尽量适当午休,以保持最佳的学习状态.
10.导学号18334009某校为了探索一种新的教学模式,进行了一项课题实验,乙班为实验班,甲班为对比班,甲、乙两班均有50人,一年后对两班进行测试,成绩分别如表1和表2所示(总分:150分):
表1
成绩
[80,90)
[90,100)
[100,110)
[110,120)
[120,130)
频数
4
20
15
10
1
表2
成绩
[80,90)
[90,100)
[100,110)
[110,120)
[120,130)
频数
1
11
23
13
2
(1)现从甲班成绩位于[90,120)内的试卷中抽取9份进行试卷分析,用什么抽样方法更合理?并写出最后的抽样结果.
(2)根据所给数据可估计在这次测试中,甲班的平均分是101.8,请你估计乙班的平均分,并计算两班平均分相差几分.
(3)完成下面2×2列联表,你认为有97.5%的把握认为“这两个班在这次测试中成绩的差异与实施课题实验有关”吗?并说明理由.
班级
成绩小于100分
成绩不小于100分
总计
甲班
a=
26
50
乙班
12
d=
50
总计
36
64
100
解:(1)用分层抽样的方法更合理.
甲班成绩位于[90,120)内的试卷共有20+15+10=45(份),从中抽取9份,抽样比为,
故在[90,100),[100,110),[110,120)各分数段内抽取试卷20×=4(份),15×=3(份),10×=2(份).
(2)估计乙班的平均分为x乙=85×+95×+105×+115×+125×=105.8,105.8-101.8=4,即两班的平均分差4分.
(3)补全列联表如下:
班级
成绩小于100分
成绩不小于100分
总计
甲班
a=24
26
50
乙班
12
d=38
50
总计
36
64
100
由列联表中的数据,得
χ2==6.25>5.024,
所以有97.5%的把握认为“这两个班在这次测试中成绩的差异与实施课题实验有关.”
二、B组
1.有两个分类变量x,y,其2×2列联表如下表.其中a,15-a均为大于5的整数,若有99%的把握认为“x与y之间有关系”,则a的取值应为( )
变量
y1
y2
x1
a
20-a
x2
15-a
30+a
A.5或6
B.6或7
C.7或8
D.8或9
解析:查表可知,要有99%的把握认为“x与y之间有关系”,则χ2>2.706,
而χ2=,要使χ2>2.706得a>7.19或a<2.04.又因为a>5且15-a>5,a∈Z,所以a=8或9,故当a取8或9时有99%的把握认为“x与y之间有关系”.
答案:D
2.某卫生机构对366人进行健康体检,其中某项检测指标阳性家族史者糖尿病发病的有16人,不发病的有93人;阴性家族史者糖尿病发病的有17人,不发病的有240人,有 的把握认为糖尿病患者与遗传有关系.( )?
A.99.9%
B.99.5%
C.99%
D.97.5%
解析:可以先作出如下列联表(单位:人):
糖尿病患者与遗传列联表
糖尿病发病
糖尿病不发病
总计
阳性家族史
16
93
109
阴性家族史
17
240
257
总 计
33
333
366
根据列联表中的数据,得到
χ2=≈6.067>5.024.
故我们有97.5%的把握认为糖尿病患者与遗传有关系.
答案:D
3.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:
认为作业多
认为作业不多
总数
喜欢玩电脑游戏
18
9
27
不喜欢玩电脑游戏
8
15
23
总 数
26
24
50
则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为( )
A.99%
B.95%
C.90%
D.无充分依据
解析:由表中数据得χ2=≈5.059>3.841.
所以约有95%的把握认为两变量之间有关系.
答案:B
4.调查者通过随机询问72名男女中学生喜欢文科还是理科,得到如下列联表(单位:名):
性别与喜欢文科还是理科列联表
喜欢文科
喜欢理科
总计
男生
8
28
36
女生
20
16
36
总计
28
44
72
中学生的性别和喜欢文科还是理科 关系.(填“有”或“没有”)?
解析:通过计算χ2=≈8.42>7.879.故我们有99.5%的把握认为中学生的性别和喜欢文科还是理科有关系.
答案:有
5.某研究小组为了研究中学生的身体发育情况,在某中学随机抽出20名15至16周岁的男生将他们的身高和体重制成2×2列联表,根据列联表中的数据,有 的把握认为该学校15至16周岁的男生的身高和体重之间有关系.?
超重
不超重
总计
偏高
4
1
5
不偏高
3
12
15
总计
7
13
20
解析:根据公式χ2=得,
χ2=≈5.934,
因为χ2>5.024,因此有97.5%的把握认为该学校15至16周岁的男生的身高和体重之间有关系.
答案:97.5%
6.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:
专业
性别
非统计专业
统计专业
男
13
10
女
7
20
为了判断主修统计专业是否与性别有关系,根据表中的数据,得到χ2=≈4.844,因为χ2≥3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为 .?
解析:∵χ2>3.841,∴有95%的把握认为主修统计专业与性别有关,出错的可能性为5%.
答案:5%
7.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
性别
是否需要志愿者
男
女
需要
40
30
不需要
160
270
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例.
(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?
(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.
附:
P
0.050
0.010
0.001
χ2
3.841
6.635
10.828
χ2=
解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为=14%.
(2)χ2=≈9.967.
由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.
(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样的方法进行抽样,这比采用简单随机抽样方法更好.
8.导学号18334010为了研究“教学方式”对教学质量的影响,某高中数学老师分别用两种不同的教学方式对入学数学平均分数和优秀率都相同的甲、乙两个高一新班进行教学(勤奋程度和自觉性都一样).以下茎叶图为甲、乙两班(每班均为20人)学生的数学期末考试成绩.
(1)现从甲班数学成绩不低于80分的同学中随机抽取两名同学,求成绩为87分的同学至少有一名被抽中的概率;
(2)学校规定:成绩不低于75分的为优秀.请填写下面的2×2列联表,并判断有多大把握认为“成绩优秀与教学方式有关”.
甲班
乙班
合计
优秀
不优秀
合计
下面临界表仅供参考:
P
0.15
0.10
0.05
0.025
0.010
0.005
0.001
χ2
2.072
2.706
3.841
5.024
6.635
7.879
10.828
参考公式:χ2=
解:(1)记成绩为87分的同学为A,B,其他不低于80分的同学为C,D,E,“从甲班数学成绩不低于80分的同学中随机抽取两名同学”的一切可能结果组成的基本事件有(A,B),(A,C),(A,D),(A,E),(B,C),(B,D),(B,E),(C,D),(C,E),(D,E),共10个.
“至少有一个87分的同学被抽到”所组成的基本事件有(A,B),(A,C),(A,D),(A,E),(B,C),(B,D),(B,E),共7个,所以P=.
(2)
甲班
乙班
合计
优秀
6
14
20
不优秀
14
6
20
合计
20
20
40
χ2==6.4>5.024,
因此,我们有97.5%的把握认为成绩优秀与教学方式有关.(共24张PPT)
2.1 条件概率与独立事件
一、条件概率
二、事件的相互独立性
(1)定义:一般地,对两个事件A,B,若P(AB)=P(A)P(B),则称A,B相互独立.
(2)性质:
①若A,B相互独立,则P(B|A)=P(B).
②若事件A与B相互独立,那么A与
也相互独立.
③如果A1,A2,…,An相互独立,则有P(A1A2…An)=P(A1)P(A2)…P(An).
特别提醒相互独立事件是指两个试验中,两事件发生的概率互不影响;互斥事件是指同一次试验中,两个事件不会同时发生.
【做一做2】
(1)某机械零件加工由2道工序组成,第1道工序的废品率为a,第2道工序的废品率为b,假定这2道工序出废品的概率彼此无关,那么产品的合格率是
( )
A.ab-a-b+1
B.1-a-b
C.1-ab
D.1-2ab
(2)若事件E与F相互独立,且P(E)=P(F)=
,则P(EF)的值等于( )
解析:(1)由于第一道工序与第二道工序出废品的概率彼此无关,故产品的合格率为P=(1-a)(1-b)=ab-a-b+1.
(2)EF代表E与F同时发生,
故P(EF)=P(E)P(F)=
.
答案:(1)A (2)B
思考辨析
判断下列说法是否正确,正确的在后面的括号内打“√”,错误的打“×”.
(1)条件概率一定不等于它的非条件概率.
( )
(2)相互独立事件就是互斥事件.
( )
(3)对于任意两个事件,公式P(AB)=P(A)P(B)都成立.
( )
(4)若事件A,B相互独立,则P(B|A)=P(B).
( )
(5)P(B|A)表示在事件A发生的条件下,事件B发生的概率,P(AB)表示事件A,B同时发生的概率,一定有P(AB)=P(A)·P(B).
( )
答案:(1)× (2)× (3)× (4)√ (5)×
探究一
探究二
思维辨析
求条件概率
【例1】
甲、乙两地都位于长江下游,根据一百多年的气象记录,知道甲、乙两地一年中雨天占的比例分别为20%和18%,两地同时下雨的比例为12%,问:
(1)乙地为雨天时甲地也为雨天的概率是多少?
(2)甲地为雨天时乙地也为雨天的概率是多少?
思路分析:设A=“甲地为雨天”,B=“乙地为雨天”,则根据题意有P(A)=0.20,P(B)=0.18,P(A∩B)=0.12.问题(1)为求P(A|B),(2)为求P(B|A).
解:设A=“甲地为雨天”,B=“乙地为雨天”,则
探究一
探究二
思维辨析
反思感悟1.条件概率的判断
题目中出现已知“在……前提下(条件下)”等字眼时,一般为求条件概率.题目中没有出现上述明显字眼,但事件B的发生受事件A发生的影响时,也是条件概率.
2.条件概率的求法
探究一
探究二
思维辨析
变式训练1(1)如图,EFGH是以O为圆心,1为半径的圆的内接正方形.将一颗豆子随机地扔到该圆内,用A表示事件“豆子落在正方形EFGH内”,B表示事件“豆子落在扇形OHE(阴影部分)内”,则P(B|A)= .
?
(2)从1,2,3,4,5中任取2个不同的数,事件A:“取到的2个数之和为偶数”,事件B:“取到的2个数均为奇数”,则P(B|A)= .?
探究一
探究二
思维辨析
探究一
探究二
思维辨析
求相互独立事件的概率
【例2】某田径队有三名短跑运动员,根据平时训练情况统计,甲、乙、丙三人跑100
m(互不影响)的成绩在13
s内(称为合格)的概率分别为
,若对这三名短跑运动员跑100
m的成绩进行一次检测,求
(1)三人都合格的概率;
(2)三人都不合格的概率;
(3)出现几人合格的概率最大?
思路分析:若用A,B,C表示甲、乙、丙三人跑100米的成绩合格,则事件A,B,C相互独立.
探究一
探究二
思维辨析
探究一
探究二
思维辨析
反思感悟求相互独立事件同时发生的概率的方法
(1)利用相互独立事件的概率乘法公式直接求解.
(2)正面计算较繁(如求用“至少”表述的事件的概率)或难以入手时,可从其对立事件入手计算.
探究一
探究二
思维辨析
变式训练2甲、乙同时向一敌机炮击,已知甲击中敌机的概率为0.6,乙击中敌机的概率为0.5,求:
(1)甲、乙都未击中的概率;
(2)敌机被击中的概率.
探究一
探究二
思维辨析
因混淆相互独立事件和互斥事件与对立事件而致误
【典例】
桌子上放着一副扑克牌中的10张,其中1张红心,4张黑桃,5张梅花,从中任摸一张,放回后,再摸一张,求第一次摸出红心且第二次摸出黑桃的概率.
易错分析:本题易出现按互斥事件的概率计算公式计算的错误,其实第一次摸出红心,放回后再摸第二次.表明A,B两事件相互独立.
解:设A={第一次摸出红心},B={第二次摸出黑桃}.
纠错心得平时学习时一定要对每一个基础知识理解透彻.
探究一
探究二
思维辨析
跟踪训练一个家庭中有两个小孩,假定生男、生女是等可能的.已知这个家庭有一个是女孩,问另一个小孩是男孩的概率是多少?
解:法一:一个家庭的两个小孩只有4种可能:{两个都是男孩},{第一个是男孩,第二个是女孩},{第一个是女孩,第二个是男孩},{两个都是女孩}.由题意知这4个事件是等可能的,设基本事件空间为Ω,A=“其中一个是女孩”,B=“其中一个是男孩”,则Ω={(男,男),(男,女),(女,男),(女,女)},A={(男,女),(女,男),(女,女)},B={(男,男),(男,女),(女,男)},AB={(男,女),(女,男)}.
1
2
3
4
5
1.袋内有3个白球和2个黑球,不放回地从中摸球,用A表示“第一次摸得白球”,用B表示“第二次摸得白球”,则A与B是( )
A.互斥事件
B.相互独立事件
C.对立事件
D.不相互独立事件
解析:根据互斥事件、对立事件和相互独立事件的定义可知,A与B不是相互独立事件.
答案:D
1
2
3
4
5
2.某种元件的使用寿命超过1年的概率为0.6,使用寿命超过2年的概率为0.3,则使用寿命超过1年的元件还能继续使用的概率为( )
A.0.3
B.0.5
C.0.6
D.1
解析:设事件A为“该元件的使用寿命超过1年”,B为“该元件的使用寿命超过2年”,则P(A)=0.6,P(B)=0.3.
因为B?A,所以P(AB)=P(B)=0.3,
答案:B
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
5.甲、乙两人参加普法知识竞赛,共有10个不同的题目,其中选择题6个,判断题4个,甲、乙两人不放回地依次各抽1题,在甲抽到选择题的前提下,乙抽到判断题的概率是多少?
解:设甲抽到选择题为事件A,乙抽到判断题为事件B,(共28张PPT)
2.2 独立性检验
2.3 独立性检验的基本思想
2.4 独立性检验
一、2×2列联表
1.特点:(1)含有两个分类变量;
(2)每个分类变量取两个值.
2.2×2列联表的独立性检验.
根据2×2列联表中的数据来判断两个变量A,B是否独立的问题叫做2×2列联表的独立性检验.
名师点拨列联表中的数据是样本数据,具有随机性,所以,独立性检验的结果只能说成立的概率有多大,而不能完全肯定一个结论.
【做一做1】
(1)若2×2列联表是:
则样本容量等于( )(其中a,b,c,d均为大于5的整数)
A.a+b
B.c+d
C.a+c
D.a+b+c+d
(2)在2×2列联表中,下列哪两个比值相差越大,两个分类变量之间的关系越强( )
解析:(2)
相差越大,说明ad与bc相差越大,两个分类变量之间的关系越强.
答案:(1)D (2)A
二、统计量χ2的计算公式
三、独立性判断的方法
1.当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;
2.当χ2>2.706时,有90%的把握判定变量A,B有关联;
3.当χ2>3.841时,有95%的把握判定变量A,B有关联;
4.当χ2>6.635时,有99%的把握判定变量A,B有关联.
χ2越大,变量A,B的相关程度越大.
特别提醒1.独立性检验是一种假设检验,在对总体的估计中,通过抽取样本,构造合适的统计量,对假设的正确性进行判断.
2.使用χ2统计量作2×2列联表的独立性检验时,一般要求表中的四个数据都大于5,数据越大,越能说明结果的普遍性.
【做一做3】
为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠.在照射后14天内的结果如下表所示:
进行统计分析时的统计假设是 .?
解析:根据假设性检验的概念知,应假设“电离辐射的剂量与人体受损程度无关”.
答案:假设电离辐射的剂量与人体受损程度无关
思考辨析
判断下列说法是否正确,正确的在后面的括号内打“√”,错误的打“×”.
(1)χ2独立性检验的统计假设是各事件之间相互独立.
( )
(2)χ2独立性检验显示“患慢性气管炎和吸烟习惯有关”,这就是指“有吸烟习惯的人必定会患慢性气管炎”.
( )
(3)2×2列联表中的4个数据可以是任意正数.( )
答案:(1)√ (2)× (3)×
探究一
探究二
探究三
2×2列联表
【例1】
某学校对高三学生作一项调查后发现:在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张,性格外向的594名学生中在考前心情紧张的有213人.请作出考前心情紧张与性格的列联表.
思路分析:作列联表的关键是要分清类别,一般是两大类,每类有两个不同的取值,然后找出相关数据,列表即可.
解:作列联表如下:
探究一
探究二
探究三
反思感悟列2×2列联表,实质就是列出两个变量取值的频数表.
一般地,假设有两个变量A和B,它们的取值分别为{A1,A2}和{B1,B2},其样本频数列联表(称为2×2列联表)为:
探究一
探究二
探究三
变式训练1在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表.
解:2×2列联表如下:
探究一
探究二
探究三
用χ2进行独立性检验
【例2】
在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:能否有99%的把握认为该种血清能起到预防感冒的作用.
思路分析:求出χ2的值,对照临界值表判定相关性的大小,最后对所求问题作出判断.
探究一
探究二
探究三
解:由公式得
∵χ2=7.075≥6.635,
∴我们有99%的把握认为该种血清能起到预防感冒的作用.
反思感悟作2×2列联表的独立性检验的三个步骤.
第一步:检查2×2列联表中的数据是否符合要求;
第二步:把数据代入χ2公式求值;
第三步:通过查表来确定结论“A与B有关系的可信度”.
探究一
探究二
探究三
变式训练2某班主任对班级22名学生进行了作业量多少的调查,数据如下表:在喜欢玩电脑游戏的12人中,有10人认为作业多,2人认为作业不多;在不喜欢玩电脑游戏的10人中,有3人认为作业多,7人认为作业不多.
(1)根据以上数据建立一个2×2列联表;
(2)试问喜欢电脑游戏与认为作业多少是否有关系?
探究一
探究二
探究三
解:根据题中所给数据,得到如下列联表:
∵χ2≥3.841,
∴有95%的把握认为喜欢玩电脑游戏与认为作业多少有关.
探究一
探究二
探究三
综合应用
【例3】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在(29.94,30.06)的零件为优质品.从两个分厂生产的零件中抽出500件,量其内径尺寸的结果如下表:
探究一
探究二
探究三
(1)试分别估计两个分厂生产的零件的优质品率;
(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.
思路分析:根据所给数据计算优品率,然后填写2×2列联表,求出χ2的值,对照临界值表判定相关性的大小,最后对所求问题作出判断.
探究一
探究二
探究三
探究一
探究二
探究三
反思感悟1.独立性检验在实际中有着广泛的应用,是对实际生活中数据进行分析的一种方法,通过这种分析得出的结论对实际生活或者生产都有一定的指导作用.
2.近几年高考中较少单独考查独立性检验,经常与统计、概率等知识综合,频率分布表、频率分布直方图与独立性检验融合在一起是常见的考查形式,一般需要根据条件列出2×2列联表,计算χ2的观测值,从而解决问题.
探究一
探究二
探究三
变式训练3为考查某种疫苗预防疾病的效果,进行动物实验,得到统计数据如下:
探究一
探究二
探究三
解:(1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件A.
1
2
3
4
5
1.下表是一个2×2列联表:
则表中a,b处的值分别为( )
A.94,96
B.52,50
C.52,54
D.54,52
解析:
答案:C
1
2
3
4
5
2.用独立性检验来考察两个事件x与y是否有关系,当统计量χ2的值( )
A.越大,“x与y有关系”成立的可能性越小
B.越大,“x与y有关系”成立的可能性越大
C.越小,“x与y没有关系”成立的可能性越小
D.与“x与y有关系”成立的可能性无关
答案:B
1
2
3
4
5
3.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定断言“X与Y有关系”的可信度,如果k>5.024,那么就推断“X和Y有关系”,这种推断犯错误的概率不超过( )
A.0.25
B.0.75
C.0.025
D.0.975
解析:通过查表确定临界值k.当k>k0=5.024时,推断“X与Y”有关系这种推断犯错误的概率不超过0.025.
答案:C
1
2
3
4
5
4.为研究某新药的疗效,给50名患者服用此药,跟踪调查后得下表中的数据:
设H0:服用此药的效果与患者的性别无关,则χ2的值为 ,从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为 .?
解析:由公式计算得χ2>3.841,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.
答案:4.882 5%
1
2
3
4
5
5.2016年某机构进行一项调查,共调查了1
300人,上过大学,且月工资超过3
000元的有450人,上过大学,且月工资不超过3
000元的有550人;未上过大学但月工资超过3
000元的有10人,未上过大学,且工资不超过3
000元的有290人,试作出列联表.
解:如下表所示:(共32张PPT)
1.3 可线性化的回归分析
一、非线性回归分析
对于一些特殊的非线性函数,可以通过变量替换,把非线性回归转化为线性回归,然后用线性回归的方法进行研究,最后再通过相应的变换得到非线性回归方程.
名师点拨非线性相关的变量,确定回归模型的方法:
首先要作出散点图,如果散点图中的样本点并没有分布在某个带状区域内,则两个变量不呈现线性相关关系,不能直接利用线性回归方程来建立两个变量之间的关系,这时可以根据已有函数知识,观察样本点是否呈指数函数关系或二次函数关系,选定适当的回归模型.
二、非线性回归方程
特别提醒常见的几种函数模型的解析式在转变为线性相关关系时,要根据函数式的特点,灵活地换元转变为线性函数关系.在使用常见的几种模型时要注意散点图的形状符合哪一种类型曲线的形状,有时不太容易辨别,可采用多种模型拟合,并转变为线性回归关系.利用线性相关系数来检验用哪一种拟合效果较好,就用哪一种模型.
【做一做】
(1)下列两个变量之间的关系不是函数关系的是( )
A.角度和它的余弦值
B.正方形的边长和面积
C.正n边形的边数和各内角度数之和
D.人的年龄和身高
(2)两个变量的散点图如图所示,可应用的函数类型是( )
A.y=a·xb
B.y=a+bln
x
C.y=a·ebx
D.y=
解析:(1)函数关系就是一种变量之间的确定性的关系,A,B,C三项都是函数关系,它们的函数表达式分别为f(θ)=cos
θ,g(a)=a2,
h(n)=nπ-2π.D项不是函数关系,对于年龄确定的人群,仍可以有不同的身高,故选D.
答案:(1)D (2)B
思考辨析
判断下列说法是否正确,正确的在后面的括号内打“√”,错误的打“×”.
(1)线性回归分析就是由样本点去寻找贴近这些样本点的一条直线的数学方法.
( )
(2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示.
( )
(3)通过回归方程y=bx+a及其回归系数b,可以估计和观测变量的取值和变化趋势.
( )
(4)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.
( )
答案:(1)√ (2)√ (3)√ (4)×
探究一
探究二
思维辨析
已知模拟函数类型的可线性化回归分析
【例1】
在彩色显影中,由经验可知,形成染料的光学密度y与析出银的光学密度x由公式
表示,现测得试验数据如下:
试求y对x的回归方程.
思路分析:对题中所给的公式
(b<0)两边取自然对数,通过换元将其转化为含有x的一次方程,即两个新变量形成的线性回归方程,求出回归方程中的参数值,再通过一次变换把原参数值求出来即得要求的回归方程.
探究一
探究二
思维辨析
探究一
探究二
思维辨析
探究一
探究二
思维辨析
反思感悟已知曲线类型进行回归分析的步骤:
(1)将非线性函数通过变量代换转化为线性函数.
(2)将所给数据点加以转换.
(3)按最小二乘法原理求线性回归方程并进行检验.
(4)将线性回归方程转换为关于原始变量x,y的回归方程.
(5)依据回归方程作出预报.
探究一
探究二
思维辨析
变式训练1在试验中得到变量y与x的数据如下表:
探究一
探究二
思维辨析
探究一
探究二
思维辨析
未知函数类型的非线性回归分析
【例2】为了研究某种细菌繁殖的个数y随时间x变化的情况,收集数据如下:
(1)用天数作为解释变量,繁殖个数作为预报变量,作出这些数据的散点图;
(2)描述解释变量与预报变量之间的关系.
思路分析:画出散点图,根据散点图选择恰当的函数模型,进行回归分析.
探究一
探究二
思维辨析
解:(1)作出散点图如图所示.
(2)由散点图看出样本点分布在指数型函数y=c1的曲线的周围,于是令u=ln
y,则
由计算器算得u=0.69x+1.115,则有y≈e0.69x+1.115.
探究一
探究二
思维辨析
反思感悟非线性回归方程的求法
探究一
探究二
思维辨析
变式训练2在试验中得到变量y与x的数据如下表:
试求y与x之间的回归方程,并预测x=40时,y的值.
解:作散点图如图所示,
?
从散点图可以看出,两个变量x,y不呈线性相关关系,根据学过的函数知识,样本点分布的曲线符合指数型函数y=c1,通过对数变化把指数关系变为线性关系,令z=ln
y,则z=bx+a(a=ln
c1,b=c2).
探究一
探究二
思维辨析
列表:
作散点图如图所示,
?
从散点图可以看出,两个变量x,z呈很强的线性相关关系.由表中的数据得到线性回归方程为z=0.277x-3.998.
所以y关于x的指数回归方程为y=e0.277x-3.998.
所以,当x=40时,y=e0.277×40-3.998≈1
190.347.
探究一
探究二
思维辨析
因选错函数模型而致误
【典例】
在一次抽样调查中测得样本的5个样本点,数值如下表:
如何建立y与x之间的回归方程?
易错分析:本题易出现不画出散点图或求出相关系数r来进行相关性检验,而直接利用已知数据求回归方程,而本题的样本点不是线性相关的.
探究一
探究二
思维辨析
解:画出散点图如图①所示,观察可知y与x近似是反比例函数关系.
探究一
探究二
思维辨析
纠错心得平时学习时一定要对每一个基础知识理解透彻.
探究一
探究二
思维辨析
跟踪训练电容器充电后,电压达到100
V,然后开始放电,由经验知道,此后电压U随时间t变化的规律用公式U=Aebt(b<0)表示,现测得时间t(s)时的电压U(V)如下表:
试求电压U对时间t的回归方程.(提示:对公式两边取自然对数,把问题转化为线性回归分析问题)
探究一
探究二
思维辨析
解:对U=Aebt两边取对数得ln
U=ln
A+bt,令y=ln
U,a=ln
A,x=t,则y=a+bx,得y与x的数据如下表:
由y=ln
U,得U=ey,U=e4.61-0.313x=e4.61·e-0.313x,因此电压U对时间t的回归方程为U=e4.61·e-0.313x.
1
2
3
4
5
1
2
3
4
5
2.根据统计资料,我国能源生产发展迅速.下面是我国能源生产总量(单位:亿吨标准煤)的几个统计数据:
根据有关专家预测,到2020年我国能源生产总量将达到27.6亿吨左右,则专家所选择的回归模型是下列四种模型中的哪一种( )
A.y=ax+b(a≠0)
B.y=ax2+bx+c(a≠0)
C.y=ax(a>0且a≠1)
D.y=logax(a>0且a≠1)
答案:A
1
2
3
4
5
3.x,y满足如下表的关系:
则符合x,y之间的函数模型为 .?
解析:y的值与x2的值近似相等,所以用y=x2模拟.
答案:y=x2
1
2
3
4
5
4.某地今年上半年患某种传染病的人数y(人)与月份x(月)之间满足函数关系,模型为y=aebx,确定这个函数解析式 .?
解析:设u=ln
y,c=ln
a,得u=c+bx,
则u与x的数据关系如下表:
1
2
3
4
5
故u=3.911
58+0.09x.
所以y=e3.911
58+0.09x.
答案:y=e3.911
58+0.09x
1
2
3
4
5
5.某种书每册的成本费y(单位:元)与印刷册数x(单位:千册)有关,经统计得到的数据如下表:
检验每册书的成本费y与印刷册数的倒数
之间是否具有线性相关关系.如果有,求出y与x的线性回归方程.
1
2
3
4
5
解:由表中数据可得y与x的相关系数r≈-0.468,故每册书的成本费y与印刷费x不具有线性相关关系.2.1 条件概率与独立事件
课后训练案巩固提升
一、A组
1.从1,2,3,4,5中任取2个不同的数,事件A:“取到的2个数之和为偶数”,事件B:“取到的2个数均为偶数”,则P(B|A)=( )
A.
B.
C.
D.
解析:P(A)=,P(AB)=,
由条件概率计算公式,得P(B|A)=.
答案:B
2.盒中有5个红球,11个蓝球,红球中有2个玻璃球,3个塑料球,蓝球中有4个玻璃球,7个塑料球,现从中任取一球,假设每个球被摸到的可能性相同,若已知取到的球是玻璃球,则它是蓝球的概率是( )
A.
B.
C.
D.
解析:设摸到玻璃球为事件A,摸到蓝球为事件B,
则P(A)=,P(AB)=,
所求概率P=.
答案:B
3.某地区空气质量监测资料表明,一天的空气质量为优良的概率是0.75,连续两天为优良的概率是0.6,已知某天的空气质量为优良,则随后一天的空气质量为优良的概率是( )
A.0.8
B.0.75
C.0.6
D.0.45
解析:设某天空气质量优良,则随后一天空气质量也优良的概率为p,
则得0.6=0.75·p,解得p=0.8,故选A.
答案:A
4.把一枚硬币连续抛两次,记“第一次出现正面”为事件A,“第二次出现正面”为事件B,则P(B|A)等于( )
A.
B.
C.
D.
解析:P(B|A)=.
答案:A
5.
如图,用K,A1,A2三类不同的元件连接成一个系统.当K正常工作且A1,A2至少有一个正常工作时,系统正常工作.已知K,A1,A2正常工作的概率依次为0.9,0.8,0.8,则系统正常工作的概率为( )
A.0.960
B.0.864
C.0.720
D.0.576
解析:方法一:由题意知K,A1,A2正常工作的概率分别为P(K)=0.9,P(A1)=0.8,P(A2)=0.8,
∵K,A1,A2相互独立,
∴A1,A2至少有一个正常工作的概率为P(A2)+P(A1)+P(A1A2)=(1-0.8)×0.8+0.8×(1-0.8)+0.8×0.8=0.96.
∴系统正常工作的概率为P(K)[P(A2)+P(A1)+P(A1A2)]=0.9×0.96=0.864.
方法二:A1,A2至少有一个正常工作的概率为1-P()=1-(1-0.8)(1-0.8)=0.96,
∴系统正常工作的概率为P(K)[1-P()]=0.9×0.96=0.864.
答案:B
6.某次知识竞赛规则如下:在主办方预设的5个问题中,选手若能连续正确回答出两个问题,即停止答题,晋级下一轮.假设某选手正确回答每个问题的概率都是0.8,且每个问题的回答结果相互独立,则该选手恰好回答了4个问题就晋级下一轮的概率为 .?
解析:依题意可知,该选手的第二个问题必答错,第三、四个问题必答对,故该选手恰好回答了4个问题就晋级下一轮的概率P=1×0.2×0.8×0.8=0.128.
答案:0.128
7.明天上午李明要参加奥运志愿者活动,为了准时起床,他用甲、乙两个闹钟叫醒自己.假设甲闹钟准时响的概率为0.80,乙闹钟准时响的概率是0.90,则两个闹钟至少有一个准时响的概率是 .?
解析:1-(1-0.80)×(1-0.90)=1-0.02=0.98.
答案:0.98
8.盒中装有10只乒乓球,其中6只新球,4只旧球,不放回地依次取出2个球使用,在第一次取出新球的条件下,第二次也取到新球的概率为 .?
解析:第一次取出新球,则袋中还有9个球,其中5个新球,所以第二次取出新球的概率为.
答案:
9.导学号18334006集合A={1,2,3,4,5,6},甲、乙两人各从A中任取一个数,若甲先取,乙后取,在甲抽到奇数的条件下,求乙抽到的数比甲抽到的数大的概率.
解:解法1:将甲抽到数字a,乙抽到数字b,记作(a,b),则所有可能的抽取结果为:(1,2),(1,3),(1,4),(1,5),(1,6),(2,1),(2,3),(2,4),(2,5),(2,6),(3,1),(3,2),(3,4),(3,5),(3,6),(4,1),(4,2),(4,3),(4,5),(4,6),(5,1),(5,2),(5,3),(5,4),(5,6),(6,1),(6,2),(6,3),(6,4),(6,5),共30个.
其中甲抽到奇数的情形有15个,在这15个中,乙抽到的数比甲抽到的数大的有9个,
所求概率P=.
解法2:设甲抽到奇数的事件为A,甲抽到奇数,且乙抽到的数比甲大为事件B,则P(A)=.
P(AB)=,
故P(B|A)=.
10.某班有两个课外活动小组,其中第一小组有足球票6张,排球票4张;第二小组有足球票4张,排球票6张.甲从第一小组的10张票中任抽1张,乙从第二小组的10张票中任抽1张.
(1)两人都抽到足球票的概率是多少?
(2)两人中至少有1人抽到足球票的概率是多少?
解:记“甲从第一小组的10张票中任抽1张,抽到足球票”为事件A,“乙从第二小组的10张票中任抽1张,抽到足球票”为事件B,则“甲从第一小组的10张票中任抽1张,抽到排球票”为事件,“乙从第二小组的10张票中任抽1张,抽到排球票”为事件,于是
P(A)=,P()=;
P(B)=,P()=.
由于甲(或乙)是否抽到排球票,对乙(或甲)是否抽到足球票没有影响,因此A与B是相互独立事件.
(1)两人都抽到足球票的概率为P=P(A)·P(B)=.
(2)两人都抽到排球票的概率为P=P()·P()=.
故两人至少有1人抽到足球票的概率为P=1-.
二、B组
1.已知某产品的次品率为4%,其合格品中75%为一级品,则任选一件为一级品的概率为( )
A.75%
B.96%
C.72%
D.78.125%
解析:记“任选一件产品是合格品”为事件A,则P(A)=1-P()=1-4%=96%.
记“任选一件产品是一级品”为事件B.由于一级品必是合格品,所以事件A包含事件B,
故P(AB)=P(B).
由合格品中75%为一级品知P(B|A)=75%;
故P(B)=P(AB)=P(A)·P(B|A)=96%×75%=72%.
答案:C
2.从甲口袋内摸出1个白球的概率是,从乙口袋内摸出1个白球的概率是,从两个口袋内各摸出1个球,那么等于( )
A.2个球都是白球的概率
B.2个球都不是白球的概率
C.2个球不都是白球的概率
D.2个球中恰有1个是白球的概率
解析:记从甲口袋内摸出1个白球为事件A,从乙口袋内摸出1个白球为事件B,则A,B是独立事件,于是P(AB)=P(A)P(B)=,它表示从甲、乙口袋中摸出来的都是白球,故为2个球不都是白球的概率.
答案:C
3.已知P(AB)=P(A)P(B),且P()=,P(A)=P(B),则事件A发生的概率是( )
A.
B.
C.
D.
解析:由P(AB)=P(A)P(B),知A与B相互独立,故A与与B,都是相互独立的,
由P(A)=P(B),得P(A)P()=P(B)P(),
即P(A)[1-P(B)]=P(B)[1-P(A)],
得P(A)=P(B).
∵P()=,∴P()=P()=,
∴P(A)=.
答案:D
4.某农业科技站对一批新水稻种子进行试验,已知这批水稻种子的发芽率为0.8,出芽后的幼苗成活率为0.9.在这批水稻种子中,随机地取出一粒,则这粒水稻种子发芽并能成长为幼苗的概率为( )
A.0.02
B.0.08
C.0.18
D.0.72
解析:设“这粒水稻种子发芽”为事件A,
“这粒水稻种子发芽并成长为幼苗”为事件AB,
“这粒水稻种子在发芽的前提下能成长为幼苗”为事件B|A,则P(A)=0.8,P(B|A)=0.9,由条件概率公式,得
P(AB)=P(B|A)·P(A)=0.9×0.8=0.72.
答案:D
5.市场上供应的灯泡中,甲厂占70%,乙厂占30%,甲厂产品的合格率是95%,乙厂产品的合格率是80%,则市场上灯泡的合格率是 .?
解析:记A={甲厂产品},B={乙厂产品},C={合格产品},则C=AC+BC,所以P(C)=P(AC)+P(BC)=P(A)·P(C|A)+P(B)·P(C|B)=70%×95%+30%×80%=0.905=90.5%.
答案:90.5%
6.(2015贵阳模拟)袋中有5个球,其中3个白球,2个黑球,现不放回地每次抽取1个球,则在第一次取到白球的条件下,第二次取到白球的概率为 .?
解析:第一次取到白球为事件A,第二次取到白球为事件B,则P(A)=,P(AB)=,P(B|A)=.
答案:
7.从一副不含大小王的52张扑克牌中不放回地抽取2次,每次抽1张,已知第1次抽到A,则第2次也抽到A的概率为多少?
解:设第1次抽到A为事件M,第2次也抽到A为事件N,则MN表示两次都抽到A,
P(M)=,
P(MN)=,
P(N|M)=.
8.导学号18334007制造一机器零件,甲机床生产的废品率是0.04,乙机床生产的废品率是0.05,从它们生产的产品中各任取1件,求:
(1)两件都是废品的概率;
(2)其中没有废品的概率;
(3)其中恰有1件废品的概率;
(4)其中至少有1件废品的概率;
(5)其中至多有1件废品的概率.
解:设“从甲机床生产的产品中抽得1件是废品”为事件A,“从乙机床生产的产品中抽得1件是废品”为事件B.则P(A)=0.04,P(B)=0.05.
(1)P(AB)=P(A)P(B)=0.04×0.05=0.002.
(2)P()=P()P()=0.96×0.95=0.912.
(3)P(
B+A
)=P()P(B)+P(A)P()=0.96×0.05+0.04×0.95=0.086.
(4)至少有一件是废品的对应事件为
B+A
+AB,易知
B,A
,AB是彼此互斥的三件事件.
故所求概率为P=P(
B+A
+AB)=P(
B+A
)+P(AB)=0.086+0.002=0.088.(利用(1),(3)小题的结果)或考虑其对应事件“没有废品”,故P=1-P()=1-0.912=0.088.
(5)“至多有一件是废品”即为事件
B+A
;其对立事件为“两件都是废品”:AB.故所求概率P=P(
B+A
)=1-P(AB)=1-0.002=0.998.第1课时 统计案例
课后训练案巩固提升
一、A组
1.根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为y=bx+a,则( )
A.a>0,b<0
B.a>0,b>0
C.a<0,b<0
D.a<0,b>0
解析:由散点图知b<0,a>0,选A.
答案:A
2.具有线性相关关系的变量x,y,满足一组数据如下表所示.若y与x的回归直线方程为y=3x-,则m的值是( )
x
0
1
2
3
y
-1
1
m
8
A.4
B.
C.5
D.6
解析:由已知得+2,又因为点()在直线y=3x-上,所以+2=3×,得m=4.
答案:A
3.小乐与小波在学了变量的相关性之后,两人约定回家去利用各自记录的6~10岁的身高作为实验数据,进行回归分析,探讨年龄x(岁)与身高y(cm)之间的线性相关性.经计算小乐与小波求得的线性回归直线分别为l1,l2.在认真比较后,两人发现他们这五年身高的平均值都为110
cm,而且小乐的五组实验数据均满足所求的直线方程,小波则只有两组实验数据满足所求的直线方程.下列说法错误的是( )
A.直线l1,l2一定有公共点(8,110)
B.在两人的回归分析中,小乐求得的线性相关系数r=1,小波求得的线性相关系数r∈(0,1)
C.在小乐的回归分析中,他认为x与y之间完全线性相关,所以自己的身高y(cm)与年龄x(岁)成一次函数关系,利用l1可以准确预测自己20岁的身高
D.在小波的回归分析中,他认为x与y之间不完全线性相关,所以自己的身高y(cm)与年龄x(岁)成相关关系,利用l2只可以估计预测自己20岁的身高
解析:回归分析只能预测,得到估计值,不是准确值.
答案:C
4.2017年元旦期间,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:
不能做到“光盘”
能做到“光盘”
男
45
10
女
30
15
则下面的正确结论是( )
A.有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”
D.有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”
解析:由2×2列联表得到a=45,b=10,c=30,d=15,则a+b=55,c+d=45,a+c=75,b+d=25,ad=675,bc=300,n=100,计算得χ2=≈3.030.
因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”,故选A.
答案:A
5.某研究小组为了研究中学生的身体发育情况,在某学校随机抽取20名15至16周岁的男生,将他们的身高和体重制成2×2的列联表,根据列联表的数据,判断在有 的把握认为该学校15至16周岁的男生的身高和体重之间有关系.?
超重
不超重
总计
偏高
4
1
5
不偏高
3
12
15
总计
7
13
20
附:独立性检验临界值表
P
0.025
0.010
0.005
0.001
χ2
5.024
6.635
7.879
10.828
解析:由题表可得a+b=5,c+d=15,a+c=7,b+d=13,ad=48,bc=3,n=20,所以χ2=≈5.934,
由于5.934>5.024,所以有97.5%的把握认为该学校15至16周岁的男生的身高和体重之间有关系.
答案:97.5%
6.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(χ2≥3.841)≈0.05,P(χ2≥5.024)≈0.025.
根据表中数据,得到χ2=≈4.844.则认为选修文科与性别有关系的把握有 .?
解析:∵χ2≈4.844,这表明小概率事件发生.
根据假设检验的基本原理,应该有95%的把握断定“是否选修文科与性别之间有关系”成立.
答案:95%
7.某数学老师的身高是176
cm,他爷爷、父亲和儿子的身高分别是173
cm,170
cm和182
cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为
cm.?
解析:儿子和父亲的身高可列表如下:
父亲身高y
173
170
176
儿子身高x
170
176
182
设线性回归方程y=a+bx,由表中的三组数据可求得b=1,故a=-b=176-173=3,故线性回归方程为y=3+x,将x=182代入得孙子的身高为185
cm.
答案:185
8.有同学在用电子邮件时发现了一个有趣的现象,中国人的邮箱名称里含有数字的比较多,而外国人邮箱名称里含有数字的比较少.为了研究国籍与邮箱名称是否含有数字有关,于是我们共收集了124个邮箱名称,其中中国人的64个,外国人的60个,中国人的邮箱中有43个含数字,外国人的邮箱中有27个含数字.有多大的把握认为“国籍和邮箱名称里是否含有数字有关”?
χ2=
P
0.25
0.15
0.10
0.05
0.025
0.010
χ2
1.323
2.072
2.706
3.841
5.024
6.635
解:
中国人
外国人
合计
有数字
43
27
70
无数字
21
33
54
合计
64
60
124
由表中数据,得χ2=≈6.201,∵χ2≥5.024,∴有97.5%的把握认为“国籍和邮箱名称里是否含有数字有关”.
9.导学号18334058有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的列联表.
优秀
非优秀
合计
甲班
10
乙班
30
合计
105
已知在全部105人中随机抽取1人为优秀的概率为.
(1)请完成上面的列联表;
(2)根据列联表的数据,若按95%的可靠性要求,能否认为“成绩与班级有关系”?
(3)若按下面的方法从甲班优秀的学生中抽取一人:把甲班优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号.试求抽到6或10号的概率.
参考公式:χ2=
P(χ2≥k0)
0.10
0.05
0.025
0.010
k0
2.706
3.841
5.024
6.635
解:(1)
优秀
非优秀
合计
甲班
10
45
55
乙班
20
30
50
合计
30
75
105
(2)根据列联表中的数据,得到
χ2=≈6.109>3.841,
因此有95%的把握认为“成绩与班级有关系”.
(3)设“抽到6或10号”为事件A,先后两次抛掷一枚均匀的骰子,出现的点数为(x,y).
所有的基本事件有(1,1),(1,2),(1,3),…,(6,6),共36个.
事件A包含的基本事件有:(1,5),(2,4),(3,3),(4,2),(5,1),(4,6),(5,5),(6,4),共8个,
∴P(A)=.
二、B组
1.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且y=2.347x-6.423;
②y与x负相关且y=-3.476x+5.648;
③y与x正相关且y=5.437x+8.493;
④y与x正相关且y=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①②
B.②③
C.③④
D.①④
解析:①中,回归方程中x的系数为正,不是负相关;④方程中的x的系数为负,不是正相关,∴①④一定不正确.
答案:D
2.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )
A.r2
B.0C.r2<0D.r2=r1
解析:变量Y随X的增大而增大,故Y与X正相关,所以r1>0;变量V随U的增大而减小,故V与U负相关,即r2<0,所以r2<0答案:C
3.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为y=bx+a.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b'x+a',则以下结论正确的是( )
A.b>b',a>a'
B.b>b',aC.ba'
D.b解析:,代入公式得,b=,a=b,而b'=2,a'=-2,所以ba'.
答案:C
4.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
8
8.2
8.4
8.6
8.8
9
销量y(件)
90
84
83
80
75
68
由表中数据,求得线性回归方程为y=-20x+a.若在这些样本点中任取一点,则它在回归直线左下方的概率为
( )
A.
B.
C.
D.
解析:易得=8.5,=80,故a=-b=80-(-20)×8.5=250,∴y=-20x+250,写成y+20x-250=0,令f(x,y)=y+20x-250,由f(0,0)<0且点(0,0)在回归直线的左下方可知,满足f(x,y)<0的数据点均在回归直线的左下方,逐一验证可知使f(x,y)<0的是(8.2,84)和(9,68)两组数据点.故所求概率为P=.故选B.
答案:B
5.某校为了研究学生的性别与对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=6.669,则所得到的统计学结论是:有 %的把握认为“学生性别与支持该活动有关系”.?
附:
P
0.100
0.050
0.025
0.010
0.001
χ2
2.706
3.841
5.024
6.635
10.828
解析:因为6.669与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.故填99.
答案:99
6.若8名学生的身高和体重数据如下表:
编号
1
2
3
4
5
6
7
8
身高x/cm
165
165
157
170
175
165
155
170
体重y/kg
48
57
54
64
61
43
59
第3名学生的体重漏填,但线性回归方程是y=0.849x-85.712,则第3名学生的体重估计为 .?
解析:设第3名学生的体重为a,根据样本点的中心一定在回归直线上,可得=
0.849×-85.712,解得a≈50.
答案:50
kg
7.微信是现代生活进行信息交流的重要工具,据统计,某公司200名员工中90%的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中75%是青年人.若规定:每天使用微信时间在一小时以上为经常使用微信,那么经常使用微信的员工中是青年人.
(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出2×2列联表:
青年人
中年人
合计
经常使用微信
不经常使用微信
合 计
(2)由列联表中所得数据判断,是否有99.9%的把握认为“经常使用微信与年龄有关”?
(3)采用分层抽样的方法从“经常使用微信”的人中抽取6人,从这6人中任选2人,求选出的2人均是青年人的概率.
附:χ2=
P(χ2≥k)
0.010
0.001
k
6.635
10.828
解:(1)由已知可得,该公司员工中使用微信的有200×90%=180人,经常使用微信的有180-60=120人,其中青年人有120×=80人,使用微信的人中青年人有180×75%=135人,所以2×2列联表:
青年人
中年人
合计
经常使用微信
80
40
120
不经常使用微信
55
5
60
合 计
135
45
180
(2)将列联表中数据代入公式可得:
χ2=≈13.333,
由于13.333>10.828,所以有99.9%的把握认为“经常使用微信与年龄有关”.
(3)从“经常使用微信”的人中抽取6人,其中,青年人有×6=4人,中年人有×6=2人,记4名青年人的编号分别为1,2,3,4,2名中年人的编号分别为5,6,则从这6人中任选2人的基本事件有(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6),共15个,其中选出的2人均是青年人的基本事件有(1,2),(1,3),(1,4),(2,3),(2,4),(3,4),共6个,故所求事件的概率为.
8.导学号18334059为研究冬季昼夜温差大小对某反季节大豆新品种发芽率的影响,某农科所记录了5组昼夜温差与100颗种子发芽数,得到如下资料:
组 号
1
2
3
4
5
温差x(℃)
10
11
13
12
8
发芽数y(颗)
23
25
30
26
16
该所确定的研究方案是:先从这五组数据中选取2组,用剩下的3组数据求出线性回归方程,再对被选取的2组数据进行检验.
(1)若选取的是第1组与第5组的两组数据,请根据第2组至第4组的数据,求出y关于x的线性回归方程y=bx+a;
(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?
解:(1)由题意:=12,=27,b=
=
=.
a=-b=27-×12=-3,
故回归直线方程为y=x-3.
(2)当x=10时,y=×10-3=22,|22-23|=1<2,
当x=8时,y=×8-3=17,|17-16|=1<2,
∴(1)中所得的回归直线方程可靠.(共38张PPT)
1.1 回归分析 1.2 相关系数
一、线性回归方程
1.原理
一般地,设有n个收集到的数据如下:
当a,b能够满足使得Q(a,b)=(y1-a-bx1)2+(y2-a-bx2)2+…+(yn-a-bxn)2取得最小值时,称y=a+bx为拟合这n对数据的线性回归方程,该方程所表示的直线称为回归直线.
2.公式
名师点拨如果散点图中点的分布从整体上看大致在一条直线附近,那么我们称这两个变量之间具有线性相关关系,这条直线叫回归直线,从整体上看各点与此直线的“距离”平方之和最小,即最贴近已知的数据点,最能代表变量x与y之间的关系.
一般情况下,在尚未断定两个变量之间是否具有线性相关关系的情况下,应先进行相关性检验,在确认具有线性相关关系后,再求线性回归方程.
(1)线性回归方程y=a+bx经过样本点的中心
称为样本点的中心,回归直线一定过此点.
(2)线性回归方程中的截距a和斜率b都是通过样本估计得来的,存在着误差.这种误差可能导致预报结果的偏差.
(3)线性回归方程y=a+bx中的b表示x增加1个单位时y的变化量,而a表示y不随x的变化而变化的量.
(4)可以利用线性回归方程y=a+bx预报在x取某一个值时,y的估计值.
【做一做1】
(1)设有一个回归方程为y=2-2.5x,当变量x增加1个单位时( )
A.y平均增加2.5个单位
B.y平均增加2个单位
C.y平均减少2.5个单位
D.y平均减少2个单位
(2)某医院用光电比色检验尿汞时,得到尿汞含量x(单位:毫克/升)与消化系数y的一组数据如下表:
若x与y具有线性相关关系,则回归直线方程是
.
解析:(1)由回归方程的系数b=-2.5可知,x每增加1个单位,则y平均减少2.5个单位.
(2)利用公式得b=26.95,
,从而回归直线方程为y=26.95x+28.7.
答案:(1)C (2)y=26.95x+28.7
二、相关系数
1.相关系数
2.正相关、负相关与线性不相关
(1)正相关:当r>0时,lxy>0,从而
,两个变量的值总体上呈现出同时增减的趋势,此时称两个变量正相关.
(2)负相关:当r<0时,b<0,一个变量增加,另一个变量有减少的趋势,称两个变量负相关.
(3)线性不相关:当r=0时,称两个变量线性不相关.
特别提醒1.判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就必须利用线性相关系数来判断.
2.|r|越接近1,它们的散点图越接近一条直线,这时用线性回归模型拟合这组数据的效果就越好.
3.相关系数r只能描述两个变量之间的变化方向及密切程度,不能揭示二者之间的本质联系.
4.相关系数r可以定量地反映出变量间的相关程度,明确地给出有无必要建立两变量间的回归方程.
【做一做2】
(1)设两个变量x与y之间具有线性相关关系,相关系数是r,回归方程为y=a+bx,那么必有( )
A.b与r符号相同
B.a与r符号相同
C.b与r符号相反
D.a与r符号相反
(2)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
解析:(1)因为b与r的分母均为正,且分子相同,所以b与r同号.
(2)因为变量x和y满足关系y=-0.1x+1,其中-0.1<0,所以x与y负相关;又因为变量y与z正相关,不妨设z=ky+b(k>0),则将y=-0.1x+1代入即可得到:z=k(-0.1x+1)+b=-0.1kx+(k+b),所以-0.1k<0,所以x与z负相关,综上可知,应选C.
答案:(1)A (2)C
思考辨析
判断下列说法是否正确,正确的在后面的括号内打“√”,错误的打“×”.
(1)线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法.
( )
(2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示.
( )
(3)通过回归方程y=bx+a,可以估计和观测变量的取值和变化趋势.
( )
(4)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.
( )
(5)回归分析是具有相关关系的两个变量进行统计分析的一种方法.
( )
答案:(1)√ (2)√ (3)√ (4)× (5)√
探究一
探究二
探究三
思维辨析
求回归直线方程
【例1】
已知某地区4~10岁女孩各自的平均身高数据如下:
求y对x的线性回归方程.
思路分析:根据求回归系数的公式求a,b,再写出回归直线方程.
探究一
探究二
探究三
思维辨析
探究一
探究二
探究三
思维辨析
反思感悟求回归直线方程的一般步骤:
(1)作出散点图,依据问题所给的数据在平面直角坐标系中描点,观察点的分布是否呈条状分布,即是否在一条直线附近,从而判断两变量是否具有线性相关关系.
(2)当两变量具有线性相关关系时,求回归系数a,b,写出回归直线方程.
探究一
探究二
探究三
思维辨析
变式训练1某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
(1)请画出上表数据的散点图(要求:点要描粗);
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a.
探究一
探究二
探究三
思维辨析
解:(1)
探究一
探究二
探究三
思维辨析
相关系数的应用
【例2】已知某地每单位面积菜地年平均使用氮肥量x(kg)与每单位面积蔬菜年平均产量y(t)之间的关系有如下数据:
(1)求x与y之间的相关系数,并检验是否线性相关;
(2)若线性相关,求蔬菜产量y与使用氮肥量x之间的线性回归方程,并估计每单位面积施氮肥150
kg时,每单位面积蔬菜的年平均产量.
探究一
探究二
探究三
思维辨析
思路分析:本题为探索两个变量之间是否具有线性相关关系的问题,可以通过计算线性相关系数来判断.
解:列出下表,并用科学计算器进行相关计算:
探究一
探究二
探究三
思维辨析
探究一
探究二
探究三
思维辨析
反思感悟线性回归分析的简要步骤
1.随机抽取样本,确定样本数据.
2.判断两变量是否具有线性相关关系,可画出散点图用散点图判断;也可计算相关系数r,用相关系数作出判断.
3.若两变量线性相关,用最小二乘法求出回归直线方程.
4.分析模型的拟合效果,看有无特殊点,不合适时,分析错因,加以纠正.
5.依据回归方程作出预报.
探究一
探究二
探究三
思维辨析
变式训练2测得某国10对父子的身高(单位:英寸)如下表:
(1)对变量y与x进行相关性检验;
(2)如果y与x之间具有线性相关关系,求线性回归方程;
(3)如果父亲的身高为73英寸,估计儿子的身高.
探究一
探究二
探究三
思维辨析
探究一
探究二
探究三
思维辨析
(2)设线性回归方程为y=bx+a.
所以y=bx+a=0.464
6x+35.974
7.
故所求的线性回归方程为y=0.464
6x+35.974
7.
(3)当x=73时,
儿子的身高的估计值为0.464
6×73+35.974
7≈69.9(英寸).
所以当父亲身高为73英寸时,估计儿子的身高约为69.9英寸.
探究一
探究二
探究三
思维辨析
利用回归直线方程进行预测
【例3】
某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价x(x取整数)(元)与日销售量y(台)之间有如下关系:
(1)画出散点图,并判断y与x是否具有线性相关关系;
(2)求日销售量y对销售单价x的线性回归方程;
(3)设经营此商品的日销售利润为P元,根据(2)写出P关于x的函数关系式,并预测当销售单价x为多少元时,才能获得最大日销售利润.
思路分析:先由散点图确定y与x具有相关关系,再用求回归直线方程的方法求出回归直线方程,最后,进行相应的预测.
探究一
探究二
探究三
思维辨析
解:(1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.
探究一
探究二
探究三
思维辨析
探究一
探究二
探究三
思维辨析
反思感悟根据已给的数据,寻找规律,求出回归直线方程不是最终目的,最终目的应是当一个变量取某个值时,预测另一个变量的取值.当然,预测的值是一个估计值,与实际真正的值有一定误差.
探究一
探究二
探究三
思维辨析
变式训练3某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表:
(1)求年推销金额y对工作年限x的线性回归方程;
(2)若第5名推销员的工作年限为11年,试估计他的年推销金额.
探究一
探究二
探究三
思维辨析
解:设所求的线性回归方程为y=a+bx,
所以年推销金额y对工作年限x的线性回归方程为y=0.4+0.5x.
当x=11时,y=0.4+0.5×11=5.9(万元),
故可以估计第5名推销员的年推销金额为5.9万元.
探究一
探究二
探究三
思维辨析
因对回归直线理解不清致误
【典例】
已知x,y的取值如下表所示,由散点图分析可知y与x线性相关,且线性回归方程为y=0.95x+2.6,那么表格中的数据m的值为 .?
易错分析:本题易出现直接将m所对应的x值4代入回归直线方程,而求出m=6.4作为结果.实质上,回归直线方程并不是x与y的函数关系,因此必须利用样本中心点坐标求解.
答案:6.7
纠错心得平时学习时一定要对每一个基础知识理解透彻.
探究一
探究二
探究三
思维辨析
跟踪训练某研究所研究耕种深度x(单位:cm)与水稻产量y(单位:t)的关系,所得的数据如下表:
试求每公顷水稻产量和耕种深度的线性相关系数与线性回归方程.
探究一
探究二
探究三
思维辨析
解:将数据列成下表:
1
2
3
4
5
1.对于相关系数r,下列说法正确的是( )
A.|r|越大,相关程度越小
B.|r|越小,相关程度越大
C.|r|越大,相关程度越小,|r|越小,相关程度越大
D.|r|≤1且|r|越接近于1,相关程度越大,|r|越接近于0,相关程度越小
解析:|r|≤1,当|r|越接近于1,误差越小,变量之间的线性相关程度越高;|r|越接近于0,误差越大,变量之间的线性相关程度越低,故选D.
答案:D
1
2
3
4
5
2.已知某商品销售量y(件)与销售价格x(元/件)负相关,则其线性回归方程可能是( )
A.y=-10x+200
B.y=10x+200
C.y=-10x-200
D.y=10x-200
解析:由于销售量y与销售价格x成负相关,故排除B,D.又当x=10时,A中y=100,而C中y=-300,C不符合题意,故选A.
答案:A
1
2
3
4
5
3.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为y=0.85x-85.71,则下列结论不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心
C.若该大学某女生身高增加1
cm,则其体重约增加0.85
kg
D.若该大学某女生身高为170
cm,则可断定其体重必为58.79
kg
解析:本题考查线性回归方程.
D项中身高为170
cm时,体重“约为”58.79,而不是“确定”,回归方程只能作出“估计”,而非确定“线性”关系.
答案:D
1
2
3
4
5
4.已知x,y的取值如下表:
若x,y具有线性相关关系,且回归直线方程为y=0.95x+a,则a的值为 .?
1
2
3
4
5
5.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
(1)求线性回归方程y=bx+a,其中b=-20,
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
1
2
3
4
51.1 回归分析 1.2 相关系数
课后训练案巩固提升
一、A组
1.下列两个变量之间的关系是相关关系的是( )
A.圆的面积与半径
B.球的体积与半径
C.角度与它的正弦值
D.一个考生的数学成绩与物理成绩
解析:由题意知A表示圆的面积与半径之间的关系S=πr2;B表示球的体积与半径之间的关系V=πr2;C表示角度与它的正弦值y=sin
α,以上所说的都是确定的函数关系,相关关系不是确定性的关系,故选D.
答案:D
2.在对两个变量x,y进行线性回归分析时有下列步骤:①对所求出的回归方程作出解释;②收集数据(xi,yi),其中i=1,2,…,n;③求线性回归方程;④求相关系数;⑤根据所搜集的数据绘制散点图.如果根据可靠性要求能够作出变量x,y线性相关的结论,那么在下列操作顺序中正确的是( )
A.①②⑤③④
B.③②④⑤①
C.②④③①⑤
D.②⑤④③①
解析:根据线性回归分析思想可知,两个变量x,y进行线性回归分析时,应先收集数据(xi,yi),然后绘制散点图,再求相关系数和线性回归方程,最后对所求的回归方程作出解释,因此选D.
答案:D
3.下表提供了某厂节能降耗技术改造后在生产A产品过程中记录的产量x(t)与相应的生产能耗y(t)的几组对应数据:
x
3
4
5
6
y
2.5
t
4
4.5
根据上表提供的数据,求出y关于x的线性回归方程为y=0.7x+0.35,那么表中t的值为( )
A.3
B.3.15
C.3.5
D.4.5
解析:样本中心点是(),即.因为回归直线过该点,所以=0.7×4.5+0.35,解得t=3.
答案:A
4.设一个回归方程为y=3-5x,当变量x增加一个单位时
( )
A.y平均增加3个单位
B.y平均减小5个单位
C.y平均增加5个单位
D.y平均减小3个单位
解析:-5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位.
答案:B
5.对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的截距为( )
A.a=y+bx
B.a=+b
C.a=y-bx
D.a=-b
解析:回归直线方程中的截距即为a,由公式=a+b
得a=-b
,故选D.
答案:D
6.如图所示有5组数据,去掉 后,剩下的4组数据的线性相关性更强.?
解析:根据散点图判定两变量的线性相关性,样本数据点越集中在某一直线附近,这两变量的线性相关性越强,显然去掉D(3,10)后,其余各点更能集中在某一直线附近,即线性相关性更强.
答案:D(3,10)
7.许多因素都会影响贫穷,教育也许是其中之一,在研究这两个因素的关系时收集了美国50个州的成年人受过9年或更少教育的百分比(x)和收入低于官方规定的贫困线的人数占本州人数的百分比(y)的数据,建立的回归直线方程为y=0.8x+4.6,则成年人受过9年或更少教育的百分比(x)和收入低于官方的贫困线的人数占本州人数的百分比(y)之间的相关系数 .(填“大于0”或“小于0”)?
解析:一个地区受过9年或更少教育的百分比每增加1%,收入低于官方规定的贫困线的人数占本州人数的百分比将增加0.8%左右.
答案:大于0
8.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本的资料进行线性回归分析,结果如下:=71,=79,xiyi=1
481.
b=≈-1.818
2,
a=71-(-1.818
2)×≈77.36,则销量每增加1
000箱,单位成本下降 元.?
解析:由题意可得,y=-1.818
2x+77.36,销量每增加1千箱,则单位成本下降1.818
2元.
答案:1.818
2
9.导学号18334001某5名学生的数学成绩和化学成绩如下表:
数学成绩x
88
76
73
66
63
化学成绩y
78
65
71
64
61
(1)画出散点图;
(2)如果x,y呈线性相关关系,求y对x的线性回归方程.
解:(1)散点图如图:
(2)=73.2,=67.8,=27
174,=23
167,xiyi=25
054,
b=≈0.625,
a=-b≈22.05,
所求回归方程为y=22.05+0.625x.
二、B组
1.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为y=bx+a.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b'x+a',则以下结论正确的是( )
A.b>b',a>a'
B.b>b',aC.ba'
D.b解析:由(1,0),(2,2)求b',a'.
b'==2,a'=0-2×1=-2.
求b,a时,xiyi=0+4+3+12+15+24=58,
=3.5,,
=1+4+9+16+25+36=91,
∴b=,
a=×3.5==-,
∴ba'.
答案:C
2.某产品的广告费用x与销售额y的统计数据如下表
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得回归方程y=bx+a中的b为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元
B.65.5万元
C.67.7万元
D.72.0万元
解析:由表可计算=42,因为点在回归直线y=bx+a上,且b为9.4,所以42=9.4×+a,解得a=9.1,故回归方程为y=9.4x+9.1,令x=6得y=65.5,选B.
答案:B
3.下表是某厂1~4月份用水量(单位:百吨)的一组数据:
月份x
1
2
3
4
用水量y/百吨
4.5
4
3
2.5
由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归直线方程是y=-0.7x+a,则a等于( )
A.10.5
B.5.15
C.5.2
D.5.25
解析:,a=-b+0.7×=5.25.
答案:D
4.对于回归分析,下列说法错误的是( )
A.在回归分析中,变量间的关系是非确定性关系,因此因变量不能由自变量唯一确定
B.线性相关系数可以是正的或负的
C.回归分析中,如果r=±1,说明x与y之间完全线性相关
D.样本相关系数r∈(-1,1)
解析:∵相关系数|r|≤1,∴D错.
答案:D
5.某市居民2012~2016年家庭年平均收入x(单位:万元)与年平均支出Y(单位:万元)的统计资料如下表所示:
年份
2012
2013
2014
2015
2016
收入x
11.5
12.1
13
13.3
15
支出Y
6.8
8.8
9.8
10
12
根据统计资料,居民家庭平均收入的中位数是 ,家庭年平均收入与年平均支出有 线性相关关系.?
解析:中位数的定义的考查,奇数个时按大小顺序排列后中间一个是中位数,而偶数个时须取中间两数的平均数,r≈0.97,正相关.
答案:13 正
6.某同学在研究性学习中,收集到某制药厂今年前5个月甲胶囊生产产量(单位:万盒)的数据如下表所示:
x(月份)
1
2
3
4
5
y(万盒)
5
5
6
6
8
若x,y线性相关,线性回归方程为y=0.7x+a,则估计该制药厂6月份生产甲胶囊产量为 万盒.?
解析:由题意知=3,=6,则a=-0.7=3.9,
故x=6时,y=8.1.
答案:8.1
7.导学号18334002某地最近十年粮食需求量逐年上升,下表是部分统计数据:
年份
2012
2013
2014
2015
2016
需求量(万吨)
236
246
257
276
286
(1)利用所给数据求年需求量与年份之间的回归直线方程y=bx+a;
(2)利用(1)中所求出的直线方程预测该地2020年的粮食需求量.
解:(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求回归直线方程,先将数据预处理如下:
年份-2014
-2
-1
0
1
2
需求量-257
-21
-11
0
19
29
由预处理后的数据,容易算得
=0,=3.2,b=13,
a=-b=3.2.
由上述计算结果知,所求回归直线方程为y-257=b(x-2
014)+a
=13(x-2
014)+3.2.
即y=13(x-2
014)+260.2.
(2)利用所求得的直线方程,可预测2020年的粮食需求量为13×(2
020-2
014)+260.2=13×6+260.2=388.2(万吨)≈340(万吨).第一章测评
(时间:120分钟 满分:150分)
一、选择题(本大题共12小题,每小题5分,共60分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y=3ex+3的图像附近,则当x=-2时,y的值为( )
A.3e
B.e
C.3e-1
D.e-1
解析:当x=-2时,y=3e-2+3=3e.
答案:A
2.一位母亲记录了儿子3~9岁的身高,由此建立的身高y(单位:cm)与年龄x(单位:岁)的回归方程为y=7.19x+73.93.用这个方程预测这个孩子10岁时的身高,则正确的叙述是( )
A.身高一定是145.83
cm
B.身高在145.83
cm以上
C.身高在145.83
cm以下
D.身高在145.83
cm左右
解析:回归模型的预报值是一种估计值,故选D.
答案:D
3.下列结论正确的是( )
①函数关系是一种确定性关系;
②相关关系是一种非确定性关系;
③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;
④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
A.①②
B.①②③
C.①②④
D.①②③④
答案:C
4.若线性回归方程为y=2-3.5x,则变量x增加一个单位,变量y平均( )
A.减少3.5个单位
B.增加2个单位
C.增加3.5个单位
D.减少2个单位
解析:由线性回归方程可知b=-3.5,则变量x增加一个单位,y减少3.5个单位,即变量y平均减少3.5个单位.
答案:A
5.下表是某厂1~4月份用水量(单位:百吨)的一组数据:
月份x
1
2
3
4
用水量y
4.5
4
3
2.5
由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归方程是y=-0.7x+a,则a等于
( )
A.10.5
B.5.15
C.5.2
D.5.25
解析:样本点的中心为(2.5,3.5),将其代入线性回归方程可解得a=5.25.
答案:D
6.两个分类变量X与Y,可能的取值分别为{x1,x2}和{y1,y2},其样本频数满足a=10,b=21,c+d=35,若X与Y有关系的可信程度为90%,则c的值可能等于( )
A.4
B.5
C.6
D.7
解析:若X与Y有关系的可信程度为90%,则χ2的范围为2.706<χ2<3.841,根据计算公式χ2=及a=10,b=21,c+d=35可估算出c值.
答案:B
7.某公司过去五个月的广告费支出x与销售额y(单位:万元)之间有下列对应数据:
x
2
4
5
6
8
y
▲
40
60
50
70
工作人员不慎将表格中y的第一个数据丢失.已知y对x呈线性相关关系,且回归方程为y=6.5x+17.5,则下列说法:①销售额y与广告费支出正相关;②丢失的数据(表中▲处)为30;③该公司广告费支出每增加1万元,销售额一定增加6.5万元;④若该公司下月广告投入8万元,则销售额为70万元.其中,正确说法有( )
A.1个
B.2个
C.3个
D.4个
解析:由回归直线方程为y=6.5x+17.5,可知b=6.5,则销售额y与广告费支出x正相关,所以①是正确的;由表中的数据可得=5,,把点代入回归方程,可得=6.5×5+17.5,解得a=30,所以②是正确的;该公司广告费支出每增加1万元,销售额应平均增加6.5万元,所以③不正确;若该公司下月广告投入8万元,则销售额为y=6.5×8+17.5=69.5万元,所以④不正确,故选B.
答案:B
8.观察下列散点图,其中两个变量的相关关系判断正确的是( )
A.a为正相关,b为负相关,c为不相关
B.a为负相关,b为不相关,c为正相关
C.a为负相关,b为正相关,c为不相关
D.a为正相关,b为不相关,c为负相关
解析:根据散点图,由相关性可知:图a各点散步在从左下角到右上角的区域内,是正相关;图b中各点分布不成带状,相关性不明确,所以不相关;图c中各点分布从左上角到右下角的区域里,是负相关,故选D.
答案:D
9.某商场为了了解毛衣的月销售量y(件)与月平均气温x(℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:
月平均气温x(℃)
17
13
8
2
月销售量y(件)
24
33
40
55
由表中数据算出线性回归方程y=bx+a中的b=-2,气象部门预测下个月的平均气温为6
℃,据此估计该商场下个月毛衣销售量约为( )
A.58件
B.40件
C.38件
D.46件
解析:由表格得()为(10,38),因为()在回归方程y=bx+a上,且b=-2,
代入,得38=10×(-2)+a,解得a=58.
所以y=-2x+58,当x=6时,y=-2×6+58=46,故选D.
答案:D
10.某调查机构调查教师工作压力大小的情况,部分数据如表:
喜欢教师职业
不喜欢教师职业
总计
认为工作压力大
53
34
87
认为工作压力不大
12
1
13
总 计
65
35
100
则有( )的把握认为“工作压力大与不喜欢教师职业有关系”.
A.99%
B.95%
C.90%
D.99.5%
解析:χ2=
=
≈4.9>3.841,
因此,有95%的把握认为工作压力大与不喜欢教师职业有关系.
答案:B
11.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表2,则与性别有关联的可能性最大的变量是( )
表1
成绩
性别
不及格
及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
表2
视力
性别
好
差
总计
男
4
16
20
女
12
20
32
总计
16
36
52
表3
智商
性别
偏高
正常
总计
男
8
12
20
女
8
24
32
总计
16
36
52
表4
阅读量
性别
丰富
不丰富
总计
男
14
6
20
女
2
30
32
总计
16
36
52
A.成绩
B.视力
C.智商
D.阅读量
解析:因为,
,
,
,
则,所以阅读量与性别有关联的可能性最大.
答案:D
12.
以下关于线性回归的判断,正确的个数是( )
①若散点图中所有点都在一条直线附近,则这条直线为回归直线;
②散点图中的绝大多数都线性相关,个别特殊点不影响线性回归,如图中的A,B,C点;
③已知直线方程为y=0.50x-0.81,则x=25时,y的估计值为11.69;
④回归直线方程的意义是它反映了样本整体的变化趋势.
A.0
B.1
C.2
D.3
解析:∵能使所有数据点都在它附近的直线不止一条,而据回归直线的定义知,只有按最小二乘法求得回归系数b,a得到的直线y=bx+a才是回归直线,∴①不对;②正确;∵将x=25代入y=0.50x-0.81,得y=11.69,∴③正确;④正确,故选D.
答案:D
二、填空题(本大题共4小题,每小题5分,共20分.将答案填在题中的横线上)
13.许多因素都会影响贫穷,教育也许是其中之一.在研究这两个因素的关系时,收集了美国50个州的成年人受过9年或更少教育的百分比(x)和收入低于官方规定的贫困线的人数占本州人数的百分比(y)的数据,建立的线性回归方程为y=0.8x+4.6.斜率的估计值为0.8说明??? .?
答案:美国一个地区的成年人受过9年或更少教育的百分比每增加1%,收入低于官方规定的贫困线的人数占本州人数的百分比将增加0.8%左右
14.在2017年春节期间,某市物价部门,对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x元和销售量y件之间的一组数据如下表所示:
价格x
9
9.5
10
10.5
11
销售量y
11
10
8
6
5
通过分析,发现销售量y对商品的价格x具有线性相关关系,则销售量y对商品的价格x的回归直线方程为 .?
解析:xiyi=392,=10,=8,(xi-)2=2.5,代入公式,得b=-3.2,所以,a=-b=40,故回归直线方程为y=-3.2x+40.
答案:y=-3.2x+40
15.下面是一个2×2列联表:
y1
y2
总计
x1
a
21
70
x2
5
c
30
总计
b
d
100
则b-d= .?
解析:∵a=70-21=49,c=30-5=25,
∴b=49+5=54,d=21+25=46.
∴b-d=8.
答案:8
16.下列说法:
①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;
②线性回归方程y=bx+a必过点();
③曲线上的点与该点的坐标之间具有相关关系;
④在一个2×2列联表中,由计算得χ2=13.079,则其两个变量间有关系的可能性是90%.
其中错误的是 .(填序号)?
解析:①正确.由回归方程的定义及最小二乘法思想,知②正确.③④不正确.
答案:③④
三、解答题(本大题共6小题,共70分.解答应写出文字说明、证明过程或演算步骤)
17.(10分)在某化学反应的中间阶段,压力保持不变,温度从1
℃变化到5
℃,反应结果如下表所示(x代表温度,y代表结果):
x
1
2
3
4
5
y
3
5
7
10
11
(1)求化学反应的结果y对温度x的线性回归方程y=bx+a;
(2)判断变量与y之间是正相关还是负相关,并预测当温度达到10
℃时反应结果为多少?
附:线性回归方程y=bx+a中,b=,a=-b.
解:(1)由题意:n=5,xi=3,yi=7.2,
又-5=55-5×9=10,xiyi-5=129-5×3×7.2=21,
∴b==2.1,a=-b=7.2-2.1×3=0.9,
故所求的回归方程为y=2.1x+0.9.
(2)由于变量y的值随温度的值增加而增加(b=2.1>0),故x与y之间是正相关.
当x=10时,y=2.1×10+0.9=21.9.
18.(12分)电视传媒公司为了了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
根据已知条件完成下面的2×2列联表,并据此资料,你是否认为“体育迷”与性别有关?
非体育迷
体育迷
合计
男
女
10
55
合计
解:(1)由所给的频率分布直方图知,
“体育迷”人数为100×(10×0.020+10×0.005)=25.
“非体育迷”人数为75,则据题意完成2×2列联表:
非体育迷
体育迷
合计
男
30
15
45
女
45
10
55
合计
75
25
100
将2×2列联表的数据代入公式计算:
χ2=≈3.030>2.706.
所以有90%的把握可以认为“体育迷”与性别有关.
19.(12分)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如表所示:
喜欢甜品
不喜欢甜品
合计
南方学生
60
20
80
北方学生
10
10
20
合计
70
30
100
根据表中数据,问是否能有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
附:
P(χ2≥k0)
0.100
0.050
0.010
k0
2.706
3.841
6.635
χ2=
解:(1)将2×2列联表中的数据代入计算公式,
得χ2=≈4.762.
由于4.762>3.841,所以能有95%的把握可以认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
20.导学号18334011(12分)某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系,从该部门内随机抽选了10个企业为样本,有如下资料:
产量x(千件)
生产费用(千元)
40
150
42
140
48
160
55
170
65
150
79
162
88
185
100
165
120
190
140
185
(1)计算x与y的相关系数;
(2)对这两个变量之间是否线性相关进行检验;
(3)设回归方程为y=bx+a,求回归系数.
解:(1)根据数据可得:
=77.7,=165.7,=70
903,
=277
119,
xiyi=132
938,所以r≈0.808,
即x与y之间的相关系数r≈0.808.
(2)因为r>0.75,所以可认为x与y之间具有线性相关关系.
(3)b=0.398,a=134.8.
21.导学号18334012(12分)某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:
日期
12月1日
12月2日
12月3日
12月4日
12月5日
温差x(℃)
10
11
13
12
8
发芽数y(颗)
23
25
30
26
16
该农科所确定的研究方案是:先从这五组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验.
(1)求选取的2组数据恰好是不相邻2天数据的概率;
(2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程y=bx+a;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?
解:(1)设事件A表示“选取的2组数据恰好是不相邻2天的数据”,则表示“选取的数据恰好是相邻2天的数据”.
基本事件总数为10,事件包含的基本事件数为4.
易得P()=,
故P(A)=1-P()=.
(2)计算得=12,=27,xiyi=977,=434,
所以b==2.5,
a=-b=27-2.5×12=-3,
即y=2.5x-3.
(3)由(2)知:当x=10时,y=22,误差不超过2颗;
当x=8时,y=17,误差不超过2颗.
故所求得的线性回归方程是可靠的.
22.导学号18334013(12分)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.
(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到1名“25周岁以下组”工人的概率;
(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
P
0.100
0.050
0.010
0.001
χ2
2.706
3.841
6.635
10.828
解:(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.
所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A1,A2,A3;25周岁以下组工人有40×0.05=2(人),记为B1,B2.
从中随机抽取2名工人,所有的可能结果共有10种,它们是:(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).
其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是:(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).故所求的概率P=.
(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手60×0.25=15(人),“25周岁以下组”中的生产能手40×0.375=15(人),据此可得2×2列联表如下:
生产能手
非生产能手
合计
25周岁以上组
15
45
60
25周岁以下组
15
25
40
合 计
30
70
100
所以得χ2==≈1.79.
因为1.79<2.706.所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.1.3 可线性化的回归分析
课后训练案巩固提升
1.为研究广告费用x与销售额y之间的关系,有人抽取了5家餐厅,得到的数据如下表:
广告费用x/千元
1.0
4.0
6.0
10.0
14.0
销售额y/千元
19.0
44.0
40.0
52.0
53.0
在同一坐标系中画散点图,直线l:y=24+2.5x,曲线C:y=,如图所示.更能表现这组数据之间的关系的是( )
A.直线l
B.曲线C
C.直线l和曲线C都一样
D.无法确定
解析:代入各组数检验.
答案:B
2.在自然界中,某种植物生长发育的数量y与时间x的关系如下表所示:
x
1
2
3
…
y
1
3
8
…
下面的函数关系式中,能表达这种关系的是( )
A.y=2x-1
B.y=x2-1
C.y=2x-1
D.y=1.5x2-2.5x+2
解析:将表中的数据分别代入选项中的函数关系式中,只有D选项拟合程度最好,故选D.
答案:D
3.某种细胞在培养过程中,正常情况下时刻t(单位:分)与细胞n(单位:个)的部分数据如下:
t
0
20
60
140
n
1
2
8
128
根据表中数据,推测繁殖到1
000个细胞时的时刻t最接近于( )
A.200
B.220
C.240
D.260
解析:由表可得时刻t(单位:分)与细胞数n满足回归方程n=,由此可知n=1
000时t接近200.
答案:A
4.若x,y满足
x
0.1
0.2
0.3
0.5
1
2
3
4
5
y
20
9
6
4
2
0.94
0.65
0.51
0.45
则x,y满足的函数模型为 .?
解析:画出散点图(图略),图形形如y=的图像.经检验b≈2.
答案:y=
5.若一函数模型为y=ax2+bx+c(a≠0),则作变换t= 才能转为y是t的线性回归方程.?
解析:∵y=ax2+bx+c=a,
∴令t=,则y=at+,此时y为t的线性回归方程.
答案:
6.将形如y=axb+c(b≠0)的函数转化成线性函数的方法:令 ,则得到方程 ,其函数图像是一条直线.?
答案:t=xb y=at+c
7.若x,y的取值如下表:
x
0.4
0.5
1
2
y
0.082
0.135
0.367
8
0.607
x
5
10
20
30
y
0.818
7
0.904
8
0.951
0.967
5
则x,y满足函数关系是 .?
解析:画出散点图(图略),当x无限大时,y逐渐接近于1,符合函数模型y=a.
其中a=1,b=-1.
故y=.
答案:y=
8.导学号18334004在平炉炼钢中,由于矿石与炉气中的氧气作用,铁水的总含碳量不断下降,现测得含碳量y(单位:%)与熔化时间t(单位:h)的关系,如下表:
时间t/h
5.0
5.2
5.4
5.6
5.8
6.0
6.2
6.4
6.6
6.8
7.0
含碳量y/%
9.73
7.46
6.04
4.35
2.74
2.06
1.48
0.98
0.57
0.41
0.25
求回归方程.
解:由散点图(图略)可知t,y之间满足函数关系y=aebt.
设u=ln
y,c=ln
a,则u=c+bt.
列表如下:
t
5.0
5.2
5.4
5.6
5.8
6.0
u=ln
y
2.275
2.010
1.798
1.470
1.008
0.723
t
6.2
6.4
6.6
6.8
7.0
u=ln
y
0.392
-0.020
-0.562
-0.892
-1.386
由此可得:=400.4,≈19.335,
uiti=32.778
2,=6,=0.619
6,
r==≈-0.995.
故u与t之间有较强的线性相关关系.
进而可以求得b==≈-1.844,
c=-b≈11.684.
故u=-1.844t+11.684.
所以y=e-1.844t+11.684.(共47张PPT)
第1课时 统计案例
知识网络
要点梳理
思考辨析
答案:①回归分析 ②可线性化回归分析 ③相关系数
④条件概率 ⑤2×2列联表的独立性检验
知识网络
要点梳理
思考辨析
两个基本思想
1.回归分析的基本思想
回归分析包括线性回归分析和非线性回归分析两种,而非线性回归分析往往可以通过变量代换转化为线性回归分析,因此,回归分析的思想主要是指线性回归分析的思想.
知识网络
要点梳理
思考辨析
注意理解以下几点:
(1)确定线性相关关系
线性相关关系有两层含义:一是具有相关关系,如广告费用与销售量的关系等在一定条件下具有相关关系,而气球的体积与半径的关系是函数关系,而不是相关关系;二是具有线性相关关系.
判断是否线性相关的依据是观察样本点的散点图或计算相关系数.
(2)回归方程的预报精度
简单来说,线性回归分析就是通过建立回归直线方程对变量进行预报,用回归方程预报时,需对函数值明确理解,它表示当x取值时,真实值在函数值附近或平均值在函数值附近,不能认为就是真实值.
知识网络
要点梳理
思考辨析
2.独立性检验的基本思想
独立性检验的基本思想类似于反证法.要确认两个分类变量有关系的可信程度,先假设两个分类变量没有关系,再计算统计量χ2的值,最后由χ2的值很大在一定程度上说明两个分类变量有关系.
进行独立性检验要注意理解以下三个问题:
(1)独立性检验适用于两个分类变量.
(2)两个分类变量是否有关系的直观判断:
根据2×2列联表计算|ad-bc|,值越大关系越强;
(3)独立性检验是对两个分类变量有关系的可信程度的判断,而不是对其是否有关系的判断.独立性检验的结论只能是有多大的把握确认两个分类变量有关系,而不能是两个分类变量一定有关系或没有关系.
知识网络
要点梳理
思考辨析
判断下列说法是否正确,正确的在后面的括号内打“√”,错误的打“×”.
(1)变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫作相关关系.
( )
(2)在平面直角坐标系中用描点的方法得到表示具有相关关系的两个变量的一组数据的图形叫作散点图.
( )
(3)散点图是判断两个变量是否相关的一种重要方法和手段.
( )
(4)任何一组观测值都能得到具有代表意义的回归直线方程.
( )
(5)具有相关关系的两个变量是非确定关系.
( )
(6)散点图中的点越集中,两个变量的线性相关性越强.
( )
(7)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.
( )
知识网络
要点梳理
思考辨析
(8)若两个变量具有线性相关关系,则线性回归方程最能代表观测值x,y之间的关系.
( )
(9)回归直线方程y=bx+a至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.
( )
(10)对于分类变量X与Y,它们的随机变量χ2的值越
小.“X与Y有关联”的把握程度越大.
( )
答案:(1)× (2)× (3)√ (4)× (5)√ (6)× (7)√ (8)×
(9)× (10)×
专题归纳
高考体验
专题一 回归分析思想的应用
【例1】
某厂节能技术改造后,生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据如表所示.
(1)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a;
(2)已知该厂技术改造前100吨甲产品的生产能耗为90吨标准煤.试根据(1)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤?
专题归纳
高考体验
专题归纳
高考体验
反思感悟1.正确理解计算b,a的公式和准确地计算是求线性回归方程的关键.
2.回归直线方程y=bx+a必过样本点中心
.
3.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.
专题归纳
高考体验
变式训练1以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据.
(1)求线性回归方程;
(2)根据(1)的结果估计当房屋面积为150
m2时的销售价格.
专题归纳
高考体验
专题二 独立性检验应用
【例2】
为了调查某大学学生在某天上网的时间,随机对100名男生和100名女生进行了不记名的问卷调查.得到了如下的统计结果:
专题归纳
高考体验
(1)从这200名学生中任抽1人,求上网时间在[50,60)间的概率.
(2)完成下面的2×2列联表,并回答能否有90%的把握认为“大学生上网时间与性别有关”?
专题归纳
高考体验
思路分析:(1)根据古典概型求概率.(2)列2×2列联表,计算χ2确定把握度.
解:(1)男女上网时间在[50,60)间的人数为30+40=70,由频率知
为其概率.
(2)
专题归纳
高考体验
反思感悟1.独立性检验的关键是正确列出2×2列联表,并计算出χ2的值.
2.弄清判断两变量有关的把握性与犯错误概率的关系,根据题目要求作出正确的回答.
专题归纳
高考体验
变式训练2某电视台联合相关报社对“男女同龄退休”这一公众关注的问题进行了民意调查,数据如下表所示:
根据表中数据,能否有99%的把握认为对这一问题的看法与性别有关系?
专题归纳
高考体验
专题三 数形结合思想
【例3】
某城区为研究城镇居民月家庭人均生活费支出和月人均收入的相关关系,随机抽取10户进行调查,其结果如下:
(1)作出散点图;
(2)求出线性回归方程;
(3)试预测月人均收入为1
100元和月人均收入为1
200元的两个家庭的月人均生活费.
专题归纳
高考体验
解:(1)作出散点图如图所示,由图可知月人均生活费与月人均收入之间具有较强的线性相关关系.
专题归纳
高考体验
(3)由以上分析可知,我们可以利用线性回归方程
y=0.659
9x+58.723
9来计算月人均生活费的预测值.
将x=1
100代入,得y≈784.61,
将x=1
200代入,得y≈850.60.
故预测月人均收入分别为1
100元和1
200元的两个家庭的月人均生活费分别为784.61元和850.60元.
反思感悟通过散点图可以判断回归方程的大致类型和相关关系的强弱.
专题归纳
高考体验
变式训练3假设某农作物基本苗数x与有效穗数y之间存在相关关系,今测得5组数据如下:
(1)作出散点图;
(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗数.
专题归纳
高考体验
解:(1)散点图如图所示.
?
(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用线性回归方程来建立两个变量之间的关系.
设线性回归方程为y=bx+a,
由表中数据可得b≈0.291,
故所求的线性回归方程为y=0.291x+34.67.
当x=56.7时,y=0.291×56.7+34.67=51.169
7.
估计有效穗数为51.169
7.
专题归纳
高考体验
专题四 转化与化归思想在回归分析中的应用
回归分析是对抽取的样本进行分析,确定两个变量的相关关系,并用一个变量的变化去推测另一个变量的变化.如果两个变量非线性相关,那么我们可以通过对变量进行变换,转化为线性相关问题.
【例4】
某种书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:
检验每册书的成本费y与印刷册数的倒数
之间是否具有线性相关关系?如有,求出y对x的回归方程.
专题归纳
高考体验
专题归纳
高考体验
反思感悟若两个变量非线性相关,可以先通过散点图观察确定用幂函数、指数函数、对数函数、二次函数模型来拟合两个变量间的关系,再通过变换转化为线性相关问题.
专题归纳
高考体验
变式训练4在某化学实验中,测得如下表所示的6对数据,其中x(单位:min)表示化学反应进行的时间,y(单位:mg)表示未转化物质的质量.
(1)设y与x之间具有关系y=cdx,试根据测量数据估计c和d的值(精确到0.001);
(2)估计化学反应进行到10
min时未转化物质的质量(精确到0.1).
专题归纳
高考体验
解:(1)在y=cdx两边取自然对数,令ln
y=z,ln
c=a,ln
d=b,则z=a+bx.
由已知数据,得
由公式得a≈3.905
5,b≈-0.221
9,
则线性回归方程为z=3.905
5-0.221
9x.
而ln
c≈3.905
5,ln
d≈-0.221
9,
故c≈49.675,d≈0.801,
所以c,d的估计值分别为49.675,0.801.
(2)当x=10时,由(1)所得公式可得y≈5.4(mg).
专题归纳
高考体验
考点一:回归分析
1.(2015湖北高考)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y负相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y正相关,x与z负相关
D.x与y负相关,x与z正相关
解析:由y=-0.1x+1知y与x负相关,又因为y与z正相关,故z与x负相关.
答案:A
专题归纳
高考体验
2.(2015福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
根据上表可得回归直线方程y=bx+a,其中b=0.76,a=-b
.据此估计,该社区一户年收入为15万元家庭的年支出为( )
A.11.4万元
B.11.8万元
C.12.0万元
D.12.2万元
专题归纳
高考体验
3.(2015北京高考)高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级中的排名情况如下图所示,甲、乙、丙为该班三位学生.
专题归纳
高考体验
从这次考试成绩看,
①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是 ;?
②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是 .?
解析:①由题图可知,甲的语文成绩排名比总成绩排名靠后;而乙的语文成绩排名比总成绩排名靠前.故填乙.
②由题图可知,比丙的数学成绩排名还靠后的人比较多;而总成绩的排名中比丙排名靠后的人数比较少,所以丙的数学成绩的排名更靠前.故填数学.
答案:①乙 ②数学
专题归纳
高考体验
4.(2015重庆高考)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
(1)求y关于t的回归方程y=bt+a;
(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.
专题归纳
高考体验
解:(1)列表计算如下:
专题归纳
高考体验
(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为y=1.2×6+3.6=10.8(千亿元).
专题归纳
高考体验
5.(2016课标丙高考)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
?
注:年份代码1-7分别对应年份2008-2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
专题归纳
高考体验
专题归纳
高考体验
专题归纳
高考体验
专题归纳
高考体验
考点二:独立性检验
6.(2017全国Ⅱ高考改编)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
专题归纳
高考体验
(1)记A表示事件“旧养殖法的箱产量低于50
kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
专题归纳
高考体验
专题归纳
高考体验
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50
kg到55
kg之间,旧养殖法的箱产量平均值(或中位数)在45
kg到50
kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
专题归纳
高考体验
7.(湖南长沙2017届高三摸考)长郡中学为研究学生的身体素质与课外体育锻炼时间的关系,对该校200名高三学生的课外体育锻炼平均每天运动的时间进行调查,如下表:(平均每天锻炼的时间单位:min)
将学生日均课外体育运动时间在[40,60)内的学生评价为“课外体育达标”.
请根据上述表格中的统计数据填写下面2×2列联表,并通过计算判断是否有99%的把握认为“课外体育达标”与性别有关?
专题归纳
高考体验
专题归纳
高考体验
思路分析:从所给数据知体育达标有50人,不达标有150人,再根据列联表中数据可填写表格,再由χ2计算公式计算出χ2即知结论.
解:
专题归纳
高考体验
8.(广东惠州2017届高三第一次调研考试)4月23日是世界读书日,惠州市某中学在此期间开展了一系列的读书教育活动.为了解本校学生课外阅读情况,学校随机抽取了100名学生对其课外阅读时间进行调查.下面是根据调查结果绘制的学生日均课外阅读时间(单位:min)的频率分布直方图,且将日均课外阅读时间不低于60
min的学生称为“读书迷”,低于60
min的学生称为“非读书迷”.根据已知条件完成下面2×2列联表,并据此判断是否有99%的把握认为“读书迷”与性别有关?
专题归纳
高考体验
专题归纳
高考体验