(共47张PPT)
§1 回归分析
课标阐释
思维脉络
1.会用最小二乘法求线性回归直线方程.
2.会求相关系数,并用其判断相关程度.
3.会进行可线性化的回归分析,拟合函数,并根据拟合程度调整函数关系.
?
一
二
三
一、回归分析
1.函数关系是一种确定性关系,而相关关系是一种非确定性关系.
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
知识梳理
一
二
三
2.散点图形象地反映了各对数据的密切程度.根据散点图中点的分布趋势分析两个变量之间的关系,可直观地判断并得出结论.
3.如果样本数据对应的点具有线性相关关系,从回归直线方程来看,当系数b>0时,单调递增,此时这两个变量正相关;当b<0时,单调递减,此时这两个变量负相关.
一
二
三
做一做1 某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是( )?
A.y=-10x+200
B.y=10x+200
C.y=-10x-200
D.y=10x-200
解析由于销售量y与销售价格x成负相关,故排除B,D.又当x=10时,A中y=100,而C中y=-300,C不符合题意,故选A.
答案A
一
二
三
二、相关系数
假设两个随机变量的数据分别为(x1,y1),(x2,y2),…,(xn,yn),则变量间线性相关系数r的计算公式为
变量之间线性相关系数r的取值范围为[-1,1],|r|值越大,误差Q越小,变量之间的线性相关程度越高,|r|值越接近于0,Q越大,变量之间的线性相关程度越低.当r>0时,b>0,两个变量的值总体上呈现出同时增减的趋势,此时称两个变量正相关;当r<0时,b<0,一个变量增加,另一个变量有减少的趋势,称两个变量负相关;当r=0时,称两个变量线性不相关.
一
二
三
名师点拨相关关系与函数关系的区别和联系
(1)区别.
函数关系是变量之间的一种严格、完全确定的关系,即一个变量的数值完全由另一个(或一组)变量的数值所决定、控制.函数关系通常可以用数学公式确切地表示出来.
变量间的相关关系一般不是完全确定的关系.变量间既存在着密切的关系,但又不能由一个或几个变量的数值精确地求出另一个变量的值(这个变量实际上就是随机变量).因此,相关关系难以像函数关系那样,用数学公式去准确地表达.
一
二
三
造成这种情况的原因是:影响一个变量的因素是很多.其中有些因素是属于人们一时还没有认识和掌握的,也有一些因素是已经认识,但暂时还无法控制和测量的.另外,有些因素虽然可以控制和测量,但在测量这些变量的数值时,或多或少地都会存在误差.所有这些偶然因素的综合作用造成了变量之间的不确定性关系,所以相关关系与函数关系是有区别的.
(2)联系.
相关关系与函数关系也是有联系的.由于客观上常会出现观察或测量上的误差等原因,函数关系在实际问题中往往通过相关关系表现出来.当人们对某些现象内部规律有较深刻的认识时,相关关系可能变为函数关系.为此,在研究相关关系时,又常常使用函数关系作为工具,用函数关系表现相关关系的数量联系.
一
二
三
【做一做2】
为了对x,y两个变量进行统计分析,现根据两种线性模型分别计算出甲模型的相关系数为r1=0.845,乙模型的相关系数为r2=0.82,则 (填“甲”或“乙”)模型的效果更好.?
解析:|r|值越大,表明变量之间线性相关程度越高,效果越好.
∵r1=0.845>r2=0.82,∴甲模型效果更好.
答案:甲
一
二
三
三、可线性化的回归分析
通过变换先将非线性函数转化成线性函数,利用最小二乘法得到线性回归方程,再通过相应变换得到非线性回归方程.
一
二
三
名师点拨在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要我们根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.下面列举出一些常见的曲线方程,并给出相应的化为线性回归方程的换元公式.
(2)y=axb,令y'=ln
y,x'=ln
x,a'=ln
a,则有y'=a'+bx'.
(3)y=aebx,令y'=ln
y,x'=x,a'=ln
a,则有y'=a'+bx'.
(5)y=a+bln
x,令y'=y,x'=ln
x,则有y'=a+bx'.
一
二
三
【做一做3】 下列有关回归分析的说法正确的是
( )?
A.任意的两个变量之间都存在着线性相关关系
B.若两个变量之间的回归方程为y=1.2-3.6x,则说明当x=2时,y一定等于-6
C.若两个变量之间线性不相关,则这两个变量一定不存在线性回归方程
D.有的变量虽然线性不相关,但经过转化后可以进行线性回归分析
解析A中,变量之间还存在函数关系和非线性相关关系;B中,y的估计值不一定等于真实值;C中,任意两个变量,都可以利用公式求出线性回归方程.故选D.
答案D
一
二
三
思考辨析
判断下列说法是否正确,正确的在后面的括号内打“√”,错误的打“×”.
(1)由数据(x1,y1),(x2,y2),…,(xn,yn)得到的线性回归方程y=a+bx一
(2)如果变量x,y之间的线性相关系数为r1,变量s,t之间的线性相关系数为r2,且r1>r2,一定能说明x,y之间的线性相关程度比s,t之间的线性相关程度高.
( )
(2)当相关系数r=±1时,两变量之间是一次函数关系.
( )
答案(1)√
(2)× (3)√
探究一
探究二
探究三
思维辨析
【例1】
某班5名学生的数学和物理成绩如下表:
(1)画出散点图;
(2)求物理成绩y对数学成绩x的线性回归方程;
(3)一名学生的数学成绩是96,试预测他的物理成绩.
分析先利用散点图分析物理成绩与数学成绩是否线性相关,若相关再利用线性回归模型求解.
?
A
B
C
D
E
数学成绩(x)
88
76
73
66
63
物理成绩(y)
78
65
71
64
61
当堂检测
探究一
探究二
探究三
思维辨析
当堂检测
探究一
探究二
探究三
思维辨析
当堂检测
探究一
探究二
探究三
思维辨析
反思感悟
求线性回归方程的基本步骤
当堂检测
探究一
探究二
探究三
思维辨析
变式训练
1弹簧长度y(单位:cm)随所挂物体质量x(单位:g)的变化而变化的情况如下:
(1)画出散点图;
(2)求y对x的回归直线方程;
(3)预测所挂物体质量为27
g时的弹簧长度(结果精确到0.01
cm).
x
5
10
15
20
25
30
y
7.25
8.12
8.95
9.90
10.96
11.80
当堂检测
探究一
探究二
探究三
思维辨析
当堂检测
探究一
探究二
探究三
思维辨析
当堂检测
探究一
探究二
探究三
思维辨析
【例2】在英语教学中,为了了解学生的词汇量,设计了一份包含100个单词的试卷,现抽取15名学生进行测试,得到学生掌握试卷中单词个数x与该生实际掌握单词量y的对应数据如下:
(1)对变量y与x进行相关性检验;
(2)如果y与x之间具有线性相关关系,求y对x的线性回归方程.
x
61
65
70
69
83
75
58
73
y
2
030
2
140
2
270
2
250
2
240
2
220
1
970
2
330
x
63
72
71
68
65
67
74
?
y
2
100
2
300
2
300
2
200
2
200
2
200
2
370
?
当堂检测
探究一
探究二
探究三
思维辨析
分析解答本题时,应先求出线性相关系数,对x,y的线性相关性作出判断后,再求回归方程.
解(1)列表如下:
当堂检测
探究一
探究二
探究三
思维辨析
当堂检测
探究一
探究二
探究三
思维辨析
当堂检测
探究一
探究二
探究三
思维辨析
(2)设y对x的线性回归方程为y=bx+a,
即所求的线性回归方程为y=13.506x+1
276.991.
反思感悟
利用公式求出变量之间的线性相关系数r,r的取值范围为[-1,1],|r|越大,变量之间的线性相关程度越高;|r|越接近0,变量之间的线性相关程度越低;当r=0时,两个变量线性不相关.
当堂检测
探究一
探究二
探究三
思维辨析
变式训练2 设两个变量x,y有以下观测数据,
?
则线性相关系数r= .?
x
1
2
3
5
10
y
10
5
4
2
2
当堂检测
探究一
探究二
探究三
思维辨析
当堂检测
探究一
探究二
探究三
思维辨析
【例3】下表为收集到的一组数据.
(1)作出x与y的散点图,并猜测x与y之间的关系;
(2)建立x与y之间的回归方程;
(3)利用所得模型,预测x=40时y的值.
分析作出散点图,确定回归模型,再作适当变换,求出变换后的线性回归方程,求出y与x之间的回归方程,然后利用所得模型求y的值.
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
当堂检测
探究一
探究二
探究三
思维辨析
解(1)作出散点图,如图所示.从散点图可以看出x与y不具有线性相关关系,根据已有知识发现样本点分布在某一条指数函数曲线
的周围,其中c1,c2为待定参数.
当堂检测
探究一
探究二
探究三
思维辨析
(2)对两边取对数把指数关系变为线性关系,令z=ln
y,则有变换后的样本点应分布在直线z=bx+a,a=ln
c1,b=c2的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为
求得线性回归方程为z=0.272x-3.849,
所以y=e0.272x-3.849.
(3)x=96,则y=0.625×96+22.05≈82,即可以预测他的物理成绩是82.
x
21
23
25
27
29
32
35
z
1.946
2.398
3.045
3.178
4.190
4.745
5.784
当堂检测
探究一
探究二
探究三
思维辨析
反思感悟
1.解决非线性回归分析的关键是根据散点图选择正确的函数模型.
2.解决非线性回归分析问题的方法步骤
(1)确定变量:确定变量x,y.
(2)画散点图:通过观察散点图并与学过的函数(幂函数、指数函数、对数函数、二次函数)作比较,选取拟合效果好的函数模型.
(3)变量置换:通过变量置换把非线性问题转化为线性回归问题.
(4)写出非线性回归方程.
当堂检测
探究一
探究二
探究三
思维辨析
变式训练3 已知两个变量近似符合模型y=17-2x3,则当x=3时,y的估计值为 .?
解析当x=3时,y=17-2×33=-37.
答案-37
当堂检测
探究一
探究二
探究三
思维辨析
因忽视回归分析的程序而致误
【典例】
某种产品的广告费x与销售额y(单位:百万元)之间有如下对应数据:
试对销售额y与广告费x进行回归分析.
易错分析规范求解这类题目的步骤,注意要对所给数据进行相应的分析,明确方法步骤,否则容易出错.
x
2
4
5
6
8
y
30
40
60
50
70
当堂检测
探究一
探究二
探究三
思维辨析
解画出散点图,如图所示.
根据散点图可以发现:变量x与y之间有近似的线性相关关系.
列表如下:
当堂检测
探究一
探究二
探究三
思维辨析
当堂检测
探究一
探究二
探究三
思维辨析
纠错心得
1.不清楚回归分析的方法步骤,只是直接用回归系数公式求解了回归直线方程.
2.回归分析的步骤是解题的关键,回归分析的步骤可总结如下:
(1)收集数据(xi,yi),i=1,2,…,n;
(2)根据收集到的数据绘制散点图,观察它们之间的关系,是否存在相关关系,若存在,是不是线性相关关系;
(3)若是线性相关关系,求回归直线方程.
当堂检测
探究一
探究二
探究三
思维辨析
变式训练 在一次抽样调查中测得样本的5个样本点,数值如下表:?
求出y与x之间的回归方程.
x
0.25
0.5
1
2
4
y
16
12
5
2
1
当堂检测
探究一
探究二
探究三
思维辨析
解根据散点图(如图1)可知y与x呈现出近似的反比例函数关系,设
t
4
2
1
0.5
0.25
y
16
12
5
2
1
图1
图2
当堂检测
探究一
探究二
探究三
思维辨析
由散点图(如图2)也可以看出,这些点基本上分布在一条直线附近,可以认为y与t具有线性相关关系,列表如下:
当堂检测
探究一
探究二
探究三
思维辨析
当堂检测
1.下列结论正确的是( )
①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
A.①②
B.①②③
C.①②④
D.①②③④
答案C
探究一
探究二
探究三
思维辨析
当堂检测
2.在一次试验中,测得(x,y)的四组值分别是A(1,2),B(2,3),C(3,4),D(4,5),则y与x之间的回归直线方程为( )
A.y=x+1
B.y=x+2
C.y=2x+1
D.y=x-1
答案A
探究一
探究二
探究三
思维辨析
当堂检测
探究一
探究二
探究三
思维辨析
当堂检测
答案:y=11.47+2.62x
探究一
探究二
探究三
思维辨析
当堂检测
探究一
探究二
探究三
思维辨析
当堂检测
ui
20.000
16.667
4.000
3.226
14.286
10.000
vi
-2.303
-1.966
0.000
0.113
-1.470
-0.994
ui
2.632
2.326
7.143
5.000
2.128
—
vi
0.174
0.223
-0.528
-0.236
0.255
—
探究一
探究二
探究三
思维辨析
当堂检测
探究一
探究二
探究三
思维辨析
当堂检测(共26张PPT)
§2 独立性检验
课标阐释
思维脉络
1.通过对典型案例的探究,了解独立性检验(只要求2×2列联表)的基本思想.
2.会求χ2及利用χ2判断两个变量的相关程度(两个变量是否有关系).
?
一
二
一、2×2列联表
设A,B为两个变量,每一个变量都可以取两个值,
若用a表示变量A取A1,且变量B取B1时的数据;用b表示变量A取A1,且变量B取B2时的数据;用c表示变量A取A2,且变量B取B1时的数据;用d表示变量A取A2,且变量B取B2时的数据,则会得到A,B之间的2×2列联表:
B1
B2
总 计
A1
a
b
a+b
A2
c
d
c+d
总计
a+c
b+d
n=a+b+c+d
知识梳理
一
二
名师点拨2×2列联表实际就是一个两行两列的表,表中的四个值是两个变量A,B的取值,并且变量A取两个值,变量B取两个值.
一
二
【做一做1】 下面是一个2×2列联表:
?
则表中a,b处的值分别为( )
A.94,96
B.52,50
C.52,54
D.54,52
答案:C
?
y1
y2
总计
x1
a
21
73
x2
2
25
27
总计
b
46
?
一
二
二、独立性检验
设A,B为两个变量,A,B之间的2×2列联表如下:
用统计量χ2的大小来检验变量之间是否独立.χ2的公式为
?
B1
B2
总计
A1
a
b
a+b
A2
c
d
c+d
总计
a+c
b+d
n=a+b+c+d
一
二
(1)当χ2≤2.706时,没有充分证据判定变量A,B有关联,可以认为变量A,B是没有关联的;
(2)当χ2>2.706时,有90%的把握判定变量A,B有关联;
(3)当χ2>3.841时,有95%的把握判定变量A,B有关联;
(4)当χ2>6.635时,有99%的把握判定变量A,B有关联.
一
二
名师点拨1.独立性检验是一种假设检验,在对总体的估计中,通过抽取样本,构造合适的统计量,对假设的正确性进行判断.
2.使用χ2统计量作2×2列联表的独立性检验时,一般要求表中的4个数据都大于5,数据越大,越能说明结果的普遍性.
一
二
【
做一做2】 想要检验喜欢参加体育活动是不是与性别有关,应该检验( )?
A.男性喜欢参加体育活动
B.女性不喜欢参加体育活动
C.喜欢参加体育活动与性别有关
D.喜欢参加体育活动与性别无关
答案D
一
二
思考辨析
判断下列说法是否正确,正确的在后面的括号内打“√”,错误的打“×”.
(1)在2×2列联表中,若两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.
( )
(2)独立性检验的基本思想实质上就是数学中的反证法.
( )
(3)通过独立性检验验证有关系的两个变量之间其关联程度是百分之百.
( )
(4)为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算χ2≈0.99,根据这一数据分析没有理由认为电视栏目是否优秀与改革有关系.( )
答案(1)√ (2)× (3)× (4)√
探究一
探究二
思维辨析
【例1】某学校对高三学生作一项调查后发现:在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张,性格外向的594名学生中在考前心情紧张的有213名.试作出2×2列联表.
分析在2×2列联表中,共有两类变量,每一类变量都有两个不同的取值,然后算出相应的数据,列表即可.
解列联表如下:
性格内向
性格外向
总计
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
总计
426
594
1
020
当堂检测
探究一
探究二
思维辨析
反思感悟
分清类别是作列联表的关键步骤,对所给数据要明确属于哪一类.
当堂检测
探究一
探究二
思维辨析
变式训练1 下面是一个2×2列联表,则表中a,b处的值分别为( )?
A.32,40
B.42,50
C.74,82
D.64,72
解析a=53-21=32,b=a+8=40.
答案A
?
y1
y2
总计
x1
a
21
53
x2
8
25
33
总计
b
46
?
当堂检测
探究一
探究二
思维辨析
【例2】
为了调查某生产线上质量监督员甲对产品质量的好坏有无影响,现统计数据如下:甲在生产现场时,990件产品中有合格品982件,次品8件;甲不在生产现场时,510件产品中有合格品493件,次品17件.能否有99%的把握认为质量监督员甲在不在生产现场与产品质量的好坏有关系?
分析解答本题先分析列联表,后计算χ2,再与临界值比较,判断得到结论.
当堂检测
探究一
探究二
思维辨析
解2×2列联表如下:
由2×2列联表中数据,计算得到χ2的值为
因此,有99%的把握认为质量监督员甲在不在生产现场与产品质量好坏有关系.
?
合格品数
次品数
总计
甲在生产现场
982
8
990
甲不在生产现场
493
17
510
总计
1
475
25
1
500
当堂检测
探究一
探究二
思维辨析
反思感悟
独立性检验的具体做法
(1)根据实际问题作出两个分类变量的2×2列联表.
(3)比较χ2与临界值的大小,推断有多大把握认为两个分类变量之间有关系.
当堂检测
探究一
探究二
思维辨析
变式训练
2某校对学生课外活动内容进行调查,结果整理成
2×2列联表如下:
试分析喜欢体育还是喜欢文娱与性别之间多大程度上有关.
因为8.106>6.635,所以有99%以上的把握认为喜欢体育还是喜欢文娱与性别有关.
?
体育
文娱
总计
男生
21
23
44
女生
6
29
35
总计
27
52
79
当堂检测
探究一
探究二
思维辨析
因不理解独立性检验的含义而致误
【典例】
对于“有99%的把握认为吸烟与患肺癌是有关的”,以下理解正确的是 .?
(1)100个吸烟的人中有99个患有肺癌;
(2)吸烟者有可能不患肺癌,不吸烟者可能患肺癌;
(3)吸烟者一定患肺癌,不吸烟者一定不患肺癌;
(4)“吸烟与患肺癌有关系”这一结论准确性在99%以上.
易错分析独立性检验的含义是指在犯错误的概率较小的情况下我们有多少把握认为两变量之间有关系,而没有表明有多大的关系.若理解有误,则会致误.
当堂检测
探究一
探究二
思维辨析
解析:吸烟与患肺癌有关系,并非吸烟一定患肺癌,所以(2)正确,(3)错误;吸烟与患肺癌之间有关系的概率为99%,并非指吸烟者中有99%的人患肺癌,而是指我们有99%的把握认为“吸烟与患肺癌有关系”,这里所说的“吸烟与患肺癌有关系”是指统计上的关系,而非因果关系,至于吸烟者患不患肺癌,应该由医学检查来确定,而非统计学上的事,所以(4)正确;(1)错误.
答案:(2)(4)
纠错心得
强化对概念或原理的理解
“两个变量之间有关系的概率”不同于“事件发生的概率”,“有99%的把握认为吸烟与患肺癌是有关的”是指吸烟与患肺癌之间有关系的概率是99%,而不是指吸烟者中有99%的人患有肺癌.
当堂检测
探究一
探究二
思维辨析
变式训练 某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录进行比较,提出假设H:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得χ2≈3.918.则下列表述中正确的是( )?
A.有95%的把握认为“这种血清能起到预防感冒的作用”
B.若有人未使用该血清,则他一年中有95%的可能性得感冒
C.这种血清预防感冒的有效率为95%
D.这种血清预防感冒的有效率为5%
解析由题意可知根据χ2≈3.918>3.841,因此有95%的把握认为“这种血清能起到预防感冒的作用”,B,C,D表达有误.
答案A
当堂检测
1.对两个分类变量A,B的下列说法正确的个数为( )
①A与B相关性越大,则χ2的值就越大;
②A与B无关,即A与B互不影响;
③χ2的大小是判定A与B是否相关的唯一依据.
A.1
B.2
C.3
D.0
探究一
探究二
思维辨析
当堂检测
答案:B
探究一
探究二
思维辨析
当堂检测
2.某班主任对全班50名学生进行了作业量的调查,数据如下表:
则有多大的把握推断“学生的性别与认为作业量大有关”
( )
A.99%
B.95%
C.90%
D.85%
?
认为作业量大
认为作业量不大
总计
男生
18
9
27
女生
8
15
23
总计
26
24
50
解析:
≈5.059>3.841.故有95%的把握认为学生的性别与认为作业量大有关.
答案:B
探究一
探究二
思维辨析
当堂检测
3.在一个2×2列联表中,通过数据计算χ2=8.325,则这两个变量间有关系的可能性为 .?
答案:99%
探究一
探究二
思维辨析
当堂检测
4.在从烟台到大连的某次航运中,海上出现恶劣气候,随机调查男、女乘客在船上晕船的情况如下表所示:
根据此资料:在恶劣气候航行中,晕船与性别 关.(填“有”或“无”)?
?
晕船
不晕船
总计
男性
32
51
83
女性
8
24
32
总计
40
75
115
探究一
探究二
思维辨析
当堂检测
所以我们没有充分的证据说晕船跟性别有关,可以认为晕船与性别无关.
答案:无
探究一
探究二
思维辨析
当堂检测(共41张PPT)
第3课时 统计案例
知识网络
要点梳理
知识网络
要点梳理
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.
2.回归分析
对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求回归直线方程;(ⅲ)用回归直线方程进行预测.
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.
知识网络
要点梳理
(2)回归直线方程的求法——最小二乘法.
设具有线性相关关系的两个变量x,y的一组观察值为(xi,yi)(i=1,2,…,n),则回归直线方程y=a+bx的系数为
知识网络
要点梳理
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.
r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
知识网络
要点梳理
(3)独立性检验
利用随机变量
χ2
来判断“两个分类变量有关系”的方法称为独立性检验.
知识网络
要点梳理
判断下列说法是否正确,正确的在后面的括号内打“√”,错误的打“×”.
(1)通过回归方程y=bx+a可以估计和观测变量的取值和变化趋势.
( )
(2)事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越大.
( )
(3)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.
( )
答案:(1)√ (2)√ (3)×
思考辨析
专题归纳
高考体验
专题一
专题二
专题一 回归分析
【例1】
蔬菜之乡山东寿光的某块菜地每单位面积菜地年平均使用氮肥量x
kg与每单位面积蔬菜年平均产量y
t之间的关系有如下数据:
年份
1985
1986
1987
1988
1989
1990
1991
1992
x/kg
70
74
80
78
85
92
90
95
y/t
5.1
6.0
6.8
7.8
9.0
10.2
10.0
12.0
年份
1993
1994
1995
1996
1997
1998
1999
?
x/kg
92
108
115
123
130
138
145
?
y/t
11.5
11.0
11.8
12.2
12.5
12.8
13.0
?
专题归纳
高考体验
专题一
专题二
(1)求x与y之间的相关系数,并检验是否线性相关;
(2)若线性相关,求蔬菜产量y与使用氮肥量x之间的回归直线方程,并估计每单位面积施肥150
kg时,每单位面积蔬菜年平均产量.
分析使用样本相关系数计算公式来完成,然后判断线性相关,再计算出a,b,利用回归方程预测产量.
专题归纳
高考体验
专题一
专题二
解(1)列出下表,并用科学计算器进行有关计算:
i
1
2
3
4
5
6
7
8
xi
70
74
80
78
85
92
90
95
yi
5.1
6.0
6.8
7.8
9.0
10.2
10.0
12.0
xiyi
357
444
544
608.4
765
938.4
900
1
140
i
9
10
11
12
13
14
15
?
xi
92
108
115
123
130
138
145
?
yi
11.5
11.0
11.8
12.2
12.5
12.8
13.0
?
xiyi
1
058
1
188
1
357
1
500.6
1
625
1
766.4
1
885
?
专题归纳
高考体验
专题一
专题二
专题归纳
高考体验
专题一
专题二
专题归纳
高考体验
专题一
专题二
反思感悟
回归分析是对两个量进行线性相关强弱的判断及由回归直线方程,根据一个变量的值,预测或控制另一个变量的值.判断两个变量是否相关有两种方法:一是画出“散点图”;二是计算相关系数r的值.值得一提的是,在求回归直线方程进行回归分析前,一定要先判断出两个变量具有相关性,方可求回归直线方程,否则求出的回归直线方程将毫无意义.
专题归纳
高考体验
专题一
专题二
跟踪训练1安徽某所中学的10名女生在高一和高二的数学成绩如下表:
其中x为高一数学成绩,y为高二数学成绩.
(1)y与x是否具有相关关系?
(2)如果y与x具有相关关系,求回归直线方程.
x
74
71
72
68
76
73
67
70
65
74
y
76
75
71
70
76
79
65
77
62
72
专题归纳
高考体验
专题一
专题二
专题归纳
高考体验
专题一
专题二
专题二 独立性检验
【例2】
气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如下表.
问:它们的疗效有无差异.
?
有效
无效
总计
复方江剪刀草
184
61
245
胆黄片
91
9
100
总计
275
70
345
专题归纳
高考体验
专题一
专题二
分析根据2×2列联表计算出χ2的值,再结合临界值即可作出合理的判断.
因为χ2>6.635,所以我们有99%的把握认为这两种药物的疗效有差异.
专题归纳
高考体验
专题一
专题二
反思感悟
在实际问题中,经常会面临推断的问题,在对问题进行推断时,我们不能仅凭主观意愿作出结论,还需要通过抽样收集数据,并根据独立性检验的基本原理作出合理的推断.
独立性检验问题的基本步骤为:(1)找相关数据,作列联表;(2)求统计量χ2;(3)判断可能性,注意与临界值作比较,得出事件有关的确信度.若χ2>6.635,则有99%的把握认为“X与Y有关系”;若χ2>3.841,则有95%的把握认为“X与Y有关系”;若χ2>2.706,则有90%的把握认为“X与Y有关系”;如果χ2<2.706,就认为没有充分的证据显示“X与Y有关系”.
专题归纳
高考体验
专题一
专题二
(1)若有99%的把握认为回答结果的对错和性别有关,则男生至少有多少人?
(2)若没有充分的证据显示回答结果的对错和性别有关,则男生至多有多少人?
专题归纳
高考体验
专题一
专题二
专题归纳
高考体验
专题一
专题二
专题归纳
高考体验
专题一
专题二
专题归纳
高考体验
考点一 回归分析
1.(2020全国Ⅰ,文5)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10
℃至40
℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A.y=a+bx
B.y=a+bx2
C.y=a+bex
D.y=a+bln
x
专题归纳
高考体验
解析:结合题中散点图,由图像的大致走向判断,此函数应该是对数函数模型,故应该选用的函数模型为y=a+bln
x.
答案:D
专题归纳
高考体验
2.根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
专题归纳
高考体验
解析:由柱形图知,2006年以来我国二氧化硫年排放量呈减少趋势,故其排放量与年份负相关,故D错误.
答案:D
专题归纳
高考体验
3.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
专题归纳
高考体验
专题归纳
高考体验
专题归纳
高考体验
4.下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1-7分别对应年份2008-2014.
专题归纳
高考体验
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
专题归纳
高考体验
专题归纳
高考体验
专题归纳
高考体验
考点二 独立性检验
5.(2021全国甲,理17)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
?
一级品
二级品
合计
甲机床
150
50
200
乙机床
120
80
200
合计
270
130
400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
专题归纳
高考体验
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
专题归纳
高考体验
专题归纳
高考体验
6.(2020全国Ⅲ,文18)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
空气质量等级
锻炼人次
[0,200]
(200,400]
(400,600]
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
专题归纳
高考体验
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
?
人次≤400
人次>400
空气质量好
?
?
空气质量不好
?
?
专题归纳
高考体验
P(χ2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
专题归纳
高考体验
解:(1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:
空气质量等级
1
2
3
4
概率的估计值
0.43
0.27
0.21
0.09
(2)一天中到该公园锻炼的平均人次的估计值为
(100×20+300×35+500×45)=350.
专题归纳
高考体验
(3)根据所给数据,可得2×2列联表:
由于5.820>3.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
?
人次≤400
人次>400
空气质量好
33
37
空气质量不好
22
8