阶段复习课
第三课 成对数据的统计分析
核心整合·思维导图
考点突破·素养提升
素养一 数学建模
角度 独立性检验
【典例1】某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.
规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件写出2×2列联表,并判断在犯错误的概率不超过0.1的前提下能否认为“生产能手与工人所在的年龄组有关”.
【解析】由频率分布直方图可知,在抽取的100名工人中,“25周岁以上(含25周岁)组”中的生产能手有60×0.25=15(人).
“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:
生产能手
非生产能手
合计
25周岁以上(含25周岁)组
15
45
60
25周岁以下组
15
25
40
合计
30
70
100
所以由公式得χ2=≈1.79,
因为1.79<2.706,
所以不能在犯错误的概率不超过0.1的前提下认为“生产能手与工人所在的年龄组有关”.
【类题·通】
独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式,计算χ2的值.
(3)比较χ2与临界值的大小关系并进行统计推断.
【变式训练】
有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:
冷漠
不冷漠
合计
多看电视
68
42
110
少看电视
20
38
58
合计
88
80
168
试问:多看电视与人变冷漠有关吗?
【解析】由公式得χ2=≈11.377>10.828,
所以我们有99.9%的把握说多看电视与人变冷漠有关.
素养二 数据分析
角度 一元线性回归模型
【典例2】要分析学生初中升学的数学成绩对高中一年级数学学习有什么影响,在高中一年级学生中随机抽选10名学生,分析他们入学的数学成绩(x)和高中一年级期末数学考试成绩(y)(如表):
编号
1
2
3
4
5
6
7
8
9
10
x
63
67
45
88
81
71
52
99
58
76
y
65
78
52
82
92
89
73
98
56
75
(1)画出散点图;
(2)计算入学数学成绩(x)与高一期末数学考试成绩(y)的相关系数;
(3)已知x与y之间具有线性相关关系,求出回归直线方程;
(4)若某学生入学数学成绩为80分,试估计他高一期末数学考试成绩.
【解析】(1)画出入学成绩(x)与高一期末数学考试成绩(y)两组变量的散点图,如图,从散点图看,这两组变量具有线性相关关系.
(2)因为=(63+67+…+76)=70,
=(65+78+…+75)=76.
(xi-)(yi-)=1
894,
(xi-)2=2
474,
(yi-)2=2
056.
因此求得相关系数为r=≈0.839
786.
(3)设回归直线方程为=+x,在两组变量具有显著的线性相关关系情况下,≈0.765
56,=-≈22.410
8.
因此所求的回归直线方程是=22.410
8+0.765
56x.
(4)若某学生入学数学成绩为80分,代入上式可求得≈84分,即这个学生高一期末数学成绩预测值为84分.
【类题·通】
1.建立回归模型的步骤
(1)确定研究对象,明确变量x,y.
(2)画出变量的散点图,观察它们之间的关系.
(3)确定回归方程的类型.
(4)按一定规则估计回归方程中的参数(如最小二乘法).
(5)得出回归方程.
2.分析两个变量线性相关的常用方法
(1)散点图法,该法主要是用来直观分析两变量间是否存在相关关系.
(2)相关系数法,该法主要是从量上分析两个变量间相互联系的密切程度,|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.
【变式训练】
某班5名学生的数学和物理成绩如表:
A
B
C
D
E
数学成绩(x)
88
76
73
66
63
物理成绩(Y)
78
65
71
64
61
(1)画出散点图;
(2)求物理成绩Y对数学成绩x的经验回归方程;
(3)一名学生的数学成绩是96,试预测他的物理成绩(结果保留整数).
【解析】(1)如图所示.
(2)因为=×(88+76+73+66+63)=73.2,
=×(78+65+71+64+61)=67.8,
xiyi=88×78+76×65+73×71+66×64+63×61=25
054,=882+762+732
+662+632=27
174.
所以==≈0.625,
=-≈67.8-0.625×73.2=22.05.
故Y对x的经验回归方程是=0.625x+22.05.
(3)x=96,则=0.625×96+22.05≈82,
即可以预测他的物理成绩是82.
PAGE8.3 列联表与独立性检验
必备知识·素养奠基
1.分类变量:用来区别不同的现象或性质的随机变量,其取值可以用实数表示.
2.2×2列联表及随机事件的概率
(1)2×2列联表:如果随机事件X与Y的样本数据如下表格形式
Y=0
Y=1
合计
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
a+b+c+d
在这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列联表.
(2)2×2列联表中随机事件的概率:
如上表,记n=a+b+c+d,则
事件{Y=0}发生的概率可估计为__P(Y=0)=____________________________;?
事件发生的概率可估计为__P=_______________________;?
事件发生的概率可估计为__P=____________.?
事件发生的概率可估计为__P=___________.?
3.独立性检验
(1)零假设:设X和Y为定义在Ω上,取值于{0,1}的成对分类变量.由于和,和{Y=1}都是互为对立事件,故要判断事件和{Y=1}之间是否有关联,需要判断假定关系__H0:P(Y=1|X=0)=P__是否成立.通常称H0为零假设.?
(2)独立性检验:利用随机变量χ2来判断“两个分类变量有关系”的方法称为独立性检验.
(3)公式:χ2=,其中n=a+b+c+d为样本容量.
(4)对照表及检验规则:
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
当χ2≥xα时就推断“X与Y不独立”,这种推断犯错误的概率不超过α;当χ21.思维辨析(对的打“√”,错的打“×”)
(1)2×2列联表只有4个格子.( )
(2)χ2的大小是判断事件A与B是否相关的统计量.( )
(3)当χ2≥3.841时有95%的把握说事件A与B有关.( )
提示:(1)×.2×2列联表核心的数据是中间的4个格子.
(2)√.根据独立性检验意义可知.
(3)√.由对照表可得.
2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
男
女
合计
爱好
40
20
60
不爱好
20
30
50
合计
60
50
110
经计算得χ2=≈7.8.
则正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
【解析】选C.根据独立性检验的思想方法,正确选项为C.
3.下面是一个2×2列联表:
y1
y2
合计
x1
a
21
73
x2
2
25
27
合计
b
46
100
则表中a,b的值分别为________.?
【解析】a=73-21=52,b=100-46=54.
答案:52,54
关键能力·素养形成
类型一 列联表与等高条形图
【典例】某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.
(1)根据以上数据,作出考前心情与性格的列联表,并求性格外向的学生中考前心情紧张的概率.
(2)作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.
【思维·引】(1)弄清题意,列出2×2列联表,根据列联表,用频率估计概率.
(2)利用列联表中数据,画出等高条形图,直观判断.
【解析】(1)作列联表如下:
性格内向
性格外向
合计
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
合计
426
594
1
020
由列联表中数据可得,性格外向的学生中考前心情紧张的概率为=.
(2)相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数所占的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前紧张与性格类型有关.
【内化·悟】
列2×2列联表的关注点
1.作2×2列联表时,注意应该是4行4列,计算时要准确无误.
2.作2×2列联表时,关键是对涉及的变量分清类别.
【类题·通】
利用等高条形图判断两个分类变量是否相关的步骤
【习练·破】
1.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.根据以上数据建立一个2×2列联表.
【解析】列表如下:
看电视
运动
合计
女
43
27
70
男
21
33
54
合计
64
60
124
2.网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1
000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?
【解析】根据题目所给的数据得到如下2×2列联表:
经常上网
不经常上网
合计
不及格
80
120
200
及格
120
680
800
合计
200
800
1
000
得出等高条形图如图所示:
比较图中阴影部分的高可以发现经常上网不及格的频率明显高于经常上网及格的频率,因此可以认为经常上网与学习成绩有关.
【加练·固】
当某矿石粉厂生产一种矿石粉时,在数天内就有部分工人患职业性皮肤炎.在生产季节期间,随机抽取车间工人抽血化验,75名穿新防护服的车间工人中5例阳性,70例阴性,28名穿旧防护服的车间工人中10例阳性,18例阴性,请用图形判定这种新防护服对预防工人职业性皮肤炎是否有效.(注:显阴性即未患皮肤炎)
【解析】由题目所给的数据得2×2列联表:
阳性例数
阴性例数
合计
穿新防护服
5
70
75
穿旧防护服
10
18
28
合计
15
88
103
相应的等高条形图如图所示.
图中两个深色的高分别表示穿新、旧防护服样本中呈阳性的频率,从图中可以看出,穿旧防护服呈阳性的频率高于穿新防护服呈阳性的频率.因此,可以认为新防护服比旧防护服对预防这种皮肤炎有效.
类型二 独立性检验
【典例】为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
[0,50]
(50,150]
(150,475]
[0,35]
32
18
4
(35,75]
6
8
12
(75,115]
3
7
10
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面2×2列联表:
[0,150]
(150,475]
[0,75]
(75,115]
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?
附:χ2=.
P(χ2≥xα)
0.05
0.01
0.001
xα
3.841
6.635
10.828
【思维·引】(1)用频率估计概率,从而得到“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据题目所给的数据填写2×2列联表即可;
(3)计算χ2的值,对照题目中的表格,得出统计结论.
【解析】(1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为=0.64.
(2)根据抽查数据,可得2×2列联表:
[0,150]
(150,475]
[0,75]
64
16
(75,115]
10
10
(3)根据(2)的列联表得χ2=≈7.484.
由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
【素养·探】
本题考查独立性检验的应用,同时考查了数据分析与数学建模的核心素养.
本例若把2×2列联表中的数据调整如下:
[0,150]
(150,475]
[0,75]
70
10
(75,115]
8
12
判断是否有99.9%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?
【解析】χ2=≈21.037>10.828=x0.001,
所以有99.9%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
【类题·通】
独立性检验的关注点
(1)步骤:列表,计算,判断;
(2)注意:
①χ2计算公式较复杂,一是公式要清楚;二是代入数值时不能张冠李戴;三是计算时要细心;
②判断时把计算结果与临界值比较,其值越大,有关的可信度越高.
【习练·破】
某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或者不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
(1)分别估算男、女顾客对该商场服务满意的概率?
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:χ2=
P(χ2≥xα)
0.050
0.010
0.001
xα
3.841
6.635
10.828
【解析】(1)由调查数据,男顾客中对该商场服务满意的比率为=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.
女顾客中对该商场服务满意的比率为=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.
(2)χ2=≈4.762.
由于4.762>3.841,
故有95%的把握认为男、女顾客对该商场服务的评价有差异.
【加练·固】
调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人.
(1)将下面的2×2列联表补充完整;
晚上
白天
合计
男婴
女婴
合计
(2)能否在犯错误的概率不超过0.1的前提下认为婴儿性别与出生时间有关系?
【解析】(1)
晚上
白天
合计
男婴
24
31
55
女婴
8
26
34
合计
32
57
89
(2)由所给数据计算χ2=≈3.689>2.706=x0.1.
因此在犯错误的概率不超过0.1的前提下认为婴儿的性别与出生的时间有关系.
类型三 独立性检验的综合应用
【典例】手机厂商推出一款6寸大屏手机,现对500名该手机使用者(200名女性、300名男性)进行调查,对手机进行评分,评分的频数分布表如下:
女性用户
分值区间
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
20
40
80
50
10
男性用户
分值区间
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
45
75
90
60
30
(1)完成下列频率分布直方图,并比较女性用户和男性用户评分的波动大小(不计算具体值,给出结论即可);
(2)把评分不低于70分的用户称为“认可用户”,依据小概率值α=0.1的χ2独立性检验,能否认为“是否是认可用户”与性别有关?
参考公式及数据:
χ2=,其中n=a+b+c+d.
P(χ2≥xα)
0.1
0.05
0.01
xα
2.706
3.841
6.635
【思维·引】(1)利用频数分布表中所给数据求出各组的频率,利用频率除以组距得到纵坐标,从而可得频率分布直方图,由频率分布直方图观察女性用户和男性用户评分的集中与分散情况即可比较波动的大小;(2)利用公式求出χ2的值,与临界值比较,即可得出结论.
【解析】(1)女性用户和男性用户的频率分布直方图分别如图所示:
由图可得女性用户的波动小,男性用户的波动大.
(2)由题可得2×2列联表如下:
女性用户
男性用户
合计
认可用户
140
180
320
不认可用户
60
120
180
合计
200
300
500
则χ2=≈5.208>2.706=x0.1,
故根据小概率值α=0.1的χ2独立性检验,可以认为“是否是认可用户”与性别有关.
【类题·通】
独立性检验综合问题的命题方向
独立性检验的考查,往往与概率和抽样统计图等一起考查,这类问题的求解往往按各小题及提问的顺序,一步步进行下去,是比较容易解答的,考查单纯的独立性检验往往用小题的形式,而且χ2的公式一般会在原题中给出.
【习练·破】
某中学将100名高一新生分成水平相同的甲、乙两个“平行班”,每班50人.陈老师采用A,B两种不同的教学方式分别在甲、乙两个班级进行教改实验.为了解教学效果,期末考试后,陈老师分别从两个班级中各随机抽取20名学生的成绩进行统计,作出茎叶图如图.记成绩不低于90分者为“成绩优秀”.
(1)在乙班样本的20个个体中,从不低于86分的成绩中随机抽取2个,求抽出的两个均“成绩优秀”的概率;
(2)由以上统计数据作出列联表,并判断能否在犯错误的概率不超过0.1的前提下认为“成绩优秀”与教学方式有关?
【解析】(1)从不低于86分的成绩中随机抽取两个包含的基本事件是:(86,93),(86,96),(86,97),(86,99),(86,99),(93,96),(93,97),(93,99),
(93,99),(96,97),(96,99),(96,99),(97,99),(97,99),(99,99),共有15种结果,
符合条件的事件为(93,96),(93,97),(93,99),(93,99),(96,97),(96,99),
(96,99),(97,99),(97,99),(99,99),共有10种结果,根据等可能事件的概率得到P==.
(2)由已知数据得
甲班
乙班
合计
成绩优秀
1
5
6
成绩不优秀
19
15
34
合计
20
20
40
根据列联表中的数据,计算得χ2=≈3.137,由于3.137>2.706,
所以在犯错误的概率不超过0.1的前提下认为:“成绩优秀”与教学方式有关.
课堂检测·素养达标
1.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )
A.平均数与方差
B.回归分析
C.独立性检验
D.概率
【解析】选C.判断两个分类变量是否有关的最有效方法是进行独立性检验.
2.分类变量X和Y的列表如下,则下列说法判断正确的是( )
y1
y2
合计
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
A.ad-bc越小,说明X和Y关系越弱
B.ad-bc越大,说明X和Y关系越强
C.(ad-bc)2越大,说明X与Y关系越强
D.(ad-bc)2越接近于0,说明X与Y关系越强
【解析】选C.列联表可以较为准确地判断两个变量之间的相关关系程度,由χ2
=,
当(ad-bc)2越大,χ2越大,表明X与Y的关系越强.
(ad-bc)2越接近0,说明两个分类变量X和Y无关的可能性越大.
3.下面2×2列联表的χ2的值为________.?
B
合计
A
8
4
12
2
16
18
合计
10
20
30
【解析】χ2==10.
答案:10
4.若由一个2×2列联表中的数据计算得χ2=8.013,那么是否有99.5%的把握认为两个随机事件之间有关系:________.(填“是”或“否”)?
【解析】因为χ2=8.013>7.879=x0.005,查阅χ2表知有99.5%的把握认为两个随机事件之间有关系.
答案:是
PAGE8.2 一元线性回归模型及其应用
必备知识·素养奠基
1.一元线性回归模型
一元线性回归模型的完整表达式为其中Y称为因变量或响应变量,x称为自变量或解释变量;a,b为模型的未知参数,e是Y与bx+a之间的随机误差.
具有相关关系的两个变量,其样本点散布在某一条直线y=bx+a的附近,可以用一次函数y=bx+a来描述两个变量之间的关系吗?
提示:不能.
2.最小二乘法与经验回归方程
(1)最小二乘法
=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.
(2)经验回归方程的系数计算公式
经验回归方程
的计算公式
的计算公式
=?x+
==
=-
(3)经验回归方程的性质
①经验回归方程一定过点__(,)__;?
②一次函数=x+的单调性由的符号决定,函数递增的充要条件是?>0__;?
③的实际意义:当x增大一个单位时,增大个单位.
正相关、负相关与的符号有何关系?
提示:Y与x正相关的充要条件是>0,Y与x负相关的充要条件是<0.
3.残差
(1)残差:对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
(2)决定系数:R2=1-越接近1,表示回归的效果越好.
1.思维辨析(对的打“√”,错的打“×”)
(1)经验回归方程一定过样本中的某一个点.( )
(2)选取一组数据中的部分点得到的经验回归方程与由整组数据得到的经验回归方程是同一个方程.( )
(3)在经验回归模型中,R2越接近于1,表示解释变量和响应变量的线性相关性越强.( )
(4)在画两个变量的散点图时,响应变量在x轴上,解释变量在y轴上.( )
提示:(1)×.经验回归方程一定过点(,),可能过样本中的某个或某些点,也可能不过样本中的任意一个点.
(2)×.选取一组数据中的部分点得到的经验回归方程与由整组数据得到的经验回归方程不一定是同一个方程.
(3)√.
(4)×.在画两个变量的散点图时,解释变量在x轴上,响应变量在y轴上.
2.若某地财政收入x与支出Y满足经验回归方程=x++ei(单位:亿元)(i=1,2,…),其中=0.8,=2,|ei|<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( )
A.10亿元
B.9亿元
C.10.5亿元
D.9.5亿元
【解析】选C.=0.8×10+2+ei=10+ei,
因为|ei|<0.5,所以9.5<<10.5.
3.若施肥量x(kg)与水稻产量Y(kg)的经验回归方程为=5x+250,当施肥量为
80
kg时,预计水稻产量约为________kg.?
【解析】把x=80代入经验回归方程可得其预测值=5×80+250=650(kg).
答案:650
关键能力·素养形成
类型一 求经验回归方程
【典例】某种产品的广告费用支出x与销售额Y(单位:百万元)之间有如下的对应数据:
x/百万元
2
4
5
6
8
Y/百万元
30
40
60
50
70
(1)画出散点图;
(2)求经验回归方程;
(3)试预测广告费用支出为10百万元时,销售额多大?
【思维·引】(1)按表中的数据在平面直角坐标系中描点即得散点图;
(2)由公式求出,,写出经验回归方程;
(3)利用经验回归方程分析.
【解析】(1)散点图如图所示:
(2)列出下表,并用科学计算器进行有关计算:
i
1
2
3
4
5
合计
xi
2
4
5
6
8
25
yi
30
40
60
50
70
250
xiyi
60
160
300
300
560
1
380
4
16
25
36
64
145
所以==5,==50,=145,xiyi=1
380.于是可得=
==6.5,=-=50-6.5×5=17.5.
所以所求的经验回归方程为=6.5x+17.5.
(3)根据上面求得的经验回归方程,当广告费用支出为10百万元时,=6.5×10+17.5=82.5(百万元),
即广告费用支出为10百万元时,销售额大约为82.5百万元.
【内化·悟】
求经验回归方程前应注意什么问题?
提示:对于性质不明确的两组数据,要先作散点图,从图中看它们有无线性相关关系,有相关关系的求出的经验回归方程才有实际意义.
【类题·通】
求经验回归方程的步骤
(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系.
(2)求回归系数:若存在线性相关关系,则求回归系数.
(3)写方程:写出经验回归方程,并利用经验回归方程进行预测说明.
【习练·破】
某公司的生产部门调研发现,该公司第二,三季度的月用电量Y与月份x线性相关,且数据统计如下:
月份
4
5
6
7
8
9
月用电量(千瓦时)
6
16
27
55
46
56
但核对电费报表时发现一组数据统计有误.
(1)请指出哪组数据有误,并说明理由;
(2)在排除有误数据后,求月用电量与月份之间的经验回归方程=x+,并预测统计有误那个月份的用电量.(结果精确到0.1)
【解析】(1)作散点图如图所示.因为用电量与月份之间线性相关,所以散点图的样本点分布在经验回归直线附近比较窄的带状区域内,而点(7,55)离其他点所在区域较远,故(7,55)这组数据有误.
(2)排除(7,55)这一组有误数据后,计算得=6.4,=30.2.
因为=≈9.98,
=-≈-33.67,
所以经验回归方程为=9.98x-33.67,
当x=7时,≈36.2,
即7月份的用电量大约为36.2千瓦时.
类型二 线性检验回归分析
【典例】某运动员训练次数与训练成绩之间的数据关系如表:
次数(x)
30
33
35
37
39
44
46
50
成绩(Y)
30
34
37
39
42
46
48
51
(1)作出散点图;
(2)求出经验回归方程;
(3)作出残差图;
(4)计算R2,并说明运动员的训练次数对成绩的影响占百分之几.
【思维·引】根据题意先作散点图再求经验回归方程、残差及R2.
【解析】(1)作出该运动员训练次数x与成绩Y的散点图,如图所示.由散点图可知,它们之间具有相关关系.
(2)=39.25,=40.875,=12
656,xiyi=13
180,
所以=≈1.041
5,=-=-0.003
875,
所以经验回归方程为=1.041
5x-0.003
875.
(3)残差分析:下面的表格列出了运动员训练次数和成绩的原始数据以及相应的残差数据.
x
Y
30
30
-1.241
1
33
34
-0.365
6
35
37
0.551
4
37
39
0.468
4
39
42
1.385
4
44
46
0.177
9
46
48
0.094
9
50
51
-1.071
1
作残差图如图所示.
由图可知,残差点比较均匀地分布在水平带状区域内,说明选择的模型比较合适.
(4)计算R2≈0.985
5,说明了该运动员的训练次数对成绩的影响占98.55%.
【类题·通】
“R2、残差图”在回归分析中的作用
(1)R2是用来刻画回归效果的,由R2=1-可知R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.
(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报精度越高.
【习练·破】
为研究质量x(单位:g)对弹簧长度Y(单位:cm)的影响,对不同质量的6个物体进行测量,数据如表所示:
x
5
10
15
20
25
30
Y
7.25
8.12
8.95
9.90
10.9
11.8
(1)作出散点图并求经验回归方程;
(2)求出R2并说明回归模型拟合的程度;
(3)进行残差分析.
【解析】(1)散点图如图.
=×(5+10+15+20+25+30)=17.5,
=×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,计算得≈0.183,≈6.285.
故所求经验回归方程为=6.285+0.183x.
(2)列出残差表为
yi-i
0.05
0.005
-0.08
-0.045
0.04
0.025
yi-
-2.237
-1.367
-0.537
0.413
1.413
2.313
所以(yi-i)2≈0.013
18,(yi-)2=14.678
3.
所以,R2=1-≈0.999
1,回归模型的拟合效果较好.
(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个样本点的时候是否有人为的错误,如果有的话,需要纠正,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与所挂物体的质量成线性关系.
类型三 非线性经验回归问题
【典例】为了研究某种细菌随时间x的变化繁殖个数Y的变化,收集数据如下:
时间x/天
1
2
3
4
5
6
繁殖个数Y
6
12
25
49
95
190
(1)将天数做解释变量,繁殖个数做响应变量,作出这些数据的散点图;
(2)描述解释变量与响应变量之间的关系.
【思维·引】先由散点图确定相应的函数模型,再通过对数变换将非线性相关转化为线性相关的两个变量来求解.
【解析】(1)由表中数据作散点图如图所示.
(2)由散点图看出样本点分布在一条指数函数y=c1的图象的周围,其中c1和c2是待定系数.于是令Z=ln
Y,则=x+(=ln
c1,=c2),因此变换后的样本点应该分布在直线=x+的周围,因此可以用经验回归模型来拟合Z与x的关系,则变换后的样本数据如表:
x
1
2
3
4
5
6
Z
1.79
2.48
3.22
3.89
4.55
5.25
由表中数据得到经验回归方程=0.69x+1.115.
因此细菌繁殖个数关于时间的非线性经验回归方程为=e0.69x+1.115.
【内化·悟】
将非线性相关问题转化为线性相关问题的依据是什么?
提示:根据散点图确定.
【类题·通】
1.非线性经验回归问题的解题步骤
2.常见转化类型
(1)反比例函数y=a+可作变换t=,得y=a+bt.
(2)幂函数型y=axb(a>0)可作变换Y=ln
y,m=ln
a,t=ln
x,则有Y=m+bt.
(3)指数型函数y=kabx(a>0且a≠1,k>0)可作变换Y=ln
y,m=ln
k,则有:Y=m+
(bln
a)x.
【习练·破】
某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量Y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)(yi-)
(wi-)(yi-)
46.6
563
6.8
289.8
1.6
1
469
108.8
表中wi=,=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量Y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为
=,=-.
【解析】(1)由散点图可以判断,y=c+d适宜作为年销售量Y关于年宣传费x的回归方程类型.
(2)令w=,先建立Y关于w的经验回归方程.
由于===68,=-=563-68×6.8=100.6,
所以Y关于w的经验回归方程为=100.6+68w,
因此Y关于x的经验回归方程为=100.6+68.
(3)①由(2)知,当x=49时,年销售量Y的预报值=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,
即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
【加练·固】
如表是某年美国旧轿车价格的调查资料.
使用年数
1
2
3
4
5
6
7
8
9
10
平均价格(美元)
2
651
1
943
1
494
1
087
765
538
484
290
226
204
观察表中的数据,试问平均价格与使用年数间存在什么样的关系?
【解析】设x表示轿车的使用年数,Y表示相应的平均价格,作出散点图.
由散点图可以看出Y与x具有指数关系,
令Z=ln
Y,变换得
x
1
2
3
4
5
6
7
8
9
10
Z
7.883
7.572
7.309
6.991
6.640
6.288
6.182
5.670
5.421
5.318
作出散点图:
由图可知各点基本上处于一直线附近,由表中数据可求出经验回归方程:=8.166-0.298x.
因为旧车的平均价格与使用年数具有指数关系,所以其非线性经验回归方程为=e8.166-0.298x.
课堂检测·素养达标
1.关于回归分析,下列说法错误的是( )
A.回归分析是研究两个具有相关关系的变量的方法
B.散点图中,解释变量在x轴,响应变量在y轴
C.回归模型中一定存在随机误差
D.散点图能明确反映变量间的关系
【解析】选D.用散点图反映两个变量间的关系时,存在误差.
2.关于残差图的描述错误的是( )
A.残差图的横坐标可以是样本编号
B.残差图的横坐标也可以是解释变量或预报变量
C.残差点分布的带状区域的宽度越窄相关指数越小
D.残差点分布的带状区域的宽度越窄残差平方和越小
【解析】选C.残差点分布的带状区域的宽度越窄,说明模型拟合精度越高,则残差平方和越小,此时,相关指数R2的值越大.
3.根据如下样本数据:
x
2
3
4
5
6
Y
4
2.5
-0.5
-2
-3
得到的经验回归方程为=x+,则( )
A.>0,>0
B.>0,<0
C.<0,>0
D.<0,<0
【解析】选B.由题干表中的数据可得,变量Y随着x的增大而减小,则<0,
又回归方程为=x+经过(2,4),(3,2.5),可得>0.
4.某种产品的广告支出费用x(单位:万元)与销售额Y(单位:万元)的数据如表:
x
2
4
5
6
8
Y
30
40
60
50
70
已知Y关于x的经验回归方程为=6.5x+17.5,则当广告支出费用为5万元时,残差为________.?
【解析】当x=5时,=6.5×5+17.5=50,表格中对应y=60,于是残差为60-50=10.
答案:10
【新情境·新思维】
已知变量x,Y之间具有线性相关关系,其散点图如图所示,则其经验回归方程可能为( )
A.=1.5x+2
B.=-1.5x+2
C.=1.5x-2
D.=-1.5x-2
【解析】选B.设经验回归方程为=x+,由题干中散点图可知变量x,Y之间负相关,经验回归直线在Y轴上的截距为正数,所以<0,>0,因此方程可能为=-1.5x+2.
PAGE第八章 成对数据的统计分析
8.1 成对数据的统计相关性
必备知识·素养奠基
1.变量的相关关系
(1)两个变量的关系
分类
函数关系
相关关系
特征
两变量有确定的关系
两个变量有关系,但又没有确切到可由其中一个去精确地决定另一个的程度
(2)散点图:将样本中的每一个序号下的成对数据用直角坐标系中的点表示出来得到的统计图.
(3)正相关与负相关
正相关
负相关
当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势
当一个变量的值增加时,另一个变量的相应值呈现减少的趋势
(4)线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线性相关.
正相关与负相关是对所有具有相关关系的两个变量而言的,对吗?
提示:不对,正相关与负相关是针对线性相关关系而言的.
2.样本的相关系数
(1)相关系数:统计学里一般用r==来衡量y与x的线性相关性的强弱,这里的r称为样本相关系数(简称相关系数).
(2)相关系数的性质
1
r>0时,成对数据正相关;r<0时,成对数据负相关,-1≤r≤1.
2
|r|越小,两个变量之间的线性相关程度越弱,|r|越大,两个变量之间的线性相关程度越强.
3
|r|=1时,成对数据构成的点都在一条确定的直线上.
|r|的大小有何实际意义?
提示:|r|越小,两个变量之间的线性相关性越弱;|r|越大,两个变量之间的线性相关性越强.
1.思维辨析(对的打“√”,错的打“×”)
(1)两个变量的相关关系是一种确定的关系.( )
(2)两个变量的相关系数越大,它们的相关程度越强.( )
(3)当一个变量的值增加时,另一个变量的值随之减少,则称这两个变量负相关.( )
(4)一般地,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.( )
提示:(1)×.两个变量的相关关系不是一种确定的关系,是一种随机关系.
(2)×.相关系数|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱.
(3)×.存在相关关系的两个变量,当一个变量增加时,另一个变量的相应值呈减少的趋势,则称这两个变量负相关.
(4)√.
2.根据一组数据判断两个变量是否线性相关时,应选( )
A.茎叶图
B.频率分布直方图
C.散点图
D.频率分布折线图
【解析】选C.判断两个变量是否有线性相关关系时,应先画出散点图.若这些点大体分布在一条直线附近则具有线性相关关系.
3.已知两个变量负相关,且相关程度很强,则它们的相关系数的大小可能是( )
A.-0.95
B.-0.13
C.0.15
D.0.96
【解析】选A.相关系数r<0时,成对数据负相关,且|r|越大,两个变量之间的线性相关程度越强.
关键能力·素养形成
类型一 相关关系与线性相关关系
角度1 相关关系
【典例】(多选题)下列关系中,属于相关关系的是( )
A.正方形的边长与面积之间的关系
B.农作物的产量与施肥量之间的关系
C.人的身高与年龄之间的关系
D.降雪量与交通事故的发生率之间的关系
【思维·引】紧扣相关关系的概念加以判断.
【解析】选BD.在A中正方形的边长与面积之间的关系是函数关系;在B中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;在C中,人的身高与年龄之间的关系既不是函数关系,也不是相关关系,因为人的年龄达到一定时期身高就不发生明显变化了,因而它们不具有相关关系;在D中,降雪量与交通事故的发生率之间具有相关关系.
角度2 线性相关关系的判断
【典例】5名学生的数学和物理成绩(单位:分)如下:
A
B
C
D
E
数学成绩
80
75
70
65
60
物理成绩
70
66
68
64
62
判断数学成绩与物理成绩是否具有线性相关关系.
【思维·引】根据散点图判断.
【解析】以x轴表示数学成绩,y轴表示物理成绩,得相应的散点图如图所示.
由散点图可知,各点分布在一条直线附近,故两者之间具有线性相关关系.
【素养·探】
本例考查利用散点图判断两个变量是否线性相关,同时考查了数据分析与数学抽象的核心素养.
本例条件若改为:某公司2014~2019年的年利润x(单位:百万元)与年广告支出y(单位:百万元)的统计资料如表所示:
年份
2014
2015
2016
2017
2018
2019
利润x
12.2
14.6
16
18
20.4
22.3
支出y
0.62
0.74
0.81
0.89
1
1.11
判断x与y是否线性相关,是正相关还是负相关?
【解析】作出散点图(图略),由散点图可知,各点分布在一条直线附近,故x与y之间线性相关,且y随x的增大而增大,是正相关.
【类题·通】
1.函数关系与相关关系
函数关系是一种确定的关系,而相关关系是非随机变量与随机变量的关系.函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.两个变量是否相关的两种判断方法
(1)实际经验法:借助积累的经验进行分析判断;
(2)散点图法:绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
【习练·破】
1.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图①;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图②.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
【解析】选C.由题图象知,变量x与y呈负相关关系;u与v呈正相关关系.
2.下列两个变量间的关系不是函数关系的是( )
A.圆的半径与周长
B.角的度数与它的正切值
C.单产为常数时,土地面积与粮食总产量
D.日照时间与水稻的单位产量
【解析】选D.函数关系与相关关系都是指两个变量之间的关系,但是这两种关系是不同的,函数关系是指当自变量一定时,函数值是确定的,是一种确定性的关系.因为A项C=2πr,B项y=tan
α,C项y=ax(a>0,且a为常数),所以这三项均是函数关系.D项是相关关系.
【加练·固】
某个男孩的年龄与身高的统计数据如表所示.
年龄x(岁)
1
2
3
4
5
6
身高y(cm)
78
87
98
108
115
120
(1)画出散点图;
(2)判断y与x是否具有线性相关关系.
【解析】(1)散点图如图所示.
(2)由散点图知,所有数据点分布在一条直线附近,因此,认为y与x具有线性相关关系.
类型二 相关系数与相关程度的判断
角度1 相关系数的概念
【典例】下面的各图中,散点图与相关系数r不符合的是( )
【思维·引】根据相关系数与散点图的关系解答.
【解析】选B.A、B选项中散点全部集中在一条直线上,且分别呈负、正相关,故相关系数r的值应分别为-1,1;C选项变量呈负相关,故-1角度2 相关程度的判断
【典例】一般来说,一个人的身高越高,他的手就越大,为调查这一问题,对某校10名高一男生的身高与右手长度进行测量得到如下数据(单位:cm):
身高
168
170
171
172
174
176
178
178
180
181
右手长度
19.0
20.0
21.0
21.5
21.0
22.0
24.0
23.0
22.5
23.0
(1)判断两者有无线性相关关系;
(2)如果具有线性相关关系,判断相关性的强弱.
【思维·引】画散点图判断是否线性相关,求相关系数刻画相关程度.
【解析】(1)散点图如图所示.
可见,身高与右手长度之间的总体趋势为一条直线,即它们线性相关.
(2)根据以上数据可由计算器计算得=174.8,=21.7,=305
730,=
4
729.5,xiyi=37
986.
r===≈0.9.
故两者有很强的线性相关关系.
【类题·通】
相关系数的关注点
1.相关系数可以反映两个变量之间的线性相关程度,即散点集中于一条直线的程度,其符号反映了相关关系的正负性.
2.变量间是否具有线性相关关系,可通过散点图或相关系数作出判断,散点图只是粗略作出判断,用相关系数能够较准确的判断相关的程度.
【习练·破】
关于两个变量x和y的7组数据如表所示:
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
试判断y与x是否线性相关,并刻画它们的相关程度.
【解析】画散点图(图略),观察散点图,可以看出样本点都集中在一条直线附近,由此判断y与x线性相关.
=(21+23+25+27+29+32+35)≈27.4,
=(7+11+21+24+66+115+325)≈81.3,
=212+232+252+272+292+322+352=5
414,
xiyi=21×7+23×11+25×21+27×24+29×66+32×115+35×325=18
542.
=72+112+212+242+662+1152+3252=124
393,
所以r==≈≈0.837
5.
所以x与y具有线性相关关系.
课堂检测·素养达标
1.对于给定的两个变量的统计数据,下列说法正确的是( )
A.都可以分析出两个变量的关系
B.都可以用一条直线近似地表示两者的关系
C.都可以作出散点图
D.都可以用确定的表达式表示两者的关系
【解析】选C.给出一组样本数据,总可以作出相应的散点图,故C正确,但不一定能分析出两个变量的关系,故A不正确,更不一定符合线性相关,故B不正确,两个变量的统计数据不一定有函数关系,故D不正确.
2.对两个变量x,y的几组观测数据统计如表,则这两个相关变量的关系是( )
x
10
9
8
7
6
5
y
2
3
3.5
4
4.8
5
A.负相关
B.正相关
C.先正后负相关
D.先负后正相关
【解析】选A.根据两个变量x,y的几组观测数据统计表知,y随x的增大而减小,所以这两个相关变量负相关.
3.变量x,y的散点图如图所示,那么x,y之间的样本相关系数r最接近的值为( )
A.1
B.-0.5
C.0
D.0.5
【解析】选C.根据变量x,y的散点图,得x,y之间的样本相关关系非常不明显,
所以相关系数r最接近的值应为0.
4.现随机抽取了某校10名学生在入学考试中的数学成绩(x)与入学后的第一次考试数学成绩(y),数据如表:
学生号
1
2
3
4
5
6
7
8
9
10
x
120
108
117
104
103
110
104
105
99
108
y
84
64
84
68
69
68
69
46
57
71
请问:这10名学生的两次数学考试成绩是否具有显著的线性相关关系?
【解析】=(120+108+…+99+108)=107.8,
=(84+64+…+57+71)=68,
=1202+1082+…+992+1082=116
584,
=842+642+…+572+712=47
384,
xiyi=120×84+108×64+…+108×71=73
796,
所以,相关系数为r=≈0.750
6,
故两次数学考试成绩有显著的线性相关关系.
【新情境·新思维】
下列反映两个变量的相关关系中,不同于其他三个的是( )
A.名师出高徒
B.水涨船高
C.月明星稀
D.登高望远
【解析】选C.由题意,A,B,D具有因果关系,C没有因果关系.
PAGE