(共53张PPT)
章末复习课
第八章 成对数据的统计分析
内
容
索
引
知识网络
考点突破
真题体验
1
知识网络
PART
ONE
2
考点突破
PART
TWO
一、变量的相关性
1.变量的相关关系与样本相关系数是学习一元线性回归模型的前提和基础,前者可借助散点图从直观上分析变量间的相关性,后者从数量上准确刻化了两个变量的相关程度.
2.在学习该部分知识时,体会直观想象和数学运算的素养.
例1 (1)下列两个变量具有相关关系且不是函数关系的是
A.圆的半径与面积
B.匀速行驶的车辆的行驶距离与时间
C.庄稼的产量与施肥量
D.人的身高与视力
√
解析 对于A,圆的半径与面积是确定的关系,是函数关系;
对于B,匀速行驶的车辆的行驶距离与时间是确定的关系,是函数关系;
对于C,庄稼的产量与施肥量在一定范围内有相关关系,不是函数关系;
对于D,人的身高与视力,不具有相关关系,也不是函数关系.故选C.
(2)在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y与x的样本相关系数为_____.
-1
方法二 观察四个点,发现其在一条单调递减的直线上,
故y与x的样本相关系数为-1.
反思感悟
变量相关性的判断的两种方法
(1)散点图法:直观形象.
(2)公式法:可用公式精确计算,需注意特殊情形的样本相关系数.如点在一条直线上,|r|=1,且当r=1时,正相关;r=-1时,负相关.
跟踪训练1 (1)已知变量x和y满足关系y=-2x+1,变量y与z正相关,下列结论中正确的是
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
√
解析 根据题意,变量x和y满足关系y=-2x+1,
其比例系数为-2<0,所以x与y负相关;
又由变量y与z正相关,则x与z负相关.故选C.
(2)如图所示,给出了样本容量均为7的A,B两组成对样本数据的散点图,已知A组成对样本数据的样本相关系数为r1,B组成对样本数据的样本相关系数为r2,则
A.r1=r2
B.r1C.r1>r2
D.无法判定
√
解析 根据A,B两组成对样本数据的散点图知,A组成对样本数据几乎在一条直线上,且成正相关,
∴样本相关系数为r1应最接近1,B组成对样本数据分散在一条直线附近,也成正相关,
∴样本相关系数为r2,满足r2r2,故选C.
二、一元线性回归模型及其应用
1.该知识点是具有线性相关关系的两变量的一种拟合应用,目的是借助函数的思想对实际问题做出预测和分析.
2.主要培养数学建模和数据分析的素养.
例2 一商场对每天进店人数和商品销售件数进行了统计对比,得到如下表格:
人数xi
10
15
20
25
30
35
40
件数yi
4
7
12
15
20
23
27
其中i=1,2,3,4,5,6,7.
(1)以每天进店人数为横坐标,每天商品销售件数为纵坐标,画出散点图;
解 由表中数据,画出7个数据点,
可得散点图如图所示.
(2)求经验回归方程;(结果保留到小数点后两位)
(3)预测进店人数为80时商品销售的件数.(结果保留整数)
反思感悟
解决回归分析问题的一般步骤
(1)画散点图.根据已知数据画出散点图.
(2)判断变量的相关性并求经验回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出经验回归方程.
(3)回归分析.画残差图或计算R2,进行残差分析.
(4)实际应用.依据求得的经验回归方程解决实际问题.
跟踪训练2 某地搜集到的新房屋的销售价格(单位:万元)和房屋面积(单位:m2)的数据如下表:
房屋面积/m2
115
110
80
135
105
销售价格/万元
24.8
21.6
18.4
29.2
22
(1)画出数据对应的散点图;
解 设x轴表示房屋的面积,y轴表示销售价格,数据对应的散点图如图.
(2)求经验回归方程;
解 由(1)知y与x具有线性相关关系,
(3)根据(2)的结果,估计当房屋面积为150
m2时的销售价格.
解 由(2)知当x=150时,销售价格的估计值为
=0.196
2×150+1.814
2=31.244
2(万元).
故当房屋面积为150
m2时,估计销售价格是31.244
2万元.
三、非线性经验回归方程
1.在实际问题中,并非所有的变量关系均满足线性关系,故要选择适当的函数模型去拟合样本数据,再通过代数变换,把非线性问题线性化.
2.体现数学建模的优劣,提升数据分析的素养.
例3 某公司为确定下一年度投入产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,于是对近8年的宣传费xi和年销售量yi(i=1,2,…,8)的数据进行了初步处理,得到如图所示的散点图及一些统计量的值.
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y之间的关系为z=0.2y-x,根据(2)的结果回答下列问题.
①当年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的估计值最大?
故当年宣传费为46.24千元时,年利润的估计值最大.
反思感悟
非线性经验回归方程的求解策略
(1)本例中,y与x不是线性相关关系,但通过wi=
,转换为w与y的线性相关关系,从而可利用线性回归分析间接讨论y与x的相关关系.
(2)可线性化的回归分析问题,画出已知数据的散点图,选择跟散点图拟合得最好的函数模型进行变量代换,作出变换后样本点的散点图,用线性回归模型拟合.
跟踪训练3 电容器充电达到某电压值时作为时间t的计算原点,此后电容器串联一电阻放电,测定各时间的电压值(U)所得数据见下表:
t(h)
0
1
2
3
4
5
6
7
8
…
U(V)
100
75
55
40
30
20
15
10
5
…
设U与t之间具有近似关系U≈U0e-αt(U0,α为常数,e≈2.718
28…),求U对t的回归方程.
解 对U≈U0e-αt两边取自然对数,
得ln
U≈ln
U0-αt.
将U的各数据代入z=ln
U,求得:
t
0
1
2
3
4
5
6
7
8
…
z
4.605
4.317
4.007
3.689
3.401
2.996
2.708
2.303
1.609
…
即ln
U=4.714-0.355
3t,所以U=e4.714-0.355
3t.
故所求回归方程为U≈e4.714-0.355
3t.
四、独立性检验
1.主要考查根据样本制作2×2列联表,由2×2列联表计算χ2,查表分析并判断相关性结论的可信程度.
2.通过计算χ2值,进而分析相关性结论的可信程度,提升数学运算、数据分析素养.
例4 奥运会期间,为调查某高校学生是否愿意提供志愿者服务,用简单随机抽样方法从该校调查了60人,结果如下:
是否愿意提供志愿者服务
性别
愿意
不愿意
男生
20
10
女生
10
20
(1)用分层随机抽样的方法在愿意提供志愿者服务的学生中抽取6人,其中男生抽取多少人?
(2)依据小概率值α=0.01的独立性检验,能否据此推断该校高中生是否愿意提供志愿者服务与性别有关?
下面的临界值表供参考:
是否愿意提供志愿者服务
性别
愿意
不愿意
男生
20
10
女生
10
20
α
0.10
0.05
0.010
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
解 零假设H0:该校高中生是否愿意提供志愿者服务与性别无关.
所以依据小概率值α=0.01的独立性检验,
可以认为该校高中生是否愿意提供志愿者服务与性别有关.
反思感悟
独立性检验问题的求解策略
(1)等高堆积条形图法:依据题目信息画出等高堆积条形图,依据频率差异来粗略地判断两个变量的相关性.
(2)通过公式χ2=
先计算χ2,再与临
界值表作比较,最后得出结论.
跟踪训练4 考察小麦种子灭菌与否跟发生黑穗病的关系,经试验观察,得到数据如下表:
?
种子灭菌
种子未灭菌
合计
黑穗病
26
184
210
无黑穗病
50
200
250
合计
76
384
460
试分析依据小概率值α=0.05的独立性检验,能否据此推断种子灭菌与小麦发生黑穗病有关?
解 零假设H0:种子灭菌与小麦发生黑穗病无关.
由列联表的数据可求
所以依据小概率值α=0.05的独立性检验,
可以认为种子灭菌与小麦发生黑穗病有关系.
3
真题体验
PART
THREE
1
2
1.(2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
从而该地区这种野生动物数量的估计值为60×200=12
000.
1
2
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
1
2
1
2
(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
1
2
解 分层随机抽样,根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.
由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,
采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,
从而可以获得该地区这种野生动物数量更准确的估计.
1
2
2.(2020·新高考全国Ⅰ改编)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
SO2
PM2.5
[0,50]
(50,150]
(150,475]
[0,35]
32
18
4
(35,75]
6
8
12
(75,115]
3
7
10
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
1
2
解 由表格可知,该市100天中,空气中的PM2.5浓度不超过75,
且SO2浓度不超过150的天数为32+6+18+8=64,
所以该市一天中,空气中的PM2.5浓度不超过75,
1
2
(2)根据所给数据,完成下面的2×2列联表:
SO2
PM2.5
[0,150]
(150,475]
[0,75]
?
?
(75,115]
?
?
1
2
解 由所给数据,可得2×2列联表:
SO2
PM2.5
[0,150]
(150,475]
[0,75]
64
16
(75,115]
10
10
1
2
(3)根据(2)中的列联表,依据小概率值α=0.010的独立性检验,分析该市一天空气中PM2.5浓度与SO2浓度是否有关.
1
2
解 零假设为H0:该市一天空气中PM2.5浓度与SO2浓度无关.
根据列联表中数据,经计算得到
≈7.484>6.635≈x0.010,
根据小概率值α=0.010的独立性检验,我们推断H0不成立,
即认为该市一天空气中PM2.5浓度与SO2浓度有关.
1
2
本课结束