(共33张PPT)
第九章 统计与成对数据的统计分析
第3节 成对数据的统计分析
考试要求
1.了解样本相关系数的统计含义.
2.了解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题.
3.会利用统计软件进行数据分析.
知识梳理
(1)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)相关关系的分类:正相关和负相关.
(3)线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在__________附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
1.变量的相关关系
一条直线
(1)相关系数r的计算
变量x和变量y的样本相关系数r
的计算公式如下:
2.样本相关系数
(2)相关系数r的性质
①当r>0时,称成对样本数据____相关;当r<0时,成对样本数据____相关;当r=0时,成对样本数据间没有线性相关关系.
②样本相关系数r的取值范围为______________.
当|r|越接近1时,成对样本数据的线性相关程度越____;
当|r|越接近0时,成对样本数据的线性相关程度越____.
正
负
[-1,1]
强
弱
3.一元线性回归模型
(1)2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为
4.列联表与独立性检验
x y 合计
y=y1 y=y2 x=x1 a b a+b
x=x2 c d c+d
合计 a+c b+d n=a+b+c+d
当χ2<xα时,我们没有充分证据推断H0不成立 ,可以认为X和Y独立.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
常用结论
1.(1)变量的相关关系
知识点:
正相关和负相关
线性相关和非线性相关
(2)样本相关系数
(3)最小二乘法求经验回归方程
过样本点的中心
(4)散点图与残差图
(5)决定系数
R2越大,残差平方和越小,
即模型的拟合效果越好
2.χ2独立性检验:
(1)基于小概率值α的检验规则:
χ2独立性检验中几个常用的小概率值和相应的临界值.
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2X Y 合计
Y=0 Y=1 X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
(2)独立性检验的一般步骤:
①提出零假设H0:X和Y相互独立,并给出在问题中的解释.
②根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
③根据检验规则得出推断结论.
④在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
零假设为H0:X和Y相互独立.
例 在500人身上试验某种血清预防感冒作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:该种血清能否起到预防感冒的作用?
未感冒 感冒 合计
使用血清 258 242 500
未使用血清 216 284 500
合计 474 526 1000
解:零假设为H0:感冒与是否使用该血清没有关系.
所以推断H0不成立, 此推断犯错误的概率不大于0.01,故有99%的把握认为该血清能起到预防感冒的作用.
P(χ≥x0) 0.10 0.05 0.025 0.010 0.005 0.001
x0 2.706 3.841 5.024 6.635 7.879 10.828
所以没有充分证据推断H0不成立,所以可以认为该血清与预防感冒没有关系.
诊断自测
√
1.思考辨析(在括号内打“√”或“×”)
√
√
√
BCD
3.(2022·烟台模拟)某校为了研究“学生的性别”和“对待某一活动的态度”是否有关,运用2×2列联表进行独立性检验,经计算χ2=7.069,则认为“学生性别与支持某项活动有关系”的犯错误的概率不超过( )
A.0.1% B.1% C.99% D.99.9%
B
由此散点图,在10℃至40℃之间,下面四个经验回归方程类型中最适宜作为发芽率y和温度x的经验回归方程类型的是( )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
4.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x
(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi) (i=1,2,…,20)得到下面的散点图:
D
5.(易错题)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样的方法从不同地区调查了100位育龄妇女,结果如下表.
二孩生育意愿 城市级别 合计
非一线 一线 愿生 45 20 65
不愿生 13 22 35
合计 58 42 100
α 0.1 0.05 0.01 0.001
xα 2.706 3.841 6.635 10.828
根据小概率值α=0.01的独立性检验,可以得到的结论是______________________.
生育意愿与城市级别有关
6.(2021·广州一模)若某商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下表所示的对应数据:
106.5
x 2 4 5 6 8
y 20 40 60 70 80
考点一 成对数据的相关性
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
1.(2022·重庆诊断)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
A
月份 1 2 3 4 5 6
人均销售额 6 5 8 3 4 7
利润率(%) 12.6 10.4 18.5 3.0 8.1 16.3
2.下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
D
A
4.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的决定系数R2如下,其中拟合效果最好的模型是( )
A.模型1的决定系数R2为0.98 B.模型2的决定系数R2为0.80
C.模型3的决定系数R2为0.50 D.模型4的决定系数R2为0.25
A
感悟提升
判断相关关系的两种方法:
(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.
(2)决定系数法:利用决定系数判定,R2越趋近1,拟合效果越好,相关性越强.
考点二 回归分析
角度1 线性回归分析
例1 (2021·广州模拟)根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图如图所示:
(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数并加以说明(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合);
∴可用线性回归模型拟合y与x的关系.
考点二 回归分析
角度1 线性回归分析
例1 (2021·广州模拟)根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图如图所示:
(2)求y关于x的经验回归方程,并预测液体肥料每亩使
用量为12千克时,西红柿亩产量的增加量约为多少.
∴预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为9.9百千克.
例2 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
考点二 回归分析
角度2 非线性回归分析
例2
考点二 回归分析
角度2 非线性回归分析
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
例2
考点二 回归分析
角度2 非线性回归分析
年利润z的预报值
解(3) ①由(2)知,当x=49时,
②根据(2)的结果知,年利润z的预报值
故年宣传费为46.24千元时,年利润的预报值最大.
感悟提升
考点三 独立性检验
例3 (2020·全国Ⅲ卷)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次 空气质量等级 [0,200] (200,400] (400,600]
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
考点三 独立性检验
例3 (2020·全国Ⅲ卷)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次 空气质量等级 [0,200] (200,400] (400,600]
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
考点三 独立性检验
例3 (2020·全国Ⅲ卷)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次 空气质量等级 [0,200] (200,400] (400,600]
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,能否在犯错误的概率不超过0.05的前提下,认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400 人次>400
空气质量好
空气质量不好
α 0.1 0.05 0.01 0.001
xα 2.706 3.841 6.635 10.828
考点三 独立性检验
例3 (2020·全国Ⅲ卷)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,能否在犯错误的概率不超过0.05的前提下,认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400 人次>400
空气质量好 33 37
空气质量不好 22 8
α 0.1 0.05 0.01 0.001
xα 2.706 3.841 6.635 10.828
解(3) 根据所给数据,可得2×2列联表:
零假设为H0:一天中到该公园锻炼的人次与该市当天的空气质量无关.
根据列联表得
根据小概率值α=0.050的χ2独立性检验,可推断H0不成立,所以在犯错误的概率不超过0.05的前提下,可认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
感悟提升
训练1 下图是某地区2005年至2021年环境基础设施投资额y(单位:亿元)的折线图.
(1)分别利用这两个模型,求该地区2023年的环境基础设施投资额的预测值;
利用模型②,该地区2023年的环境基础设施投资额的预测值为
(ⅰ)从折线图可以看出,2005年至2021年的数据对应的点没有随机散布在直线
y=-30.4+13.5t上下,这说明利用2005年至2021年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解 利用模型②得到的预测值更可靠.
理由如下:
(ⅱ)从计算结果看,相对于2021年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
训练2 (2021·全国甲卷改编)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
训练2 (2021·全国甲卷改编)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
α 0.1 0.05 0.01 0.005
xα 2.706 3.841 6.635 7.879
解 零假设H0为:甲机床的产品质量与乙机床的产品质量无差异.
根据题表中的数据可得
根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异.此推断犯错误的概率不大于0.01.