第3节 成对数据的统计分析
[学习目标]
1.会作两个相关变量的数据的散点图,能根据最小二乘原理建立经验回归方程并进行预测,了解样本相关系数的统计含义和残差分析.2.了解独立性检验的基本思想,2×2列联表的统计意义,能对两个分类变量进行独立性检验.
1.成对数据的统计相关性
(1)正相关与负相关.
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现 的趋势,我们就称这两个变量正相关;当一个变量的值增加时,另一个变量的相应值呈现 的趋势,则称这两个变量负相关.
(2)线性相关与曲线相关.
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在 附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有 性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
(3)样本相关系数.
①相关系数r的计算.
变量x和变量y的样本相关系数r的计算公式如下:
r=
= .
②样本相关系数r的性质.
r的取值范围
r>0 成对样本数据 相关
r<0 成对样本数据 相关
r=0 成对样本数据间没有线性相关关系
|r|越接近1 成对样本数据的线性相关程度越
|r|越接近0 成对样本数据的线性相关程度越
2.一元线性回归模型及其应用
(1)一元线性回归模型.
我们称式子为Y关于x的 .其中,Y称为 或 ,x称为 或 ;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的 .
(2)一元线性回归模型参数的最小二乘估计.
当a,b的取值为时,
Q=(yi-)2=(yi-bxi-a)2达到 .此时,我们将=x+称为Y关于x的 ,也称 或 ,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.
(3)判断回归模型的拟合效果.
①残差分析法.
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值所得的差称为 .画出残差图,残差比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预报精度越高.
②决定系数 (R2)法.
R2=1-,R2越大,表示残差平方和 ,即模型的拟合效果 ;R2越小,表示残差平方和 ,即模型的拟合效果 .
对于线性与非线性回归模型,以上两个分析方法都适合.通过分析,可以决定选择哪一种函数模型更加合理.
3.列联表与独立性检验
(1)列联表:列出成对分类变量数据的 的数据统计表称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)如下.
X Y 合计
y1 y2
x1 a b a+b
x2 c d c+d
合计 a+c b+d a+b+c+d
记n=a+b+c+d,
则随机变量χ2=.
(2)独立性检验.
基于小概率值α的检验规则如下:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
(1)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.
(2)根据χ2的值可以判断两个分类变量有关的可信程度,χ2越大,则两分类变量有关的把握越大.
1.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
2.经验回归直线一定过点(,).
3.求时,常用公式=.
1.思考辨析(在括号内打“√”或“×”).
(1)相关关系与函数关系都是一种确定性的关系.( )
(2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( )
(3)经验回归直线=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( )
(4)用样本相关系数r来刻画回归效果,r越小,说明模型的拟合效果越好.( )
(5)在2×2列联表中,若|ad-bc|越小,说明两个分类变量之间关系越强.( )
(6)事件X,Y关系越密切,则由观测数据计算得到的χ2的值越大.( )
2.(2024·天津卷)下列图中,线性相关系数最大的是( )
A B
C D
3.(人教A版选择性必修第三册P113练习T2改编)从某大学随机选取8名女大学生,其身高x(单位:cm)和体重y(单位:kg)的经验回归方程为=0.849x-85.712,则身高172 cm的女大学生,由经验回归方程可以预测其体重( )
A.为60.316 kg
B.约为60.316 kg
C.大于60.316 kg
D.小于60.316 kg
4.(人教A版选择性必修第三册P139复习参考题8 T3)根据分类变量x与y的成对样本数据,计算得到χ2=2.974.依据α=0.05的独立性检验,结论为( )
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.897 10.828
A.变量x与y不独立
B.变量x与y不独立,这个结论犯错误的概率不超过0.05
C.变量x与y独立
D.变量x与y独立,这个结论犯错误的概率不超过0.05
5.(人教A版选择性必修第三册P103练习T3改编)在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y与x的样本相关系数为 .
考点一 成对数据的统计相关性的判断
[例1](1)调查某种群花萼长度和花瓣长度,所得数据如图所示,其中样本相关系数r=0.824 5,下列说法正确的是( )
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈负相关
C.花瓣长度和花萼长度呈正相关
D.若从样本数据中抽取一部分,则这部分的样本相关系数一定是0.824 5
(2)在研究线性回归模型时,样本数据(xi,yi)(i=1,2,3,…,n)所对应的点均在直线y=-x+3上,用r表示解释变量对于响应变量变化的线性相关度,则r=( )
A.-1 B.1
C.- D.2
[溯源探本] 本例(1)源于人教A版选择性必修第三册P103习题8.1 T1.
判断线性相关关系中正相关与负相关的三种方法
(1)散点图法:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数法:当r>0时,成对样本数据正相关;当r<0时,成对样本数据负相关.
(3)经验回归方程法:在经验回归方程=x+中,当>0时,正相关;当<0时,负相关.
[针对训练]
(1)(2025·辽宁葫芦岛模拟)已知变量x与y的经验回归方程为=3x-1,变量y与z负相关,则( )
A.x与y负相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z正相关
D.x与y正相关,x与z负相关
(2)对变量x,y有观测数据(xi,yi)(i=1,2,3,…,n),得散点图(1);对变量u,v有观测数据(ui,vi)(i=1,2,3,…,n),得散点图(2).r1表示变量x,y之间的样本相关系数,r2表示变量u,v之间的样本相关系数,则下列说法正确的是( )
A.变量x与y呈现正相关,且|r1|<|r2|
B.变量x与y呈现负相关,且|r1|>|r2|
C.变量x与y呈现正相关,且|r1|>|r2|
D.变量x与y呈现负相关,且|r1|<|r2|
考点二 回归模型及其应用
角度一 线性回归分析
[例2] (2025·陕西西安模拟)某公司对其产品研发的年投资额x(单位:百万元)与其年销售量y(单位:千件)的数据进行统计,整理后得到如下统计表:
x/百万元 1 2 3 4 5
y/千件 1.5 2 3.5 8 15
(1)求变量x和y的样本相关系数r(精确到0.01),并推断变量x和y的线性相关程度;(若|r|≥0.75,则线性相关程度很强;若0.3≤|r|<0.75,则线性相关程度一般;若|r|<0.3,则线性相关程度较弱.参考数据:≈7.14)
(2)求年销售量y关于年投资额x的经验回归方程,并预测年投资额为700万元时的年
销售量.
参考公式:r=,=,=-.
(1)经验回归方程中系数的两种求法.
①公式法:利用公式,求出,;
②待定系数法:利用经验回归直线过(,)求系数.
(2)线性回归分析的两种应用.
①利用经验回归方程进行预测:把经验回归方程看作一次函数,求函数值;
②利用经验回归方程判断正、负相关:决定正相关还是负相关的是回归系数.
角度二 非线性回归分析
[例3](2025·广东深圳模拟)数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫(3×3)内的数字均含1~9,不重复.数独爱好者小明打算报名参加某次数独大赛初级组的比赛,赛前小明在某数独练习册上进行一段时间的训练,每天的解题平均速度y(单位:s)与训练天数x(单位:天)有关,经统计得到如表的数据:
x/天 1 2 3 4 5 6 7
y/s 990 990 450 320 300 240 210
(1)现用y=a+作为经验回归方程模型,请利用表中数据,求出该经验回归方程;
(2)请用第(1)题的结论预测,小明经过100天训练后,每天解题的平均速度y约为多少秒
参考数据(其中ti=):
tiyi -7×
1 845 0.37 0.55
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线=+u的斜率和截距的最小二乘估计公式分别为=,=- .
求非线性经验回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出经验回归方程.
(4)分析拟合效果,通过计算决定系数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性经验回归方程.
角度三 残差分析与决定系数
[例4](2025·河北衡水模拟)某新能源汽车生产公司为了研究某生产环节中两个变量x,y之间的相关关系,统计样本数据得到如下表格:
x 20 23 25 27 30
y 2 2.4 3 3 4.6
由表格中的数据可以得到y关于x的经验回归方程=x+,据此计算,下列选项中残差的绝对值最小的样本数据是( )
A.(30,4.6) B.(27,3)
C.(25,3) D.(23,2.4)
(1)通过残差分析,可以发现异常样本点,重新修正或剔除异常样本点,求得更加合理的经验回归方程.
(2)决定系数R2越接近于1,表示模型的拟合效果越好.
[针对训练]
1.(角度二)(2025·云南曲靖模拟)已知变量y关于x的经验回归方程为=,若对=两边取自然对数,可以发现ln 与x线性相关.现有一组数据如表所示:
x 1 2 3 4 5
y e e3 e4 e6 e7
则当x=6时,预测y的值为( )
A.9 B.8
C.e9 D.e8
2.(角度三)对具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i=1,2,…,10),其经验回归方程为=-3.2x+,且=10,=8,则相应于点(10.5,7)的残差为 .
3.(角度一)(2025·山东潍坊模拟)某研究机构为调查人的最大可视距离y(单位:m)和年龄x(单位:岁)之间的关系,对不同年龄的志愿者进行了研究,收集数据得到下表:
x/岁 20 25 30 35 40
y/m 167 160 150 143 130
(1)根据上表提供的数据,求出y关于x的线性经验回归方程=x+;
(2)根据(1)中求出的线性经验回归方程,估计年龄为50岁的人的最大可视距离.
参考公式:经验回归方程=x+中斜率和截距的最小二乘估计公式分别为==,=-.
考点三 独立性检验
[例5](2024·全国甲卷)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:
车间 优级品 非优级品
甲车间
乙车间
试根据小概率值α=0.05和α=0.01的独立性检验,分析甲、乙两车间产品的优级品率是否存在差异
(2)已知升级改造前该工厂产品的优级品率p=0.5,设为升级改造后抽取的n件产品的优级品率.若>p+1.65,则认为该工厂产品的优级品率提高了.根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了 (≈12.247)
附:χ2=,n=a+b+c+d.
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
独立性检验的基本步骤
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
[针对训练]
(2025 · 八省联考)为考察某种药物A对预防疾病B的效果,进行了动物(单位:只)试验,得到如下列联表:
药物 疾病 合计
未患病 患病
未服用 100 80 s
服用 150 70 220
合计 250 t 400
(1)求s,t;
(2)记未服用药物A的动物患疾病B的概率为p,给出p的估计值;
(3)根据小概率值α=0.01的独立性检验,能否认为药物A对预防疾病B有效
附:χ2=.
α 0.050 0.010 0.001
xα 3.841 6.635 10.828第3节 成对数据的统计分析
[学习目标]
1.会作两个相关变量的数据的散点图,能根据最小二乘原理建立经验回归方程并进行预测,了解样本相关系数的统计含义和残差分析.2.了解独立性检验的基本思想,2×2列联表的统计意义,能对两个分类变量进行独立性检验.
1.成对数据的统计相关性
(1)正相关与负相关.
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量负相关.
(2)线性相关与曲线相关.
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
(3)样本相关系数.
①相关系数r的计算.
变量x和变量y的样本相关系数r的计算公式如下:
r=
= .
②样本相关系数r的性质.
r的取值范围 [-1,1]
r>0 成对样本数据正相关
r<0 成对样本数据负相关
r=0 成对样本数据间没有线性相关关系
|r|越接近1 成对样本数据的线性相关程度越强
|r|越接近0 成对样本数据的线性相关程度越弱
2.一元线性回归模型及其应用
(1)一元线性回归模型.
我们称式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
(2)一元线性回归模型参数的最小二乘估计.
当a,b的取值为时,
Q=(yi-)2=(yi-bxi-a)2达到最小.此时,我们将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.
(3)判断回归模型的拟合效果.
①残差分析法.
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值所得的差称为残差.画出残差图,残差比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预报精度越高.
②决定系数 (R2)法.
R2=1-,R2越大,表示残差平方和越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型的拟合效果越差.
对于线性与非线性回归模型,以上两个分析方法都适合.通过分析,可以决定选择哪一种函数模型更加合理.
3.列联表与独立性检验
(1)列联表:列出成对分类变量数据的交叉分类频数的数据统计表称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)如下.
X Y 合计
y1 y2
x1 a b a+b
x2 c d c+d
合计 a+c b+d a+b+c+d
记n=a+b+c+d,
则随机变量χ2=.
(2)独立性检验.
基于小概率值α的检验规则如下:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
(1)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.
(2)根据χ2的值可以判断两个分类变量有关的可信程度,χ2越大,则两分类变量有关的把握越大.
1.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
2.经验回归直线一定过点(,).
3.求时,常用公式=.
1.思考辨析(在括号内打“√”或“×”).
(1)相关关系与函数关系都是一种确定性的关系.( )
(2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( )
(3)经验回归直线=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( )
(4)用样本相关系数r来刻画回归效果,r越小,说明模型的拟合效果越好.( )
(5)在2×2列联表中,若|ad-bc|越小,说明两个分类变量之间关系越强.( )
(6)事件X,Y关系越密切,则由观测数据计算得到的χ2的值越大.( )
【答案】(1)× (2)√ (3)× (4)× (5)× (6)√
2.(2024·天津卷)下列图中,线性相关系数最大的是( )
A B
C D
【答案】 A
【解析】 观察四幅图可知,A图的散点分布比较集中,且大体落在某一条直线附近,线性回归模型拟合效果比较好,呈现明显的正相关,|r|值相比于其他三个图更接近1.故选A.
3.(人教A版选择性必修第三册P113练习T2改编)从某大学随机选取8名女大学生,其身高x(单位:cm)和体重y(单位:kg)的经验回归方程为=0.849x-85.712,则身高172 cm的女大学生,由经验回归方程可以预测其体重( )
A.为60.316 kg
B.约为60.316 kg
C.大于60.316 kg
D.小于60.316 kg
【答案】 B
【解析】 由身高x和体重y的经验回归方程为=0.849x-85.712,令x=172,可得=0.849×172-85.712=60.316,即由经验回归方程可以预测其体重大约为60.316 kg.故选B.
4.(人教A版选择性必修第三册P139复习参考题8 T3)根据分类变量x与y的成对样本数据,计算得到χ2=2.974.依据α=0.05的独立性检验,结论为( )
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.897 10.828
A.变量x与y不独立
B.变量x与y不独立,这个结论犯错误的概率不超过0.05
C.变量x与y独立
D.变量x与y独立,这个结论犯错误的概率不超过0.05
【答案】 C
【解析】 因为χ2=2.974因为χ2=2.974>2.706=x0.1,
所以分类变量x与y不独立,这个结论犯错误的概率不超过0.1.故选C.
5.(人教A版选择性必修第三册P103练习T3改编)在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y与x的样本相关系数为 .
【答案】 -1
【解析】 =1.5,=1,=22,=56,xiyi=-20,利用样本相关系数公式,可知r=
==-1.
考点一 成对数据的统计相关性的判断
[例1](1)调查某种群花萼长度和花瓣长度,所得数据如图所示,其中样本相关系数r=0.824 5,下列说法正确的是( )
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈负相关
C.花瓣长度和花萼长度呈正相关
D.若从样本数据中抽取一部分,则这部分的样本相关系数一定是0.824 5
(2)在研究线性回归模型时,样本数据(xi,yi)(i=1,2,3,…,n)所对应的点均在直线y=-x+3上,用r表示解释变量对于响应变量变化的线性相关度,则r=( )
A.-1 B.1
C.- D.2
[溯源探本] 本例(1)源于人教A版选择性必修第三册P103习题8.1 T1.
【答案】 (1)C (2)A
【解析】 (1)因为样本相关系数r=0.824 5>0.75,所以花瓣长度和花萼长度的相关性较强,并且呈正相关,所以选项A,B错误,选项C正确;因为样本相关系数与样本的数据有关,所以当样本发生变化时,样本相关系数也会发生变化,所以选项D错误.故选C.
(2)因为样本数据所对应的点都在直线y=-x+3上,所以解释变量与响应变量为负相关关系,且r=-1.故选A.
判断线性相关关系中正相关与负相关的三种方法
(1)散点图法:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数法:当r>0时,成对样本数据正相关;当r<0时,成对样本数据负相关.
(3)经验回归方程法:在经验回归方程=x+中,当>0时,正相关;当<0时,负相关.
[针对训练]
(1)(2025·辽宁葫芦岛模拟)已知变量x与y的经验回归方程为=3x-1,变量y与z负相关,则( )
A.x与y负相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z正相关
D.x与y正相关,x与z负相关
(2)对变量x,y有观测数据(xi,yi)(i=1,2,3,…,n),得散点图(1);对变量u,v有观测数据(ui,vi)(i=1,2,3,…,n),得散点图(2).r1表示变量x,y之间的样本相关系数,r2表示变量u,v之间的样本相关系数,则下列说法正确的是( )
A.变量x与y呈现正相关,且|r1|<|r2|
B.变量x与y呈现负相关,且|r1|>|r2|
C.变量x与y呈现正相关,且|r1|>|r2|
D.变量x与y呈现负相关,且|r1|<|r2|
【答案】 (1)D (2)C
【解析】 (1)根据经验回归方程=3x-1可知变量x与y正相关,又变量y与z负相关,由正相关、负相关的定义可知,x与z负相关.故选D.
(2)由题意可知,在变量x,y的散点图中,y随x的增大而增大,所以变量x与y呈现正相关;再分别观察两个散点图,题图(1)的点比题图(2)的点分布更加集中,相关程度较强,所以样本相关系数|r1|>|r2|.故选C.
考点二 回归模型及其应用
角度一 线性回归分析
[例2] (2025·陕西西安模拟)某公司对其产品研发的年投资额x(单位:百万元)与其年销售量y(单位:千件)的数据进行统计,整理后得到如下统计表:
x/百万元 1 2 3 4 5
y/千件 1.5 2 3.5 8 15
(1)求变量x和y的样本相关系数r(精确到0.01),并推断变量x和y的线性相关程度;(若|r|≥0.75,则线性相关程度很强;若0.3≤|r|<0.75,则线性相关程度一般;若|r|<0.3,则线性相关程度较弱.参考数据:≈7.14)
(2)求年销售量y关于年投资额x的经验回归方程,并预测年投资额为700万元时的年
销售量.
参考公式:r=,=,=-.
【解】 (1)由题意,=×(1+2+3+4+5)=3,=×(1.5+2+3.5+8+15)=6,
(xi-)(yi-)=(-2)×(-4.5)+(-1)×(-4)+0×(-2.5)+1×2+2×9=33,
=(-2)2+(-1)2+02+12+22=10,=(-4.5)2+(-4)2+(-2.5)2+22+92=127.5,
所以r===≈0.92,
因为|r|≥0.75,所以变量x和y的线性相关程度很强.
(2)===3.3,=6-3.3×3=-3.9,
所以年销售量y关于年投资额x的经验回归方程为=3.3x-3.9.
当x=7时,=3.3×7-3.9=19.2,
所以研发的年投资额为700万元时,产品的年销售量约为19.2千件.
(1)经验回归方程中系数的两种求法.
①公式法:利用公式,求出,;
②待定系数法:利用经验回归直线过(,)求系数.
(2)线性回归分析的两种应用.
①利用经验回归方程进行预测:把经验回归方程看作一次函数,求函数值;
②利用经验回归方程判断正、负相关:决定正相关还是负相关的是回归系数.
角度二 非线性回归分析
[例3](2025·广东深圳模拟)数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫(3×3)内的数字均含1~9,不重复.数独爱好者小明打算报名参加某次数独大赛初级组的比赛,赛前小明在某数独练习册上进行一段时间的训练,每天的解题平均速度y(单位:s)与训练天数x(单位:天)有关,经统计得到如表的数据:
x/天 1 2 3 4 5 6 7
y/s 990 990 450 320 300 240 210
(1)现用y=a+作为经验回归方程模型,请利用表中数据,求出该经验回归方程;
(2)请用第(1)题的结论预测,小明经过100天训练后,每天解题的平均速度y约为多少秒
参考数据(其中ti=):
tiyi -7×
1 845 0.37 0.55
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线=+u的斜率和截距的最小二乘估计公式分别为=,=- .
【解】 (1)由题意=×(990+990+450+320+300+240+210)=500,
令t=,设y关于t的线性经验回归方程为=t+,
则有===1 000,则=-=500-1 000×0.37=130,
所以=1 000t+130,又t=,所以y关于x的经验回归方程为=+130.
(2)当x=100时,=+130=140,所以经过100天训练后,小明每天解题的平均速度约为140 s.
求非线性经验回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出经验回归方程.
(4)分析拟合效果,通过计算决定系数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性经验回归方程.
角度三 残差分析与决定系数
[例4](2025·河北衡水模拟)某新能源汽车生产公司为了研究某生产环节中两个变量x,y之间的相关关系,统计样本数据得到如下表格:
x 20 23 25 27 30
y 2 2.4 3 3 4.6
由表格中的数据可以得到y关于x的经验回归方程=x+,据此计算,下列选项中残差的绝对值最小的样本数据是( )
A.(30,4.6) B.(27,3)
C.(25,3) D.(23,2.4)
【答案】 C
【解析】 由表格数据知,==25,==3,
所以=-=3-=-,所以经验回归方程为=x-.
对于A,残差的绝对值为|4.6-(×30-)|=0.35;对于B,残差的绝对值为|3-(×27-)|=0.5;对于C,残差的绝对值为|3-(×25-)|=0;对于D,残差的绝对值为|2.4-(×23-)|=0.1;
所以残差绝对值最小的样本数据是(25,3).故选C.
(1)通过残差分析,可以发现异常样本点,重新修正或剔除异常样本点,求得更加合理的经验回归方程.
(2)决定系数R2越接近于1,表示模型的拟合效果越好.
[针对训练]
1.(角度二)(2025·云南曲靖模拟)已知变量y关于x的经验回归方程为=,若对=两边取自然对数,可以发现ln 与x线性相关.现有一组数据如表所示:
x 1 2 3 4 5
y e e3 e4 e6 e7
则当x=6时,预测y的值为( )
A.9 B.8
C.e9 D.e8
【答案】 C
【解析】 令=ln ,由=可得=ln =x-0.6,如表所示:
x 1 2 3 4 5
y e e3 e4 e6 e7
u 1 3 4 6 7
由表格中的数据可得==3,==4.2,
则有3-0.6=4.2,解得=1.6,故=e1.6x-0.6,当x=6时,=e1.6×6-0.6=e9.故选C.
2.(角度三)对具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i=1,2,…,10),其经验回归方程为=-3.2x+,且=10,=8,则相应于点(10.5,7)的残差为 .
【答案】 0.6
【解析】 因为经验回归直线=-3.2x+过样本中心点(10,8),所以8=-3.2×10+,所以=40,
所以经验回归方程为=-3.2x+40.当x=10.5时,=-3.2×10.5+40=6.4,所以残差为7-6.4=0.6.
3.(角度一)(2025·山东潍坊模拟)某研究机构为调查人的最大可视距离y(单位:m)和年龄x(单位:岁)之间的关系,对不同年龄的志愿者进行了研究,收集数据得到下表:
x/岁 20 25 30 35 40
y/m 167 160 150 143 130
(1)根据上表提供的数据,求出y关于x的线性经验回归方程=x+;
(2)根据(1)中求出的线性经验回归方程,估计年龄为50岁的人的最大可视距离.
参考公式:经验回归方程=x+中斜率和截距的最小二乘估计公式分别为==,=-.
【解】 (1)由题意可得==30,==150,
xiyi=20×167+25×160+30×150+35×143+40×130=22 045,
=202+252+302+352+402=4 750,
所以===-1.82,
则=-=150+1.82×30=204.6,故所求线性经验回归方程为=-1.82x+204.6.
(2)当x=50时,=-1.82×50+204.6=113.6,即年龄为50岁的人的最大可视距离约为 113.6 m.
考点三 独立性检验
[例5](2024·全国甲卷)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:
车间 优级品 非优级品
甲车间
乙车间
试根据小概率值α=0.05和α=0.01的独立性检验,分析甲、乙两车间产品的优级品率是否存在差异
(2)已知升级改造前该工厂产品的优级品率p=0.5,设为升级改造后抽取的n件产品的优级品率.若>p+1.65,则认为该工厂产品的优级品率提高了.根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了 (≈12.247)
附:χ2=,n=a+b+c+d.
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
【解】 (1)根据题意可得列联表:
车间 优级品 非优级品
甲车间 26 24
乙车间 70 30
零假设为H0:甲、乙两车间产品的优级品率不存在差异.
根据列联表中数据可得χ2===4.687 5,因为3.841<4.687 5<6.635,
所以根据小概率值α=0.05的独立性检验,可以认为甲、乙两车间产品的优级品率存在差异,此推断犯错误的概率不大于0.05.根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,因此可以认为甲、乙两车间产品的优级品率不存在差异.
(2)由题意可知,生产线智能化升级改造后,该工厂产品的优级品的频率为=0.64,
即=0.64,
又因为升级改造前该工厂产品的优级品率p=0.5,则p+1.65=0.5+1.65≈0.5+1.65×≈0.567,
可知>p+1.65,
所以可以认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
独立性检验的基本步骤
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
[针对训练]
(2025 · 八省联考)为考察某种药物A对预防疾病B的效果,进行了动物(单位:只)试验,得到如下列联表:
药物 疾病 合计
未患病 患病
未服用 100 80 s
服用 150 70 220
合计 250 t 400
(1)求s,t;
(2)记未服用药物A的动物患疾病B的概率为p,给出p的估计值;
(3)根据小概率值α=0.01的独立性检验,能否认为药物A对预防疾病B有效
附:χ2=.
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
【解】 (1)由列联表中数据得s=100+80=180,t=80+70=150.
(2)由频率估计概率,可估计p==.
(3)零假设为H0:药物A对预防疾病B无效.
根据列联表中的数据可求得χ2==≈6.734>6.635=x0.01,
根据小概率值α=0.01的独立性检验,可推断H0不成立,即认为药物A对预防疾病B有效,此推断犯错误的概率不大于0.01.