第3课时 成对数据的统计分析
[考试要求] 1.了解样本相关系数的统计含义.2.理解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题.3.会利用统计知识进行数据分析.
1.变量的相关关系
两个变量________,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系,即不确定性关系.
2.相关关系的分类
(1)按变量间的增减性分为____相关和____相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现______的趋势;
②负相关:当一个变量的值增加时,另一个变量的相应值呈现______的趋势.
(2)按变量间是否有线性特征分为______相关和________相关(曲线相关).
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在__________附近,我们称这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是______相关,我们称这两个变量非线性相关或曲线相关.
3.相关关系的刻画
(1)散点图:成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.
(2)样本相关系数r的计算式
(3)样本相关系数r的性质
①样本相关系数r的取值范围为____________;
②若r>0时,成对样本数据____相关;
③若r<0时,成对样本数据____相关;
④样本相关系数与相关程度
当|r|越接近___时,成对样本数据的线性相关程度越强;
当|r|越接近___时,成对样本数据的线性相关程度越弱.
提醒:当两个变量的样本相关系数|r|=1时,两个变量呈函数关系.
4.一元线性回归模型与最小二乘法
(1)一元线性回归模型
称为Y关于x的一元线性回归模型.其中,Y称为________或响应变量,x称为________或解释变量,___称为截距参数,___称为斜率参数;e是Y与_______之间的随机误差,如果e=___,那么Y与x之间的关系就可以用一元线性函数模型来描述.
(2)最小二乘法
将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中
=________________,=__.
5.刻画回归效果的方式
(1)残差图法
在残差图中,残差比较均匀地分布在以横轴为对称轴的水平的带状区域中,说明满足一元线性回归模型的假设,这样的带状区域的宽度越____,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为________,残差平方和越____,模型拟合效果越好.
(3)决定系数法
R2=R2的值越趋近于1,模型的拟合效果越好.
6.列联表与独立性检验
(1)分类变量X,Y的2×2列联表:
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
则χ2=__.
(2)利用χ2的取值推断分类变量X和Y是否______的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
(3)χ2独立性检验中几个常用的小概率值和相应的临界值.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
[常用结论]
经验回归直线必过样本点的中心().
一、易错易混辨析(正确的打“√”,错误的打“×”)
(1) “名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系. ( )
(2)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.( )
(3)若事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越小.( )
(4)经验回归方程=x+中,若<0,则变量x和y负相关. ( )
二、教材经典衍生
1.(人教A版选择性必修第三册P103习题8.1T1改编)下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
A B
C D
2.(人教A版选择性必修第三册P103练习T3改编)在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y与x的样本相关系数为( )
A. B.-1 C.0 D.-
3.(人教A版选择性必修第三册P113练习T2改编)从某学校随机选取8名女大学生,关于其身高x(单位:cm)和体重y(单位:kg)的经验回归方程为=0.849x-85.712,则身高172 cm的女大学生的体重约为________kg.
4.(人教A版选择性必修第三册P133 例题改编)为了调查患肺癌是否与吸烟有关,某机构调查了100名50岁以下的人,调查结果如下表:
单位:人
吸烟 肺癌 合计
肺癌患者 非肺癌患者
吸烟者 20 m 40
不吸烟者 n 55 60
合计 25 75 100
根据列联表数据,求得χ2=________(保留3位有效数字),那么,在犯错误的概率不超过0.001的前提下认为患肺癌与吸烟有关.
附:χ2=.
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
考点一 成对数据的相关性
[典例1] (1)调查某种群花萼长度和花瓣长度,所得数据如图所示.其中样本相关系数r=0.824 5,下列说法正确的是( )
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈现负相关
C.花瓣长度和花萼长度呈现正相关
D.若从样本中抽取一部分,则这部分的样本相关系数一定是0.824 5
(2)(2024·山东济南模拟)设一组成对数据的样本相关系数为r,经验回归方程为=x+,则下列说法正确的为( )
A.越大,则r越大
B.越大,则r越小
C.若r大于零,则一定大于零
D.若r大于零,则一定小于零
(3)已知一组成对数据(18,24),(13,34),(10,38),(-1,m)的经验回归方程为=-2x+59.5,则该组数据的样本相关系数r=________(精确到0.001).
[听课记录]___________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
判定两个变量正、负相关的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)样本相关系数:r>0时,正相关;r<0时,负相关.
(3)经验回归方程=x+中:>0时,正相关;<0时,负相关.
[跟进训练]
1.(1)(2024·天津高考)下列图中,相关性系数最大的是( )
A B
C D
(2)(2024·重庆模拟)已知成对样本数据,…,中x1,x2,…,xn不全相等,且所有样本点都在直线y=-x+1上,则这组成对样本数据的样本相关系数r=________,其决定系数R2=________.
考点二 回归模型
一元线性回归模型
[典例2] 按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2017-2021年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比:
年份 2017年 2018年 2019年 2020年 2021年
年份 代码xi 1 2 3 4 5
yi 6.4 5.5 5.0 4.8 3.8
(1)求2017—2021年年份代码xi与yi的样本相关系数(精确到0.01);
(2)请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行描述,并求出y关于x的经验回归方程;
(3)预测2025年的酸雨区面积占国土面积的百分比.
附:经验回归直线的斜率和截距的最小二乘估计公式分别为:,,样本相关系数
[听课记录]___________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
非线性回归模型
[典例3] (2025·湖南衡阳模拟)为了加快实现我国高水平科技自立自强,某科技公司逐年加大高科技研发投入.下图1是该公司2015年至2024年的年份代码x和年研发投入y(单位:亿元)的散点图,其中年份代码1~10分别对应年份2015~2024.
根据散点图,分别用模型①=x+,②=+作为年研发投入y(单位:亿元)关于年份代码x的经验回归方程模型,并进行残差分析,得到图2所示的残差图.结合数据,计算得到如下表所示的一些统计量的值:
(1)根据残差图,判断模型①和模型②哪一个更适宜作为年研发投入y(单位:亿元)关于年份代码x的经验回归方程模型?并说明理由;
(2)①根据(1)中所选模型,求出y关于x的经验回归方程;
②设该科技公司的年利润L(单位:亿元)和年研发投入y(单位:亿元)满足L=(x∈N*且x∈),问该科技公司哪一年的年利润最大?
附:对于一组数据,…,,其经验回归直线=+x的斜率和截距的最小二乘估计分别为=-.
[听课记录]___________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
回归分析问题的类型及解题方法
(1)求经验回归方程的步骤
①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.
②利用公式,求出回归系数.
③利用经验回归直线过样本点的中心求系数.
(2)利用经验回归方程进行预测,把经验回归方程看作一次函数,求函数值.
(3)利用经验回归方程判断正、负相关,决定正相关还是负相关的是系数.
(4)经验回归方程的拟合效果,可以利用样本相关系数判断,当|r|越趋近于1时,两变量的线性相关程度越强.
提醒:非线性问题处理策略要通过换元、取对数等手段把非线性问题转化为线性问题.
[跟进训练]
2.(1)(2025·辽宁重点中学模拟)某公司研发新产品投入x(单位:百万元)与该产品的收益y(单位:百万元)的5组统计数据如下表所示.由表中数据求得投入金额x与收益y满足经验回归方程=x+2.6,则下列结论不正确的是( )
x/百万元 5 6 8 9 12
y/百万元 16 20 25 28 36
A.x与y有正相关关系
B.经验回归直线经过点
C.=2.4
D.x=9时,残差为0.2
_________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
(2)某企业为响应国家号召,汇聚科研力量,加强科技创新,准备加大研发资金投入,为了解年研发资金投入额x(单位:亿元)对年盈利额y(单位:亿元)的影响,通过对“十二五”和“十三五”规划发展10年期间年研发资金投入额xi和年盈利额yi(i=1,2,…,10)数据进行分析,建立了两个函数模型:y=α+βx2;y=eλx+t,其中α,β,λ,t均为常数,e为自然对数的底数,令ui=,vi=ln yi(i=1,2,…,10),经计算得如下数据:
=26 =215 =680 =5.36
=100 =22 500 =4
=4 -)=18
①请从样本相关系数的角度,分析哪一个模型拟合度更好?
②根据①的选择及表中数据,建立y关于x的非线性经验回归方程.
附:样本相关系数
经验回归方程=x+中:==-.
_________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
考点三 独立性检验
[典例4] (2023·全国甲卷改编)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(1)计算试验组的样本平均数;
(2)①求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表:
单位:只
组别 小白鼠体重的增加量 合计
对照组
试验组
合计
②根据①中的列联表,依据小概率值α=0.05的独立性检验,能否以此推断小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?
附:χ2=.
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
[听课记录]___________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
独立性检验的一般步骤
(1)根据样本数据完成2×2列联表.
(2)根据公式χ2=计算.
(3)比较χ2与临界值的大小关系,作统计推断.
[跟进训练]
3.(1)(多选)(2024·湖北八市一模)某校为了解高一新生对数学是否感兴趣,从400名女生和600名男生中通过分层随机抽样的方式随机抽取100名学生进行问卷调查,将调查的结果整理得到如下等高堆积条形图和列联表,则( )
单位:人
性别 数学兴趣 合计
感兴趣 不感兴趣
女生 a b a+b
男生 c d c+d
合计 a+c b+d 100
附:χ2=,
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.表中a=12,c=30
B.可以估计该校高一新生中对数学不感兴趣的女生人数比男生人数多
C.根据小概率值α=0.05的χ2独立性检验,可以认为性别与对数学的兴趣有差异
D.根据小概率值α=0.01的χ2独立性检验,可以认为性别与对数学的兴趣没有差异
(2)(2024·浙江嘉兴二模)为了有效预防流感,很多民众注射了流感疫苗.某市防疫部门从辖区居民中随机抽取了1 000人进行调查,发现其中注射疫苗的800人中有220人感染流感,另外没注射疫苗的200人中有80人感染流感.医学研究表明,流感的检测结果是有错检的可能,已知患有流感的人其检测结果有95%呈阳性(感染),而没有患流感的人其检测结果有99%呈阴性(未感染).
①估计该市流感感染率是多少?
②根据小概率值α=0.001的独立性检验,能否认为注射流感疫苗与预防流感有关;
③已知某人的流感检测结果呈阳性,求此人真的患有流感的概率.(精确到0.001)
附:χ2=,
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
_________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
第3课时 成对数据的统计分析
梳理·必备知识
1.有关系
2.(1)正 负 增加 减小 (2)线性 非线性 一条直线 线性
3.(2)
(3)[-1,1] 正 负 1 0
4.(1)因变量 自变量 a b bx+a 0
(2)-
5.(1)窄 (2) 小
6.(1) (2)独立
激活·基本技能
一、(1)√ (2)√ (3)× (4)×
二、1.D [观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.]
2.B [根据题意得=×(1+2+4-1)=1.5,=×(2+0-4+6)=1,=-20,样本相关系数r==-1.
故选B.]
3.60.316 [当x=172时,=0.849×172-85.712=60.316.]
4.22.2 [由20+m=40,得m=20.
由20+n=25,得n=5.
故χ2=≈22.2>10.828=x0.001.
所以在犯错误的概率不超过0.001的前提下认为患肺癌与吸烟有关.]
考点一
典例1 (1)C (2)C (3)-0.998 [(1)∵样本相关系数r=0.824 5,且散点图呈左下角到右上角的带状分布,∴花瓣长度和花萼长度正相关.若从样本中抽取一部分,则这部分的样本相关系数不一定是0.824 5,故选C.
(2)影响的是经验回归直线的斜率,r影响两个变量之间的相关性,所以与r之间数值大小没有关系,但符号有影响,故选项AB错误;若r大于零,则说明两个变量正相关,故一定大于零,故选项C正确,D错误.故选C.
(3)由条件可得,
==10,
==,
经验回归直线=-2x+59.5一定过(),代入解得m=62,
==,
跟进训练
1.(1)A (2)-1 1 [(1)观察题干图可知,A图散点分布比较集中,且大体接近某一条直线,线性回归模型拟合效果比较好,呈现明显的正相关,|r|相比于其他题干图更接近1.故选A.
(2)由所有样本点都在直线y=-x+1上,又-<0,由题易知r=-1,R2=1.]
考点二
考向1 典例2 解:(1)由已知可得,==3,
==5.1,
由题可列下表:
xi- -2 -1 0 1 2
yi- 1.3 0.4 -0.1 -0.3 -1.3
(2)由(1)知,y与x的样本相关系数r≈-0.98,接近1,所以y与x之间具有极强的线性相关关系,可用线性回归模型进行描述.
由(1)所求知,=5.1-(-0.59)×3=6.87,
所求经验回归方程为=-0.59x+6.87.
(3)令x=9,则=-0.59×9+6.87=1.56,
故预测2025年的酸雨区面积占国土面积的百分比为1.56%.
考向2 典例3 解:(1)根据题图2可知,模型①的残差波动性很大,说明拟合关系较差;
模型②的残差波动性很小,基本分布在0的附近,说明拟合关系很好,所以选择模型②更适宜.
(2)①设t=,所以=+t,
所以=75-6.3×2.25=60.825,
所以y关于x的非线性经验回归方程为=60.825+6.3.
②由题设可得L===-6.3x+50.4,
当取对称轴即==4,即x=16时,年利润L有最大值,故该公司2030年的年利润最大.
跟进训练
2.(1)C [对于A,由表格可知,x越大,y越大,所以x与y有正相关关系,故A正确;
对于B,==8,
==25,
则样本点的中心为,所以经验回归直线经过点,故B正确;
对于C,将样本点的中心代入直线方程,得25=8+2.6,所以=2.8,故C错误;
对于D,=2.8x+2.6,当x=9时,=2.8×9+2.6=27.8,
则残差为y-=28-27.8=0.2,故D正确.故选C.]
(2)解:①设模型y=α+βx2的样本相关系数为r1,模型y=eλx+t的样本相关系数为r2,
对于模型y=α+βx2,令u=x2,即y=α+βu,
=≈0.87,
对于模型y=eλx+t,有ln y=ln eλx+t=λx+t,令v=ln y,即v=λx+t,
所以r2===0.9,
因为r1②因为==5.36-0.18×26=0.68,
所以y关于x的非线性经验回归方程为=e0.18x+0.68.
考点三
典例4 解:(1)根据题意,计算试验组样本平均数为
=×(7.8+9.2+11.4+12.4+13.2+15.5+16.5+18.0+18.8+19.2+19.8+20.2+21.6+22.8+23.6+23.9+25.1+28.2+32.3+36.5)=19.8.
(2)①由题意知,这40只小白鼠体重的增加量的中位数是将两组数据合在一起,从小到大排列后第20位与第21位数据的平均数,
因为第20位数据为23.2,第21位数据为23.6,
所以这组数据的中位数是m=×(23.2+23.6)=23.4.
填写列联表如下:
单位:只
组别 小白鼠体重的增加量 合计
对照组 6 14 20
试验组 14 6 20
合计 20 20 40
②零假设为H0:小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量无差异.
根据列联表中数据,得
χ2==6.4>3.841=x0.05,
所以依据小概率值α=0.05的独立性检验,我们推断H0不成立,可以认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异,此推断犯错误的概率不大于0.05.
跟进训练
3.(1)ACD [由题可知,抽取男生人数为600×=60,女生抽取的人数为400×=40,
由等高堆积条形图知,抽取男生感兴趣的人数为60×0.5=30,抽取男生不感兴趣的人数为60×0.5=30,
抽取女生感兴趣的人数为40×0.3=12,抽取女生不感兴趣的人数为40×0.7=28, 2×2列联表如下:
单位:人
性别 数学兴趣 合计
感兴趣 不感兴趣
女生 12 28 40
男生 30 30 60
合计 42 58 100
由此表可知,a=12,c=30,故A正确;
女生不感兴趣的人数约为400×=280,男生不感兴趣的人数约为600×=300,
所以估计该校高一新生中对数学不感兴趣的女生人数比男生人数少,故B错误;
零假设为H0:性别与对数学的兴趣没有差异.
χ2=≈3.941>3.841=x0.05.
依据小概率值α=0.05的独立性检验,有充分证据推断H0不成立,因此可以认为H0不成立,即可以认为性别与对数学的兴趣有差异,故C正确;
零假设为H0:性别与对数学的兴趣没有差异,
则χ2=≈3.941<6.635=x0.01.
依据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即可以认为性别与对数学的兴趣没有差异,故D正确.故选ACD.]
(2)解:①估计流感的感染率P==0.3.
②由题意, 2×2列联表如下:
单位:人
疫苗情况 流感情况 合计
患有流感 不患有流感
打疫苗 220 580 800
不打疫苗 80 120 200
合计 300 700 1 000
零假设为H0:注射流感疫苗与预防流感无关,
则χ2=≈11.9.
因为11.9>10.828=x0.001,
根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为注射流感疫苗与预防流感有关,此推断犯错误的概率不大于0.001.
③设事件A为“一次检测结果呈阳性”,事件B为“被检测者确实患有流感”,
由题意得P=0.3,P=0.7,P=0.95,P=0.01,P=P·P(A∣B)=0.3×0.95=0.285,
由全概率公式得P=P·P+P()=0.3×0.95+0.7×0.01=0.292,P==≈97.6%,
所以此人真的患有流感的概率是97.6%.
12 / 12(共164张PPT)
第十章
统计与成对数据的统计分析
第3课时 成对数据的统计分析
[考试要求] 1.了解样本相关系数的统计含义.
2.理解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题.
3.会利用统计知识进行数据分析.
链接教材·夯基固本
1.变量的相关关系
两个变量________,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系,即不确定性关系.
有关系
2.相关关系的分类
(1)按变量间的增减性分为____相关和____相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现______的趋势;
②负相关:当一个变量的值增加时,另一个变量的相应值呈现______的趋势.
正
负
增加
减小
(2)按变量间是否有线性特征分为______相关和________相关(曲线相关).
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在__________附近,我们称这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是______相关,我们称这两个变量非线性相关或曲线相关.
线性
非线性
一条直线
线性
3.相关关系的刻画
(1)散点图:成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.
(2)样本相关系数r的计算式
(3)样本相关系数r的性质
①样本相关系数r的取值范围为____________;
②若r>0时,成对样本数据____相关;
③若r<0时,成对样本数据____相关;
④样本相关系数与相关程度
当|r|越接近___时,成对样本数据的线性相关程度越强;
当|r|越接近___时,成对样本数据的线性相关程度越弱.
[-1,1]
提醒:当两个变量的样本相关系数|r|=1时,两个变量呈函数关系.
正
负
1
0
4.一元线性回归模型与最小二乘法
(1)一元线性回归模型
称为Y关于x的一元线性回归模型.其中,Y称为________或响应变量,x称为________或解释变量,___称为截距参数,___称为斜率参数;e是Y与_______之间的随机误差,如果e=___,那么Y与x之间的关系就可以用一元线性函数模型来描述.
因变量
自变量
a
b
bx+a
0
(2)最小二乘法
将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中
-
=___________________,=_________.
5.刻画回归效果的方式
(1)残差图法
在残差图中,残差比较均匀地分布在以横轴为对称轴的水平的带状区域中,说明满足一元线性回归模型的假设,这样的带状区域的宽度越____,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为__________,残差平方和越____,模型拟合效果越好.
窄
小
(3)决定系数法
R2= R2的值越趋近于1,模型的拟
合效果越好.
6.列联表与独立性检验
(1)分类变量X,Y的2×2列联表:
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
则χ2=______________________.
(2)利用χ2的取值推断分类变量X和Y是否______的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
(3)χ2独立性检验中几个常用的小概率值和相应的临界值.
独立
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
[常用结论]
经验回归直线必过样本点的中心().
一、易错易混辨析(正确的打“√”,错误的打“×”)
(1) “名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系. ( )
(2)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强. ( )
(3)若事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越小. ( )
(4)经验回归方程=x+中,若<0,则变量x和y负相关. ( )
√
√
×
×
√
二、教材经典衍生
1.(人教A版选择性必修第三册P103习题8.1T1改编)下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
A B
C D
D [观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.]
2.(人教A版选择性必修第三册P103练习T3改编)在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y与x的样本相关系数为( )
A. B.-1 C.0 D.-
√
B [根据题意得=×(1+2+4-1)=1.5,=×(2+0-4+6)=1,
=-20,样本相关系数r==-1.
故选B.]
3.(人教A版选择性必修第三册P113练习T2改编)从某学校随机选取8名女大学生,关于其身高x(单位:cm)和体重y(单位:kg)的经验回归方程为=0.849x-85.712,则身高172 cm的女大学生的体重约为________kg.
60.316 [当x=172时,=0.849×172-85.712=60.316.]
60.316
4.(人教A版选择性必修第三册P133 例题改编)为了调查患肺癌是否与吸烟有关,某机构调查了100名50岁以下的人,调查结果如下表:
单位:人
吸烟 肺癌 合计
肺癌患者 非肺癌患者
吸烟者 20 m 40
不吸烟者 n 55 60
合计 25 75 100
根据列联表数据,求得χ2=________(保留3位有效数字),那么,在犯错误的概率不超过0.001的前提下认为患肺癌与吸烟有关.
附:χ2=.
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
22.2
22.2 [由20+m=40,得m=20.
由20+n=25,得n=5.
故χ2=≈22.2>10.828=x0.001.
所以在犯错误的概率不超过0.001的前提下认为患肺癌与吸烟有关.]
考点一 成对数据的相关性
[典例1] (1)调查某种群花萼长度和花瓣长度,所得数据如图所示.其中样本相关系数r=0.824 5,下列说法正确的是( )
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈现负相关
C.花瓣长度和花萼长度呈现正相关
D.若从样本中抽取一部分,则这部分
的样本相关系数一定是0.824 5
典例精研·核心考点
√
(2)(2024·山东济南模拟)设一组成对数据的样本相关系数为r,经验回归方程为=x+,则下列说法正确的为( )
A.越大,则r越大
B.越大,则r越小
C.若r大于零,则一定大于零
D.若r大于零,则一定小于零
(3)已知一组成对数据(18,24),(13,34),(10,38),(-1,m)的经验回归方程为=-2x+59.5,则该组数据的样本相关系数r=________(精确到0.001).
√
-0.998
(1)C (2)C (3)-0.998 [(1)∵样本相关系数r=0.824 5,且散点图呈左下角到右上角的带状分布,∴花瓣长度和花萼长度正相关.若从样本中抽取一部分,则这部分的样本相关系数不一定是0.824 5,故选C.
(2)影响的是经验回归直线的斜率,r影响两个变量之间的相关性,所以与r之间数值大小没有关系,但符号有影响,故选项AB错误;若r大于零,则说明两个变量正相关,故一定大于零,故选项C正确,D错误.故选C.
(3)由条件可得,
==10,
==,
经验回归直线=-2x+59.5一定过(),代入解得m=62,
==,
名师点评 判定两个变量正、负相关的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)样本相关系数:r>0时,正相关;r<0时,负相关.
(3)经验回归方程=x+中:>0时,正相关;<0时,负相关.
[跟进训练]
1.(1)(2024·天津高考)下列图中,相关性系数最大的是( )
A B
C D
√
(2)(2024·重庆模拟)已知成对样本数据,…,中x1,x2,…,xn不全相等,且所有样本点都在直线y=-x+1上,则这组成对样本数据的样本相关系数r=________,其决定系数R2=________.
-1
1
(1)A (2)-1 1 [(1)观察题干图可知,A图散点分布比较集中,且大体接近某一条直线,线性回归模型拟合效果比较好,呈现明显的正相关,|r|相比于其他题干图更接近1.故选A.
(2)由所有样本点都在直线y=-x+1上,又-<0,由题易知r=-1,R2=1.]
【教用·备选题】
(多选)对两组数据进行统计后得到的散点图如图所示,关于其样本相关系数的结论正确的是( )
A.r1<0 B.r2>1
C.r1+r2>0 D.>
√
√
AC [由散点图可知,样本相关系数r1的图象表示y与x负相关,故-1,故r1+r2>0,故C正确,D错误.故选AC.]
考点二 回归模型
考向1 一元线性回归模型
[典例2] 按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2017-2021年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比:
年份 2017年 2018年 2019年 2020年 2021年
年份代码xi 1 2 3 4 5
yi 6.4 5.5 5.0 4.8 3.8
(1)求2017—2021年年份代码xi与yi的样本相关系数(精确到0.01);
(2)请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行描述,并求出y关于x的经验回归方程;
(3)预测2025年的酸雨区面积占国土面积的百分比.
附:经验回归直线的斜率和截距的最小二乘估计公式分别为:
,样本相关系数
解:(1)由已知可得,==3,
==5.1,
由题可列下表:
xi- -2 -1 0 1 2
yi- 1.3 0.4 -0.1 -0.3 -1.3
(2)由(1)知,y与x的样本相关系数r≈-0.98,接近1,所以y与x之间具有极强的线性相关关系,可用线性回归模型进行描述.
由(1)所求知,
=
5.1-(-0.59)×3=6.87,
所求经验回归方程为=-0.59x+6.87.
(3)令x=9,则=-0.59×9+6.87=1.56,
故预测2025年的酸雨区面积占国土面积的百分比为1.56%.
【教用·备选题】
据统计,某城市居民年收入(所有居民在一年内收入的总和,单位:亿元)与某类商品销售额(单位:亿元)的10年数据如表所示:
第n年 1 2 3 4 5 6 7 8 9 10
居民年收入x 32.2 31.1 32.9 35.7 37.1 38.0 39.0 43.0 44.6 46.0
商品销售额y 25.0 30.0 34.0 37.0 39.0 41.0 42.0 44.0 48.0 51.0
依据表格数据,得到下面一些统计量的值.
(1)根据表中数据,得到样本相关系数r≈0.95.以此推断,y与x的线性相关程度是否很强?
379.6 391 246.904 568.9 m
(2)根据统计量的值与样本相关系数r≈0.95,建立y关于x的经验回归方程。(系数精确到0.01)
附:样本(xi,yi)(i=1,2,…,n)的相关系数r=
≈1.518,
解:(1)根据样本相关系数r≈0.95,可以推断线性相关程度很强.
(2)由
又因为=39.1,
所以=≈-15.56,
所以y与x的经验回归方程为=1.44x-15.56.
考向2 非线性回归模型
[典例3] (2025·湖南衡阳模拟)为了加快实现我国高水平科技自立自强,某科技公司逐年加大高科技研发投入.下图1是该公司2015年至2024年的年份代码x和年研发投入y(单位:亿元)的散点图,其中年份代码1~10分别对应年份2015~2024.
根据散点图,分别用模型①=x+,②=+作为年研发投入y(单位:亿元)关于年份代码x的经验回归方程模型,并进行残差分析,得到图2所示的残差图.结合数据,计算得到如下表所示的一些统计量的值:
(1)根据残差图,判断模型①和模型②哪一个更适宜作为年研发投入y(单位:亿元)关于年份代码x的经验回归方程模型?并说明理由;
(2)①根据(1)中所选模型,求出y关于x的经验回归方程;
②设该科技公司的年利润L(单位:亿元)和年研发投入y(单位:亿元)满足L=(x∈N*且x∈),问该科技公司哪一年的年利润最大?
附:对于一组数据,…,,其经验回归直线=+x的斜率和截距的最小二乘估计分别为
=-.
解:(1)根据题图2可知,模型①的残差波动性很大,说明拟合关系较差;
模型②的残差波动性很小,基本分布在0的附近,说明拟合关系很好,所以选择模型②更适宜.
(2)①设t=,所以=+t,
所以
=75-
6.3×2.25=60.825,
所以y关于x的非线性经验回归方程为=60.825+6.3.
②由题设可得L===-6.3x+50.4,
当取对称轴即==4,即x=16时,年利润L有最大值,故该公司2030年的年利润最大.
【教用·备选题】
一企业生产某种产品,通过加大技术创新投入降低了每件产品成本,为了调查年技术创新投入x(单位:千万元)对每件产品成本y(单位:元)的影响,对近10年的年技术创新投入xi和每件产品成本yi(i=1,2,3,…,10)的数据进行分析,得到如图所示的散点图,并计算得:
=6.8,=70,
(1)根据散点图可知,可用函数模型=+拟合y与x的关系,试建立y关于x的非线性经验回归方程;
(2)已知该产品的年销售额m(单位:千万元)与每件产品成本y(单位:元)的关系为m=-+100.该企业的年投入成本除了年技术创新投入,还要投入其他成本10千万元,根据(1)的结果回答:当年技术创新投入x为何值时,年利润M的预报值最大?
(注:年利润=年销售额-年投入成本)
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线=+u的斜率和截距的最小二乘估计公式分别为
=-.
解:(1)令u=,则y关于u的经验回归方程为=+u,
由题意可得
==70-200×0.3=10,则=10+200u,
所以y关于x的非线性经验回归方程为=10+.
==200,
(2)由y=10+可得x=,
年利润M=m-x-10=-+100--10=-(y-20)2+90.8,
当y=20时,年利润M取得最大值,
此时x===20,
所以当年技术创新投入为20千万元时,年利润M的预报值最大.
名师点评 回归分析问题的类型及解题方法
(1)求经验回归方程的步骤
①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.
②利用公式,求出回归系数.
③利用经验回归直线过样本点的中心求系数.
(2)利用经验回归方程进行预测,把经验回归方程看作一次函数,求函数值.
(3)利用经验回归方程判断正、负相关,决定正相关还是负相关的是系数.
(4)经验回归方程的拟合效果,可以利用样本相关系数判断,当|r|越趋近于1时,两变量的线性相关程度越强.
提醒:非线性问题处理策略要通过换元、取对数等手段把非线性问题转化为线性问题.
[跟进训练]
2.(1)(2025·辽宁重点中学模拟)某公司研发新产品投入x(单位:百万)与该产品的收益y(单位:百万)的5组统计数据如下表所示.由表中数据求得投入金额x与收益y满足经验回归方程=x+2.6,则下列结论不正确的是( )
x/百万元 5 6 8 9 12
y/百万元 16 20 25 28 36
A.x与y有正相关关系
B.经验回归直线经过点
C.=2.4
D.x=9时,残差为0.2
√
(2)某企业为响应国家号召,汇聚科研力量,加强科技创新,准备加大研发资金投入,为了解年研发资金投入额x(单位:亿元)对年盈利额y(单位:亿元)的影响,通过对“十二五”和“十三五”规划发展10年期间年研发资金投入额xi和年盈利额yi(i=1,2,…,10)数据进行分析,建立了两个函数模型:y=α+βx2;y=eλx+t,其中α,β,λ,t均为常数,e为自然对数的底数,令ui=,vi=ln yi(i=1,2,…,10),经计算得如下数据:
=26 =215 =680 =5.36
=22 500
-)=18
①请从样本相关系数的角度,分析哪一个模型拟合度更好?
②根据①的选择及表中数据,建立y关于x的非线性经验回归方程.
附:样本相关系数
经验回归方程=x+中:=
=-.
(1)C [对于A,由表格可知,x越大,y越大,所以x与y有正相关关系,故A正确;
对于B,==8,
==25,
则样本点的中心为,所以经验回归直线经过点,故B正确;
对于C,将样本点的中心代入直线方程,得25=8+2.6,所以=2.8,故C错误;
对于D,=2.8x+2.6,当x=9时,=2.8×9+2.6=27.8,
则残差为y-=28-27.8=0.2,故D正确.故选C.]
(2)解:①设模型y=α+βx2的样本相关系数为r1,模型y=eλx+t的样本相关系数为r2,
对于模型y=α+βx2,令u=x2,即y=α+βu,
=≈0.87,
对于模型y=eλx+t,有ln y=ln eλx+t=λx+t,令v=ln y,即v=λx+t,
所以r2=
==0.9,
因为r1②因为
=5.36-
0.18×26=0.68,
所以y关于x的非线性经验回归方程为=e0.18x+0.68.
【教用·备选题】
某研究所为了研究某种昆虫的产卵数y(单位:个)与温度x(单位:℃)之间的关系,现将收集到的温度xi和一组昆虫的产卵数yi的6组观测数据作了初步处理,得到如图所示的散点图及一些统计数据.
经计算得到以下数据:=
=26,=
=33,
=557,
=84,
=3 930,
=236.64.
(1)若用线性回归模型来拟合数据的变化关系,求y关于x的经验回归方程=x+;(结果精确到0.1)
(2)若用非线性回归模型来拟合数据的变化关系,求得y关于x的非线性经验回归方程=0.06e0.230 3x,且决定系数为R2=0.967 2.
①试与(1)中的回归模型相比,用R2说明哪种模型的拟合效果更好;
②用拟合效果好的模型预测温度为35 ℃时该组昆虫的产卵数.(结果四舍五入取整数)
附参考公式:对于一组具有线性相关关系的数据,…,,其经验回归直线=x+截距和斜率的最小二
乘估计公式分别为:
参考数据:e8.060 5≈3 167.
解:(1)由题意可知 =≈6.6,
==33-6.6×26=-138.6.
∴y关于x的经验回归方程是=6.6x-138.6.
(2)①用指数回归模型拟合y与x的关系,决定系数R2=0.967 2,
用线性回归模型拟合y与x的关系,决定系数
=1-≈0.939 8, 且0.939 8<0.967 2,
∴用=0.06e0.230 3x比=6.6x-138.6拟合效果更好.
②=0.06e0.230 3x中,令x=35,
则=0.06e0.230 3×35=0.06e8.060 5≈0.06×3 167≈190(个),
故预测温度为35 ℃时该组昆虫产卵数约为190个.
考点三 独立性检验
[典例4] (2023·全国甲卷改编)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(1)计算试验组的样本平均数;
(2)①求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表:
单位:只
组别 小白鼠体重的增加量 合计
对照组
试验组
合计
②根据①中的列联表,依据小概率值α=0.05的独立性检验,能否以此推断小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?
附:χ2=.
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
解:(1)根据题意,计算试验组样本平均数为
=×(7.8+9.2+11.4+12.4+13.2+15.5+16.5+18.0+18.8+19.2+19.8+20.2+21.6+22.8+23.6+23.9+25.1+28.2+32.3+36.5)=19.8.
(2)①由题意知,这40只小白鼠体重的增加量的中位数是将两组数据合在一起,从小到大排列后第20位与第21位数据的平均数,
因为第20位数据为23.2,第21位数据为23.6,
所以这组数据的中位数是m=×(23.2+23.6)=23.4.
填写列联表如下:
单位:只
组别 小白鼠体重的增加量 合计
对照组 6 14 20
试验组 14 6 20
合计 20 20 40
②零假设为H0:小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量无差异.
根据列联表中数据,得
χ2==6.4>3.841=x0.05,
所以依据小概率值α=0.05的独立性检验,我们推断H0不成立,可以认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异,此推断犯错误的概率不大于0.05.
名师点评 独立性检验的一般步骤
(1)根据样本数据完成2×2列联表.
(2)根据公式χ2=计算.
(3)比较χ2与临界值的大小关系,作统计推断.
[跟进训练]
3.(1)(多选)(2024·湖北八市一模)某校为了解高一新生对数学是否感兴趣,从400名女生和600名男生中通过分层随机抽样的方式随机抽取100名学生进行问卷调查,将调查的结果整理得到如下等高堆积条形图和列联表,则( )
单位:人
性别 数学兴趣 合计
感兴趣 不感兴趣
女生 a b a+b
男生 c d c+d
合计 a+c b+d 100
附:χ2=,
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.表中a=12,c=30
B.可以估计该校高一新生中对数学不感兴趣的女生人数比男生人数多
C.根据小概率值α=0.05的χ2独立性检验,可以认为性别与对数学的兴趣有差异
D.根据小概率值α=0.01的χ2独立性检验,可以认为性别与对数学的兴趣没有差异
√
√
√
(2)(2024·浙江嘉兴二模)为了有效预防流感,很多民众注射了流感疫苗.某市防疫部门从辖区居民中随机抽取了1 000人进行调查,发现其中注射疫苗的800人中有220人感染流感,另外没注射疫苗的200人中有80人感染流感.医学研究表明,流感的检测结果是有错检的可能,已知患有流感的人其检测结果有95%呈阳性(感染),而没有患流感的人其检测结果有99%呈阴性(未感染).
①估计该市流感感染率是多少?
②根据小概率值α=0.001的独立性检验,能否认为注射流感疫苗与预防流感有关;
③已知某人的流感检测结果呈阳性,求此人真的患有流感的概率.(精确到0.001)
附:χ2=,
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
(1)ACD [由题可知,抽取男生人数为600×=60,女生抽取的人数为400×=40,
由等高堆积条形图知,抽取男生感兴趣的人数为60×0.5=30,抽取男生不感兴趣的人数为60×0.5=30,
抽取女生感兴趣的人数为40×0.3=12,抽取女生不感兴趣的人数为40×0.7=28,2×2列联表如下:
单位:人
性别 数学兴趣 合计
感兴趣 不感兴趣
女生 12 28 40
男生 30 30 60
合计 42 58 100
由此表可知,a=12,c=30,故A正确;
女生不感兴趣的人数约为400×=280,男生不感兴趣的人数约为600×=300,
所以估计该校高一新生中对数学不感兴趣的女生人数比男生人数少,故B错误;
零假设为H0:性别与对数学的兴趣没有差异.
χ2=≈3.941>3.841=x0.05.
依据小概率值α=0.05的独立性检验,有充分证据推断H0不成立,因此可以认为H0不成立,即可以认为性别与对数学的兴趣有差异,故C正确;
零假设为H0:性别与对数学的兴趣没有差异,
则χ2=≈3.941<6.635=x0.01.
依据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即可以认为性别与对数学的兴趣没有差异,故D正确.故选ACD.]
(2)解:①估计流感的感染率P==0.3.
②由题意, 2×2列联表如下:
单位:人
疫苗情况 流感情况 合计
患有流感 不患有流感
打疫苗 220 580 800
不打疫苗 80 120 200
合计 300 700 1 000
零假设为H0:注射流感疫苗与预防流感无关,
则χ2=≈11.9.
因为11.9>10.828=x0.001,
根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为注射流感疫苗与预防流感有关,此推断犯错误的概率不大于0.001.
③设事件A为“一次检测结果呈阳性”,事件B为“被检测者确实患有流感”,
由题意得P=0.3,P=0.7,P=0.95,P=0.01,P=P·P(A∣B)=0.3×0.95=0.285,
由全概率公式得P=P·P+P()=0.3×0.95+0.7×0.01=0.292,P==≈97.6%,
所以此人真的患有流感的概率是97.6%.
【教用·备选题】
1. (2020·新高考Ⅰ卷改编)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
单位:天
PM2.5浓度 SO2浓度
[0,50] (50,150] (150,475]
[0,35] 32 18 4
(35,75] 6 8 12
(75,115] 3 7 10
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
PM2.5浓度 SO2浓度
[0,150] (150,475]
[0,75]
(75,115]
(3)根据(2)中的列联表,依据小概率值α=0.01的独立性检验,能否推断该市一天空气中PM2.5浓度与SO2浓度有关?
附:χ2=,
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
解:(1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为=0.64.
(2)根据抽查数据,可得2×2列联表:
单位:天
PM2.5浓度 SO2浓度
[0,150] (150,475]
[0,75] 64 16
(75,115] 10 10
(3)零假设为H0:该市一天空气中PM2.5浓度与SO2浓度无关,则
χ2=≈7.484.
由于7.484>6.635=x0.01,所以依据小概率值α=0.01的独立性检验,我们推断H0不成立,
即认为该市一天空气中PM2.5浓度与SO2浓度有关,该推断犯错误的概率不大于0.01.
2.随着全球新能源汽车市场蓬勃发展,在政策推动下,中国新能源汽车企业在10余年间实现了“弯道超车”,中国一跃成为新能源汽车产量连续7年居世界第一的全球新能源汽车强国.某新能源汽车企业基于领先技术的支持,改进并生产纯电动车、插电混合式电动车、氢燃料电池车三种车型,生产效益在短期内逐月攀升,该企业在1月份至6月份的生产利润y(单位:百万元)关于月份x的数据如下表所示,并根据数据绘制了如图所示的散点图.
月份x 1 2 3 4 5 6
生产利润y/百万元 6.8 8.6 16.1 19.6 28.1 40.0
(1)根据散点图判断,=x+与=(a,b,c,d均为常数)哪一个更适宜作为利润y关于月份x的经验回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的结果及表中的数据,求出y关于x的经验回归方程;
(3)该车企为提高新能源汽车的安全性,近期配合中国汽车技术研究中心进行了包括跌落、追尾、多车碰撞等一系列安全试验项目,其中在实验场进行了一项甲、乙、丙三车同时去碰撞试验车的多车碰撞实验,测得试验车报废的概率为0.188,并且当只有一车碰撞试验车发生时,试验车报废的概率为0.1,当有两车碰撞试验车发生时,试验车报废的概率为0.2,由于各种因素,实验中甲、乙、丙
三车碰撞试验车发生概率分别为0.7,0.5,0.4,且互不影响.求当三车同时碰撞试验车发生时,试验车报废的概率.
参考数据:
·(yi-)
·(ui-)
19.87 2.80 17.50 113.75 6.30
其中,设u=ln y,ui=ln yi(i=1,2,3,4,5,6).
参考公式:对于一组具有线性相关关系的数据(xi,yi)(i=1,2,3,
…,n),其经验回归直线=x+的斜率和截距的最小二乘估计
公式分别为
,=-.
解:(1)散点图中的点的分布不是一条直线,相邻两点在y轴上的差距是增大的趋势,故选用=作为利润y关于月份x的经验回归方程更合适.
(2)由=,两边同时取对数得ln =ln +x,
由=ln ,则=x+ln ,
==3.5, =17.50,
=2.80,
所以
所以ln ==2.80-0.36×3.5=1.54,
所以ln =1.54+0.36x,所以=e1.54+0.36x.
==0.36,
(3)设事件B为“试验车报废”,事件A1为“只有一车碰撞试验车”,事件A2为“恰有两车碰撞试验车”,事件A3为“有三车碰撞试验车”,
则P(A1)=(1-0.7)×(1-0.5)×0.4+(1-0.7)×0.5×(1-0.4)+0.7×(1-0.5)×(1-0.4)=0.3×0.5×0.4+0.3×0.5×0.6+0.7×0.5×0.6=0.36,
P(A2)=(1-0.7)×0.5×0.4+0.7×(1-0.5)×0.4+0.7×0.5×(1-0.4)
=0.3×0.5×0.4+0.7×0.5×0.4+0.7×0.5×0.6=0.41,P(A3)=0.7×0.5× 0.4=0.14,
由已知得P(B|A1)=0.1,P(B|A2)=0.2,
利用全概率公式得
P(B)=P(A1)P(B|A1)+P(A2)P(B|A2)+P(A3)P(B|A3)
=0.36×0.1+0.41×0.2+0.14×P(B|A3)=0.188,
解得P(B|A3)=0.5,
所以当三车同时碰撞试验车发生时,试验车报废的概率为0.5.
题号
1
3
5
2
4
6
8
7
9
10
11
12
一、单项选择题
1.(2024·上海高考)已知沿海地区气温和海水表层温度相关,且样本相关系数为正数,对此描述正确的是( )
A.沿海地区气温高,海水表层温度就高
B.沿海地区气温高,海水表层温度就低
C.随着沿海地区气温由低到高,海水表层温度呈上升趋势
D.随着沿海地区气温由低到高,海水表层温度呈下降趋势
13
课后作业(六十五) 成对数据的统计分析
√
C [对于AB,当沿海地区气温高,海水表层温度变高变低不确定,故AB错误.
对于CD,因为沿海地区气温与海水表层温度相关,且样本相关系数为正,故随着沿海地区气温由低到高时,海水表层温度呈上升趋势,
故C正确,D错误.故选C.]
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
2.(2025·江苏盐城模拟)根据分类变量Ⅰ与Ⅱ的统计数据,计算得到χ2=2.954,则( )
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
√
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.变量Ⅰ与Ⅱ相关
B.变量Ⅰ与Ⅱ相关,这个结论犯错误的概率不超过0.1
C.变量Ⅰ与Ⅱ不相关
D.变量Ⅰ与Ⅱ不相关,这个结论犯错误的概率不超过0.1
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
B [零假设为H0:变量Ⅰ与Ⅱ不相关,
因为χ2=2.954>2.706=x0.1,依据小概率值α=0.1的χ2独立性检验,推断H0不成立,即认为变量Ⅰ与Ⅱ相关,这个推断犯错误的概率不超过0.1.故选B.]
3.(2025·安徽蚌埠模拟)为维护市场秩序,保护消费者权益,在“五一”假期来临之际,我市物价部门对某商品在5家商场的售价x(单位:元)及其一天的销售量y(单位:件)进行调查,得到五对数据(xi,yi)(i=1,2,3,4,5),经过分析、计算,得=10,=8,y关于x的经验回归方程为=-3x+,则相应于点的残差为
( )
A.-1 B.1
C.-3 D.3
题号
1
3
5
2
4
6
8
7
9
10
11
12
√
13
A [因为经验回归直线过样本点中心,即,将其代入=-3x+,可得8=-3×10+,
解得=38,当x=9时,=-3×9+38=11,所以残差为10-11=-1.故选A.]
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
4.已知变量x和y满足关系=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
题号
1
3
5
2
4
6
8
7
9
10
11
12
√
13
C [因为=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设=y+,>0,则=y+=-0.1x++,故x与z负相关.故选C.]
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
题号
1
3
5
2
4
6
8
7
9
10
11
12
5.(2024·云南曲靖一模)已知变量y关于x的经验回归方程为=,若对=两边取自然对数,可以发现ln 与x线性相关.现有一组数据如下表所示:
则当x=6时,预测y的值为( )
A.9 B.8
C.e9 D.e8
13
√
x 1 2 3 4 5
y e e3 e4 e6 e7
题号
1
3
5
2
4
6
8
7
9
10
11
12
C [令=ln ,由=可得=ln =x-0.6,如下表所示:
由表格中的数据可得==4.2,
则有3-0.6=4.2,解得=1.6,故=e1.6x-0.6,
当x=6时,=e1.6×6-0.6=e9.故选C.]
13
x 1 2 3 4 5
y e e3 e4 e6 e7
u 1 3 4 6 7
题号
1
3
5
2
4
6
8
7
9
10
11
12
6.每年的毕业季都是高校毕业生求职和公司招聘最忙碌的时候,甲、乙两家公司今年分别提供了2个和3个不同的职位,一共收到了100份简历,具体数据如下:
13
公司 文史男 文史女 理工男 理工女
甲 10 10 20 10
乙 15 20 10 5
题号
1
3
5
2
4
6
8
7
9
10
11
12
则下列说法正确的是( )
A.根据小概率值α=0.001的独立性检验,认为毕业生的选择意愿与专业相关联
B.毕业生在选择甲、乙公司时,选择意愿更容易受到专业的影响
C.理科专业的学生更倾向于选择乙公司
D.女性毕业生更倾向于选择甲公司
13
√
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
附:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
题号
1
3
5
2
4
6
8
7
9
10
11
12
B [分析表格数据,分别分析毕业生的选择意愿与性别和专业关联关系,列出列联表:
13
题号
1
3
5
2
4
6
8
7
9
10
11
12
计算可得:它们观测值分别为:≈9.091,因为≈9.091,明显大于7.879,小于10.828,所以根据小概率值α=0.005的独立性检验,认为毕业生的选择意愿与专业相关联,所以A错误;因为,故B正确;分析表格知,理科专业的学生更倾向于选择甲公司,女性毕业生更倾向于选择乙公司,所以C,D均错误.故选B.]
13
题号
1
3
5
2
4
6
8
7
9
10
11
12
二、多项选择题
7.(2025·浙江宁波期中)已知具有相关关系的两个变量x,y的一组观测数据,…,,由此得到的经验回归方程为=x+,则下列说法中正确的是( )
A.经验回归直线=x+至少经过点,…,中的一个点
B.若点,…,都落在直线x+y+2=0上,则变量x,y的样本相关系数r=-1
C.若散点图的散点均落在一条斜率非零的直线上,则决定系数R2=1
D.若y2=2 022,2=2 025,则相应于样本点的残差为-3
13
√
√
√
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
BCD [A:经验回归直线=x+不一定经过,…,中的任何一个点,
但一定会经过样本点的中心,故A错误;
B:直线x+y+2=0的斜率k=-1,且所有样本点都落在直线x+y+2=0上,
所以这组样本数据完全负相关,且样本相关系数达到最小值-1,即样本相关系数r=-1,故B正确;
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
C:若散点图的散点均落在一条斜率非零的直线上,
所以残差平方和为0,则决定系数R2=1,C正确;
D:样本点的残差为y2-2=2 022-2 025=-3,故D正确.故选BCD.]
题号
1
3
5
2
4
6
8
7
9
10
11
12
8.(2025·河南洛阳模拟)某研究机构为了探究过量饮酒与患疾病A是否有关,调查了400人,得到如图所示的2×2列联表,其中b=12a,则( )
单位:人
13
饮酒 患疾病情况 合计
患疾病A 不患疾病A
过量饮酒 3a b
不过量饮酒 a 2b
合计 400
题号
1
3
5
2
4
6
8
7
9
10
11
12
参考公式与临界值表:
χ2=
13
α 0.1 0.05 0.01 0.001
xα 2.706 3.841 6.635 10.828
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
A.任意一人不患疾病A的概率为0.9
B.任意一人不过量饮酒的概率为
C.任意一人在不过量饮酒的条件下不患疾病A的概率为
D.依据小概率值α=0.001的独立性检验,认为过量饮酒与患疾病A有关
√
√
√
题号
1
3
5
2
4
6
8
7
9
10
11
12
ACD [由已知得4a+3b=400,又b=12a,所以a=10,b=120.
任意一人不患疾病A的概率为=0.9,所以A正确;
任意一人不过量饮酒的概率为=,所以B错误;
任意一人在不过量饮酒的条件下不患疾病A的概率为=,所以C正确;
对于D,2×2列联表如下:
13
题号
1
3
5
2
4
6
8
7
9
10
11
12
单位:人
13
饮酒 患疾病情况 合计
患疾病A 不患疾病A
过量饮酒 30 120 150
不过量饮酒 10 240 250
合计 40 360 400
题号
1
3
5
2
4
6
8
7
9
10
11
12
零假设为H0:过量饮酒与患疾病A无关.
则χ2==≈26.67,
由于26.67>10.828=x0.001,
所以依据小概率值α=0.001的独立性检验,推断H0不成立,即认为过量饮酒与患疾病A有关,此推断犯错误的概率不超过0.001,所以D正确.故选ACD.]
13
题号
1
3
5
2
4
6
8
7
9
10
11
12
三、填空题
9.如图是调查某学校高一年级男、女学生是否喜欢徒步运动而得到的等高堆积条形图,阴影部分表示喜欢徒步的频率.已知该年级男生500人、女生400人(假设所有学生都参加了调查),现从所有喜欢徒步的学生中按分层随机抽样的方法抽取23人,则抽取的男生人数为________.
13
15
题号
1
3
5
2
4
6
8
7
9
10
11
12
15 [根据等高堆积条形图可知: 喜欢徒步的男生人数为0.6×500=300,喜欢徒步的女生人数为0.4×400=160,
所以喜欢徒步的总人数为300+160=460,
按分层随机抽样的方法抽取23人,则抽取的男生人数为×23=15.]
13
题号
1
3
5
2
4
6
8
7
9
10
11
12
10.(2024·广东广州一模)某校数学建模兴趣小组收集了一组恒温动物体重W(单位:克)与脉搏率f (单位:心跳次数/分钟)的对应数据(Wi,fi)(i=1,2,…,8),根据生物学常识和散点图得出f与W近似满足f=cWk(c,k为参数).令xi=ln Wi,yi=ln fi,计算得=8,=5,
=214.由最小二乘法得经验回归方程为=x+7.4,则k的值为________;为判断拟合效果,通过经验回归方程求得预测值i(i=1,2,…,8),若残差平方和 ≈0.28,则决定系数
13
R2≈
-0.3
题号
1
3
5
2
4
6
8
7
9
10
11
12
________.
13
0.98
题号
1
3
5
2
4
6
8
7
9
10
11
12
-0.3 0.98 [因为f=cWk,所以两边取对数可得ln f=ln c+k ln W,又xi=ln Wi,yi=ln fi,
依题意经验回归直线=x+7.4必过样本点中心,
所以5=8+7.4,解得=-0.3,所以k=-0.3,
13
又R2=1-
≈1-=0.98.]
题号
1
3
5
2
4
6
8
7
9
10
11
12
四、解答题
11.(2024·全国甲卷改编)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
13
车间 优级品 合格品 不合格品 合计
甲车间 26 24 0 50
乙车间 70 28 2 100
合计 96 52 2 150
题号
1
3
5
2
4
6
8
7
9
10
11
12
(1)填写如下列联表:
单位:件
13
车间 检验结果 合计
优级品 非优级品
甲车间
乙车间
合计
题号
1
3
5
2
4
6
8
7
9
10
11
12
依据小概率值α=0.05的独立性检验,能否以此推断甲、乙两车间产品的优级品率存在差异?依据小概率值α=0.01的独立性检验,能否以此推断甲、乙两车间产品的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率p=0.5,设为升级改造后抽取的n件产品的优级品率.如果>p+1.65,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?(≈12.247)
13
题号
1
3
5
2
4
6
8
7
9
10
11
12
附:χ2=
13
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
题号
1
3
5
2
4
6
8
7
9
10
11
12
解:(1)根据题意可得列联表:
单位:件
13
车间 检验结果 合计
优级品 非优级品
甲车间 26 24 50
乙车间 70 30 100
合计 96 54 150
题号
1
3
5
2
4
6
8
7
9
10
11
12
零假设为H0:不能推断甲、乙两车间产品的优级品率存在差异.根据2×2列联表,可得χ2===4.687 5,
因为x0.05<4.687 5依据小概率值α=0.05的独立性检验,能以此推断甲、乙两车间产品的优级品率存在差异;依据小概率值α=0.01的独立性检验,不能以此推断甲、乙两车间产品的优级品率存在差异.
13
题号
1
3
5
2
4
6
8
7
9
10
11
12
(2)由题意可知:生产线智能化升级改造后,该工厂产品的优级品的频率为=0.64,
用频率估计概率可得=0.64,又因为升级改造前该工厂产品的优级品率p=0.5,
则p+1.65=0.5+1.65≈0.5+1.65×≈0.57,
可知>p+1.65,
所以可以认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
13
题号
1
3
5
2
4
6
8
7
9
10
11
12
12.移动物联网广泛应用于生产制造、公共服务、个人消费等领域.截至2022年年底,我国移动物联网连接数达18.45亿户,成为全球主要经济体中首个实现“物超人”的国家.如图所示是2018-2022年移动物联网连接数w与年份代码t的散点图,其中年份2018-2022对应的t分别为1~5.
13
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
(1)根据散点图推断两个变量是否线性相关.计算样本相关系数(精确到0.01),并推断它们的相关程度;
(2)①假设变量x与变量Y的n对观测数据为(x1,y1),(x2,y2),…,(xn,yn),两个变量满足一元线性回归模型(随机误差ei=yi-bxi).请推导:当随机误差平方和Q=
时,参数b的最小二乘估计;
取得最小值
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
②令变量x=t-,y=w-,则变量x与变量Y满足一元线性回归模型利用①中结论求y关于x的经验回归方程,并预测2025年移动物联网连接数.
附:样本相关系数
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
解:(1)由散点图可以看出样本点都集中在一条直线附近,由此推断两个变量线性相关.
因为=(1+2+3+4+5)=3,所以
=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
所以
==≈≈0.98,
所以这两个变量正线性相关,且相关程度很强.
题号
1
3
5
2
4
6
8
7
9
10
11
12
13
题号
1
3
5
2
4
6
8
7
9
10
11
12
②由①知
13
所以y关于x的经验回归方程为=2.72x,
所以当t=8时,
则x=8-3=5,=+=2.72×5+12.16=25.76,
所以预测2025年移动物联网连接数为25.76亿户.
题号
1
3
5
2
4
6
8
7
9
10
11
12
13.(2024·浙江台州二模)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司近5年的年广告费xi(单位:百万元)和年销售量yi(单位:百万辆)关系
如图所示.令vi=ln xi,
数据经过初步处理得:
13
题号
1
3
5
2
4
6
8
7
9
10
11
12
现有①=x+和②=ln x+两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从样本相关系数的角度,分析哪一个模型拟合程度更好?
13
44 4.8 10 40.3 1.612 19.5 8.06
题号
1
3
5
2
4
6
8
7
9
10
11
12
(2)根据(1)的分析选取拟合程度更好的回归分析模型,由表中数据,求出y关于x的经验回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量ξ影响,设随机变量ξ服从正态分布N,且满足P=0.3.在(2)的条件下,求该公司年净利润的最大值大于1 000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量)
13
题号
1
3
5
2
4
6
8
7
9
10
11
12
附:①样本相关系数r=
13
经验回归直线=+x中公式分别为=
,
=-;
②参考数据:=8.06,≈20.1,ln 5≈1.6,ln 6≈1.8.
题号
1
3
5
2
4
6
8
7
9
10
11
12
解:(1)设模型①和②的样本相关系数分别为r1,r2.
由题意可得:r1=
13
=≈≈0.97,
r2=
===1.
所以<,由样本相关系数的相关性质可得,模型②的拟合程度更好.
题号
1
3
5
2
4
6
8
7
9
10
11
12
(2)因为=
13
==5,
得==8.8-0.96×5=4,
所以=5v+4,即经验回归方程为=5ln x+4.
当x=6时,=5ln 6+4≈13,
因此当年广告费为6百万元时,产品的年销售量约是13百万辆.
题号
1
3
5
2
4
6
8
7
9
10
11
12
(3)年净利润为200×-200x-ξ,令g=200×-200x-ξ,
所以g′=-200.
可得g在上单调递增,在上单调递减.
所以g=g=200×-ξ≈1 400-ξ,
由题意得:1 400-ξ>1 000,即ξ<400,
P=P=0.3,
即该公司年净利润大于1 000(百万元)的概率为0.3.
13
谢 谢!课后作业(六十五) 成对数据的统计分析
说明:单项选择题每题5分,多项选择题每题6分,填空题每题5分,本试卷共95分
一、单项选择题
1.(2024·上海高考)已知沿海地区气温和海水表层温度相关,且样本相关系数为正数,对此描述正确的是( )
A.沿海地区气温高,海水表层温度就高
B.沿海地区气温高,海水表层温度就低
C.随着沿海地区气温由低到高,海水表层温度呈上升趋势
D.随着沿海地区气温由低到高,海水表层温度呈下降趋势
2.(2025·江苏盐城模拟)根据分类变量Ⅰ与Ⅱ的统计数据,计算得到χ2=2.954,则( )
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.变量Ⅰ与Ⅱ相关
B.变量Ⅰ与Ⅱ相关,这个结论犯错误的概率不超过0.1
C.变量Ⅰ与Ⅱ不相关
D.变量Ⅰ与Ⅱ不相关,这个结论犯错误的概率不超过0.1
3.(2025·安徽蚌埠模拟)为维护市场秩序,保护消费者权益,在“五一”假期来临之际,我市物价部门对某商品在5家商场的售价x(单位:元)及其一天的销售量y(单位:件)进行调查,得到五对数据(xi,yi)(i=1,2,3,4,5),经过分析、计算,得=10,=8,y关于x的经验回归方程为=-3x+,则相应于点的残差为( )
A.-1 B.1
C.-3 D.3
4.已知变量x和y满足关系=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
5.(2024·云南曲靖一模)已知变量y关于x的经验回归方程为=,若对=两边取自然对数,可以发现ln 与x线性相关.现有一组数据如下表所示:
x 1 2 3 4 5
y e e3 e4 e6 e7
则当x=6时,预测y的值为( )
A.9 B.8
C.e9 D.e8
6.每年的毕业季都是高校毕业生求职和公司招聘最忙碌的时候,甲、乙两家公司今年分别提供了2个和3个不同的职位,一共收到了100份简历,具体数据如下:
公司 文史男 文史女 理工男 理工女
甲 10 10 20 10
乙 15 20 10 5
则下列说法正确的是( )
A.根据小概率值α=0.001的独立性检验,认为毕业生的选择意愿与专业相关联
B.毕业生在选择甲、乙公司时,选择意愿更容易受到专业的影响
C.理科专业的学生更倾向于选择乙公司
D.女性毕业生更倾向于选择甲公司
附:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
二、多项选择题
7.(2025·浙江宁波期中)已知具有相关关系的两个变量x,y的一组观测数据,…,,由此得到的经验回归方程为=x+,则下列说法中正确的是( )
A.经验回归直线=x+至少经过点,…,中的一个点
B.若点,…,都落在直线x+y+2=0上,则变量x,y的样本相关系数r=-1
C.若散点图的散点均落在一条斜率非零的直线上,则决定系数R2=1
D.若y2=2 022,2=2 025,则相应于样本点的残差为-3
8.(2025·河南洛阳模拟)某研究机构为了探究过量饮酒与患疾病A是否有关,调查了400人,得到如图所示的2×2列联表,其中b=12a,则( )
单位:人
饮酒 患疾病情况 合计
患疾病A 不患疾病A
过量饮酒 3a b
不过量饮酒 a 2b
合计 400
参考公式与临界值表:
χ2=
α 0.1 0.05 0.01 0.001
xα 2.706 3.841 6.635 10.828
A.任意一人不患疾病A的概率为0.9
B.任意一人不过量饮酒的概率为
C.任意一人在不过量饮酒的条件下不患疾病A的概率为
D.依据小概率值α=0.001的独立性检验,认为过量饮酒与患疾病A有关
三、填空题
9.如图是调查某学校高一年级男、女学生是否喜欢徒步运动而得到的等高堆积条形图,阴影部分表示喜欢徒步的频率.已知该年级男生500人、女生400人(假设所有学生都参加了调查),现从所有喜欢徒步的学生中按分层随机抽样的方法抽取23人,则抽取的男生人数为________.
10.(2024·广东广州一模)某校数学建模兴趣小组收集了一组恒温动物体重W(单位:克)与脉搏率f (单位:心跳次数/分钟)的对应数据(Wi,fi)(i=1,2,…,8),根据生物学常识和散点图得出f与W近似满足f=cWk(c,k为参数).令xi=ln Wi,yi=ln fi,计算得=8,=5,=214.由最小二乘法得经验回归方程为=x+7.4,则k的值为________;为判断拟合效果,通过经验回归方程求得预测值i(i=1,2,…,8),若残差平方和≈0.28,则决定系数
R2≈________.
四、解答题
11.(2024·全国甲卷改编)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
车间 优级品 合格品 不合格品 合计
甲车间 26 24 0 50
乙车间 70 28 2 100
合计 96 52 2 150
(1)填写如下列联表:
单位:件
车间 检验结果 合计
优级品 非优级品
甲车间
乙车间
合计
依据小概率值α=0.05的独立性检验,能否以此推断甲、乙两车间产品的优级品率存在差异?依据小概率值α=0.01的独立性检验,能否以此推断甲、乙两车间产品的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率p=0.5,设为升级改造后抽取的n件产品的优级品率.如果>p+1.65,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?(≈12.247)
附:χ2=
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
12.移动物联网广泛应用于生产制造、公共服务、个人消费等领域.截至2022年年底,我国移动物联网连接数达18.45亿户,成为全球主要经济体中首个实现“物超人”的国家.如图所示是2018-2022年移动物联网连接数w与年份代码t的散点图,其中年份2018-2022对应的t分别为1~5.
(1)根据散点图推断两个变量是否线性相关.计算样本相关系数(精确到0.01),并推断它们的相关程度;
(2)①假设变量x与变量Y的n对观测数据为(x1,y1),(x2,y2),…,(xn,yn),两个变量满足一元线性回归模型(随机误差ei=yi-bxi).请推导:当随机误差平方和Q=取得最小值时,参数b的最小二乘估计;
②令变量x=t-,y=w-,则变量x与变量Y满足一元线性回归模型利用①中结论求y关于x的经验回归方程,并预测2025年移动物联网连接数.
附:样本相关系数
13.(2024·浙江台州二模)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司近5年的年广告费xi(单位:百万元)和年销售量yi(单位:百万辆)关系如图所示.令vi=ln xi,数据经过初步处理得:
44 4.8 10 40.3 1.612 19.5 8.06
现有①=x+和②=ln x+两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从样本相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型,由表中数据,求出y关于x的经验回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量ξ影响,设随机变量ξ服从正态分布N,且满足P=0.3.在(2)的条件下,求该公司年净利润的最大值大于1 000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量)
附:①样本相关系数r=
经验回归直线=+x中公式分别为=,=-;
②参考数据:=8.06,≈20.1,ln 5≈1.6,ln 6≈1.8.
课后作业(六十五)
[A组 在基础中考查学科功底]
1.C [对于AB,当沿海地区气温高,海水表层温度变高变低不确定,故AB错误.
对于CD,因为沿海地区气温与海水表层温度相关,且样本相关系数为正,故随着沿海地区气温由低到高时,海水表层温度呈上升趋势,
故C正确,D错误.故选C.]
2.B [零假设为H0:变量Ⅰ与Ⅱ不相关,
因为χ2=2.954>2.706=x0.1,依据小概率值α=0.1的χ2独立性检验,推断H0不成立,即认为变量Ⅰ与Ⅱ相关,这个推断犯错误的概率不超过0.1.故选B.]
3.A [因为经验回归直线过样本点中心,即,将其代入=-3x+,可得8=-3×10+,
解得=38,当x=9时,=-3×9+38=11,所以残差为10-11=-1.故选A.]
4.C [因为=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设=y+,>0,则=y+=-0.1x++,故x与z负相关.故选C.]
5.C [令=ln ,由=可得=ln =x-0.6,如下表所示:
x 1 2 3 4 5
y e e3 e4 e6 e7
u 1 3 4 6 7
由表格中的数据可得==4.2,
则有3-0.6=4.2,解得=1.6,故=e1.6x-0.6,
当x=6时,=e1.6×6-0.6=e9.故选C.]
6.B [分析表格数据,分别分析毕业生的选择意愿与性别和专业关联关系,列出列联表:
计算可得:它们观测值分别为:≈9.091,因为≈9.091,明显大于7.879,小于10.828,所以根据小概率值α=0.005的独立性检验,认为毕业生的选择意愿与专业相关联,所以A错误;因为,故B正确;分析表格知,理科专业的学生更倾向于选择甲公司,女性毕业生更倾向于选择乙公司,所以C,D均错误.故选B.]
7.BCD [A:经验回归直线=x+不一定经过,…,中的任何一个点,
但一定会经过样本点的中心,故A错误;
B:直线x+y+2=0的斜率k=-1,且所有样本点都落在直线x+y+2=0上,
所以这组样本数据完全负相关,且样本相关系数达到最小值-1,即样本相关系数r=-1,故B正确;
C:若散点图的散点均落在一条斜率非零的直线上,
所以残差平方和为0,则决定系数R2=1,C正确;
D:样本点的残差为y2-2=2 022-2 025=-3,故D正确.故选BCD.]
8.ACD [由已知得4a+3b=400,又b=12a,所以a=10,b=120.
任意一人不患疾病A的概率为=0.9,所以A正确;
任意一人不过量饮酒的概率为=,所以B错误;
任意一人在不过量饮酒的条件下不患疾病A的概率为=,所以C正确;
对于D,2×2列联表如下:
单位:人
饮酒 患疾病情况 合计
患疾病A 不患疾病A
过量饮酒 30 120 150
不过量饮酒 10 240 250
合计 40 360 400
零假设为H0:过量饮酒与患疾病A无关.
则χ2==≈26.67,
由于26.67>10.828=x0.001,
所以依据小概率值α=0.001的独立性检验,推断H0不成立,即认为过量饮酒与患疾病A有关,此推断犯错误的概率不超过0.001,所以D正确.故选ACD.]
9.15 [根据等高堆积条形图可知: 喜欢徒步的男生人数为0.6×500=300,喜欢徒步的女生人数为0.4×400=160,
所以喜欢徒步的总人数为300+160=460,
按分层随机抽样的方法抽取23人,则抽取的男生人数为×23=15.]
10.-0.3 0.98 [因为f=cWk,所以两边取对数可得ln f=ln c+k ln W,又xi=ln Wi,yi=ln fi,
依题意经验回归直线=x+7.4必过样本点中心,
所以5=8+7.4,解得=-0.3,所以k=-0.3,
又R2=1-≈1-=0.98.]
11.解:(1)根据题意可得列联表:
单位:件
车间 检验结果 合计
优级品 非优级品
甲车间 26 24 50
乙车间 70 30 100
合计 96 54 150
零假设为H0:不能推断甲、乙两车间产品的优级品率存在差异.根据2×2列联表,可得χ2===4.687 5,
因为x0.05<4.687 5依据小概率值α=0.05的独立性检验,能以此推断甲、乙两车间产品的优级品率存在差异;依据小概率值α=0.01的独立性检验,不能以此推断甲、乙两车间产品的优级品率存在差异.
(2)由题意可知:生产线智能化升级改造后,该工厂产品的优级品的频率为=0.64,
用频率估计概率可得=0.64,又因为升级改造前该工厂产品的优级品率p=0.5,
则p+1.65=0.5+1.65≈0.5+1.65×≈0.57,
可知>p+1.65,
所以可以认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
12.解:(1)由散点图可以看出样本点都集中在一条直线附近,由此推断两个变量线性相关.
因为=(1+2+3+4+5)=3,所以
=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,
所以
==≈≈0.98,
所以这两个变量正线性相关,且相关程度很强.
②由①知
所以y关于x的经验回归方程为=2.72x,
所以当t=8时,
则x=8-3=5,=+=2.72×5+12.16=25.76,
所以预测2025年移动物联网连接数为25.76亿户.
[B组 在综合中考查关键能力]
13.解:(1)设模型①和②的样本相关系数分别为r1,r2.
由题意可得:r1==≈≈0.97,
r2====1.
所以<,由样本相关系数的相关性质可得,模型②的拟合程度更好.
(2)因为===5,
得==8.8-0.96×5=4,
所以=5v+4,即经验回归方程为=5ln x+4.
当x=6时,=5ln 6+4≈13,
因此当年广告费为6百万元时,产品的年销售量约是13百万辆.
(3)年净利润为200×-200x-ξ,令g=200×-200x-ξ,
所以g′=-200.
可得g在上单调递增,在上单调递减.
所以g=g=200×-ξ≈1 400-ξ,
由题意得:1 400-ξ>1 000,即ξ<400,
P=P=0.3,
即该公司年净利润大于1 000(百万元)的概率为0.3.
8 / 8