第9章 第3节 成对数据的统计分析(课件 学案 练习)2026届高中数学人教A版(2019)大一轮复习

文档属性

名称 第9章 第3节 成对数据的统计分析(课件 学案 练习)2026届高中数学人教A版(2019)大一轮复习
格式 zip
文件大小 23.9MB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2025-06-22 21:25:17

文档简介

第三节 成对数据的统计分析
【课程标准】 1.了解样本相关系数的统计含义;2.了解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题;3.会利用统计软件进行数据分析.
教|材|回|顾
1.变量的相关关系
(1)相关关系的分类:正相关和负相关.
(2)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在________附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
2.样本相关系数
(1)样本相关系数r的计算
变量x和变量y的样本相关系数r的计算公式如下:
r=.
(2)样本相关系数r的性质
①当r>0时,称成对样本数据________相关;当r<0时,称成对样本数据________相关;当r=0时,成对样本数据间没有线性相关关系.
②样本相关系数r的取值范围为________.
当|r|越接近1时,成对样本数据的线性相关程度越________;
当|r|越接近0时,成对样本数据的线性相关程度越________.
3.一元线性回归模型
(1)我们将=x+称为Y关于x的经验回归方程,其中
(2)残差:观测值减去__________所得的差称为残差.
(3)决定系数
R2=1-,R2越________,即模型的拟合效果越好,R2越________,即模型的拟合效果越差.
4.列联表与独立性检验
(1)关于分类变量X和Y的抽样数据的2×2列联表
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
记n=a+b+c+d,则随机变量χ2=.
(2)独立性检验
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2下表给出了χ2独立性检验中五个常用的小概率值和相应的临界值
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
微|点|延|伸
1.相关关系与函数关系的异同
共同点:二者都是指两个变量间的关系;
不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系.
2.经验回归直线=x+必过样本点的中心(,).
3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.
4.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两个分类变量有关的把握越大.
小|题|快|练
1.(多选题)下列有关回归分析的说法中正确的是(  )
A.相关关系是一种确定性的关系
B.经验回归直线就是散点图中经过样本数据点最多的那条直线
C.当样本相关系数r>0时,两个变量正相关
D.两个变量的线性相关性越弱,|r|越接近于0
2.如图,有5个(x,y)数据,去掉D(3,10)后,下列说法错误的是(  )
A.样本相关系数r变大
B.残差平方和变大
C.R2变大
D.解释变量x与响应变量y的相关程度变强
3.已知某产品的营销费用x(单位:万元)与销售额y(单位:万元)的统计数据如表所示,根据下表可得y关于x的经验回归方程为=7x+,则当该产品的营销费用为6万元时,预计销售额为(  )
营销费用x/万元 2 3 4 5
销售额y/万元 15 20 30 35
A.40.5万元 B.41.5万元
C.42.5万元 D.45万元
4.已知变量x和y的统计数据如表:
x 6 7 8 9 10
y 3.5 4 5 6 6.5
若由表中数据得到经验回归方程为=0.8x+,则当x=10时的残差为________(注:观测值减去预测值所得的差称为残差).
5.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如表所示:
性别 主修专业 合计
非统计专业 统计专业
男 13 10 23
女 7 20 27
合计 20 30 50
为了判断主修专业是否与性别有关系,根据表中的数据,得到χ2=≈4.844,因为χ2>3.841,所以判定主修专业与性别有关系,那么这种判断出错的可能性________0.05(填“大于”或“小于”).
附:
α 0.1 0.05 0.01 0.001
xa 2.706 3.841 6.635 10.828
类型一 成对数据的相关性
【例1】 某滑雪场在冬奥会期间开业,下表统计了该滑雪场开业第x天的滑雪人数y(单位:百人)的数据.
天数代码x 1 2 3 4 5 6 7
滑雪人数y/百人 11 13 16 15 20 21 23
根据第1至7天的数据分析,可用线性回归模型来拟合y与x的关系,请用样本相关系数加以说明.(保留两位有效数字)
参考数据:iyi=532,≈57.48.
参考公式:
对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其样本相关系数r=.
判断两个变量相关性的方法
1.画散点图:点的分布从左下角区域到右上角区域,两个变量正相关;点的分布从左上角区域到右下角区域,两个变量负相关.
2.样本相关系数:根据成对样本数据,直接求出r,当r>0时,两个变量正相关;当r<0时,两个变量负相关;|r|越接近于1,两个变量相关程度越强.
[注意] 样本相关系数r为判定两个变量是否线性相关的指标,且绝对值越大,线性相关程度越强,而不是r越大,线性相关程度越强.
【训练1】 (2025·石家庄一模)某校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男生,测量了他们的身高和体重,制作成表格.
身高x (单位:cm) 167 173 175 177 178 180 181
体重y (单位:kg) 90 54 59 64 67 72 76
由表格制作成如图所示的散点图,由最小二乘法计算得到经验回归直线l1的方程为=1x+1,其相关系数为r1;经过残差分析,点(167,90)对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线l2的方程为=2x+2,相关系数为r2,则下列选项正确的是(  )
A.1<2,1>2,r1B.1<2,1<2,r1>r2
C.1>2,1<2,r1>r2
D.1>2,1>2,r1类型二 经验回归模型
考向 :一元线性回归模型
【例2】 某商业银行对存款利率与日存款总量的关系进行调研,发现存款利率每上升一定的百分点,日均存款总额就会发生一定的变化,经过统计得到下表:
利率上升百分点x 0.1 0.2 0.3 0.4 0.5
日均存款总额y/亿元 0.2 0.35 0.5 0.65 0.8
(1)在给出的直角坐标系中画出上表数据的散点图;
(2)根据上表提供的数据,用最小二乘法求出y关于x的经验回归方程=x+;
(3)已知现行存款利率下的日均存款总额为0.625亿元,试根据(2)中的经验回归方程,预测日均存款总额为现行存款利率下的2倍时,存款利率需上升多少个百分点?
参考公式及数据:①=,=-,②iyi=0.9,=0.55.
线性回归分析问题的解题策略
1.利用最小二乘估计公式,求出回归系数.
2.利用经验回归直线过样本点的中心求系数.
3.写出经验回归方程,并利用经验回归方程进行预测.
【训练2】 (多选题)下表是2024年某市1~5月份新能源汽车销量y(单位:千辆)与月份x的统计数据,
月份x 1 2 3 4 5
销量y 5 5 6 6 8
由表中数据求得经验回归方程为=0.7x+,则下列说法正确的是(  )
A.=3.9
B.y与x正相关
C.由经验回归方程估计,月份每增加1个月,销量平均增加0.7千辆
D.由已知数据可以确定,6月份该市新能源汽车销量一定为8.1千辆
考向 :非线性回归模型
【例3】 (2025·广州一模)某校数学建模兴趣小组收集了一组恒温动物体重W(单位:克)与心率f(单位:次/分钟)的对应数据(Wi,fi)(i=1,2,…,8).根据生物学常识和散点图得出f与W近似满足f=cWk(c,k为参数).令xi=ln Wi,yi=ln fi,计算得=8,=5,=214.由最小二乘法得经验回归方程为=x+7.4,则k的值为________;为判断拟合效果,通过经验回归方程求得预测值i(i=1,2,…,8),若残差平方和(yi-i)2≈0.28,则决定系数R2≈________.
非线性经验回归方程转化为线性经验回归方程常用方法:
1.若y=a+b,设t=,则=+t.
2.若y=a+bln x,设t=ln x,则=+t.
3.若y=c1ec2x,两边取自然对数,得ln y=ln c1+c2x,设z=ln y,=ln c1,=c2,则=+x.
【训练3】 用模型y=cekx拟合一组数据时,为了求出经验回归方程,设z=ln y,其变换后得到经验回归方程为=0.5x+2,则c=(  )
A.0.5 B.e0.5
C.2 D.e2
类型三 独立性检验
【例4】 (2025·八省联考)为考察某种药物A对预防疾病B的效果,进行了动物(单位:只)试验,得到如下列联表:
药物 疾病 合计
未患病 患病
未服用 100 80 s
服用 150 70 220
合计 250 t 400
(1)求s,t;
(2)记未服用药物A的动物患疾病B的概率为p,给出p的估计值;
(3)根据小概率值α=0.01的独立性检验,能否认为药物A对预防疾病B有效?
附:χ2=
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
独立性检验的一般步骤
1.提出零假设H0.
2.根据样本数据制成2×2列联表.
3.根据公式χ2=计算.
4.比较χ2与临界值的大小关系,作统计推断.
【训练4】 甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
公司 准点班次数 未准点班次数
A 240 20
B 210 30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)根据小概率值α=0.1的独立性检验,能否认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:χ2=,n=a+b+c+d.
α 0.100 0.050 0.010
xα 2.706 3.841 6.635
1.(2024·新课标Ⅱ卷)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理得下表:
亩产量 [900, 950) [950, 1 000) [1 000, 1 050) [1 050, 1 100) [1 100, 1 150) [1 150, 1 200]
频数 6 12 18 30 24 10
根据表中数据,下列结论中正确的是(  )
A.100块稻田亩产量的中位数小于1 050 kg
B.100块稻田中亩产量低于1 100 kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200 kg至300 kg之间
D.100块稻田亩产量的平均值介于900 kg至1 000 kg之间
2.(2022·全国甲卷)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如图,则(  )
A.讲座前问卷答题的正确率的中位数小于70%
B.讲座后问卷答题的正确率的平均数大于85%
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
3.(多选题)(2021·新高考Ⅰ卷)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则(  )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
4.(多选题)(2023·新课标Ⅰ卷)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则(  )
A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数
B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数
C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差
D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差
第三节 成对数据的统计分析
必备知识·梳理
教材回顾
1.(2)一条直线
2.(2)①正 负 ②[-1,1] 强 弱
3.(1) (2)预测值 (3)大 小
小题快练
1.CD 解析 相关关系是不确定的关系,故A错;经验回归直线在散点图中可能不经过任一样本数据点,故B错;当样本相关系数r>0时,两个变量正相关,故C对;两个变量的线性相关性越弱,|r|越接近于0,故D对.故选CD.
2.B 解析 去掉一个极端值,根据样本相关系数、残差平方和的定义、R2的含义可知,A、C、D正确.故选B.
3.C 解析 ==3.5,==25,因为经验回归方程为=7x+,所以25=3.5×7+,解得=0.5,所以经验回归方程为=7x+0.5,将x=6代入,得=7×6+0.5=42.5.故当该产品的营销费用为6万元时,预计销售额为42.5万元.故选C.
4.-0.1 解析 ==8,==5,则=5-0.8×8=-1.4,所以=0.8x-1.4,当x=10时,=6.6,所以当x=10时的残差为6.5-6.6=-0.1.
5.小于 解析 因为χ2>3.841=x0.05,所以依据小概率值α=0.05的独立性检验,认为主修专业与性别有关,这种判断出错的可能性小于0.05.
关键能力·落实
【例1】 解 因为=×(1+2+3+4+5+6+7)=4,=×(11+13+16+15+20+21+23)=17,所以(xi-)(yi-)=iyi-7=532-7×4×17=56,所以r=≈≈0.97,所以样本相关系数r的绝对值接近于1,所以可以推断x和y这两个变量线性相关,且相关程度很强.
【训练1】 A 解析 ==≈176,因为离群点(167,90)的横坐标167小于平均值176,纵坐标90相对过大,所以去掉(167,90)后经验回归直线的截距变小而斜率变大,故1<2,1>2,去掉(167,90)后相关性更强,拟合效果也更好,且是正相关,所以r1【例2】 解 (1)如图所示.
(2)由题表数据可得=×(0.1+0.2+0.3+0.4+0.5)=0.3,=×(0.2+0.35+0.5+0.65+0.8)=0.5,所以===1.5,=-=0.5-1.5×0.3=0.05,故y关于x的经验回归方程为=1.5x+0.05.
(3)设存款利率需上升x个百分点,由(2)及题意得,0.625×2=1.5x+0.05,解得x=0.8,所以预测存款利率需上升0.8个百分点.
【训练2】 ABC 解析 由==3,==6,得样本点的中心为(3,6),代入=0.7x+,得6=0.7×3+,解得=3.9,故A正确;由经验回归方程的系数是0.7>0,知y与x正相关,且月份每增加1个月,销量平均增加0.7千辆,故B、C正确;经验回归方程只能顸测趋势,不能确定销量,故D错误.故选ABC.
【例3】 -0.3 0.98 解析 将=8,=5代入经验回归方程=x+7.4,得5=8+7.4,解得=-0.3,所以k=-0.3.(yi-)2=(y1-)2+(y2-)2+…+(y8-)2=y+y+…+y-2(y1+y2+…+y8)+82=y+y+…+y-2·8+82=-82,所以R2=1-=1-≈1-=0.98.
【训练3】 D 解析 因为y=cekx,两边取对数,得ln y=ln(cekx)=ln c+ln ekx=kx+ln c,则=x+ln ,而=0.5x+2,于是得ln =2,即=e2.故选D.
【例4】 解 (1)s=100+80=180,t=80+70=150.
(2)p==.
(3)零假设H0:药物A对预防疾病B无效,根据列联表中的数据可求得χ2==≈6.73>6.635,根据小概率值α=0.01的χ2独立性检验,可推断H0不成立.因此认为药物A对预防疾病B有效.
【训练4】 解 (1)由题表可得A公司甲、乙两城之间的长途客车准点的概率为=,B公司甲、乙两城之间的长途客车准点的概率为=.
(2)零假设为H0:甲、乙两城之间的长途客车是否准点与客车所属公司无关,列联表如下表所示:
公司 班次是否准点 合计
准点班次数 未准点班次数
A 240 20 260
B 210 30 240
合计 450 50 500
χ2=≈3.205>2.706=x0.1,根据小概率值α=0.1的独立性检验,我们推断H0不成立,即认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
高考真题·重温
1.C 解析 对于A,因为前3组的频率之和0.06+0.12+0.18=0.36<0.5,前4组的频率之和0.36+0.30=0.66>0.5,所以100块稻田亩产量的中位数所在的区间为[1 050,1 100),故A不正确;对于B,100块稻田中亩产量低于1 100 kg的稻田所占比例为×100%=66%,故B不正确;对于C,因为1 200-900=300,1 150-950=200,所以100块稻田亩产量的极差介于200 kg至300 kg之间,故C正确;对于D,100块稻田亩产量的平均值为×(925×6+975×12+1 025×18+1 075×30+1 125×24+1 175×10)=1 067(kg),故D不正确.综上所述,故选C.
2.B 解析 解法一:根据散点图,讲座前问卷答题正确率的10个数据中,小于或等于70%的有5个,这意味着中位数必然大于70%,故选项A错误.讲座后问卷答题正确率的10个数据中,有1个为80%,4个为85%,其余数据大于或等于90%,经估算知,平均数大于85%,故选项B正确.从散点图可以看出,与讲座后的正确率的数据相比,讲座前正确率的数据更为分散,故标准差更大,故选项C错误.从散点图可直接看出,讲座前正确率的极差更大,故选项D错误.故选B.
解法二:根据散点图可知,讲座前问卷答题正确率的中位数为(70%+75%)>70%,故选项A错误.由散点图中数据计算知,讲座后问卷答题正确率的平均数为89.5%,故选项B正确.从散点图可以看出,与讲座后问卷答题的正确率数据相比,讲座前问卷答题的正确率数据更为分散,故标准差更大,选项C错误.由散点图中数据计算可知,讲座前的正确率极差为95%-60%=35%,讲座后问卷答题正确率的极差为100%-80%=20%,故选项D错误.故选B.
3.CD 解析 A项,设=i,则=i=(xi+c)=i+c,所以=+c,因为c≠0,所以≠,所以A选项错误.B项,因为yi=xi+c(i=1,2,…,n),所以y1,y2,…,yn的中位数是x1,x2,…,xn的中位数加c,所以B选项错误.C项,设s=(xi-)2,s=(yi-)2,所以s=(xi+c--c)2=(xi-)2,所以s=s,所以两组数据的方差相同,从而这两组数据的标准差相同,所以C选项正确.D项,设x14.BD 解析 对于A,如1,2,2,2,2,4的平均数不等于2,2,2,2的平均数,故A错误;对于B,不妨设x2≤x3≤x4≤x5,则x2,x3,x4,x5的中位数为,x1,x2,…,x6的中位数为,故B正确;对于C,x1,x2,…,x6的数据波动性更大,故C错误;对于D,不妨设x2≤x3≤x4≤x5,则x1≤x2≤x3≤x4≤x5≤x6,所以x5-x2≤x6-x1,故D正确.故选BD.(共66张PPT)
第三节
第九章 统计与成对数据的统计分析
成对数据的统计分析




必备知识/梳理
第一部分
——回扣知识
教|材|回|顾
微|点|延|伸
小|题|快|练
解析
解析
解析
解析
解析
关键能力/落实
第二部分
——考向探究
类型一
成对数据的相关性


解析
类型二
经验回归模型



解析
解析
解析
答案
类型三
独立性检验






高考真题/重温
第三部分
——明确方向
解析
解析
解析
解析
解析
解析
解析
R
赢在欲点
y米
E(10,12)
D(3,10)
·C(4,5)
·B(2,4)
A(1,3)
0
X
个y/kg
09000140000
166168170172174176178180182
x/cm
0.9
0
0.7
一一一
0.6
543
1

7

一一一一
0.2
L
0.1
7
1
0
0.10.20.30.40.50.6
X
0.9
0.8
0.7
一一一
0.6
y
543
1

7

一一一
0.2
0.1
7
1
0
0.10.20.30.40.50.6
X
100%
95%
90%

85%


80%
米一*讲座前
75%

·讲座后
70%

65%


60%


123456
78910
居民编号微练(七十九) 成对数据的统计分析
 基础过关
一、单项选择题
1.某机构为调查运动爱好者是否有性别差异,通过调研数据统计:在500名男生中有200名爱好运动,在400名女生中有50名爱好运动.若要确定运动爱好是否与性别有关时,用下列最适合的统计方法是(  )
A.均值 B.方差
C.独立性检验 D.回归分析
2.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得样本相关系数r与残差平方和m,如下表:
甲 乙 丙 丁
r 0.82 0.78 0.69 0.85
m 106 115 124 103
则哪位同学的试验结果体现A,B两个变量有更强的线性相关性?(  )
A.甲 B.乙
C.丙 D.丁
3.根据如表样本数据:
x 2 3 4 5 6
y 4 2.5 -0.5 -2 -3
得到的经验回归方程为=x+则(  )
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
4.某公司在2020~2024年的收入与支出情况如下表所示:
收入x(亿元) 2.2 2.6 4.0 5.3 5.9
支出y(亿元) 0.2 1.5 2.0 2.5 3.8
根据表中数据可得经验回归方程为=0.8x+,依此估计该公司收入为8亿元时的支出为(  )
A.4.2亿元 B.4.4亿元
C.5.2亿元 D.5.4亿元
5.(2025·福建宁德质检)2024海峡两岸各民族欢度“三月三”暨福籽同心爱中华·福建省第十一届“三月三”畲族文化节活动在宁德福安隆重开幕.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,之后每过一个小时反馈一次.指挥中心统计了前5次的数据(i,yi),其中i=1,2,3,4,5,yi为第i次入口人流量数据(单位:百人),由此得到y关于i的回归方程=log2(i+1)+5.已知=9,根据回归方程(参考数据:log23≈1.6,log25≈2.3),可预测下午4点时入口游客的人流量为(  )
A.9.6 B.11.0
C.11.4 D.12.0
6.对于数据组(xi,yi)(i=1,2,…,n),如果由经验回归方程得到的对应自变量xi的估计值是i,那么将yi-i称为对应点(xi,yi)的残差.某商场为了给一种新商品进行合理定价,将该商品按事先拟定的价格进行试销,得到如表所示的数据:
单价x/元 8.2 8.4 8.6 8.8
销量y/件 84 83 78 m
根据表中的数据,得到销量y(单位:件)与单价x(单位:元)之间的经验回归方程为=-16x+a,据计算,样本点(8.4,83)处的残差为1.4,则m=(  )
A.45 B.55
C.75 D.85
二、多项选择题
7.2024年6月18日,很多商场都在搞“618”促销活动.市物价局派人对5个商场某商品同一天的销售量及其售价进行调查,得到该商品的售价x(元)和销售量y(件)之间的一组数据(如表所示),用最小二乘法求得y关于x的经验回归方程是=-0.32x+,样本相关系数r≈-0.992 3,则下列说法正确的有(  )
x 90 95 100 105 110
y 11 10 8 6 5
A.变量y与x负相关且相关性较强
B.=40
C.当x=75时,y的估计值为14.5
D.相应于点(95,10)的残差为0.4
8.为了解阅读量多少与幸福感强弱之间的关系,一个调查机构根据所得到的数据,绘制了如下所示的2×2列联表(个别数据暂用字母表示):
幸福感强 幸福感弱 合计
阅读量多 m 18 72
阅读量少 36 n 78
合计 90 60 150
计算得:χ2≈12.981,参照下表:
α 0.10 0.05 0.025 0.010 0.005 0.001
xα 2.706 3.841 5.024 6.635 7.879 10.828
对于下面的选项,正确的是(  )
A.根据小概率值α=0.010的独立性检验,可以认为“阅读量多少与幸福感强弱无关”
B.m=54
C.根据小概率值α=0.005的独立性检验,认为“阅读量多少与幸福感强弱有关”,此推断犯错误的概率不大于0.005
D.n=52
三、填空题
9.已知x和y的散点图如图所示,在相关关系中,若用=1e2x拟合时的决定系数为R,用=x+拟合时的决定系数为R,则R,R中较大的是________.
10.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.得到数据如下表:
零件个数x 10 20 30 40 50
加工时间y(min) 53 65 71 76 85
根据上表可得经验回归方程=x+中的=0.75,则经验回归方程=x+中=________;据此估计,加工的零件个数为60时所花费的时间为________min.
11.为研究某新药的疗效,给100名患者服用此药,跟踪调查后得如表所示的数据:
性别 疗效
无效 有效 合计
男性患者 15 35 50
女性患者 6 44 50
合计 21 79 100
α 0.100 0.050 0.010
xα 2.706 3.841 6.635
设H0:服用此药的效果与患者的性别无关,χ2≈________(小数点后保留3位有效数字),从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的概率不大于________.
四、解答题
12.(2024·陕西西安二模)民航招飞是指普通高校飞行技术专业通过高考招收飞行学生,据统计某校高三在校学生有1 000人,其中男学生600人,女学生400人,男、女各有100名学生有报名意向.
(1)完成给出的列联表,并分别估计男、女学生有报名意向的概率:
有报名意向 没有报名意向 合计
男学生
女学生
合计
(2)依据小概率值α=0.010的独立性检验,分析该校高三学生是否有报名意向与性别有关.
附:χ2=,其中n=a+b+c+D.
α 0.10 0.05 0.025 0.010 0.001
xα 2.706 3.841 5.024 6.635 10.828
13.小李准备在某商场租一间商铺开服装店,为了解市场行情,在该商场调查了20家服装店,统计得到了它们的面积x(单位:m2)和日均客流量y(单位:百人)的数据(xi,yi)(i=1,2,…,20),并计算得i=2 400,i=210,(xi-)2=42 000,(xi-)(yi-)=6 300.
(1)求y关于x的经验回归方程;
(2)已知服装店每天的经济效益W=k+mx(k>0,m>0),该商场现有60~150 m2的商铺出租,根据(1)的结果进行预测,要使单位面积的经济效益Z最高,小李应该租多大面积的商铺?
附:经验回归直线=x+的斜率和截距的最小二乘估计分别为=,=-.
 素养提升
14.(多选题)沃柑,因其口感甜柔、低酸爽口,且营养成分高,成为大家喜欢的水果之一,目前主要种植于我国广西、云南、四川、湖南等地.得益于物流的快速发展,沃柑的销量大幅增长,同时刺激了当地农民种植沃柑的热情.根据对广西某地的沃柑种植面积情况进行调查,得到统计表如表所示:
年份t 2020 2021 2022 2023 2024
年份代码x 1 2 3 4 5
种植面积y/万亩 8 14 15 20 28
附:①样本相关系数r=;
②在经验回归方程=x+中,==,=-;≈47.33.
根据此表,下列结论正确的是(  )
A.该地区这5年沃柑的种植面积的方差为212
B.种植面积y与年份代码x的样本相关系数约为0.972(精确到0.001)
C.y关于x的经验回归方程为=4.6x+3.2
D.预测该地区沃柑种植面积最早在2029年能突破40万亩
15.某企业拟对某产品进行科技升级,根据市场调研与模拟,得到科技升级投入m(万元)与科技升级直接收益y(万元)的数据统计如表所示.
序号i 1 2 3 4 5 6 7
mi 2 3 4 6 8 10 13
yi 13 22 31 42 50 56 58
根据表格中的数据,建立了y与m的两个回归模型,模型①:=4.1m+11.8;模型②:=21.3-14.4.
(1)根据下列表格中的数据,比较模型①,②的相关指数的大小,并选择拟合精度更高、更可靠的模型;
回归模型 模型① 模型②
回归方程 =4.1m+11.8 =21.3-14.4
(yi-i)2 182.4 79.2
(2)根据(1)中选择的模型,预测对该产品科技升级的投入为100万元时的直接收益.
附:刻画模型拟合效果的决定系数R2=1-,R2越大,模型的拟合效果越好.
微练(七十九) 成对数据的统计分析
1.C 解析 由题意可知,“爱好运动”与“性别”是两类变量,其是否有关,应用独立性检验判断.故选C.
2.D 解析 r的绝对值越大,m越小,线性相关性越强.故选D.
3.B 解析 由表中的数据可得,变量y随着x的增大而减小,则<0,==4,==0.2,又经验回归方程=x+经过样本点中心(4,0.2),可得>0.故选B.
4.C 解析 根据题表中的数据,由题意得=×(2.2+2.6+4.0+5.3+5.9)=4,=×(0.2+1.5+2.0+2.5+3.8)=2,所以=2-0.8×4=-1.2,所以经验回归方程为=0.8x-1.2,当x=8时,=0.8×8-1.2=5.2(亿元),即预测该公司收入为8亿元时的支出为5.2亿元.故选C.
5.B 解析 由题意得==3,把(3,9)代入=log2(i+1)+5得9=log24+5,解得=2,则=2log2(i+1)+5,当i=7时,=2log28+5=11.故选B.
6.C 解析 由条件知当x2=8.4时,2=83-1.4=81.6,代入=-16x+a,解得a=81.6+16×8.4=216,于是=-16x+216,又=8.5,所以=80,即=80,解得m=75.
7.ABD 解析 对于A,由经验回归方程可得变量x,y线性负相关,且由样本相关系数r的绝对值|r|≈0.992 3可知相关性较强,故正确;对于B,由题可得=(90+95+100+105+110)=100,=(11+10+8+6+5)=8,故经验回归直线恒过点(100,8),故8=-0.32×100+,即=40,故正确;对于C,当x=75时,=-0.32×75+40=16,故错误;对于D,相应于点(95,10)的残差=10-(-0.32×95+40)=0.4,故正确.故选ABD.
8.BC 解析 因为χ2≈12.981>7.879>6.635,所以根据小概率值α=0.010的独立性检验,认为“阅读量多少与幸福感强弱有关”,此推断犯错误的概率不大于0.010.根据小概率值α=0.005的独立性检验,认为“阅读量多少与幸福感强弱有关”,此推断犯错误的概率不大于0.005.所以A错,C正确,因为m+36=90,18+n=60,所以m=54,n=42,所以B正确,D错.故选BC.
9.R 解析 由散点图知,用=1e2x拟合的效果比=x+拟合的效果要好,所以R>R,故较大者为R.
10.47.5 92.5 解析 依题意,得==30,==70,显然,经验回归直线=x+必过点(30,70),则有0.75×30+=70,解得=47.5,所以=0.75x+47.5,则当x=60时,=0.75×60+47.5=92.5,故估计加工的零件个数为60时,所花费的时间为92.5 min.
11.4.882 0.05 解析 由公式计算得χ2=≈4.882>3.841=x0.05,根据小概率值α=0.05的独立性检验,认为服用此药的效果与患者的性别有关,判断出错的概率不大于0.05.
12.解 (1)列联表如表所示.
有报名意向 没有报名意向 合计
男学生 100 500 600
女学生 100 300 400
合计 200 800 1 000
男学生有报名意向的概率为=,女学生有报名意向的概率为=.
(2)零假设为H0:该校高三学生是否有报名意向与性别无关.因为χ2=1 000×(100×300-500×100)2÷(600×400×200×800)≈10.42>6.635,根据小概率值χ=0.010的独立性检验,我们推断H0不成立,即认为该校高三学生是否有报名意向与性别有关,此推断犯错误的概率不大于0.010.
13.解 (1)由已知可得=i=120,=i=10.5,===0.15,=-=10.5-0.15×120=-7.5,所以经验回归方程为=0.15x-7.5.
(2)根据题意得Z==+m,60≤x≤150.设f(x)==-,令t=,≤t≤,则f(x)=g(t)=0.15t-7.5t2=-7.5×(t-0.01)2+0.000 75,当t=0.01,即x=100时,f(x)取最大值,又因为k>0,m>0,所以此时Z也取最大值,因此,小李应该租100 m2的商铺.
14.BC 解析 根据题意,得==17,s=×[(-9)2+(-3)2+(-2)2+32+112]=44.8,故A错误;由题意得==3,iyi=1×8+2×14+3×15+4×20+5×28=301,=12+22+32+42+52=55,=82+142+152+202+282=1 669,所以r===≈≈0.972,故B正确;因为===4.6,=-=17-4.6×3=3.2,所以y关于x的经验回归方程为=4.6x+3.2,故C正确;令=4.6x+3.2≥40,得x≥8,所以最小的整数为8,2 019+8=2 027,所以该地区沃柑种植面积最早在2027年能突破40万亩,故D错误.故选BC.
15.解 (1)因为182.4>79.2,所以>,1-<1-,所以模型①的决定系数小于模型②的决定系数,即模型②的拟合精度更高、更可靠.
(2)当m=100万元时,对该产品科技升级的直接收益的预测值=21.3-14.4=213-14.4=198.6(万元).(共40张PPT)
成对数据的统计分析
微练(七十九)
基础过关
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4

1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
解析
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
解析
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
解析
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
解析
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
解析
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
解析
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
解析
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
解析
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
解析
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
解析
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4

1
5
6
7
8
9
10
11
12
13
14
15
2
3
4

1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4

1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4

1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
素养提升
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
解析
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
解析
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
解析
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4

1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
1
5
6
7
8
9
10
11
12
13
14
15
2
3
4
解析
同课章节目录