本章总结提升
【知识辨析】
1.√ 2.× 3.①√ ②√ ③√ 4.√ 5.×
6.√ 7.√ 8.√
【素养提升】
题型一
例1 解:(1)由题意可得==5,
==47.5,xiyi-4 =60+160+300+560-4×5×47.5=130,-4=22+42+62+82-4×52=20,-4=302+402+502+702-4×47.52=875,所以样本相关系数r===≈≈0.98.
(2)根据(1)中数据得===6.5,=-=47.5-6.5×5=15,故y关于x的经验回归方程为=6.5x+15.
(3)因为=6.5>0,所以x与y之间是正相关.当x=10时,=6.5×10+15=80,所以预测当温度达到10 ℃时的反应结果为80.
例2 解:(1)将y=2bx+a两边取对数得log2y=bx+a,令z=log2y,则=x+,
∵=4,∴==≈0.3,
∴=-=5-0.3×4=3.8,∴=0.3x+3.8,∴y关于x的经验回归方程为=20.3x+3.8.
(2)①甲建立的回归模型的决定系数=1-=1-≈0.939>=0.893,
∴甲建立的回归模型拟合效果更好.
②由①知,甲建立的回归模型拟合效果更好.
由题可知,20.3x+3.8≥100,可得0.3x+3.8≥log2100=2+2log25,解得x≥≈9.47,
∴该企业欲使收益达到1亿元,科技投入的费用至少要9.5百万元.
变式 解:(1)由题知=3.2x-151.8,=84,∵=3.2×84-151.8=117,∴114+116+106+122+132+114+m+132=117×8,解得m=100.
8月份对应的残差值=132-3.2×86.5+151.8=7.
(2)由题得(yi-)2=0.22+0.62+1.82+(-3)2+(-1)2+(-4.6)2+(-1)2+72=84.8,
则R2=1-=1-≈0.906 2>,故经验回归方程=3.2x-151.8的拟合效果更好.
(3)由题可知,8月份的利润应为116万元,
∵xiyi=78 880-86.5×16=77 496,=56 528,=84,=115,
∴===2.7,
∴=115-2.7×84=-111.8,
故新的经验回归方程为=2.7x-111.8.
题型二
例3 解:(1)根据表中数据,甲车间共抽查40件产品,其中特等品8件,乙车间共抽查40件产品,其中特等品5件,由此估计甲车间的特等品率约为×100%=20%,
乙车间的特等品率约为×100%=12.5%.
(2)列联表如下:
单位:件
车间 产品质量 合计
非特等品 特等品
甲 32 8 40
乙 35 5 40
合计 67 13 80
零假设为H0:两车间生产的产品的特等品率没有差异,根据表中数据,经计算可得χ2==≈0.827<2.706=x0.1,依据小概率值α=0.1的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两车间生产的产品的特等品率没有差异.
依据(1)的结果两车间生产的产品特等品率是有差异的,
这个差异很有可能是由样本的随机性导致的,
因此,只根据频率的差异得出两车间生产的产品的特等品率有差异的结论是不可靠的,用χ2独立性检验得到的结果更理性,更全面,理论依据也更充分.
变式 解:(1)由题意可得
解得a=b=50.
(2)零假设为H0:对短视频剪接成长视频APP的需求,青年人与中老年人没有差异.由已知得2×2列联表为
单位:人
对短视频剪接成长 视频APP是否有需求 年龄 合计
青年人 中老年人
有需求 300 250 550
无需求 100 350 450
合计 400 600 1000
可得χ2=≈107.744>10.828=x0.001,根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为对短视频剪接成长视频APP的需求,青年人与中老年人有差异.
题型三
例4 解:(1)将表格补充完整为
优级品 非优级品
甲车间 26 24
乙车间 70 30
K2的观测值k=≈4.688.
因为4.688>3.841,所以有95%的把握认为甲、乙两车间产品的优级品率存在差异.因为4.688<6.635,所以没有99%的把握认为甲、乙两车间产品的优级品率存在差异.
(2)由题意可知,生产线智能化升级改造后,该工厂产品的优级品的频率为=0.64,用频率估计概率可得=0.64.
又因为升级改造前该工厂产品的优级品率p=0.5,
所以p+1.65=0.5+1.65≈0.5+1.65×≈0.567,可知>p+1.65,
所以可以认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
变式 解:(1)由频率分布直方图计算可得人均消费金额为100×0.000 50×200+300×0.000 75×200+500×0.001 00×200+700×0.001 25×200+900×0.001 00×200+1100×0.000 50×200=620(元).
(2)消费金额不低于800元的人数为200×(0.001+0.000 5)×200=60,则活跃客户共有60人,所以y=60-20=40,x=200-60-60=80,补充列联表如下:
单位:人
性别 是否为活跃客户 合计
活跃客户 非活跃客户
男 20 80 100
女 40 60 100
合计 60 140 200
计算χ2==9.524>3.841=x0.05,
根据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为是否为活跃客户与性别有关联,此推断犯错误的概率不大于0.05.
(3)从活跃客户中用比例分配的分层随机抽样的方法抽出消费900元的客户人数为×40=8,消费1100元的客户人数为×20=4,从中抽取2人进行免单,免单总金额Y的可能取值为1800,2000,2200,
则P(Y=1800)===,P(Y=2000)===,P(Y=2200)===,
所以Y的分布列为
Y 1800 2000 2200
P
故E(Y)=1800×+2000×+2200×≈1933.本章总结提升
判断下列说法是否正确.(请在括号中填“√”或“×”)
1.儿子的身高和父亲的身高具有相关关系.( )
2.任何一组数据都对应着一个经验回归方程. ( )
3.设某大学的女生体重Y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的经验回归方程为=0.85x-85.71.
①Y与x正相关; ( )
②经验回归直线过点(,); ( )
③若该大学某女生的身高增加1 cm,则其体重约增加0.85 kg. ( )
4.若两个分类变量X,Y之间的关系越密切,则由观测数据计算得到的χ2的值越大. ( )
5.由独立性检验可知,在犯错误的概率不大于0.01的前提下认为物理成绩优秀与数学成绩优秀有关,若某人数学成绩优秀,则他有99%的可能物理成绩优秀. ( )
6.零假设H0等价于{X=1}与{Y=1}独立. ( )
7.样本不同,独立性检验的结论可能有差异.( )
8.想要检验是否喜欢参加体育活动是不是与性别有关,应该检验“H0:是否喜欢参加体育活动与性别无关”是否成立. ( )
◆ 题型一 回归分析
[类型总述] (1)利用最小二乘法求经验回归方程;(2)利用点(,)确定经验回归方程,并进行回归分析;(3)借助题目给出的散点图或模型,利用数据确定方程,然后进一步解决问题.
例1 在某化学反应的中间阶段,压力保持不变,温度x(单位:℃)与反应结果y之间的关系如下表所示:
x 2 4 6 8
y 30 40 50 70
(1)求化学反应结果y与温度x之间的样本相关系数r(精确到0.01);
(2)求y关于x的经验回归方程;
(3)判断变量x与y之间是正相关还是负相关,并预测当温度达到10 ℃时的反应结果为多少.
参考公式:在经验回归方程=x+中,=,=- ;样本相关系数r=.
参考数据:≈2.646.
例2 [2024·广东江门高二期中] 数据显示,某企业近年加大了科技研发资金的投入,其科技投入x(百万元)与收益y(百万元)的数据统计如下:
科技投入x 1 2 3 4 5 6 7
收益y 19 20 22 31 40 50 70
根据数据特点,甲认为样本点分布在指数型曲线y=2bx+a的周围,据此他对数据进行了一些初步处理.如下表:
xiyi xizi (yi-)2 (yi-)2
5 140 1239 149 2134 130
其中zi=log2yi,=zi.
(1)请根据表中数据,求y关于x的经验回归方程(系数精确到0.1).
(2)①乙认为样本点分布在直线y=mx+n的周围,并计算得经验回归方程为=8.25x+3,以及该回归模型的决定系数=0.893,试比较甲、乙两人所建立的模型,谁的拟合效果更好
②由①所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多少百万元 (精确到0.1)
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线=u+的斜率和截距的最小二乘估计分别为==,=-.
决定系数:R2=1-.
参考数据:log25≈2.32.
变式 某企业去年前八个月的物流成本和企业利润的数据(单位:万元)如表所示:
月份 1 2 3 4 5 6 7 8
物流成本x 83 83.5 80 86.5 89 84.5 79 86.5
利润y 114 116 106 122 132 114 m 132
残差=yi- 0.2 0.6 1.8 -3 -1 -4.6 -1
根据最小二乘法求得y关于x的经验回归方程为=3.2x-151.8.
(1)求m的值,并利用已知的经验回归方程求出8月份对应的残差值.
(2)请先求出经验回归方程=3.2x-151.8的决定系数R2(精确到0.000 1).若根据非线性经验回归模型y=267.76ln x-1069.2求得解释变量(物流成本)对于响应变量(利润)的决定系数=0.905 7,请说明以上两种模型中,哪种模型的拟合效果更好
(3)通过残差分析,怀疑残差绝对值最大的那组数据有误,经再次核实后发现其真正利润应该为116万元.请重新根据最小二乘法的思想与公式,求出新的经验回归方程.
附1(修正前的参考数据):xiyi=78 880,=56 528,=84,(yi-)2=904.
附2:R2=1-.
附3:=,=-.
◆ 题型二 独立性检验
[类型总述] 由公式χ2=计算χ2的值,判断两个分类变量之间是否有关系.
例3 [2024·东北师大附中高二期中] 甲、乙两个车间生产同一种产品,为了解这两个车间的产品质量情况,随机抽查了两个车间生产的80件产品,得到下面列联表:
单位:件
非特等品 特等品
甲车间 32 8
乙车间 35 5
(1)根据上表,分别估计这两个车间生产的产品的特等品率.
(2)依据小概率值α=0.1的χ2独立性检验,能否推断两个车间生产的产品的特等品率有差异 并对(1)的结果作出解释.
附:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
变式 近年来,短视频作为以视频为载体的聚合平台,社交属性愈发突出,在用户生活中覆盖面越来越广泛,针对短视频的碎片化缺陷,将短视频剪接成长视频势必成为一种新的技能.某机构在网上随机对1000人进行了一次市场调研,以决策是否开发将短视频剪接成长视频的APP,得到如下数据:
青年人 中年人 老年人
对短视频剪接成长 视频APP有需求 2a+4b 200 a
对短视频剪接成长 视频APP无需求 a+b 150 4b
其中的数据为统计的人数,已知被调研的青年人人数为400.
(1)求a,b的值.
(2)根据小概率值α=0.001的独立性检验,分析对短视频剪接成长视频APP的需求,青年人与中老年人是否有差异
附:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
◆ 题型三 独立性检验与统计、概率的综合应用
[类型总述] 独立性检验与统计、概率综合,需要根据条件列出2×2列联表,计算χ2的值,从而解决问题.
例4 [2024·全国甲卷] 某工厂进行生产线智能化升级改造.升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:
优级品 非优级品
甲车间
乙车间
能否有95%的把握认为甲、乙两车间产品的优级品率存在差异 能否有99%的把握认为甲、乙两车间产品的优级品率存在差异
(2)已知升级改造前该工厂产品的优级品率p=0.5.设为升级改造后抽取的n件产品的优级品率.若>p+1.65,则认为该工厂产品的优级品率提高了.根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了 (≈12.247)
附:K2=,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
变式 [2024·浙江金华高二期中] 某超市为促进消费推出优惠活动,为预估活动期间客户投入的消费金额,采用随机抽样统计了200名客户的消费金额,分组如下:[0,200),[200,400),[400,600),[600,800),[800,1000),[1000,1200](单位:元),得到如图所示的频率分布直方图.
(1)利用抽样的数据计算本次活动的人均消费金额(同一组中的数据用该组的中点值表示).
(2)若把消费金额不低于800元的客户,称为活跃客户,经数据处理,现在列联表中得到一定的相关数据如表所示,求列联表中x,y的值,并根据小概率值α=0.05的独立性检验,能否认为是否为活跃客户与性别有关联
单位:人
性别 是否为活跃客户 合计
活跃客户 非活跃客户
男 20 x
女 y 60
合计
(3)为感谢客户,该超市推出免单福利,方案如下:
从活跃客户中按比例分配的分层随机抽样的方法抽取12人,从中抽取2人进行免单,试写出免单总金额Y的分布列及其期望.(每一组消费金额按该组中点值估计,期望结果保留至整数).
附:
α 0.100 0.050 0.010 0.005
xα 2.706 3.841 6.635 7.879
χ2=,n=a+b+c+d.(共46张PPT)
本章总结提升
题型一 回归分析
题型二 独立性检验
题型三 独立性检验与统计、概率的综合
应用
判断下列说法是否正确.(请在括号中填“√”或“×”)
1.儿子的身高和父亲的身高具有相关关系.( )
√
2.任何一组数据都对应着一个经验回归方程.( )
×
3.设某大学的女生体重(单位:与身高(单位: 具有线性相关关
系,根据一组样本数据 ,用最小二乘法建立的经验
回归方程为
①与 正相关;( )
√
②经验回归直线过点 ;( )
√
③若该大学某女生的身高增加,则其体重约增加 .( )
√
4.若两个分类变量,之间的关系越密切,则由观测数据计算得到的
的值越大.( )
√
5.由独立性检验可知,在犯错误的概率不大于0.01的前提下认为物理成
绩优秀与数学成绩优秀有关,若某人数学成绩优秀,则他有 的可能
物理成绩优秀.( )
×
6.零假设等价于与 独立.( )
√
7.样本不同,独立性检验的结论可能有差异.( )
√
8.想要检验是否喜欢参加体育活动是不是与性别有关,应该检验“
是否喜欢参加体育活动与性别无关”是否成立.( )
√
题型一 回归分析
[类型总述](1)利用最小二乘法求经验回归方程;(2)利用点
确定经验回归方程,并进行回归分析;(3)借助题目给出的散
点图或模型,利用数据确定方程,然后进一步解决问题.
例1 在某化学反应的中间阶段,压力保持不变,温度(单位: 与
反应结果 之间的关系如下表所示:
2 4 6 8
30 40 50 70
参考公式:样本相关系数 .
参考数据: .
(1)求化学反应结果与温度之间的样本相关系数(精确到 ;
解:由题意可得 ,
,
,
,
,
所以样本相关系数 .
(2)求关于 的经验回归方程;
参考公式:在经验回归方程中, ,
.
解:根据(1)中数据得 ,
,
故关于 的经验回归方程为 .
(3)判断变量与 之间是正相关还是负相关,并预测当温度达到
时的反应结果为多少.
解:因为,所以与之间是正相关.
当 时,
,所以预测当温度达到 时的反应结果为80.
例2 [2024·广东江门高二期中] 数据显示,某企业近年加大了科技研
发资金的投入,其科技投入(百万元)与收益 (百万元)的数据
统计如下:
科技投入 1 2 3 4 5 6 7
收益 19 20 22 31 40 50 70
根据数据特点,甲认为样本点分布在指数型曲线 的周围,
据此他对数据进行了一些初步处理.如下表:
5 140 1239 149 2134 130
其中, .
(1)请根据表中数据,求关于的经验回归方程(系数精确到 .
附:对于一组数据,, , ,其经验回归直
线 的斜率和截距的最小二乘估计分别为
, .
解:将两边取对数得,令 ,则
,
, ,
,,关于 的经
验回归方程为 .
(2)①乙认为样本点分布在直线 的周围,并计算得经验
回归方程为,以及该回归模型的决定系数 ,
试比较甲、乙两人所建立的模型,谁的拟合效果更好?
决定系数: .
解: 甲建立的回归模型的决定系数
,
甲建立的回归模型拟合效果更好.
②由①所得的结论,计算该企业欲使收益达到1亿元,科技投入的费
用至少要多少百万元?(精确到
参考数据: .
解: 由①知,甲建立的回归模型拟合效果更好.
由题可知,,可得 ,
解得 ,
该企业欲使收益达到1亿元,科技投入的费用至少要9.5百万元.
变式 某企业去年前八个月的物流成本和企业利润的数据(单位:万
元)如表所示:
月份 1 2 3 4 5 6 7 8
物流成本 83 83.5 80 86.5 89 84.5 79 86.5
利润 114 116 106 122 132 114 132
残差 0.2 0.6 1.8
根据最小二乘法求得关于的经验回归方程为 .
(1)求 的值,并利用已知的经验回归方程求出8月份对应的残差
值 .
解:由题知,, ,
,解得
.
8月份对应的残差值 .
(2)请先求出经验回归方程的决定系数 (精确到
.若根据非线性经验回归模型 求得解
释变量(物流成本)对于响应变量(利润)的决定系数 ,
请说明以上两种模型中,哪种模型的拟合效果更好?
附 .
解:由题得
,
则 ,
故经验回归方程 的拟合效果更好.
(3)通过残差分析,怀疑残差绝对值最大的那组数据有误,经再次
核实后发现其真正利润应该为116万元.请重新根据最小二乘法的思
想与公式,求出新的经验回归方程.
附1(修正前的参考数据), ,
, .
附, .
解:由题可知,8月份的利润应为116万元,
,, ,
, ,
,
故新的经验回归方程为 .
题型二 独立性检验
[类型总述] 由公式计算 的值,判断两个
分类变量之间是否有关系.
例3 [2024·东北师大附中高二期中] 甲、乙两个车间生产同一种产品,
为了解这两个车间的产品质量情况,随机抽查了两个车间生产的80
件产品,得到下面列联表:
单位:件
非特等品 特等品
甲车间 32 8
乙车间 35 5
(1)根据上表,分别估计这两个车间生产的产品的特等品率.
解:根据表中数据,甲车间共抽查40件产品,其中特等品8件,乙车
间共抽查40件产品,其中特等品5件,由此估计甲车间的特等品率约
为 ,乙车间的特等品率约为 .
单位:件
非特等品 特等品
甲车间 32 8
乙车间 35 5
(2)依据小概率值的 独立性检验,能否推断两个车间生
产的产品的特等品率有差异 并对(1)的结果作出解释.
附:, .
0.1 0.05 0.01
2.706 3.841 6.635
解:列联表如下:
单位:件
车间 产品质量 合计
非特等品 特等品
甲 32 8 40
乙 35 5 40
合计 67 13 80
零假设为 两车间生产的产品的特等品率没有差异,
根据表中数据,
经计算可得 ,
依据小概率值的独立性检验,没有充分证据推断 不成立,
因此可以认为 成立,即认为两车间生产的产品的特等品率没有差异.
依据(1)的结果两车间生产的产品特等品率是有差异的,
这个差异很有可能是由样本的随机性导致的,
因此,只根据频率的差异得出两车间生产的产品的特等品率有差异
的结论是不可靠的,用 独立性检验得到的结果更理性,更全面,
理论依据也更充分.
变式 近年来,短视频作为以视频为载体的聚合平台,社交属性愈发
突出,在用户生活中覆盖面越来越广泛,针对短视频的碎片化缺陷,
将短视频剪接成长视频势必成为一种新的技能.某机构在网上随机对
1000人进行了一次市场调研,以决策是否开发将短视频剪接成长视频
的 ,得到如下数据:
青年人 中年人 老年人
对短视频剪接成长视频 有需求 200
对短视频剪接成长视频 无需求 150
其中的数据为统计的人数,已知被调研的青年人人数为400.
(1)求, 的值.
解:由题意可得
解得 .
(2)根据小概率值 的独立性检验,分析对短视频剪接成
长视频 的需求,青年人与中老年人是否有差异?
附:,其中 .
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
解:零假设为对短视频剪接成长视频 的需求,青年人与中
老年人没有差异.
由已知得 列联表为
单位:人
对短视频剪接成长视频 是否有需求 年龄 合计
青年人 中老年人
有需求 300 250 550
无需求 100 350 450
合计 400 600 1000
可得 ,根
据小概率值的独立性检验,我们推断 不成立,即认为对
短视频剪接成长视频 的需求,青年人与中老年人有差异.
题型三 独立性检验与统计、概率的综合应用
[类型总述] 独立性检验与统计、概率综合,需要根据条件列出
列联表,计算 的值,从而解决问题.
例4 [2024·全国甲卷] 某工厂进行生产线智能化升级改造.升级改造
后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数
据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:
优级品 非优级品
甲车间
乙车间
能否有 的把握认为甲、乙两车间产品的优级品率存在差异?能
否有 的把握认为甲、乙两车间产品的优级品率存在差异?
附: ,
0.050 0.010 0.001
3.841 6.635 10.828
解:将表格补充完整为
优级品 非优级品
甲车间 26 24
乙车间 70 30
的观测值 .
因为,所以有 的把握认为甲、乙两车间产品的优
级品率存在差异.
因为,所以没有 的把握认为甲、乙两车间产品的
优级品率存在差异.
(2)已知升级改造前该工厂产品的优级品率.设 为升级改造
后抽取的件产品的优级品率.若 ,则认为该工厂
产品的优级品率提高了.根据抽取的150件产品的数据,能否认为生产
线智能化升级改造后,该工厂产品的优级品率提高了?
解:由题意可知,生产线智能化升级改造后,该工厂产品的优级品
的频率为,用频率估计概率可得 .
又因为升级改造前该工厂产品的优级品率 ,
所以,可知 ,
所以可以认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
变式 [2024·浙江金华高二期中] 某超市为促进消费推出优惠活动,为
预估活动期间客户投入的消费金额,采用随机抽样统计了200名客户的
消费金额,分组如下:,, ,,
(单位:元),得到如图所示的频率分布直方图.
(1)利用抽样的数据计算本次活动的
人均消费金额(同一组中的数据用该
组的中点值表示).
解:由频率分布直方图计算可得人均
消费金额为
(元).
(2)若把消费金额不低于800元的客户,称为活跃客户,经数据处
理,现在列联表中得到一定的相关数据如表所示,求列联表中, 的
值,并根据小概率值 的独立性检验,能否认为是否为活跃
客户与性别有关联?
单位:人
性别 是否为活跃客户 合计
活跃客户 非活跃客户
男 20
女 60
合计
附:
0.100 0.050 0.010 0.005
2.706 3.841 6.635 7.879
, .
解:消费金额不低于800元的人数为 ,
则活跃客户共有60人,所以, ,
补充列联表如下:
单位:人
性别 是否为活跃客户 合计
活跃客户 非活跃客户
男 20 80 100
女 40 60 100
合计 60 140 200
计算 ,
根据小概率值的独立性检验,我们推断 不成立,即认为
是否为活跃客户与性别有关联,此推断犯错误的概率不大于0.05.
(3)为感谢客户,该超市推出免单福利,方案如下:
从活跃客户中按比例分配的分层随机抽样的方法抽取12人,从中抽
取2人进行免单,试写出免单总金额 的分布列及其期望.(每一组消
费金额按该组中点值估计,期望结果保留至整数).
解:从活跃客户中用比例分配的分层随机抽样的方法抽出消费900元
的客户人数为,消费1100元的客户人数为 ,
从中抽取2人进行免单,免单总金额 的可能取值为1800,2000,
2200,
则, ,
,
所以 的分布列为
1800 2000 2200
故 .