(共52张PPT)
培优课 成对数据统计分析中的综合问题 能力提升
1. 回归分析以及独立性检验的相关知识(数学抽象).
2. 掌握回归分析与独立性检验、概率统计等交汇问题(数学建模、数据
分析).
重点解读
一、回归分析与独立性检验交汇
【例1】 环境监测部门为调研汽车流量对空气质量的影响,在某监测点
统计每日过往的汽车流量x(单位:辆)和空气中的PM2.5的平均浓度y
(单位:μg/m3).调研人员采集了50天的数据,制作了关于(xi,yi)
(i=1,2,3,…,50)的散点图,并用直线x=1 500与y=100将散点图
分成如图所示的四个区域Ⅰ、Ⅱ、Ⅲ、Ⅳ,落入对应区域的样本点的个数依
次为6,20,16,8.
(1)完成下面的2×2列联表,并依据小概率值α=0.01的独立性检验,
分析“PM2.5平均浓度不小于100 μg/m3”与“汽车日流量不小于1 500
辆”是否有关联?
PM2.5 平均浓度 汽车日流量 合计
汽车日流量 x<1 500 汽车日流量 x≥1 500
PM2.5的平均浓度y<100
PM2.5的平均浓度y≥100
合计
解: 2×2列联表如下:
PM2.5平均浓度 汽车日流量 合计
汽车日流量x<1
500 汽车日流量x≥1
500
PM2.5的平均浓度y<
100 16 8 24
PM2.5的平均浓度
y≥100 6 20 26
合计 22 28 50
零假设为H0:“PM2.5平均浓度不小于100 μg/m3”与“汽车日流量不小
于1 500辆”无关,
因为χ2= ≈9.62>6.635=x0.01,根据小概率值α=0.01
的独立性检验,我们推断H0不成立,
即认为“PM2.5平均浓度不小于100 μg/m3”与“汽车日流量不小于1 500
辆”有关,此结论犯错的概率不大于0.01.
(2)经计算得经验回归方程为 =0.12x-73.36,且这50天的汽车日流
量x的标准差sx=252,PM2.5的平均浓度y的标准差sy=36.求样本相关系
数r(若|r|≥0.75,则认为y与x有较强的线性相关性),并判断该经
验回归方程是否有价值.
解: 因为经验回归方程为 =0.12x-73.36,所以 =
=0.12,
又因为 =252, =36,
所以r= = · =0.12× =0.84.
因为|r|=0.84>0.75,所以y与x有较强的相关性,所以该经验回归方
程有价值.
【规律方法】
此类题型只需遵循回归分析的步骤,运用独立性检验的原理,掌握好计算
公式、表格的整理与读取即可.
训练1 甲、乙两机床加工同一种零件,抽检得到它们加工后的零件尺寸X
(单位:cm)及个数Y如下表:
零件尺寸X 1.01 1.02 1.03 1.04 1.05
零件个数Y 甲 6 14 17 17 6
乙 m 8 8 8 22
由表中数据得Y关于X的经验回归方程为 =-171.7+190X
(1.01≤X≤1.05),其中合格零件尺寸为1.03±0.01 cm.
(1)求m的值;
解: 依题意,得 =1.03, = ,
由 =-171.7+190X,得 =-171.7+190×1.03,解得m=14,
所以m的值为14.
(2)根据小概率值α=0.01的独立性检验,判断加工零件的质量与甲、
乙机床是否有关联?
解: 由于合格零件尺寸为1.03±0.01 cm,
所以甲、乙机床加工的合格与不合格零件的2×2列联表为:
机床 机床加工零件质量 合计
合格零件数 不合格零件数
甲 48 12 60
乙 24 36 60
合计 72 48 120
零假设为H0:加工零件的质量与甲、乙机床无关,
根据以上数据得,χ2= =20>6.635=x0.01,
根据小概率值α=0.01的独立性检验,我们推断H0不成立,
所以可认为加工零件的质量与甲、乙机床有关,此推断犯错的概率不大于
0.01.
二、回归分析与概率、统计交汇
【例2】 数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘
面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、
每一个粗线宫(3×3)内的数字均含1~9,且不重复.数独爱好者小明打
算报名参加“丝路杯”全国数独大赛初级组的比赛.
(1)赛前小明进行了一段时间的训练,每天解题的平均速度y(秒/题)
与训练天数x(天)有关,经统计得到如下数据:
x(天) 1 2 3 4 5 6 7
y(秒/题) 910 800 600 440 300 240 210
现用 = + 作为回归方程模型,请利用表中数据,求出该经验回归方
程;( , 用分数表示)
解: 因为 = + ,令ti= ,则 = + t.
因为 = =500,
所以 = = = = ,
所以 = - =500- ×0.37= ,
所以 = + t,
所以所求经验回归方程为 = + .
(2)小明和小红玩“对战赛”,每局两人同时开始解一道数独题,先解
出题的人获胜,不存在平局,两人约定先胜3局者赢得比赛.若小明每局获
胜的概率为 ,且各局之间相互独立,设比赛X局后结束,求随机变量X的
分布列及均值.
参考数据(其中ti= ):
tiyi -7
1 750 0.37 0.55
解: 随机变量X的所有可能取值为3,4,5,
P(X=3)=( )3+( )3= ,
P(X=4)= ( )2× × + ( )2× × = ,
P(X=5)= ( )2×( )2× + ( )2×( )2× = .
所以随机变量X的分布列为
X 3 4 5
P
E(X)=3× +4× +5× = .
【规律方法】
回归分析与概率、统计交汇问题的解题思路
(1)此类问题的特点为:同一生活实践情境下设计两类问题,即:①求
经验回归方程(预测);②求某随机变量的概率、均值、方差等;
(2)充分利用题目中提供的成对样本数据(散点图)做出判断,确定是
线性问题还是非线性问题.求解时要充分利用已知数据,合理利用变形公
式,以达到快速准确运算的目的;
(3)明确所求问题所属事件的类型,准确构建概率模型.
训练2 某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有
所增加.为调查该地区植物覆盖面积与某种野生动物数量的关系,将其分
成面积相近的若干个地块,从这些地块中随机抽取20个作为样区,调查得
到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个
样区的植物覆盖面积(单位:公顷)和这种野生动物的数量(单位:
只),并计算得 (xi- )2=80, (yi- )2=9 000, (xi-
)(yi- )=800.
(1)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到
0.01),并推断这种野生动物的数量y(单位:只)和植物覆盖面积x(单
位:公顷)的相关程度;
解: 样本(xi,yi)(i=1,2,…,20)的相关系数为
r= = = ≈0.94.
由于样本相关系数|r|∈[0.75,1],则相关性很强,|r|的值越大,
相关性越强.
由r=0.94∈[0.75,1],故相关性很强.
(2)已知20个样区中有8个样区的这种野生动物数量低于样本平均数,从
20个样区中随机抽取2个,记抽到这种野生动物数量低于样本平均数的样
区的个数为X,求随机变量X的分布列.
解: 由题意得X的可能取值为0,1,2,
20个样区中有8个样区的这种野生动物数量低于样本平均数,有12个样区
的这种野生动物数量不低于样本平均数,
所以P(X=0)= = = ,P(X=1)= = = ,P(X
=2)= = = ,
所以X的分布列为
X 0 1 2
P
三、独立性检验与概率、统计交汇
【例3】 某高校共有学生15 000人,其中男生10 500人,女生4 500人.为
调查该校学生每周平均体育运动时间的情况,采用分层随机抽样的方法,
收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
解: 300× =90,所以应收集90位女生的样本数据.
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布
直方图(如图所示),其中样本数据的分组区间为[0,2],(2,4],
(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运
动时间超过4小时的概率;
解: 由频率分布直方图得该校学生每
周平均体育运动时间超过4小时的频率为
1-2×(0.100+0.025)=0.75,所以
估计该校学生每周平均体育运动时间超
过4小时的概率为0.75.
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请
列出每周平均体育运动时间与性别的2×2列联表,并依据小概率值α=
0.05的独立性检验,能否认为该校学生的每周平均体育运动时间与性别有
关联?
解: 由(2)知,300位学生中有300×0.75=225位学生的每周平均
体育运动时间超过4小时,75位学生的每周平均体育运动时间不超过4小
时.又因为样本数据中有210个是关于男生的,90个是关于女生的,且有60
位女生的每周平均体育运动时间超过4小时,所以每周平均体育运动时间
与性别的2×2列联表如下:
每周平均体育运动时间 性别 合计
男生 女生
不超过4小时 45 30 75
超过4小时 165 60 225
合计 210 90 300
零假设为H0:该校学生的每周平均体育运动时间与性别无关联.
结合2×2列联表可得χ2= = ≈4.762>3.841=x0.05.
根据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为该校学
生的每周平均体育运动时间与性别有关联,此推断犯错的概率不大于0.05.
【规律方法】
独立性检验与概率、统计交汇问题的解题思路
本类题目以生活题材为背景,涉及独立性检验与概率、统计问题的综合,
解决该类问题首先收集数据列出2×2列联表,并按照公式求得χ2的值后进
行比较,其次再按照随机变量满足的概率模型求解.
训练3 各地区高中积极推进“强基计划”的落实,“强基培训”成为学
生们热爱的课程之一.某高中随机调研了本校2025年参加高考的90位考生
是否参加“强基培训”的情况,经统计,“强基培训”与性别情况如下
表:(单位:人)
参加“强基培训” 不参加“强基培训”
男生 25 35
女生 5 25
(1)根据表中数据并依据小概率值α=0.05的独立性检验,分析参加
“强基培训”与性别是否有关联?
解: 零假设为H0:参加“强基培训”与性别无关联,
由题意,χ2= =5.625>3.841=x0.05,
根据小概率值α=0.05的独立性检验,可推断H0不成立,即认为参加“强
基培训”与性别有关联,此推断犯错误的概率不大于0.05.
(2)用样本估计总体,用本次调研中样本的频率代替概率,从2025年本
市考生中随机抽取3人,设被抽取的3人中参加“强基培训”的人数为X,
求X的分布列及数学期望E(X).
附:χ2= ,n=a+b+c+d.
α 0.10 0.05 0.025 0.010 0.005
xα 2.706 3.841 5.024 6.635 7.879
解: 由题意知,考生参加“强基培训”的概率p= = ,不参加
“强基培训”的概率为 ,
结合题意知X的可能取值为0,1,2,3,则X~B(3, ),
P(X=0)=( )3= ,
P(X=1)= × ×( )2= ,
P(X=2)= ×( )2× = ,
P(X=3)=( )3= ,
所以X的分布列为
X 0 1 2 3
P
由X~B(3, ),得数学期望
E(X)=3× =1.
课时作业
1. 为了解某地区2025年6~10月份电动汽车的销售情况,某机构经过调
查,得到如下表所示的数据.
月份 6月 7月 8月 9月 10月
月份代码x 1 2 3 4 5
销售总额y/ 亿元 4 6 10 15 20
1
2
3
4
(1)求y关于x的经验回归方程;
解: 由题可知 = ×(1+2+3+4+5)=3,
= ×(4+6+10+15+20)=11,
所以 = = =4.1, =11-4.1×3=-1.3,
故所求的经验回归方程为 =4.1x-1.3.
1
2
3
4
(2)该机构随机调查了该地区200位购车车主的性别与购车种类,其中购
买非电动汽车的男性有60人,女性有90人,购买电动汽车的男性有40人,
女性有10人,依据α=0.01的独立性检验,能否认为购买电动汽车与性别
有关.
附: xiyi=206, =55,在利用最小二乘法求得的经验回归方程
= x+ 中, = , = - .
1
2
3
4
解: 由题可得2×2列联表如下.
性别 购车种类 合计
非电动汽车 电动汽车
男 60 40 100
女 90 10 100
合计 150 50 200
1
2
3
4
零假设为H0:购买电动汽车与性别无关,根据表中数据,得χ2=
= =24>6.635=x0.01,
根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为购买电
动汽车与性别有关.
1
2
3
4
2. 某学校为学生开设了一门模具加工课,经过一段时间的学习,拟举行一
次模具加工大赛,学生小明、小红打算报名参加大赛.赛前,小明、小红
分别进行了为期一周的封闭强化训练,下表记录了两人在封闭强化训练期
间每天加工模具成功的次数,其中小明第7天的成功次数a忘了记录,但知
道36≤a≤55,a∈Z(yi,zi分别表示小明、小红第i天的成功次数).
第一天 第二天 第三天 第四天 第五天 第六天 第七天
序号x 1 2 3 4 5 6 7
小明成功次数(y) 16 20 20 25 30 36 a
小红成功次数
(z) 16 22 25 26 32 35 35
1
2
3
4
(1)求这7天内小明成功的总次数不少于小红成功的总次数的概率;
解: 因为36≤a≤55,且a∈Z,所以a的取值共有55-36+1=20种
情况,
yi,zi分别表示小明、小红第i天成功次数,
又当小明成功的总次数不少于小红成功的总次数时, yi+a≥ zi,
即16+20+20+25+30+36+a≥16+22+25+26+32+35+35,得
a≥44,
又36≤a≤55,所以44≤a≤55,且a∈Z,
所以小明成功的总次数不少于小红成功的总次数时,a的取值共有55-44
+1=12种情况,
所以这7天内小明成功的总次数不少于小红成功的总次数的概率为 = .
1
2
3
4
(2)根据小明这7天内前6天的成功次数,求其成功次数y关于序号x的经
验回归方程,并估计小明第七天成功次数a的值.
参考数据:1×16+2×20+3×20+4×25+5×30+6×36=582;12+22+
32+42+52+62=91.
1
2
3
4
解: 由题设可知: xiyi=1×16+2×20+3×20+4×25+5×30+
6×36=582,
= = ,
= = ,
所以 = = , = - = - × =11,
所以成功次数y关于序号x的经验回归方程为 = x+11.
当x=7时, = ×7+11=38,
估计小明第7天成功次数a的值为38.
1
2
3
4
3. 为了调查某地区成年人血液的某项指标,现随机抽取了成年男性、女性
各20人组成一个样本,对他们的这项血液指标进行了检测,得到了如下数
据.根据医学相关知识,我们认为此项指标大于40为偏高,反之即为正常.
男性:5 7 9 8 18 19 21 23 27 29 25
32 34 35 37 38 41 42 47 54
女性:13 14 21 25 25 28 31 32 34 35
38 40 43 47 48 49 52 55 56 57
1
2
3
4
(1)依据样本数据研究此项血液指标与性别的关系,列出2×2列联表,
并判断能否在犯错误的概率不超过0.01的前提下认为此项血液指标与性别
有关联;
解: 由题中数据可得2×2列联表为
性别 血液指标 合计
正常 偏高
男性 16 4 20
女性 12 8 20
合计 28 12 40
χ2= ≈1.905<6.635=x0.01,所以不能在犯错误的概率不
超过0.01的前提下认为此项血液指标与性别有关联.
1
2
3
4
(2)以样本估计总体,视样本频率为概率,现从本地区随机抽取成年男
性、女性各2人,求此项血液指标为正常的人数X的分布列及数学期望.
附:χ2= ,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
1
2
3
4
解: 由样本数据可知,男性此项血液指标正常的概率为 ,女性此项
血液指标正常的概率为 .抽取的人中此项血液指标为正常的人数X的可能
取值为0,1,2,3,4.
P(X=0)=(1- )2×(1- )2= ,
P(X=1)= × ×(1- )×(1- )2+(1- )2× × ×(1
- )= ,
1
2
3
4
P(X=2)=( )2×(1- )2+ × ×(1- )× × ×(1-
)+(1- )2×( )2= ,
P(X=3)= × ×(1- )×( )2+( )2× × ×(1- )
= ,
P(X=4)=( )2×( )2= .
所以随机变量X的分布列为
1
2
3
4
X 0 1 2 3 4
P
所以E(X)=0× +1× +2× +3× +4× = ,
因此此项血液指标为正常的人数X的数学期望为 .
1
2
3
4
4. 某餐馆2024年12月份共有800个线上外卖订单,其中好评订单有600个,
其余均为非好评订单.为了提升菜品品质,增加营业额,该餐馆在2025年1
月份更换了厨师,更换厨师后该餐馆2025年1月份共有2 000个线上外卖订
单,其中好评订单有1 600个,其余均为非好评订单.
(1)根据统计数据,完成下列2×2列联表,并依据α=0.01的独立性检
验,能否认为该餐馆订单的好评率与更换厨师有关联;
更换厨师前后 订单评价 合计
好评 非好评
更换厨师前
更换厨师后
合计
1
2
3
4
解: 2×2列联表如下:
更换厨师前后 订单评价 合计
好评 非好评
更换厨师前 600 200 800
更换厨师后 1 600 400 2 000
合计 2 200 600 2 800
1
2
3
4
零假设为H0:该餐馆订单的好评率与更换厨师无关联.
根据列联表中数据,经计算得到χ2= ≈8.485>
6.635=x0.01,
根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为该餐馆
订单的好评率与更换厨师有关联.
1
2
3
4
(2)现从更换厨师前的订单中按好评和非好评,按比例用分层随机抽样
法抽取8个订单进行电话回访,再从这8个订单中随机抽取3个订单发放新
品品尝券并让顾客评价,记抽取的3个订单中好评的订单个数为ξ,求ξ的分
布列和数学期望;
解: 依题意,用分层随机抽样法抽取的8个订单中,好评订单有
8× =6个,非好评有2个,
而从这8个订单中随机抽取3个,其中好评的订单个数ξ的可能值有1,
2,3,
则P(ξ=1)= = ,P(ξ=2)= = ,P(ξ=3)= =
,
所以ξ的分布列为
ξ 1 2 3
P
数学期望E(ξ)=1× +2× +3× = .
1
2
3
4
(3)用样本频率估计总体概率,现从更换厨师后的所有订单中随机抽取
100个订单,记其中好评的订单个数为η,求当事件“η=r”的概率最大时
r的值.
解: 依题意,更换厨师后好评率为 =0.8,
从更换厨师后所有订单中随机抽取100个订单,则η~B(100,0.8),
于是P(η=r)= 0.8r×0.2100-r,r≤100,r∈N,
则 = = ,
由 >1,解得r<79 ,而r∈N,则当0≤r≤79时,P(η=r)单调
递增;
由 ≤1,解得r≥79 ,则当r≥80时,P(η=r)单调递减,
所以使事件“η=r”的概率最大时r的值为80.
1
2
3
4
THANKS
演示完毕 感谢观看