培优课 成对数据统计分析中的综合问题
1.经销商经销某种农产品,在一个销售季度内,每售出1 t该产品获得利润500元,未售出的产品,每1 t亏损300元.根据以往资料,得到销售季度内市场需求量的频率分布直方图,如图所示.经销商为下一个销售季度购进了130 t该农产品.以X(单位:t,100≤X≤150)表示下一个销售季度内的市场需求量,T(单位:元)表示下一个销售季度内经销该农产品的利润.
(1)将T表示为X的函数;
(2)根据直方图估计利润T不少于57 000元的概率;
(3)在直方图的需求量分组中,以各组的区间中点值代表该组的各个值,需求量落入该区间的频率作为需求量取该区间中点值的概率(例如:若需求量X∈[100,110),则取X=105,且X=105的概率等于需求量落入[100,110)的频率),求T的均值.
2.由于航天行业拥有广阔的发展前景,有越来越多的公司开始从事航天研究,某航天公司研发了一种火箭推进器,为测试其性能,对推进器飞行距离与损坏零件数进行了统计,数据如下:
飞行距离x(kkm) 56 63 71 79 90 102 110 117
损坏零件数y(个) 61 73 90 105 119 136 149 163
参考数据:=86,=112,xiyi=82 743,=62 680.
(1)建立y关于x的回归模型=x+,根据所给数据及回归模型,求y关于x的经验回归方程(精确到0.1,精确到1);
(2)该公司进行了第二项测试,从所有同型号推进器中随机抽取100台进行等距离飞行测试,对其中60台进行飞行前保养,测试结束后,有20台报废,其中保养过的推进器占比30%,请根据统计数据完成2×2列联表,并根据小概率值α=0.01的独立性检验,能否认为推进器是否报废与保养有关?
是否报废 是否保养 合计
保养 未保养
报废 20
未报废
合计 60 100
3.某学校为学生开设了一门模具加工课,经过一段时间的学习,拟举行一次模具加工大赛,学生小明、小红打算报名参加大赛.赛前,小明、小红分别进行了为期一周的封闭强化训练,下表记录了两人在封闭强化训练期间每天加工模具成功的次数,其中小明第7天的成功次数a忘了记录,但知道36≤a≤55,a∈Z(yi,zi分别表示小明、小红第i天的成功次数).
第一 天 第二 天 第三 天 第四 天 第五 天 第六 天 第七 天
序号x 1 2 3 4 5 6 7
小明成功 次数(y) 16 20 20 25 30 36 a
小红成功 次数(z) 16 22 25 26 32 35 35
(1)求这7天内小明成功的总次数不少于小红成功的总次数的概率;
(2)根据小明这7天内前6天的成功次数,求其成功次数y关于序号x的经验回归方程,并估计小明第七天成功次数a的值.
参考公式:经验回归方程=x+中斜率与截距的最小二乘估计公式分别为:==,=-.
参考数据:1×16+2×20+3×20+4×25+5×30+6×36=582;12+22+32+42+52+62=91.
4.为了调查某地区成年人血液的一项指标,现随机抽取了成年男性、女性各20人组成一个样本,对他们的这项血液指标进行了检测,得到了如下数据.根据医学相关知识,我们认为此项指标大于40为偏高,反之即为正常.
男性 :5 7 9 8 18 19 21 23 27 29
25 32 34 35 37 38 41 42 47 54
女性: 13 14 21 25 25 28 31 32 34 35
38 40 43 47 48 49 52 55 56 57
(1)依据样本数据研究此项血液指标与性别的关系,列出2×2列联表,并判断能否在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关联;
(2)以样本估计总体,视样本频率为概率,现从本地区随机抽取成年男性、女性各2人,求此项血液指标为正常的人数X的分布列及数学期望.
附:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
培优课 成对数据统计分析中的综合问题
1.解:(1)当X∈[100,130)时,
T=500X-300(130-X)=800X-39 000.
当X∈[130,150]时,T=500×130=65 000.
所以T=
(2)由(1)知当且仅当120≤X≤150时利润T不少于57 000元.
由直方图知需求量X∈[120,150]的频率为0.7,所以下一个销售季度内的利润T不少于57 000元的概率的估计值为0.7.
(3)依题意可得T的分布列为
T 45 000 53 000 61 000 65 000
P 0.1 0.2 0.3 0.4
所以E(T)=45 000×0.1+53 000×0.2+61 000×0.3+65 000×0.4=59 400.
2.解:(1)由题意得===≈1.6,
则=112-1.6×86≈-26,
所以=1.6x-26.
(2)零假设为H0:是否报废与保养无关,
由题意,报废推进器中保养过的共20×30%=6台,未保养的推进器共20-6=14台,
补全2×2列联表如下:
是否 报废 是否保养 合计
保养 未保养
报废 6 14 20
未报废 54 26 80
合计 60 40 100
则χ2===9.375>6.635=x0.01,
根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为是否报废与保养有关,
此推断错误的概率不大于0.01.
3.解:(1)因为36≤a≤55,且a∈Z,所以a的取值共有55-36+1=20种情况,
yi,zi分别表示小明、小红第i天成功次数,
又当小明成功的总次数不少于小红成功的总次数时,yi+a≥zi,
即16+20+20+25+30+36+a≥16+22+25+26+32+35+35,得a≥44,
又36≤a≤55,所以44≤a≤55,且a∈Z,
所以小明成功的总次数不少于小红成功的总次数时,a的取值共有55-44+1=12种情况,
所以这7天内小明成功的总次数不少于小红成功的总次数的概率为=.
(2)由题设可知:xiyi=1×16+2×20+3×20+4×25+5×30+6×36=582,
==,==,
所以==,=-=-×=11,
所以成功次数y关于序号x的经验回归方程为=x+11.
当x=7时,=×7+11=38,
估计小明第7天成功次数a的值为38.
4.解:(1)由题中数据可得2×2列联表为
性别 血液指标 合计
正常 偏高
男性 16 4 20
女性 12 8 20
合计 28 12 40
χ2=≈1.905<6.635,所以不能在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关联.
(2)由样本数据可知,男性此项血液指标正常的概率为,女性此项血液指标正常的概率为.抽取的人中此项血液指标为正常的人数X的可能取值为0,1,2,3,4.
P(X=0)=(1-)2×(1-)2=,
P(X=1)=××(1-)×(1-)2+(1-)2×××(1-)=,
P(X=2)=()2×(1-)2+××(1-)×××(1-)+(1-)2×()2=,
P(X=3)=××(1-)×()2+()2×××(1-)=,P(X=4)=()2×()2=.
所以随机变量X的分布列为
X 0 1 2 3 4
P
所以E(X)=0×+1×+2×+3×+4×=,
因此此项血液指标为正常的人数X的数学期望为.
2 / 2 成对数据统计分析中的综合问题
题型一 回归分析与独立性检验交汇
【例1】 环境监测部门为调研汽车流量对空气质量的影响,在某监测点统计每日过往的汽车流量x(单位:辆)和空气中的PM2.5的平均浓度y(单位:μg/m3).调研人员采集了50天的数据,制作了关于(xi,yi)(i=1,2,3,…,50)的散点图,并用直线x=1 500与y=100将散点图分成如图所示的四个区域Ⅰ、Ⅱ、Ⅲ、Ⅳ,落入对应区域的样本点的个数依次为6,20,16,8.
(1)完成下面的2×2列联表,并依据小概率值α=0.01的独立性检验,分析“PM2.5平均浓度不小于100 μg/m3”与“汽车日流量不小于1 500辆”是否有关联?
PM2.5 平均浓度 汽车日流量 合计
汽车日流量 x<1 500 汽车日流量 x≥1 500
PM2.5的平均 浓度y<100
PM2.5的平均 浓度y≥100
合计
(2)经计算得经验回归方程为=0.12x-73.36,且这50天的汽车日流量x的标准差sx=252,PM2.5的平均浓度y的标准差sy=36.求样本相关系数r(若|r|≥0.75,则认为y与x有较强的线性相关性),并判断该经验回归方程是否有价值.
参考公式:χ2=,其中n=a+b+c+d.
α 0.100 0.050 0.010 0.001
xα 2.706 3.841 6.635 10.828
经验回归方程=+x,其中=,样本相关系数r=.
通性通法
此类题型只需遵循回归分析的步骤,运用独立性检验的原理,掌握好计算公式、表格的整理与读取即可.
【跟踪训练】
甲、乙两机床加工同一种零件,抽检得到它们加工后的零件尺寸X(单位:cm)及个数Y如下表:
零件尺寸X 1.01 1.02 1.03 1.04 1.05
零件个数Y 甲 6 14 17 17 6
乙 m 8 8 8 22
由表中数据得Y关于X的经验回归方程为=-171.7+190X(1.01≤X≤1.05),其中合格零件尺寸为1.03±0.01 cm.
(1)求m的值;
(2)根据小概率值α=0.01的独立性检验,判断加工零件的质量与甲、乙机床是否有关联?
题型二 回归分析与概率、统计交汇
【例2】 数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫(3×3)内的数字均含1~9,且不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛.
(1)赛前小明进行了一段时间的训练,每天解题的平均速度y(秒/题)与训练天数x(天)有关,经统计得到如下数据:
x(天) 1 2 3 4 5 6 7
y(秒/题) 910 800 600 440 300 240 210
现用=+作为回归方程模型,请利用表中数据,求出该经验回归方程;(,用分数表示)
(2)小明和小红玩“对战赛”,每局两人同时开始解一道数独题,先解出题的人获胜,不存在平局,两人约定先胜3局者赢得比赛.若小明每局获胜的概率为,且各局之间相互独立,设比赛X局后结束,求随机变量X的分布列及均值.
参考数据(其中ti=):
tiyi -7
1 750 0.37 0.55
通性通法
回归分析与概率、统计交汇问题的解题思路
(1)此类问题的特点为:同一生活实践情境下设计两类问题,即:①求经验回归方程(预测);②求某随机变量的概率、均值、方差等;
(2)充分利用题目中提供的成对样本数据(散点图)做出判断,确定是线性问题还是非线性问题.求解时要充分利用已知数据,合理利用变形公式,以达到快速准确运算的目的;
(3)明确所求问题所属事件的类型,准确构建概率模型.
【跟踪训练】
某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区植物覆盖面积与某种野生动物数量的关系,将其分成面积相近的若干个地块,从这些地块中随机抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量(单位:只),并计算得=80,=9 000,(xi-)(yi-)=800.
(1)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01),并推断这种野生动物的数量y(单位:只)和植物覆盖面积x(单位:公顷)的相关程度;
(2)已知20个样区中有8个样区的这种野生动物数量低于样本平均数,从20个样区中随机抽取2个,记抽到这种野生动物数量低于样本平均数的样区的个数为X,求随机变量X的分布列.
题型三 独立性检验与概率、统计交汇
【例3】 某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层随机抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请列出每周平均体育运动时间与性别的2×2列联表,并依据小概率值α=0.05的独立性检验,能否认为该校学生的每周平均体育运动时间与性别有关联?
通性通法
独立性检验与概率、统计交汇问题的解题思路
本类题目以生活题材为背景,涉及独立性检验及概率问题的综合,解决该类问题首先收集数据列出2×2列联表,并按照公式求得χ2的值后进行比较,其次再按照随机变量满足的概率模型求解.
【跟踪训练】
各地区高中积极推进“强基计划”的落实,“强基培训”成为学生们热爱的课程之一.某高中随机调研了本校2024年参加高考的90位考生是否参加“强基培训”的情况,经统计,“强基培训”与性别情况如下表:(单位:人)
参加“强基培训” 不参加“强基培训”
男生 25 35
女生 5 25
(1)根据表中数据并依据小概率值α=0.05的独立性检验,分析参加“强基培训”与性别是否有关联?
(2)用样本估计总体,用本次调研中样本的频率代替概率,从2024年本市考生中随机抽取3人,设被抽取的3人中参加“强基培训”的人数为X,求X的分布列及数学期望E(X).
附:χ2=,n=a+b+c+d.
α 0.10 0.05 0.025 0.010 0.005
xα 2.706 3.841 5.024 6.635 7.879
培优课 成对数据统计分析中的综合问题
【典型例题·精研析】
【例1】 解:(1)2×2列联表如下:
PM2.5 平均浓度 汽车日流量 合 计
汽车日流量 x<1 500 汽车日流量 x≥1 500
PM2.5的平均 浓度y<100 16 8 24
PM2.5的平均 浓度y≥100 6 20 26
合计 22 28 50
零假设为H0:“PM2.5平均浓度不小于100 μg/m3”与“汽车日流量不小于1 500辆”无关,
因为χ2=≈9.62>6.635=x0.01,根据小概率值α=0.01的独立性检验,我们推断H0不成立,
即“PM2.5平均浓度不小于100 μg/m3”与“汽车日流量不小于1 500辆”有关,此结论犯错的概率不大于0.01.
(2)因为经验回归方程为=0.12x-73.36,所以==0.12,
又因为=252,
=36,
所以r==·=0.12×=0.84.
因为|r|=0.84>0.75,所以y与x有较强的相关性,
所以该经验回归方程有价值.
跟踪训练
解:(1)依题意,得=1.03,=,
由=-171.7+190X,得=-171.7+190×1.03,解得m=14,
所以m的值为14.
(2)由于合格零件尺寸为1.03±0.01 cm,
所以甲、乙机床加工的合格与不合格零件的2×2列联表为:
机床 机床加工零件质量 合计
合格零件数 不合格零件数
甲 48 12 60
乙 24 36 60
合计 72 48 120
零假设为H0:加工零件的质量与甲、乙机床无关,
根据以上数据得,χ2==20>6.635=x0.01,
根据小概率值α=0.01的独立性检验,我们认为H0不成立,
所以可认为加工零件的质量与甲、乙机床有关,此结论犯错的概率不大于0.01.
【例2】 解:(1)因为=+,令ti=,则=+t.
因为==500,
所以====,
所以=-=500-×0.37=,
所以=+t,
所以所求经验回归方程为=+.
(2)随机变量X的所有可能取值为3,4,5,
P(X=3)=()3+()3=,
P(X=4)=()2××+()2××=,
P(X=5)=()2×()2×+()2×()2×=.
所以随机变量X的分布列为
X 3 4 5
P
E(X)=3×+4×+5×=.
跟踪训练
解:(1)样本(xi,yi)(i=1,2,…, 20)的相关系数为
r===≈0.94.
由于样本相关系数|r|∈[0.75,1],则相关性很强,|r|的值越大,相关性越强.
故r=0.94∈[0.75,1],故相关性很强.
(2)由题意得X的可能取值为0,1,2,
20个样区中有8个样区的这种野生动物数量低于样本平均数,有12个样区的这种野生动物数量不低于样本平均数,
所以P(X=0)===,P(X=1)===,P(X=2)===,
所以X的分布列为
X 0 1 2
P
【例3】 解:(1)300×=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得该校学生每周平均体育运动时间超过4小时的频率为1-2×(0.100+0.025)=0.75,
所以估计该校学生每周平均体育运动时间超过4小时的概率为0.75.
(3)由(2)知,300位学生中有300×0.75=225位学生的每周平均体育运动时间超过4小时,75位学生的每周平均体育运动时间不超过4小时.又因为样本数据中有210个是关于男生的,90个是关于女生的,且有60位女生的每周平均体育运动时间超过4小时,所以每周平均体育运动时间与性别的2×2列联表如下:
每周平均体育 运动时间 性别 合计
男生 女生
不超过4小时 45 30 75
超过4小时 165 60 225
合计 210 90 300
零假设为H0:该校学生的每周平均体育运动时间与性别无关联.
结合2×2列联表可得χ2==≈4.762>3.841=x0.05.
依据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为该校学生的每周平均体育运动时间与性别有关联,此推断犯错的概率不大于0.05.
跟踪训练
解:(1)零假设为H0:参加“强基培训”与性别无关联,
由题意,χ2==5.625>3.841=x0.05,
依据小概率值α=0.05的独立性检验,可推断H0不成立,
即认为参加“强基培训”与性别有关联.
(2)由题意知,考生参加“强基培训”的概率P==,不参加“强基培训”的概率为,
结合题意知X的可能取值为0,1,2,3,则X~B(3,),
P(X=0)=()3=,
P(X=1)=××()2=,
P(X=2)=×()2×=,
P(X=3)=()3=,
所以X的分布列为
X 0 1 2 3
P
由X~B(3,),得数学期望E(X)=3×=1.
3 / 3(共59张PPT)
培优课
成对数据统计分析中的综合问题
目录
典型例题·精研析
01
知能演练·扣课标
02
典型例题·精研析
01
课堂互动 关键能力提升
题型一 回归分析与独立性检验交汇
【例1】 环境监测部门为调研汽车流量对空气质量的影响,在某监
测点统计每日过往的汽车流量x(单位:辆)和空气中的PM2.5的平
均浓度y(单位:μg/m3).调研人员采集了50天的数据,制作了关于
(xi,yi)(i=1,2,3,…,50)的散点图,并用直线x=1 500与
y=100将散点图分成如图所示的四个区域Ⅰ、Ⅱ、Ⅲ、Ⅳ,落入对应区
域的样本点的个数依次为6,20,16,8.
(1)完成下面的2×2列联表,并依据小概率值α=0.01的独立性检
验,分析“PM2.5平均浓度不小于100 μg/m3”与“汽车日流量
不小于1 500辆”是否有关联?
PM2.5平均浓度 汽车日流量 合计
汽车日流量x<1 500 汽车日流量
x≥1 500
PM2.5的平均浓度y<100
PM2.5的平均浓度y≥100
合计
解: 2×2列联表如下:
PM2.5 平均浓度 汽车日流量 合计
汽车日流量x<1 500 汽车日流量x≥1 500
PM2.5的平均 浓度y<100 16 8 24
PM2.5的平均 浓度y≥100 6 20 26
合计 22 28 50
零假设为H0:“PM2.5平均浓度不小于100 μg/m3”与“汽车日
流量不小于1 500辆”无关,
因为χ2= ≈9.62>6.635=x0.01,根据小概率
值α=0.01的独立性检验,我们推断H0不成立,
即“PM2.5平均浓度不小于100 μg/m3”与“汽车日流量不小于
1 500辆”有关,此结论犯错的概率不大于0.01.
(2)经计算得经验回归方程为 =0.12x-73.36,且这50天的汽车
日流量x的标准差sx=252,PM2.5的平均浓度y的标准差sy=
36.求样本相关系数r(若|r|≥0.75,则认为y与x有较强的
线性相关性),并判断该经验回归方程是否有价值.
参考公式:χ2= ,其中n=a+b+c
+d.
α 0.100 0.050 0.010 0.001
xα 2.706 3.841 6.635 10.828
经验回归方程 = + x,其中 = ,样本相
关系数r= .
解: 因为经验回归方程为 =0.12x-73.36,所以 =
=0.12,又因为 =252, =36,
所以r= = · =
0.12× =0.84.
因为|r|=0.84>0.75,所以y与x有较强的相关性,
所以该经验回归方程有价值.
通性通法
此类题型只需遵循回归分析的步骤,运用独立性检验的原理,掌
握好计算公式、表格的整理与读取即可.
【跟踪训练】
甲、乙两机床加工同一种零件,抽检得到它们加工后的零件尺寸X
(单位:cm)及个数Y如下表:
零件尺寸X 1.01 1.02 1.03 1.04 1.05
零件个数
Y 甲 6 14 17 17 6
乙 m 8 8 8 22
由表中数据得Y关于X的经验回归方程为 =-171.7+190X
(1.01≤X≤1.05),其中合格零件尺寸为1.03±0.01 cm.
(1)求m的值;
解: 依题意,得 =1.03, = ,
由 =-171.7+190X,得 =-171.7+190×1.03,解得
m=14,
所以m的值为14.
(2)根据小概率值α=0.01的独立性检验,判断加工零件的质量与
甲、乙机床是否有关联?
解: 由于合格零件尺寸为1.03±0.01 cm,
所以甲、乙机床加工的合格与不合格零件的2×2列联表为:
机床 机床加工零件质量 合计
合格零件数 不合格零件数
甲 48 12 60
乙 24 36 60
合计 72 48 120
零假设为H0:加工零件的质量与甲、乙机床无关,
根据以上数据得,χ2= =20>6.635=
x0.01,
根据小概率值α=0.01的独立性检验,我们认为H0不成立,
所以可认为加工零件的质量与甲、乙机床有关,此结论犯错的
概率不大于0.01.
题型二 回归分析与概率、统计交汇
【例2】 数独是源自18世纪瑞士的一种数学游戏,玩家需要根据
9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每
一行、每一列、每一个粗线宫(3×3)内的数字均含1~9,且不
重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级
组的比赛.
(1)赛前小明进行了一段时间的训练,每天解题的平均速度y(秒/
题)与训练天数x(天)有关,经统计得到如下数据:
x(天) 1 2 3 4 5 6 7
y(秒/题) 910 800 600 440 300 240 210
现用 = + 作为回归方程模型,请利用表中数据,求出该经
验回归方程;( , 用分数表示)
解: 因为 = + ,令ti= ,则 = + t.
因为 = =500,
所以 = = = = ,
所以 = - =500- ×0.37= ,
所以 = + t,
所以所求经验回归方程为 = + .
(2)小明和小红玩“对战赛”,每局两人同时开始解一道数独题,
先解出题的人获胜,不存在平局,两人约定先胜3局者赢得比
赛.若小明每局获胜的概率为 ,且各局之间相互独立,设比赛
X局后结束,求随机变量X的分布列及均值.
参考数据(其中ti= ):
tiyi -7
1 750 0.37 0.55
解: 随机变量X的所有可能取值为3,4,5,
P(X=3)=( )3+( )3= ,
P(X=4)= ( )2× × + ( )2× × = ,
P(X=5)= ( )2×( )2× + ( )2×( )2×
= .
所以随机变量X的分布列为
X 3 4 5
P
E(X)=3× +4× +5× = .
通性通法
回归分析与概率、统计交汇问题的解题思路
(1)此类问题的特点为:同一生活实践情境下设计两类问题,即:
①求经验回归方程(预测);②求某随机变量的概率、均值、
方差等;
(2)充分利用题目中提供的成对样本数据(散点图)做出判断,确
定是线性问题还是非线性问题.求解时要充分利用已知数据,合
理利用变形公式,以达到快速准确运算的目的;
(3)明确所求问题所属事件的类型,准确构建概率模型.
【跟踪训练】
某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增
加.为调查该地区植物覆盖面积与某种野生动物数量的关系,将其分
成面积相近的若干个地块,从这些地块中随机抽取20个作为样区,调
查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表
示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量
(单位:只),并计算得 =80, =
9 000, (xi- )(yi- )=800.
(1)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到
0.01),并推断这种野生动物的数量y(单位:只)和植物覆盖
面积x(单位:公顷)的相关程度;
解: 样本(xi,yi)(i=1,2,…, 20)的相关系数为
r= = = ≈0.94.
由于样本相关系数|r|∈[0.75,1],则相关性很强,|r|的
值越大,相关性越强.
故r=0.94∈[0.75,1],故相关性很强.
(2)已知20个样区中有8个样区的这种野生动物数量低于样本平均
数,从20个样区中随机抽取2个,记抽到这种野生动物数量低于
样本平均数的样区的个数为X,求随机变量X的分布列.
解: 由题意得X的可能取值为0,1,2,
20个样区中有8个样区的这种野生动物数量低于样本平均数,有
12个样区的这种野生动物数量不低于样本平均数,
所以P(X=0)= = = ,P(X=1)= = =
,P(X=2)= = = ,
所以X的分布列为
X 0 1 2
P
题型三 独立性检验与概率、统计交汇
【例3】 某高校共有学生15 000人,其中男生10 500人,女生4 500
人.为调查该校学生每周平均体育运动时间的情况,采用分层随机抽
样的方法,收集300位学生每周平均体育运动时间的样本数据(单
位:小时).
(1)应收集多少位女生的样本数据?
解: 300× =90,所以应收集90位女生的样本数据.
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率
分布直方图(如图所示),其中样本数据的分组区间为[0,
2],(2,4],(4,6],(6,8],(8,10],(10,12].估计
该校学生每周平均体育运动时间超过4小时的概率;
解:(2)由频率分布直方图得该校学生每周平均体育运动时间
超过4小时的频率为1-2×(0.100+0.025)=0.75,
所以估计该校学生每周平均体育运动时间超过4小时的概率为
0.75.
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小
时,请列出每周平均体育运动时间与性别的2×2列联表,并依
据小概率值α=0.05的独立性检验,能否认为该校学生的每周
平均体育运动时间与性别有关联?
解:(3)由(2)知,300位学生中有300×0.75=225位学
生的每周平均体育运动时间超过4小时,75位学生的每周平
均体育运动时间不超过4小时.又因为样本数据中有210个是
关于男生的,90个是关于女生的,且有60位女生的每周平均
体育运动时间超过4小时,所以每周平均体育运动时间与性
别的2×2列联表如下:
每周平均体育运动时
间 性别 合计
男生 女生
不超过4小时 45 30 75
超过4小时 165 60 225
合计 210 90 300
零假设为H0:该校学生的每周平均体育运动时间与性别无关联.
结合2×2列联表可得χ2= = ≈4.762>
3.841=x0.05.
依据小概率值α=0.05的独立性检验,我们推断H0不成立,即
认为该校学生的每周平均体育运动时间与性别有关联,此推断
犯错的概率不大于0.05.
通性通法
独立性检验与概率、统计交汇问题的解题思路
本类题目以生活题材为背景,涉及独立性检验及概率问题的综
合,解决该类问题首先收集数据列出2×2列联表,并按照公式求得χ2
的值后进行比较,其次再按照随机变量满足的概率模型求解.
【跟踪训练】
各地区高中积极推进“强基计划”的落实,“强基培训”成为学生们
热爱的课程之一.某高中随机调研了本校2024年参加高考的90位考生
是否参加“强基培训”的情况,经统计,“强基培训”与性别情况如
下表:(单位:人)
参加“强基培训” 不参加“强基培训”
男生 25 35
女生 5 25
(1)根据表中数据并依据小概率值α=0.05的独立性检验,分析参
加“强基培训”与性别是否有关联?
解:(1)零假设为H0:参加“强基培训”与性别无关联,
由题意,χ2= =5.625>3.841=x0.05,
依据小概率值α=0.05的独立性检验,可推断H0不成立,
即认为参加“强基培训”与性别有关联.
(2)用样本估计总体,用本次调研中样本的频率代替概率,从2024
年本市考生中随机抽取3人,设被抽取的3人中参加“强基培
训”的人数为X,求X的分布列及数学期望E(X).
附:χ2= ,n=a+b+c+d.
α 0.10 0.05 0.025 0.010 0.005
xα 2.706 3.841 5.024 6.635 7.879
解: 由题意知,考生参加“强基培训”的概率P= =
,不参加“强基培训”的概率为 ,
结合题意知X的可能取值为0,1,2,3,则X~B(3, ),
P(X=0)=( )3= ,
P(X=1)= × ×( )2= ,
P(X=2)= ×( )2× = ,
P(X=3)=( )3= ,
所以X的分布列为
X 0 1 2 3
P
由X~B(3, ),得数学期望E(X)=3× =1.
知能演练·扣课标
02
课后巩固 核心素养落地
1. 经销商经销某种农产品,在一个销售季度内,每售出1 t该产品获得
利润500元,未售出的产品,每1 t亏损300元.根据以往资料,得到
销售季度内市场需求量的频率分布直方图,如图所示.经销商为下
一个销售季度购进了130 t该农产品.以X(单位:t,100≤X≤
150)表示下一个销售季度内的市场需求量,T(单位:元)表示下一个销售季度内经销该农产品的利润.
1
2
3
4
(1)将T表示为X的函数;
解: 当X∈[100,130)时,
T=500X-300(130-X)=800X-39 000.
当X∈[130,150]时,T=500×130=65 000.
所以T=
1
2
3
4
(2)根据直方图估计利润T不少于57 000元的概率;
解: 由(1)知当且仅当120≤X≤150时利润T不少于
57 000元.
由直方图知需求量X∈[120,150]的频率为0.7,所以下一个
销售季度内的利润T不少于57 000元的概率的估计值为0.7.
1
2
3
4
(3)在直方图的需求量分组中,以各组的区间中点值代表该组的
各个值,需求量落入该区间的频率作为需求量取该区间中点
值的概率(例如:若需求量X∈[100,110),则取X=
105,且X=105的概率等于需求量落入[100,110)的频
率),求T的均值.
解: 依题意可得T的分布列为
T 45 000 53 000 61 000 65 000
P 0.1 0.2 0.3 0.4
所以E(T)=45 000×0.1+53 000×0.2+61 000×0.3+
65 000×0.4=59 400.
1
2
3
4
2. 由于航天行业拥有广阔的发展前景,有越来越多的公司开始从事航
天研究,某航天公司研发了一种火箭推进器,为测试其性能,对推
进器飞行距离与损坏零件数进行了统计,数据如下:
飞行距离x
(kkm) 56 63 71 79 90 102 110 117
损坏零件数
y(个) 61 73 90 105 119 136 149 163
参考数据: =86, =112, xiyi=82 743, =62 680.
1
2
3
4
(1)建立y关于x的回归模型 = x+ ,根据所给数据及回归模
型,求y关于x的经验回归方程( 精确到0.1, 精确到1);
解: 由题意得 = = =
≈1.6,
则 =112-1.6×86≈-26,
所以 =1.6x-26.
1
2
3
4
(2)该公司进行了第二项测试,从所有同型号推进器中随机抽取
100台进行等距离飞行测试,对其中60台进行飞行前保养,测
试结束后,有20台报废,其中保养过的推进器占比30%,请
根据统计数据完成2×2列联表,并根据小概率值α=0.01的
独立性检验,能否认为推进器是否报废与保养有关?
是否报废 是否保养 合计
保养 未保养
报废 20
未报废
合计 60 100
1
2
3
4
解: 零假设为H0:是否报废与保养无关,
由题意,报废推进器中保养过的共20×30%=6台,未保养的
推进器共20-6=14台,
补全2×2列联表如下:
是否报废 是否保养 合计
保养 未保养
报废 6 14 20
未报废 54 26 80
合计 60 40 100
1
2
3
4
则χ2= = =
9.375>6.635=x0.01,
根据小概率值α=0.01的独立性检验,我们推断H0不成立,
即认为是否报废与保养有关,
此推断错误的概率不大于0.01.
1
2
3
4
3. 某学校为学生开设了一门模具加工课,经过一段时间的学习,拟举
行一次模具加工大赛,学生小明、小红打算报名参加大赛.赛前,
小明、小红分别进行了为期一周的封闭强化训练,下表记录了两人
在封闭强化训练期间每天加工模具成功的次数,其中小明第7天的
成功次数a忘了记录,但知道36≤a≤55,a∈Z(yi,zi分别表示
小明、小红第i天的成功次数).
第一天 第二天 第三天 第四天 第五天 第六天 第七天
序号x 1 2 3 4 5 6 7
小明成功 次数(y) 16 20 20 25 30 36 a
小红成功 次数(z) 16 22 25 26 32 35 35
1
2
3
4
(1)求这7天内小明成功的总次数不少于小红成功的总次数的
概率;
解: 因为36≤a≤55,且a∈Z,所以a的取值共有55-
36+1=20种情况,
yi,zi分别表示小明、小红第i天成功次数,
又当小明成功的总次数不少于小红成功的总次数时, yi+
a≥ zi,
1
2
3
4
即16+20+20+25+30+36+a≥16+22+25+26+32+35
+35,得a≥44,
又36≤a≤55,所以44≤a≤55,且a∈Z,
所以小明成功的总次数不少于小红成功的总次数时,a的取
值共有55-44+1=12种情况,
所以这7天内小明成功的总次数不少于小红成功的总次数的概
率为 = .
1
2
3
4
(2)根据小明这7天内前6天的成功次数,求其成功次数y关于序
号x的经验回归方程,并估计小明第七天成功次数a的值.
参考公式:经验回归方程 = x+ 中斜率与截距的最小二
乘估计公式分别为: = = ,
= - .
参考数据:1×16+2×20+3×20+4×25+5×30+6×36=
582;12+22+32+42+52+62=91.
1
2
3
4
解: 由题设可知: xiyi=1×16+2×20+3×20+
4×25+5×30+6×36=582,
= = , = = ,
所以 = = , = - = - × =11,
所以成功次数y关于序号x的经验回归方程为 = x+11.
当x=7时, = ×7+11=38,
估计小明第7天成功次数a的值为38.
1
2
3
4
4. 为了调查某地区成年人血液的一项指标,现随机抽取了成年男性、
女性各20人组成一个样本,对他们的这项血液指标进行了检测,得
到了如下数据.根据医学相关知识,我们认为此项指标大于40为偏
高,反之即为正常.
男性 :5 7 9 8 18 19 21 23 27 29
25 32 34 35 37 38 41 42 47 54
女性: 13 14 21 25 25 28 31 32 34 35
38 40 43 47 48 49 52 55 56 57
1
2
3
4
(1)依据样本数据研究此项血液指标与性别的关系,列出2×2列
联表,并判断能否在犯错误的概率不超过0.01的前提下认为
此项血液指标与性别有关联;
解: 由题中数据可得2×2列联表为
性别 血液指标 合计
正常 偏高
男性 16 4 20
女性 12 8 20
合计 28 12 40
χ2= ≈1.905<6.635,所以不能在犯错误的
概率不超过0.01的前提下认为此项血液指标与性别有关联.
1
2
3
4
(2)以样本估计总体,视样本频率为概率,现从本地区随机抽取
成年男性、女性各2人,求此项血液指标为正常的人数X的分
布列及数学期望.
附:χ2= ,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
1
2
3
4
解: 由样本数据可知,男性此项血液指标正常的概率
为 ,女性此项血液指标正常的概率为 .抽取的人中此项血
液指标为正常的人数X的可能取值为0,1,2,3,4.
P(X=0)=(1- )2×(1- )2= ,
P(X=1)= × ×(1- )×(1- )2+(1- )2
× × ×(1- )= ,
1
2
3
4
P(X=2)=( )2×(1- )2+ × ×(1- )×
× ×(1- )+(1- )2×( )2= ,
P(X=3)= × ×(1- )×( )2+( )2× ×
×(1- )= ,P(X=4)=( )2×( )2= .
所以随机变量X的分布列为
1
2
3
4
X 0 1 2 3 4
P
所以E(X)=0× +1× +2× +3× +4×
= ,
因此此项血液指标为正常的人数X的数学期望为 .
1
2
3
4
谢 谢 观 看!