| 名称 | 板块五 概率与统计 习题讲评(一) 统计与成对数据的统计分析(课件 学案)2026届高中数学二轮专题复习 |
|
|
| 格式 | zip | ||
| 文件大小 | 5.7MB | ||
| 资源类型 | 教案 | ||
| 版本资源 | 通用版 | ||
| 科目 | 数学 | ||
| 更新时间 | 2025-12-16 00:00:00 | ||
(6)条件概率:P(B|A)=.
(7)全概率公式:一般地,设A1,A2,…,An是一组两两互斥的事件,A1∪A2∪…∪An=Ω,且P(Ai)>0,i=1,2,…,n,则对任意的事件B Ω,有P(B)= P(Ai)P(B|Ai).
*(8)贝叶斯公式:设A1,A2,…,An是一组两两互斥的事件,A1∪A2∪…∪An=Ω,且P(Ai)>0,i=1,2,…,n,则对任意的事件B Ω,P(B)>0,有P(Ai|B)==,i=1,2,…,n.
8.离散型随机变量的均值和方差
(1)公式:E(X)=x1p1+x2p2+…+xnpn=xipi.
D(X)=(x1-E(X))2p1+(x2-E(X))2p2+…+(xn-E(X))2pn=(xi-E(X))2pi.
(2)均值、方差的性质:
①E(k)=k(k为常数),D(k)=0(k为常数).
②E(aX+b)=aE(X)+b,D(aX+b)=a2D(X).
(3)两点分布与二项分布的均值与方差
①若随机变量X服从两点分布,则E(X)=p,D(X)=p(1-p).
②若随机变量X服从二项分布,即X~B(n,p),则E(X)=np,D(X)=np(1-p).
9.正态曲线的特点
(1)曲线位于x轴上方,与x轴不相交.
(2)曲线与x轴之间的面积为1.
(3)曲线是单峰的,它关于直线x=μ对称.
(4)曲线在x=μ处达到峰值.
(5)当|x|无限增大时,曲线无限接近x轴.
习题讲评(一) 统计与成对数据的统计分析
高考对本节内容的考查往往以实际问题为背景,考查随机抽样与用样本估计总体、经验回归方程的求解与运用、独立性检验问题,也可与概率、函数、数列综合考查,难度中等或偏下,考查模式选择、填空、解答均有涉及.
教学环节一 题点考法讲评(每“教学点”学生先试作,教师再据情讲授)
教学点(一) 用样本估计总体
[例1] (2023·新课标Ⅰ卷)[多选]有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则 ( ) A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数 B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数 C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差 D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差 [例2] (2024·茂名一模)[多选]某校举行与中秋节相关的“中国传统文化”知识竞赛,随机抽查了100人的成绩整理后得到如图所示的频率分布直方图,则下列结论正确的是 ( ) A.样本的众数为75 B.样本的71%分位数为75 C.样本的平均数为68.5 D.该校学生中得分低于60分的约占20% [练1] (多选)已知样本数据x1,x2,x3的平均数为2,方差为1,则下列说法正确的是 ( ) A.数据3x1-1,3x2-1,3x3-1的平均数为6 B.数据3x1-1,3x2-1,3x3-1的方差为9 C.数据x1,x2,x3,2的方差为1 D.数据,,的平均数为5 [练2] (多选)如图是样本甲与样本乙的频率分布直方图,下列说法判断正确的是 ( ) A.样本乙的极差一定大于样本甲的极差 B.样本乙的众数一定大于样本甲的众数 C.样本乙的方差一定小于样本甲的方差 D.样本甲的中位数一定小于样本乙的中位数 [自助空间] 思维建模:用频率分布直方图估计样本的数字特征 (1)平均数:=xiSi(xi表示第i个小矩形底边中点的横坐标,Si表示第i个小矩形的面积). (2)方差:s2= (xi-)2·Si. (3)众数:最高小矩形底边中点的横坐标. (4)中位数:把频率分布直方图划分为左、右两个面积相等的部分时,分界线与横轴交点的横坐标. (5)百分位数:类比中位数,百分位数所在直线把频率分布直方图划分为左、右两个部分,左边所有矩形的面积和为p%.中位数是第50百分位数. 求解公式:已知频率分布直方图的组距为d. ①找出百分位数所在的矩形区间[a,b); ②第p百分位数=a+d·.
教学点(二) 回归分析
[典例] 某企业生产一种热销产品,产品日产量为x(x≥1)吨,日销售额为y万元(每日生产的产品当日可销售完毕),且产品价格随着产量变化而有所变化.经过一段时间的产销,随机收集了某5天的日产量xi(i=1,2,…,5)(单位:吨)和日销售额yi(i=1,2,…,5)(单位:万元)的统计数据,并对这5组数据做了初步处理,得到统计数据如下表:
xi yi ui (xi-)2 (yi-)2 (ui-)2 (xi-)(yi-) (ui-)(yi-)
15 73 4.8 10 161.2 1.6 39 15.9
其中,ui=ln xi(i=1,2,…,5),,,分别为数据xi,yi,ui(i=1,2,…,5)的平均数.
(1)请从样本相关系数的角度,判断=x+与=ln x+哪一个模型更适合刻画日销售额y关于日产量x的关系
(2)根据(1)的结果解决下列问题:
①建立y关于x的经验回归方程(斜率的结果四舍五入保留整数);
②如果日产量x(单位:吨)与日生产总成本c(x)(单位:万元)满足关系c(x)=x+3,根据①中建立的经验回归方程估计日产量x为何值时,日利润r(x)最大
参考数据:≈40,≈16,≈25.
[思维建模]
当经验回归方程不是形如y=bx+a(a,b∈R)时,称之为非线性经验回归方程,转化技巧如下:
非线性经验回归方程 变换公式 变换后的线性经验回归方程
y=axb(a>0,b≠0) c=ln a,v=ln x,u=ln y u=c+bv
y=a(a>0,b≠0) c=ln a,v=,u=ln y u=c+bv
y=a+bln x(b≠0) u=ln x y=a+bu
y=ax2+b(a≠0) u=x2 y=au+b
[训练] 为了了解汽车的流量与空气中PM2.5的浓度之间的关系,某科研小组在某城市的一个交通点建立监测站,连续记录了十天的汽车流量(单位:千辆)和相应每天该地空气中PM2.5的平均浓度(单位:μg/m3),得到如下数据表:
汽车流量x 1.36 1.63 1.26 1.86 0.95
PM2.5浓度y 96 110 72 135 35
汽车流量x 1.18 1.50 1.05 1.46 1.75
PM2.5浓度y 43 115 34 110 120
(1)求y与x的样本相关系数r,并判断x与y之间的线性相关程度(r精确到0.01);
(2)求y关于x的经验回归方程,并预测当汽车流量为2千辆时,该地空气中PM2.5的平均浓度.
参考数据: xi=14, yi=870, ≈20.4, =88 680, xiyi≈1 314.5, ≈102.
教学点(三) 统计案例
[典例] 为提高居家养老服务质量,某机构组织调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区抽取了500位老年人,统计结果如下:
性别 需要志愿者 不需要志愿者
男 40 160
女 30 270
(1)估计该地区老年人中,需要志愿者提供帮助的比例;
(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关
(3)根据(2)中的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的比例 请说明理由.
附:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
[训练] (2024·全国甲卷)某工厂进行生产线智能化升级改造.升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
项目 优级品 合格品 不合格品 合计
甲车间 26 24 0 50
乙车间 70 28 2 100
合计 96 52 2 150
(1)填写如下列联表:
项目 优级品 非优级品
甲车间
乙车间
能否有95%的把握认为甲、乙两车间产品的优级品率存在差异 能否有99%的把握认为甲、乙两车间产品的优级品率存在差异
(2)已知升级改造前该工厂产品的优级品率p=0.5.设为升级改造后抽取的n件产品的优级品率.如果>p+1.65,则认为该工厂产品的优级品率提高了.根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了 (≈12.247)
教学环节二 课时作业讲评(教师批阅作业后,据情选点讲评)
1.(2024·天津高考)下列图中,样本相关系数最大的是 ( ) 2.(2024·临沂二模)一组数据按从小到大的顺序排列为1,4,m,12,14,21,若该组数据的中位数是极差的,则该组数据的第45百分位数是 ( ) A.4 B.6 C.8 D.12 3.(2024·湛江二模)[多选]某市2018年到2023年常住人口变化图如图所示,则 ( ) A.某市2018年到2023年这6年的常住人口的极差约为38万 B.某市2018年到2023年这6年的常住人口呈递增趋势 C.某市2018年到2023年这6年的常住人口的第60百分位数为730.50万 D.某市2018年到2023年这6年的常住人口的中位数为717.02万 4.[多选]某校为了解甲、乙两个班级学生的化学学习情况,从两个班某次考试的化学成绩(均为整数)中各随机抽查20名学生的成绩,得到如图所示的数据图(用频率分布直方图估计总体平均数时,每个区间的值均取该区间的中点值),用样本估计总体,关于甲、乙两个班级的化学成绩,下列结论正确的是 ( ) A.甲班成绩的众数大于乙班成绩的众数 B.乙班成绩的第75百分位数为80 C.甲班成绩的中位数为79 D.甲班成绩的平均数大于乙班成绩的平均数估计值 [自助空间]
5.(2024·嘉兴调研)[多选]已知一组数据1,3,5,7,9,其中位数为a,平均数为,极差为b,方差为s2.现从中删去某一个数,得到一组新数据,其中位数为a',平均数为',极差为b',方差为s'2,则下列说法正确的是 ( ) A.若删去3,则a10.(2024·长沙模拟)为了了解高中生运动达标情况和性别之间的关系,某调查机构随机调查了100名高中生的情况,统计他们在暑假期间每天参加体育运动的时间,并把每天参加体育运动时间超过30分钟的记为“运动达标”,时间不超过30分钟的记为“运动欠佳”,已知运动达标与运动欠佳的人数比为3∶2,运动达标的女生与男生的人数比为2∶1,运动欠佳的男生有5人.
(1)根据上述数据,完成下面2×2列联表,并依据小概率值α=0.05的独立性检验,能否认为学生体育运动时间达标与性别因素有关系
性别 运动达标情况 合计
运动达标 运动欠佳
男
女
合计
(2)现从“运动达标”的学生中按性别用分层随机抽样的方法抽取6人,再从这6人中任选2人进行体能测试,求选中的2人中恰有一人是女生的概率.
参考公式:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
11.某乒乓球训练机构以训练青少年为主,其中有一项打定点训练,就是把乒乓球打到对方球台的指定位置(称为“准点球”),在每周末,记录每个接受训练的学员在训练时打的所有球中“准点球”的百分比(y%),A学员已经训练了1年,下表记录了A学员最近七周“准点球”的百分比:
周次(x) 1 2 3 4 5 6 7
y/% 52 52.8 53.5 54 54.5 54.9 55.3
若z=.
(1)根据上表数据,计算y与z的样本相关系数r,并说明y与z的线性相关性的强弱;(若0.75≤|r|≤1,则认为y与z线性相关性很强;若0.3≤|r|<0.75,则认为y与z线性相关性一般;若|r|<0.3,则认为y与z线性相关性较弱.r的值精确到0.01)
(2)求y关于x的经验回归方程,并预测第9周“准点球”的百分比.(精确到0.01)
参考公式和数据:r=,=,=-.
-7≈2.05, ziyi≈729.98,≈1.926,=53.86, ≈103.73, ≈4.13.
习题讲评(一) 统计与成对数据的统计分析
教学环节一 题点考法讲评
教学点(一) 用样本估计总体
[例1] 选BD
取x1=1,x2=x3=x4=x5=2,x6=9,则x2,x3,x4,x5的平均数等于2,标准差为0,x1,x2,…,x6的平均数等于3,标准差为,故A、C均不正确;
根据中位数的定义,将x1,x2,…,x6按从小到大的顺序进行排列,中位数是中间两个数的算术平均数,由于x1是最小值,x6是最大值,故x2,x3,x4,x5的中位数是将x2,x3,x4,x5按从小到大的顺序排列后中间两个数的算术平均数,与x1,x2,…,x6的中位数相等,故B正确;
根据极差的定义,知x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差,故D正确.
[例2] 选AC
依题意(0.015+0.025+0.035+0.005+2a)×10=1,解得a=0.010.∵最高小矩形的中点横坐标为75,∴众数是75,故A正确.
设样本的71%分位数为x,又10×(0.010+0.015+0.025)=0.5,∴0.5+(x-70)×0.035=0.71,解得x=76,故B错误.
平均数为45×0.1+55×0.15+65×0.25+75×0.35+85×0.1+95×0.05=68.5,故C正确.
样本中得分低于60分的占(0.010+0.015)×10×100%=25%,∴该校学生中得分低于60分的约占25%,故D错误.
[练1] 选BD
因为样本数据x1,x2,x3的平均数为2,方差为1,所以数据3x1-1,3x2-1,3x3-1的平均数为3×2-1=5,故A错误;
数据3x1-1,3x2-1,3x3-1的方差为32×1=9,故B正确;
x1+x2+x3=3×2=6,++=1×3=3,数据x1,x2,x3,2的平均数为=2,所以方差为[+++(2-2)2]=,故C错误;
由x1+x2+x3=6,++=3,得++-4(x1+x2+x3)+12=3,所以++=15,所以数据,,的平均数为=5,故D正确.
[练2] 选BCD
甲的数据在[1.5,7.5]内,极差小于或等于6;乙的数据在[2.5,8.5]内,极差小于或等于6;从而甲和乙的极差可能相等,A错误;根据频率分布直方图可知,甲的众数在[2.5,5.5)内,乙的众数在[5.5,6.5)内,乙的众数大于甲的众数,B正确;甲的数据比较分散,乙的数据比较集中,因此乙的方差小于甲的方差,C正确;甲的各组频率依次为0.15,0.20,0.20,0.20,0.15,0.10,其中位数位于[3.5,4.5)内,乙的各组频率依次为0.05,0.10,0.15,0.35,0.20,0.15,其中位数位于[5.5,6.5)内,所以甲的中位数小于乙的中位数,D正确.
教学点(二) 回归分析
[典例] 解:(1)设=x+模型的样本相关系数为r1,=ln x+模型的样本相关系数为r2,
所以r1==≈0.975,
r2==≈0.994,
(注意:用样本相关系数判断相关性强弱时,看|r|的大小,而不是r的大小)
由于0
由题可得===9.937 5≈10,
=-≈-10×=5,所以=10ln x+5.
②由题可得r(x)=10ln x+5-x-3=10ln x-x+2(x≥1),所以r'(x)=-=,
令r'(x)==0,解得x=20,当1≤x<20时,r'(x)>0,当x>20时,r'(x)<0,
则r(x)的单调递增区间为(1,20),单调递减区间为(20,+∞),所以当x=20时,日利润r(x)最大.
[训练] 解:(1)依题意=xi=1.4,=yi=87,
所以r=
≈
=≈≈0.95,
因为|r|>0.75且接近1,所以y与x的线性相关程度很强.
(2)因为=≈=120.625,
所以=-=87-120.625×1.4=-81.875,
所以y关于x的经验回归方程为=120.625x-81.875,
当x=2时,=120.625×2-81.875=159.375,
即当汽车流量为2千辆时,该地空气中PM2.5的平均浓度约为159.375 μg/m3.
教学点(三) 统计案例
[典例] 解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例估计值为=14%.
(2)零假设H0:老年人是否需要志愿者提供帮助与性别无关.
χ2=≈9.967>6.635=x0.01,
(注意:在犯错误的概率不大于0.01的前提下认为两变量有关,并不是指两个变量无关的可能性为0.01)
所以有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关.
(3)由(2)的结论知道,该地区的老年人是否需要志愿者提供帮助与性别有关,
并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显的差异,
因此在调查时,先确定该地区老年人中男、女的比例,
再把老年人分成男、女两层并采用分层随机抽样方法,此种方法比采用简单随机抽样方法更好.
习得方法:补全列联表(根据条件计算数据,补全2×2列联表)→提出零假设H0(两个分类变量无关)→套用公式求χ2(根据所附的计算公式求χ2)→比较大小(查表,将χ2与临界值xα比较大小)→下结论(当χ2≥xα时,推断H0不成立,即认为两个分类变量有关,该推断犯错误的概率不超过α;当χ2
项目 优级品 非优级品
甲车间 26 24
乙车间 70 30
则完整的2×2列联表如下:
项目 优级品 非优级品 合计
甲车间 26 24 50
乙车间 70 30 100
合计 96 54 150
χ2==4.687 5.
因为χ2=4.687 5>3.841,所以有95%的把握认为甲、乙两车间产品的优级品率存在差异;
因为χ2=4.687 5<6.635,所以没有99%的把握认为甲、乙两车间产品的优级品率存在差异.
(2)由题意可知==0.64.
又p+1.65=0.5+1.65× ≈0.5+1.65×≈0.57,
所以>p+1.65,所以能认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
教学环节二 课时作业讲评
1.选A
选项A中的散点有明显的从左下角到右上角沿直线分布的趋势,且散点集中在一条直线的附近,故选项A中的样本相关系数最大.
2.选A
根据中位数的定义,该组数据的中位数是,根据极差的定义,该组数据的极差是21-1=20,依题意得=20×,解得m=4.由6×0.45=2.7 Z,根据百分位数的定义,该组数据的第45百分位数是从小到大排列的第3个数,即4.
3.选ACD
由题图可知,某市2018年到2023年这6年的常住人口的极差约为736.00-698.12≈38(万),A正确;
这6年的常住人口前3年呈递增趋势,后三年也递增,但后三年的常住人口低于前3年,B错误;
某市2018年到2023年这6年的常住人口按照从小到大的顺序排列为698.12,703.09,703.54,730.50,732.20,736.00,因为6×0.6=3.6,所以第60百分位数为730.50万,中位数为=717.02(万),C、D均正确.
4.选BCD
甲班成绩的众数为79,而由频率分布直方图无法准确得到乙班成绩的众数,故A错误;
因为(0.02+0.025+0.03)×10=0.75,所以乙班成绩的第75百分位数为80,故B正确;
由甲班成绩可得小于79分的数据有2+1+1+1+2+2=9个,等于79分的数据有6个,样本共20个数据,所以甲班成绩的中位数为79,故C正确;
甲班成绩的平均数为=×(2×57+58+59+67+2×68+2×69+6×79+87+2×88+89+98)=74.8,乙班成绩的平均数估计值为=10×(55×0.02+65×0.025+75×0.03+85×0.02+95×0.005)=71.5,所以甲班成绩的平均数大于乙班成绩的平均数估计值,故D正确.
5.选ACD
由题意知a=5,=5,b=8,s2=×(16+4+0+4+16)=8.若删去3,则a'==6>a=5,A正确;
若删去9则'=4<,B错误;
无论删去哪个数,极差都不可能超过8,C正确;
若=',则删去5,s'2=×(16+4+4+16)=10>s2,D正确.
6.选BCD
在频率分布直方图中,所有直方图的面积之和为1,则(2a+3a+7a+6a+2a)×10=200a=1,解得a=0.005,A错误;
前两个矩形的面积之和为(2a+3a)×10=50a=0.25<0.5,前三个矩形的面积之和为(2a+3a+7a)×10=120a=0.6>0.5,估计该年级学生成绩的中位数设为m,则m∈(70,80),根据中位数的定义可得0.25+(m-70)×0.035=0.5,解得m≈77.14,所以估计该年级学生成绩的中位数约为77.14,B正确;
估计成绩在80分及以上的学生成绩的平均数为×85+×95=87.5分,C正确;
估计该年级成绩在80分及以上的学生成绩的方差为×[12+(87.5-85)2]+×[10+(87.5-95)2]=30.25,D正确.
7.答案:1 800
解析:由题意可知从三个年级中抽取的300人进行问卷调查,其中高三有120人,所以抽取的比例为=.设该校共有n名学生,可得=,解得n=1 800,即该校共有1 800名学生.
8.答案:[37,45]
解析:依题意,得x1,x2,x3,x4,x5的平均数=6.根据方差的计算公式,得s2=[++…+].所以(++…+)-2(x1+x2+…+x5)+5=5s2,即(++…+)-10+5=5s2,所以++…+=5+5s2=180+5s2∈[185,225],所以,,…,的平均数的范围为[37,45].
9.答案:-0.3 0.98
解析:因为f=cWk,两边取对数可得ln f=ln c+kln W,又xi=ln Wi,yi=ln fi,依题意经验回归直线=x+7.4必过样本中心点(,),所以5=8+7.4,解得=-0.3,所以k=-0.3,又R2=1-=1-≈1-=0.98.
10.解:(1)100名高中生中,运动达标与运动欠佳的人数比为3∶2,则运动达标人数为100×=60,
运动达标的女生与男生的人数比为2∶1,则运动达标的女生有40人,运动达标的男生有20人,
2×2列联表为
性别 运动达标情况 合计
运动达标 运动欠佳
男 20 5 25
女 40 35 75
合计 60 40 100
零假设为H0:学生体育运动时间达标与性别因素无关,因为χ2==≈5.556>3.841,根据小概率值α=0.05的独立性检验,推断H0不成立,
即学生体育运动时间达标与性别因素有关系,此推断犯错误的概率不超过0.05.
(2)因为“运动达标”的男生、女生分别有20人和40人,按分层随机抽样的方法从中抽取6人,则男生、女生分别抽到2人和4人,
则选中的2人中恰有一人是女生的概率为P==.
11.解:(1)依题意r=≈≈0.94,
又r≈0.94>0.75,所以y与z线性相关性很强.
(2)依题意=≈≈1.89,
所以=-≈53.86-1.89×1.926≈50.22,
所以=1.89z+50.22,又z=,
所以=1.89+50.22,
当x=9时,=1.89×3+50.22=55.89,
所以预测第9周“准点球”的百分比为55.89%.