第2课时 用样本估计总体
[考试要求] 1.能用样本估计总体的取值规律,会求n个数据的第p百分位数.2.结合实例,能用样本估计总体的集中趋势参数(平均数、中位数、众数),理解集中趋势参数的统计含义.3.结合实例,能用样本估计总体的离散程度参数(标准差、方差、极差),理解离散程度参数的统计含义.
考点一 总体百分位数的估计
1.百分位数的定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
2.计算一组n个数据的第p百分位数的步骤
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
3.四分位数
(1)25%,50%,75%这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
(2)第25百分位数又称第一四分位数或下四分位数;第75百分位数又称第三四分位数或上四分位数.
[典例1] (1)(2025·长沙模拟)已知某位自行车赛车手在相同条件下进行了8次测速,测得其最大速度(单位:m/s)的数据分别为42,38,45,43,41,47,44,46,则这组数据中的75%分位数是( )
A.44.5 B.45
C.45.5 D.46
(2)某校组织高中学生参加航天知识竞赛,现从中随机抽取100名学生的成绩,其频率分布直方图如图所示,则这组样本数据的75%分位数为________.
(1)C (2)88 [(1)数据从小到大排序为:38,41,42,43,44,45,46,47,共8个,
8×75%=6,故这组数据中的75%分位数是=45.5.
故选C.
(2)根据频率分布直方图知,(0.005+0.03+a+0.015)×10=1,解得a=0.05,
因为(0.005+0.03)×10=0.35,0.35+0.05×10=0.85,
所以75%分位数在[80,90)内,设75%分位数为x,则(x-80)×0.05+0.35=0.75,解得x=88.]
反思领悟 本例(1)中,求百分位数的关键是将原始数据从小到大排列,在此基础上准确计算;本例(2),求频率分布直方图中的百分位数,根据频率计算.
巩固迁移1 (1)(2024·广州月考)已知一组数据34,36,39,41,44,45,x,50的第65百分位数是45,那么实数x的取值范围是( )
A.[45,+∞) B.(45,+∞)
C.(45,50) D.[45,50]
(2)为了解学生在课外读物方面的支出情况,抽取了100个同学进行调查,结果显示这些同学的支出都在[10,50](单位:元),其频率分布直方图如图所示,估计学生课外读物支出的样本数据的第65百分位数为________.(精确到0.01)
(1)A (2)38.65 [(1)因为8×65%=5.2,所以这组数据的第65百分位数是第6项数据45,
则x≥45.故选A.
(2)因为(0.01+0.023)×10=0.33,0.33+0.037×10=0.7,所以第65百分位数在[30,40)内,设第65百分位数为x,则(x-30)×0.037+0.33=0.65,解得x≈38.65.
所以估计学生课外读物支出的样本数据的第65百分位数为38.65.]
【教用·备选题】
(2025·天津南开中学模拟)为了解“双减”政策实施后学生每天的体育活动时间,研究人员随机调查了某地区1 000名学生每天进行体育运动的时间,按照时长(单位:分钟)分成6组:第一组,第二组,第三组,第四组,第五组,第六组,经整理得到如图所示的频率分布直方图,则可以估计该地区学生每天体育活动时间的第25百分位数约为( )
A.42.5分钟 B.45.5分钟
C.47.5分钟 D.50分钟
C [由10×0.01=0.1<0.25,10×0.01+10×0.02=0.3>0.25,
故第25百分位数位于内,
则第25百分位数为40+×10=47.5,
可以估计该地区学生每天体育活动时间的第25百分位数约为47.5.故选C.]
考点二 总体集中趋势的估计
名称 概念
平均数 如果有n个数x1,x2,…,xn,那么这组数据的平均数=(x1+x2+…+xn)
中位数 将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)叫做这组数据的中位数
众数 一组数据中出现次数最多的数据(即频数最大值所对应的样本数据)叫做这组数据的众数
[常用结论]
若x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,…,mxn+a的平均数为m+a.
样本的数字特征
[典例2] 在跳水比赛中,有8名评委分别给出某选手原始分,在评定该选手的成绩时,从8个原始分中去掉1个最高分和1个最低分,得到6个有效分,这6个有效分与8个原始分相比较,下列说法正确的是( )
A.中位数,平均分,方差均不变
B.中位数,平均分,方差均变小
C.中位数不变,平均分可能不变,方差变小
D.中位数,平均分,方差都发生改变
C [不妨设原始分为x1≤x2≤x3≤x4≤x5≤x6≤x7≤x8,且x1≠x8,则其中位数为,
则有效分为x2≤x3≤x4≤x5≤x6≤x7,则其中位数为,两者相等,所以中位数不变;
例如:原始分为1,2,2,2,2,2,2,3,则其平均数为2,
则有效分为2,2,2,2,2,2,则其平均数为2,两者相等,所以平均数可能不变;
因为从8个原始分中去掉1个最高分和1个最低分(最高分和最低分不相等),得到6个有效分,
即把波动最大的两个值去掉,则有效分比原始分更集中,波动性减小,
根据方差的定义可知:有效分的方差小于原始分的方差,即方差变小.故选C.]
反思领悟 中位数、众数和平均数分别反映了一组数据的“中等水平”“多数水平”和“平均水平”.
巩固迁移2 (多选)(2023·新高考Ⅰ卷)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则( )
A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数
B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数
C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差
D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差
BD [取x1=1,x2=x3=x4=x5=2,x6=9,则x2,x3,x4,x5的平均数等于2,标准差为0,x1,x2,…,x6的平均数等于3,标准差为=,故A,C均不正确;根据中位数的定义,将x1,x2,…,x6按从小到大的顺序进行排列,中位数是中间两个数的算术平均数,由于x1是最小值,x6是最大值,故x2,x3,x4,x5的中位数是将x2,x3,x4,x5按从小到大的顺序排列后中间两个数的算术平均数,与x1,x2,…,x6的中位数相等,故B正确;根据极差的定义,知x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差,故D正确.]
频率分布直方图中的数字特征
[典例3] 某学校为了解高三学生的学习情况,随机抽取了100名学生某次模拟考试数学成绩作为样本,并按照分数段[50,70),[70,90),[90,110),[110,130),[130,150]分组,绘制了如图所示的频率分布直方图.
(1)求出图中a的值并估计本次考试的及格率(“及格率”指得分为90分及以上的学生所占比例);
(2)估计该校高三学生模拟考试数学成绩的第80百分位数;
(3)估计该校高三学生模拟考试数学成绩的众数、平均数.
[解] (1)由频率分布直方图的性质,可得(a+0.004+0.013+0.014+0.016)×20=1,
解得a=0.003.
所以及格率为(0.016+0.014+0.003)×20=0.66=66%.
(2)得分在110以下的学生所占比例为(0.004+0.013+0.016)×20=0.66,
得分在130以下的学生所占比例为0.66+0.014×20=0.94,
所以第80百分位数位于[110,130)内,
由110+20×=120,估计第80百分位数为120.
(3)由频率分布直方图可得,众数的估计值为100.
平均数的估计值为0.08×60+0.26×80+0.32×100+0.28×120+0.06×140=99.6.
反思领悟 频率分布直方图中的数字特征
(1)众数:最高的矩形底边中点的横坐标.
(2)中位数:中位数左边和右边的矩形的面积和是相等的.
(3)平均数:平均数是频率分布直方图的“重心”,等于频率分布直方图中每个矩形的面积乘以小长方形底边中点的横坐标之和.
巩固迁移3 (2024·宜宾三模)为了加深师生对党史的了解,激发广大师生知史爱党、知史爱国的热情,某校举办了“学党史、育新人”的党史知识竞赛,并将1 000名师生的竞赛成绩(满分100分,成绩取整数)整理成如图所示的频率分布直方图,则下列说法错误的是( )
A.a的值为0.005
B.估计这组数据的众数为75分
C.估计成绩低于60分的有250人
D.估计这组数据的中位数为分
D [10×(2a+3a+3a+6a+5a+a)=1,解得a=0.005,故A正确;
由题图易得在区间[70,80)的人最多,故可估计这组数据的众数为75,故B正确;
10×0.005×(2+3)×1 000=250,故可估计成绩低于60分的有250人,即C正确;
由图中前三组面积之和为:(2+3+3)×0.005×10=0.4,前四组面积之和为:(2+3+3+6)×0.005×10=0.7,
故这组数据的中位数在第四组数据中,设这组数据的中位数为m,
则有0.4+6×0.005×(m-70)=0.5,
解得m≈73,即估计这组数据的中位数为73,故D错误.
故选D.]
考点三 总体离散程度的估计
1.方差和标准差
假设一组数据是x1,x2,…,xn,用表示这组数据的平均数,称为这组数据的方差,也可以写成的形式;称为这组数据的标准差.
2.总体方差和标准差
(1)一般式:如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为,则总体方差S2==1(Yi-)2.
(2)加权式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为S2=fi(Yi-)2.
总体标准差:S=.
3.样本方差和标准差
如果一个样本中个体的变量值分别为y1,y2,…,yn,样本平均数为,则称s2==1(yi-)2为样本方差,s=为样本标准差.
[常用结论]
数据x1,x2,…,xn的方差为s2.
(1)数据x1+a,x2+a,…,xn+a的方差为s2;
(2)数据ax1,ax2,…,axn的方差为a2s2.
[典例4] (2023·全国乙卷)某厂为比较甲、乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率,甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为xi,yi(i=1,2,…,10),试验结果如下:
试验 序号i 1 2 3 4 5 6 7 8 9 10
伸缩 率xi 545 533 551 522 575 544 541 568 596 548
伸缩 率yi 536 527 543 530 560 533 522 550 576 536
记zi=xi-yi(i=1,2,…,10),z1,z2,…,z10的样本平均数为,样本方差为s2.
(1)求,s2;
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(如果≥2,则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否则不认为有显著提高).
[解] (1)由题意,求出zi的值如表所示,
试验 序号i 1 2 3 4 5 6 7 8 9 10
zi 9 6 8 -8 15 11 19 18 20 12
则=×(9+6+8-8+15+11+19+18+20+12)=11,
s2=×[(9-11)2+(6-11)2+(8-11)2+(-8-11)2+(15-11)2+(11-11)2+(19-11)2+(18-11)2+(20-11)2+(12-11)2]=61.
(2)因为2=2==11=>,
所以可认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
反思领悟 标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)越大,数据的离散程度越大;标准差(方差)越小,数据的离散程度越小.
巩固迁移4 某校高一(1)班、(2)班的学生人数分别为40,42,在某次测验中,记(1)班所有学生的成绩分别为x1,x2,…,x40,平均成绩为,方差为,已知xi=3 200,=260 000.
(1)求;
(2)记(2)班所有学生的成绩分别为y1,y2,…,y42,其平均成绩为82,=6 834,试求两个班的所有学生的平均成绩(结果保留整数),并说明哪一个班的成绩比较稳定.
[解] (1)由题意可知,==80,
所以=-=×260 000-802=100.
(2)记(2)班的平均成绩为=82,
所以两个班所有学生的平均成绩为
==-=6 834-822=110,
因为,
所以(1)班的成绩比较稳定.
1.(人教A版必修第二册P198练习T1改编)某校为了了解学生的体能情况,于6月中旬在全校进行体能测试,统计得到所有学生的体能测试成绩均在[70,100]内.现将所有学生的体能测试成绩按[70,80),[80,90),[90,100]分成三组,绘制成如图所示的频率分布直方图.若根据体能测试成绩采用按比例分配的分层随机抽样的方法抽取20名学生作为某项活动的志愿者,则体能测试成绩在[90,100]内的被抽取的学生人数为( )
A.4 B.6
C.8 D.10
B [根据题意可得体能测试成绩在[90,100]内的被抽取的学生人数为20×0.3=6.故选B.]
2.一组样本数据由10个互不相同的数组成,若去掉其中最小的和最大的两个数得到一组新样本数据,则( )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本方差相同
C.两组样本数据的样本中位数相同
D.两组样本数据的样本极差相同
C [去掉其中最小的和最大的两个数得到一组新样本数据的平均数可能与原数据的平均数不同,新数据的方差变小,数据的中位数不变,数据的极差变小,故C正确.故选C.]
3.(人教A版必修第二册P204练习T2改编)某车间12名工人一天生产某产品(单位:kg)的数量分别为13.8,13,13.5,15.7,13.6,14.8,14,14.6,15,15.2,15.8,15.4,则所给数据的第25,50,75百分位数分别是________.
13.7,14.7,15.3 [将12个数据按从小到大排序:13,13.5,13.6,13.8,14,14.6,14.8,15,15.2,15.4,15.7,15.8.由i=12×25%=3,得所给数据的第25百分位数是第3个数据与第4个数据的平均数,即=13.7;由i=12×50%=6,得所给数据的第50百分位数是第6个数据与第7个数据的平均数,即=14.7;由i=12×75%=9,得所给数据的第75百分位数是第9个数据和第10个数据的平均数,即=15.3.]
4.已知一组数据x1,x2,…,xn的平均数是3.6,方差是2,则新数据x1+2,x2+2,…,xn+2的平均数是________,方差是________.
5.6 2 [∵数据x1,x2,…,xn的平均数是3.6,方差是2,∴新数据x1+2,x2+2,…,xn+2的平均数是3.6+2=5.6,方差为2.]
【教用·备选题】 1.(2025·镇江模拟)有一组数据:2,4,5,7,6,7,9,10,x,这组数据的平均数为6,则这组数据的方差为( ) A.5 B.6 C.7 D. D [由题意可知,×(2+4+5+7+6+7+9+10+x)=6,解得x=4, 所以这组数据的方差为×[(2-6)2+(4-6)2+(5-6)2+(7-6)2+(6-6)2+(7-6)2+(9-6)2+(10-6)2+(4-6)2]=.故选D.] 2.(2024·金华期末)高二某班男生20人,女生30人,男、女生身高平均数分别为170 cm,160 cm,方差分别为170,160,记该班全体同学身高的平均数为,方差为s2,则( ) A.>165,s2>165 B.<165,s2>165 C.>165,s2<165 D.<165,s2<165 B [由题意知=×170+×160=164<165, 故s2=[170+(170-164)2]+[160+(160-164)2]=188>165. 故选B.] 3.某公司为了调查员工的健康状况,由于女员工所占比重大,按性别分层,用按比例分配的分层随机抽样的方法抽取样本,样本中有39名女员工,女员工的平均体重为50 kg,标准差为6;有21名男员工,男员工的平均体重为70 kg,标准差为4.则样本中所有员工体重的标准差为( ) A.4 B.3 C.2 D.11 C [依题意,样本中所有员工的体重的平均值为×50+×70=57, 则样本中所有员工的体重的方差s2=×[62+(50-57)2]+×[42+(70-57)2]=120, 所以样本中所有员工体重的标准差为=2.故选C.] 4.(2024·周口期末)经调查得到两类群体一段时间里每天使用电脑的时间(单位:小时)统计如下:甲群体总人数为40,该群体每天使用电脑时间的平均数为8小时,方差为2;乙群体总人数为20,该群体每天使用电脑时间的平均数为7小时,方差为1,若将这两个群体混合后得到丙样本,则丙样本在这段时间里每天使用电脑时间的方差为( ) A. B. C. D.3 B [甲群体总人数为40,该群体每天使用电脑时间的平均数为8小时,方差为2;乙群体总人数为20,该群体每天使用电脑时间的平均数为7小时,方差为1, 则丙样本每天使用电脑时间的平均数为=(小时), 故丙样本每天使用电脑时间的方差为 =. 故选B.] 5.(2024·张家口期末)某时间段公路上车速的频率分布直方图如图所示,则( ) A.a=0.1 B.车速的众数估计值是70 C.车速的平均数估计值大于其中位数的估计值 D.车速的中位数估计值是62.5 D [对于A,由频率分布直方图得: 10(a+3a+4a+2a)=1,解得a=0.01,故A错误; 对于B,车速在[60,70)内的频率最大,车速的众数估计值为=65,故B错误; 对于C,车速的平均数为0.1×45+0.3×55+0.4×65+0.2×75=62, 车速的中位数m∈[60,70),则(m-60)×0.04=0.1,解得m=62.5, ∴车速的平均数估计值小于其中位数的估计值,故C错误; 对于D,车速的中位数估计值是62.5,故D正确. 故选D.] 6.已知x1,x2,…,x5的平均数和方差分别是2,1,若x6=8,则x1,x2,…,x6的平均数是____,2x1+1,2x2+1,…,2x6+1的方差是________. 3 [由题意得(x1+x2+…+x5)=2,所以x1+x2+…+x5=10, 所以(x1+x2+…+x5+x6)=×(10+8)=3, 即x1,x2,…,x6的平均数是3. 因为[(x1-2)2+(x2-2)2+…+(x5-2)2]=1, 则)-4(x1+x2+…+x5)+5×4=)-4×5×2+5×4=5,即=25, 所以x1,x2,…,x6的方差为 = ==, 所以2x1+1,2x2+1,…,2x6+1的方差是×22=.] 7.(2024·西宁大通县四模)现随机统计了甲12次投篮训练的投篮次数和乙8次投篮训练的投篮次数,得到如下数据: 甲777377818581778593737781乙7181737371738573
已知甲12次投篮次数的平均数=80,乙8次投篮次数的平均数=75. (1)求这20次投篮次数的中位数m,估计甲每次训练投篮次数超过m的概率; (2)求这20次投篮次数的平均数与方差s2. [解] (1)将这20个数据从小到大排列:71,71,73,73,73,73,73,73,77,77,77,77,81,81,81,81,85,85,85,93,第10个数和第11个数都是77,所以m=77, 估计甲每次训练投篮次数超过m的概率为=. (2)这20次投篮次数的平均数=+==78, 方差s2=×[2×(71-78)2+6×(73-78)2+4×(77-78)2+4×(81-78)2+3×(85-78)2+(93-78)2]=×660=33.
课后习题(六十八) 用样本估计总体
1.(人教A版必修第二册P211问题3改编)下列说法正确的是( )
A.在两组数据中,平均数较大的一组极差较大
B.平均数反映数据的集中趋势,方差反映数据波动的大小
C.方差的求法是求出各个数据与平均数的差的平方后再求和
D.在记录两个射击环数的两组数据中,方差大说明射击水平稳定
B [平均数反映数据的集中趋势,平均数的大小并不能说明该组数据极差的大小,所以A错误;平均数反映数据的集中趋势,方差反映数据波动的大小,所以B正确;一组数据x1,x2,…,xn,其平均数为)2,所以C错误;方差大说明射击水平不稳定,所以D错误.故选B.]
2.(苏教版必修第二册P270本章测试T7改编)10名工人某天生产同一零件,生产的件数分别是15,17,14,10,15,17,17,16,14,12,设其平均数为a,中位数为b,众数为c,则( )
A.a>b>c B.b>c>a
C.c>a>b D.c>b>a
D [由已知得a=×(15+17+14+10+15+17+17+16+14+12)=14.7,将这10名工人生产的件数按从小到大的顺序排列,得第5个数据和第6个数据都是15,
所以b=×(15+15)=15,又c=17,所以c>b>a.故选D.]
3.(苏教版必修第二册P271本章测试T10改编)某学校共有学生2 000人,其中高一800人,高二、高三各600人,学校对学生在暑假期间每天的读书时间做了调查统计,全体学生每天的读书时间的平均数为=3,方差为s2=1.966,其中三个年级学生每天读书时间的平均数分别为=2.7,=3.1,=3.3,又已知高一学生、高二学生每天读书时间的方差分别为==2,则高三学生每天读书时间的方差=________.
3 [由题意可得,1.966=+(3.3-3)2],
解得=3.]
4.(湘教版必修第一册P253练习T2改编)某市为了鼓励居民节约用电,实行“阶梯式”电价,将该市每户居民的月用电量(单位:千瓦时)划分为三档,月用电量不超过200千瓦时的部分按0.5元/千瓦时收费,超过200千瓦时但不超过400千瓦时的部分按0.8元/千瓦时收费,超过400千瓦时的部分按1.0元/千瓦时收费.
(1)求某户居民月用电费用y(单位:元)关于月用电量x(单位:千瓦时)的函数解析式;
(2)为了了解居民的用电情况,通过抽样获得了今年1月份100户居民每户的用电量,统计分析后得到如图所示的频率分布直方图.若这100户居民中,今年1月份用电费用低于260元的占80%,求a,b的值;
(3)根据(2)中求得的数据计算用电量的75%分位数.
[解] (1)当0≤x≤200时,y=0.5x;
当200当x>400时,y=0.5×200+0.8×200+1.0×(x-400)=x-140.
所以y与x之间的函数解析式为
y=
(2)由(1)可知,当y=260时,x=400,即用电量低于400千瓦时的占80%,
结合频率分布直方图可知
解得a=0.001 5,b=0.002 0.
(3)用电量低于300千瓦时的所占比例为(0.001 0+0.002 0+0.003 0)×100×100%=60%,
同理得用电量低于400千瓦时的占80%,所以75%分位数在[300,400)内,所以300+×100=375,即用电量的75%分位数为375千瓦时.
5.(2024·遵义二模)样本数据11,12,13,15,16,13,14,15,11的第一四分位数为( )
A.11.5 B.12
C.12.5 D.13
B [将样本数据按照从小到大的顺序排列依次为11,11,12,13,13,14,15,15,16,
第一四分位数即第25百分位数,9×25%=2.25,则第一四分位数取第三个数据,即12.
故选B.]
6.(2025·淮北模拟)四名同学各掷骰子5次,分别记录每次骰子出现的点数,根据四名同学的统计结果,可以判断出一定没有出现点数6的是( )
A.平均数为3,中位数为2
B.中位数为3,众数为2
C.平均数为2,方差为2.4
D.中位数为3,方差为2.8
C [对于A,当投掷骰子出现结果为1,1,2,5,6时,满足平均数为3,中位数为2,可以出现点数6,故A错误;对于B,当投掷骰子出现结果为2,2,3,4,6时,满足中位数为3,众数为2,可以出现点数6,故B错误;对于C,若平均数为2,且出现6点,则方差s2>(6-2)2=3.2>2.4,
所以平均数为2,方差为2.4时,一定没有出现点数6,故C正确;
对于D,当投掷骰子出现结果为1,2,3,3,6时,满足中位数为3,
则=(1+2+3+3+6)=3,
则s2=[(1-3)2+(2-3)2+(3-3)2+(3-3)2+(6-3)2]=2.8,可以出现点数6,故D错误.故选C.]
7.(2025·阜阳模拟)从某市的中学生中随机调查了部分男生,获得了他们的身高数据,整理得到如图所示的频率分布直方图:
根据频率分布直方图,可知这部分男生的身高的中位数的估计值为( )
A.171.25 cm B.172.75 cm
C.173.75 cm D.175 cm
C [根据题意,(0.005×2+a+0.020×2+0.040)×10=1,则a=0.010,
则(0.005+0.010+0.020)×10=0.35,0.35+0.040×10=0.75>0.5,
则这部分男生的身高的中位数的估计值为170+×10=173.75 (cm),
则中位数为173.75.故选C.]
8.(2025·厦门模拟)如图,一组数据x1,x2,x3,…,x9,x10的平均数为5,方差为,去除x9,x10这两个数据后,平均数为,方差为,则( )
A. B.
C.= D.=
D [由题意可得:xi=5,x9=1,x10=9,则xi=50,
故=xi==(50-1-9)=5,
∵x9,x10是波动最大的两个点的值,则去除x9,x10这两个数据后,整体波动性减小,
故.
故选D.]
9.(多选)(2024·宁德期末)若x是样本数据a,b,c,d的平均数,则( )
A.a,b,c,d的极差等于a,b,c,d,x的极差
B.a,b,c,d的中位数等于a,b,c,d,x的中位数
C.a,b,c,d的众数等于a,b,c,d,x的众数
D.a,b,c,d的方差大于a,b,c,d,x的方差
AD [设样本数据a,b,c,d中,最小值为a,最大值为d.
A项,样本数据a,b,c,d的平均数为x,其极差为d-a,而样本数据a,b,c,d,x加入原样本数据的平均数x,其最值和原样本数据是一样的,则极差还是d-a,故A正确;
B项,由于样本数据a,b,c,d的中位数为,而样本数据a,b,c,d,x的中位数为b,c,x中排在中间的数,则原样本数据的中位数不一定等于新样本数据的中位数,故B错误;
C项,由于样本数据a,b,c,d与样本数据a,b,c,d,x的数据都没有实际数据,均没办法判断众数,故C错误;
D项,样本数据a,b,c,d的方差为[(a-x)2+(b-x)2+(c-x)2+(d-x)2],样本数据a,b,c,d,x的方差为[(a-x)2+(b-x)2+(c-x)2+(d-x)2+(x-x)2]=[(a-x)2+(b-x)2+(c-x)2+(d-x)2],显然前者更大,故D正确.
故选AD.]
10.(2024·保定期末)某校学生组织数学知识竞答(满分100),并从中随机抽取了100名学生的成绩为样本,分成[50,60),[60,70),[70,80),[80,90),[90,100],得到如图所示频率分布直方图,估计该校学生数学知识竞答成绩的平均数为________.
75.5 [由(a+0.02+0.035+0.025+a)×10=1,解得a=0.01,
估计该校学生数学知识竞答成绩的平均数为55×0.1+65×0.2+75×0.35+85×0.25+95×0.1=75.5.]
11.(2025·珠海模拟)某班有男学生20人,女学生30人,为调查学生的课后阅读情况,现将学生分成男生、女生两个小组.对两组学生某个月的课后阅读时长进行统计,情况如下表:
课后阅读时长平均数(小时) 方差
男生组 25 1
女生组 26 1.1
则该班学生这个月的课后阅读时长平均数为________,方差为________.
25.6 1.3 [由题意可知,该班学生这个月的课后阅读时长平均数为=×25+×26=25.6,
所以该班学生这个月的课后阅读时长方差为
s2=×[1+(25-25.6)2]+×[1.1+(26-25.6)2]=1.3.]
12.(2025·吴忠模拟)某蛋糕店计划按天生产一种面包,每天生产量相同,生产成本每个6元,售价每个8元,未售出的面包降价处理,以每个5元的价格当天全部处理完.
(1)若该蛋糕店一天生产30个这种面包,求当天的利润y(单位:元)关于当天需求量n(单位:个,n∈N)的函数解析式;
(2)蛋糕店记录了30天这种面包的日需求量(单位:个),整理得表:
日需求量n 28 29 30 31 32 33
频数 3 4 6 6 7 4
假设蛋糕店在这30天内每天生产30个这种面包,求这30天的日利润(单位:元)的平均数及方差;
(3)蛋糕店规定:若连续10天的日需求量都不超过10个,则立即停止这种面包的生产,现给出连续10天日需求量的统计数据为“平均数为6,方差为2”,试根据该统计数据决策是否一定要停止这种面包的生产?并给出理由.
[解] (1)由题意可知,当天需求量n<30时,当天的利润y=8n+5(30-n)-6×30=3n-30,
当天需求量n≥30时,当天的利润y=8×30-6×30=60.
故当天的利润y关于当天需求量n的函数解析式为y=n∈N.
(2)由题意可得:
日需求量n 28 29 30 31 32 33
日利润 54 57 60 60 60 60
频数 3 4 6 6 7 4
所以这30天的日利润的平均数为
=59(元),
方差为
=3.8.
(3)根据该统计数据,一定要停止这种面包的生产.理由如下:
由s2===2,
可得(x1-6)2+(x2-6)2+…+(x10-6)2=20,
所以(xk-6)2≤20(1≤k≤10,k∈N,xk∈N),所以xk≤10,
由此可以说明连续10天的日需求量都不超过10个,即说明一定要停止这种面包的生产.
1/1第2课时 用样本估计总体
[考试要求] 1.能用样本估计总体的取值规律,会求n个数据的第p百分位数.2.结合实例,能用样本估计总体的集中趋势参数(平均数、中位数、众数),理解集中趋势参数的统计含义.3.结合实例,能用样本估计总体的离散程度参数(标准差、方差、极差),理解离散程度参数的统计含义.
考点一 总体百分位数的估计
1.百分位数的定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有____的数据小于或等于这个值,且至少有________________的数据大于或等于这个值.
2.计算一组n个数据的第p百分位数的步骤
第1步,按从__到__排列原始数据.
第2步,计算i=________.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第__项数据;若i是整数,则第p百分位数为第__项与第__________项数据的平均数.
3.四分位数
(1)______________________这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
(2)第____百分位数又称第一四分位数或下四分位数;第____百分位数又称第三四分位数或上四分位数.
[典例1] (1)(2025·长沙模拟)已知某位自行车赛车手在相同条件下进行了8次测速,测得其最大速度(单位:m/s)的数据分别为42,38,45,43,41,47,44,46,则这组数据中的75%分位数是( )
A.44.5 B.45
C.45.5 D.46
(2)某校组织高中学生参加航天知识竞赛,现从中随机抽取100名学生的成绩,其频率分布直方图如图所示,则这组样本数据的75%分位数为________.
[听课记录]
反思领悟 本例(1)中,求百分位数的关键是将原始数据从小到大排列,在此基础上准确计算;本例(2),求频率分布直方图中的百分位数,根据频率计算.
巩固迁移1 (1)(2024·广州月考)已知一组数据34,36,39,41,44,45,x,50的第65百分位数是45,那么实数x的取值范围是( )
A.[45,+∞) B.(45,+∞)
C.(45,50) D.[45,50]
(2)为了解学生在课外读物方面的支出情况,抽取了100个同学进行调查,结果显示这些同学的支出都在[10,50](单位:元),其频率分布直方图如图所示,估计学生课外读物支出的样本数据的第65百分位数为________.(精确到0.01)
考点二 总体集中趋势的估计
名称 概念
平均数 如果有n个数x1,x2,…,xn,那么这组数据的平均数=__________________
中位数 将一组数据按从小到大或从大到小的顺序排列,处在________________(当数据个数是奇数时)或______________________(当数据个数是偶数时)叫做这组数据的中位数
众数 一组数据中出现次数最__的数据(即频数最大值所对应的样本数据)叫做这组数据的众数
[常用结论]
若x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,…,mxn+a的平均数为m+a.
样本的数字特征
[典例2] 在跳水比赛中,有8名评委分别给出某选手原始分,在评定该选手的成绩时,从8个原始分中去掉1个最高分和1个最低分,得到6个有效分,这6个有效分与8个原始分相比较,下列说法正确的是( )
A.中位数,平均分,方差均不变
B.中位数,平均分,方差均变小
C.中位数不变,平均分可能不变,方差变小
D.中位数,平均分,方差都发生改变
[听课记录]
反思领悟 中位数、众数和平均数分别反映了一组数据的“中等水平”“多数水平”和“平均水平”.
巩固迁移2 (多选)(2023·新高考Ⅰ卷)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则( )
A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数
B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数
C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差
D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差
频率分布直方图中的数字特征
[典例3] 某学校为了解高三学生的学习情况,随机抽取了100名学生某次模拟考试数学成绩作为样本,并按照分数段[50,70),[70,90),[90,110),[110,130),[130,150]分组,绘制了如图所示的频率分布直方图.
(1)求出图中a的值并估计本次考试的及格率(“及格率”指得分为90分及以上的学生所占比例);
(2)估计该校高三学生模拟考试数学成绩的第80百分位数;
(3)估计该校高三学生模拟考试数学成绩的众数、平均数.
[听课记录]
反思领悟 频率分布直方图中的数字特征
(1)众数:最高的矩形底边中点的横坐标.
(2)中位数:中位数左边和右边的矩形的面积和是相等的.
(3)平均数:平均数是频率分布直方图的“重心”,等于频率分布直方图中每个矩形的面积乘以小长方形底边中点的横坐标之和.
巩固迁移3 (2024·宜宾三模)为了加深师生对党史的了解,激发广大师生知史爱党、知史爱国的热情,某校举办了“学党史、育新人”的党史知识竞赛,并将1 000名师生的竞赛成绩(满分100分,成绩取整数)整理成如图所示的频率分布直方图,则下列说法错误的是( )
A.a的值为0.005
B.估计这组数据的众数为75分
C.估计成绩低于60分的有250人
D.估计这组数据的中位数为分
考点三 总体离散程度的估计
1.方差和标准差
假设一组数据是x1,x2,…,xn,用表示这组数据的平均数,称为这组数据的方差,也可以写成的形式;称为这组数据的标准差.
2.总体方差和标准差
(1)一般式:如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为,则总体方差S2==1(Yi-)2.
(2)加权式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为S2=fi(Yi-)2.
总体标准差:S=.
3.样本方差和标准差
如果一个样本中个体的变量值分别为y1,y2,…,yn,样本平均数为,则称s2==1(yi-)2为样本方差,s=为样本标准差.
[常用结论]
数据x1,x2,…,xn的方差为s2.
(1)数据x1+a,x2+a,…,xn+a的方差为s2;
(2)数据ax1,ax2,…,axn的方差为a2s2.
[典例4] (2023·全国乙卷)某厂为比较甲、乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率,甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为xi,yi(i=1,2,…,10),试验结果如下:
试验 序号i 1 2 3 4 5 6 7 8 9 10
伸缩 率xi 545 533 551 522 575 544 541 568 596 548
伸缩 率yi 536 527 543 530 560 533 522 550 576 536
记zi=xi-yi(i=1,2,…,10),z1,z2,…,z10的样本平均数为,样本方差为s2.
(1)求,s2;
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(如果≥2,则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否则不认为有显著提高).
[听课记录]
反思领悟 标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)越大,数据的离散程度越大;标准差(方差)越小,数据的离散程度越小.
巩固迁移4 某校高一(1)班、(2)班的学生人数分别为40,42,在某次测验中,记(1)班所有学生的成绩分别为x1,x2,…,x40,平均成绩为,方差为,已知xi=3 200,=260 000.
(1)求;
(2)记(2)班所有学生的成绩分别为y1,y2,…,y42,其平均成绩为82,=6 834,试求两个班的所有学生的平均成绩(结果保留整数),并说明哪一个班的成绩比较稳定.
1.(人教A版必修第二册P198练习T1改编)某校为了了解学生的体能情况,于6月中旬在全校进行体能测试,统计得到所有学生的体能测试成绩均在[70,100]内.现将所有学生的体能测试成绩按[70,80),[80,90),[90,100]分成三组,绘制成如图所示的频率分布直方图.若根据体能测试成绩采用按比例分配的分层随机抽样的方法抽取20名学生作为某项活动的志愿者,则体能测试成绩在[90,100]内的被抽取的学生人数为( )
A.4 B.6
C.8 D.10
2.一组样本数据由10个互不相同的数组成,若去掉其中最小的和最大的两个数得到一组新样本数据,则( )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本方差相同
C.两组样本数据的样本中位数相同
D.两组样本数据的样本极差相同
3.(人教A版必修第二册P204练习T2改编)某车间12名工人一天生产某产品(单位:kg)的数量分别为13.8,13,13.5,15.7,13.6,14.8,14,14.6,15,15.2,15.8,15.4,则所给数据的第25,50,75百分位数分别是________.
4.已知一组数据x1,x2,…,xn的平均数是3.6,方差是2,则新数据x1+2,x2+2,…,xn+2的平均数是________,方差是________.
1/1