9.2 用样本估计总体
1、频率分布直方图
(1)列出样本数据的频率分布表和频率分布直方图的步骤:
①计算极差:找出数据的最大值与最小值,计算它们的差;
②决定组距与组数:当样本容量不超过100时,按照数据的多少分成5~12组,且;
③将数据分组:通常对组内数值所在区间区左闭右开区间,最后一组取闭区间;也可以将样本数据多取一位小数分组.
④列频率分布表:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.
⑤绘制频率分布直方图:以数据的值为横坐标,以的值为纵坐标绘制直方图。
(2)频率分布直方图的特点:
①,
②个小长方形的面积等于1,
③.
(3)频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.
(4)总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.
2、用样本的平均数估计总体平均数
(1)众数:在样本数据中,出现次数最多的那个数据;
(2)中位数:将样本数据按大小顺序排列,若数据的个数为奇数,则最中间的数据为中位数,若样本数据个数为偶数,则取中间两个数据的平均数作为中位数。
(3)平均数:设样本的数据为,则样本的算术平均数为;
(4)众数、中位数、平均数的异同:
①众数、中位数、平均数都是描述一组数据集中趋势的量,平均数是最重要的量;
②平均数的大小与一组数据里每个数据均有关系,任何一个数据的变动都会引起平均数的变动;
③众数考察各数据出现的频率,大小只与这组数据中的部分数据有关,当一组数据中有不少数据多次重复出现时,众数往往更能反映问题;
④中位数仅与数据的排列位置有关,某些数据的变动对中位数没有影响,中位数可能出现在所给数据中,也可能不在所给数据中,当一组数据中的个别数据变动较大时,可用中位数描述其集中趋势;
⑤实际问题中求得的平均数、众数和中位数应带上单位。
(5)平均数相关结论:
①如果两组数和的平均数分别是和,则一组数的平均数是;
②如果一组数的平均数为,则一组数的平均数为。
③如果一组数的平均数为,则一组数的平均数为
3、用样本的标准差估计总体的标准差
(1)数据的离散程度可以用极差、方差或标准差来描述;
(2)极差(又叫全距)是一组数据的最大值和最小值之差,反映一组数据的变动幅度;
(3)样本方差描述了一组数据围绕平均数波动的大小;
一般地,设样本的数据为,样本的平均数为,
定义样本方差为;
简化公式:
=(方差等于原数据平方的平均数减去平均数的平方)
(4)样本的标准差是方差的算术平方根.
样本标准差.
标准差越大数据离散程度越大,数据家分散;标准差越小,数据集中在平均数周围.
(5)方差相关结论:
①如果一组数的方差为,则一组数的方差为;
②如果一组数的方差为,则一组数的方差为。
题型一 频率分布直方图
例 1 调查某校高三年级男生的身高,随机抽取40名高三男生,实测身高数据(单位:cm)如下:
171 163 163 166 166 168 168 160 168 165
171 169 167 169 151 168 170 168 160 174
165 168 174 159 167 156 157 164 169 180
176 157 162 161 158 164 163 163 167 161
(1)作出频率分布表;
(2)画出频率分布直方图.
【答案】(1)分布表见解析 (2)直方图见解析
【分析】
(1)根据所给数据,可得身高的极差,确定分组后,即可得频率分布表.
(2)根据频率分布表,可画出频率分布直方图.
【详解】
(1)最低身高151 cm,最高身高180 cm,它们的差是,即极差为29.确定组距为4,组数为8,频率分布表如下:
分组 频数 频率
1 0.025
3 0.075
6 0.15
9 0.225
14 0.35
3 0.075
3 0.075
1 0.025
合计 40 1
(2)组距为4,结合频率分布表,可计算各组的,即可得频率分布直方图如下图所示.
某校高三年级有500名学生,为了了解数学学科的学习情况,现随机抽出若干名学生在一次测试中的数学成绩(满分150分),制成如下频率分布表:
分组 频数 频率
① ②
0.050
0.200
12 0.300
0.275
4 ③
0.050
合计
④
(1)①②③④处应分别填什么?
(2)根据频率分布表完成频率分布直方图.
(3)试估计该校高三年级在这次测试中数学成绩的平均分.
【答案】(1)①处应填1, ②处应填0.025,③处应填0.100, ④处应填1.000
(2)直方图见解析
(3)117.5
【分析】
(1)由频率分布表,这组的数据可求得抽取的总人数,从而可得③,④显然为1,由总频率为1可求得②,从而又能得到①;
(2)用各组数据中间值乘以频率后相加可得估计值.
【详解】
(1)由统计知识,知④处应填1.000;由频率分布表,知抽出的总人数为.又,故③处应填0.100.
,故②处应填0.025,又,故①处应填1.
(2)频率分布直方图如图所示:
(3)利用组中估算得平均数
,即该校高三年级在这次测试中数学成绩的平均分约为117.5分.
题型二 分位数
例 2 下表记录了一个家庭6月份每天在食品上面的消费金额:(单位:元)
第1天 第2天 第3天 第4天 第5天 第6天 第7天 第8天 第9天 第10天
31 29 26 32 34 28 34 31 34 34
第11天 第12天 第13天 第14天 第15天 第16天 第17天 第18天 第19天 第20天
35 26 27 35 34 28 28 30 32 28
第21天 第22天 第23天 第24天 第25天 第26天 第27天 第28天 第29天 第30天
32 26 35 34 35 30 28 34 31 29
求该家庭6月份每天在食品上面的消费金额的5%,25%,50%,75%,95%分位数.
【答案】见解析
【分析】
将所有数据由小到大排列,再分别计算总数30的5%,25%,50%,75%,95%再进行对应的分位数计算即可.
【详解】
该样本共有30个数据,所以30×5%=1.5,30×25%=7.5,30×50%=15,30×75%=22.5,
30×95%=28.5
将所有数据由小到大排列得:26,26,26,27,28,28,28,28,28,29,29,30,30,31,3131,32,32,32,34,34,34,34,34,34,34,35,35.
从而得5个百分位数如下表:
百分位数 5% 25% 50% 75% 95%
消费金额/元 26 28 31 34 35
根据所给的以下数据:3.81,3.65,3.68,3.83,3.68,3.80,3.72,3.73,3.75,3.80,求他们的75%,50%分位数.
【答案】3.80;3.74
【分析】
将所给数据从小到大排列,根据分位数的计算公式可得解.
【详解】
把这组数据从小到大排列,得3.65,3.68,3.68,3.72,3.73,3.75,3.80,3.80,3.81,3.83,
,所以75%分位数为3.80,
,则50%分位数为
故答案为: 3.80;3.74
题型三 方差与标准差
例 3 2020年年初,新冠肺炎疫情袭击全国.口罩成为重要的抗疫物资,为了确保口罩供应,某工厂口罩生产线高速运转,工人加班加点生产,设该工厂连续5天生产的口罩数依次为x1,x2,x3,x4,x5(单位:十万只),若这组数据x1,x2,x3,x4,x5的方差为1.44,且x12,x22,x32,x42,x52的平均数为4,则该工厂这5天平均每天生产口罩___________十万只.
【答案】1.6
【分析】
由题意结合平均数,方差的定义整理计算即可求得最终结果.
【详解】
设该工厂这5天平均每天生产口罩为,
由题意可得,
则,
由,
可得,
解得.
故答案为:1.6
已知一组数据的频率分布直方图如下.则众数是__________,中位数是__________,平均数是 __________.
【答案】65 65 67
【分析】
由众数、中位数及平均数的概念结合频率分布直方图,计算即可得解.
【详解】
因为最高矩形横坐标的中点为65,所以众数为65;
设中位数为,则,解得,所以中位数为65;
平均数.
故答案为:65;65;67.
1、对某活动中800名志愿者的年龄抽样调查,统计后得到频率分布直方图(如图),但是年龄组的数据不慎丢失,依据此图回答以下问题.
(1)年龄组对应小矩形的高度为______;
(2)据此估计本次活动中志愿者年龄在内的人数为______.
【答案】0.04. 440.
【分析】
(1)通过频率分布直方图中各小长方形面积之和为1,列方程计算即可;
(2)先计算出志愿者年龄在内的频率,再计算人数即可.
【详解】
(1)设年龄组对应小矩形的高度为,则,解得;
(2)由(l)得志愿者年龄在内的频率为,故志愿者年龄在内的人数约为.
故答案为:(l)0.04;(2)440
2、某校年级长为了解本校高三学生一模考试的数学成绩(单位:分),随机抽取30名学生的一模数学考试,如下所示:
110 144 125 63 89 121 145 123 174 96
97 142 115 68 83 116 139 124 85 98
132 147 128 133 99 117 103 113 96 141
估计该校高三学生一模数学成绩的25%分位数为______,50%分位数为______.
【答案】96. 115.5.
【分析】
先将学生的成绩从小到大排列,分别计算25%分位数和50%分位数的位置,再求出这两个数即可.
【详解】
把这30名学生的数学成绩按从小到大的顺序排列为63,68,74,83,85,89,96,96,97,98,99,107,110,113,115,116,117,121,123,124,125,128,132,133,139,141,142,144,145,147.
因为,所以这30名学生一模数学成绩的25%分位数为从小到大排列后第8名学生的成绩,即96,
因为,所以这30名学生一模数学成绩的50%分位数为从小到大排列后第15名同学和第16名同学成绩的平均数,即.
故答案为:96;115.5
3、某市举行“中学生诗词大赛”,某校有1000名学生参加了比赛,从中抽取100名学生,统计他们的成绩(单位:分),并进行适当的分组(每组为左闭右开的区间),得到的频率分布直方图如图所示,则估计该校学生成绩的80%分位数为______.
【答案】122.
【分析】
通过计算成绩在130分以下的学生和成绩在110分以下的学生所占比例,确定80%分位数所在位置,利用比例求解即可.
【详解】
根据频率分布直方图可知,成绩在130分以下的学生所占比例为,
成绩在110分以下的学生所占比例为,
因此80%分位数一定位于内,
由,故可估计该校学生成绩的80%分位数为122.
故答案为:122
4、某中学有初中学生1800人,高中学生1200人.为了解学生本学期课外阅读情况,现采用分层随机抽样的方法,从中抽取了100名学生,先统计了他们的课外阅读时间,然后按初中学生和高中学生分为两组,再将每组学生的阅读时间(单位:h)分为5组:,,,,,并分别加以统计,得到如图所示的频率分布直方图,试估计该校所有学生中,阅读时间不小于30h的学生人数为_______
【答案】870
【分析】
由分层抽样求出初中高中各被抽取的人数,再由频率分布直方图计算出频率,然后计算阅读时间不小于30h的人数,相加可得.
【详解】
由分层随机抽样,知抽取的初中生有60名,高中生有40名.因为初中学生中阅读时间不小于30h的频率为,所以该校所有的初中学生中,阅读时间不小于30h的学生人数约为,同理,高中学生中阅读时间不小于30h的频率为,故该校所有的高中学生中,阅读时间不小于30h的学生人数约为.所以该校所有学生中,阅读时间不小于30h的学生人数约为.
故答案为:870.
5、某服装店对过去100天实体店和网店的销售量(单位:件)进行了统计,制成频率分布直方图如下:
(1)已知该服装店过去100天的销售中,实体店和网店的销售量都不低于50件的频率为0.24,求过去100天的销售中,实体店和网店至少有一边销售量不低于50件的天数;
(2)根据频率分布直方图,求该服装店网店销售量的中位数的估计值(精确到0.01).
【答案】(1)80
(2)
【分析】
(1)由频率分布直方图分别求出网店和实体店销售量不低于50件的天数,相加后减去实体店和网店销售量都不低于50件的天数可得;
(2)网店频率分布直方图中频率为0.5对应的点的数值就是中位数.即过中位数那一点作横轴垂线,把频率等分.
【详解】
(1)由题意,知网店销售量不低于50件的天数为,实体店销售量不低于50件的天数为,实体店和网店销售量都不低于50件的天数为,故实体店和网店至少有一边销售量不低于50件的天数为.
(2)由网店销售量频率分布直方图,知销售量低于50件的频率为,销售量低于55件的频率为,故网店销售量的中位数的估计值为.
6、已知甲、乙两人在相同条件下各射靶10次,每次射靶的成绩情况如图所示.
(1)求甲、乙两人射击命中环数的平均数和方差;
(2)请根据甲、乙两人射击命中环数的平均数和方差,分析谁的射击水平高.
【答案】(1),,,;(2)甲的射击水平高
【解析】
【分析】
结合折线图,套用公式算出两人环数的平均数与方差,平均数相同,方差小的更稳定,射击水平更高.
【详解】
(1)由折线图可知甲射击10次中靶环数分别为9,5,7,8,7,6,8,6,7,7.
乙射击10次中靶环数分别为2,4,6,8,7,7,8,9,9,10.
.
,
,
(2)因为,,
所以甲的射击稳定性比乙好,故甲的射击水平高.
7、对甲、乙两名自行车赛手在相同条件下进行了6次测试,测得他们的最大速度(单位:m/s)的数据如下:
分别求出甲、乙两名自行车赛手最大速度数据的平均数、极差、方差,并判断选谁参加比赛比较合适?
【答案】,,,.甲的极差为11,乙的极差为10,选乙参加比赛比较合适.
【分析】
根据图表,计算出甲、乙的平均数,方差和极差,平均数相等时,方差小的更稳定,由此可得到本题答案.
【详解】
,
,
甲的极差为11,乙的极差为10.
由甲、乙平均数相等,乙的方差较小,知选乙参加比赛比较合适.
8、某中学团委组织了“纪念抗日战争胜利73周年”的知识竞赛,从参加竞赛的学生中抽出60名学生,将其成绩(均为整数)分成六段,,…,后,画出如图所示的部分频率分布直方图.观察图形给出的信息,回答下列问题:
(1)求第四组的频率,并补全这个频率分布直方图;
(2)估计这次竞赛的及格率(60分及以上为及格)和平均分(同一组中的数据用该组区间的中点值代表)
【答案】(1)0.3 (2);71
【分析】
(1)利用频率分布直方图中的各组的频率和等于1,求出第四小组的频率,求出纵坐标,补全这个频率分布直方图即可.
(2)求出60及以上的分数所在的第三、四、五、六组的频率和;利用组中值估算抽样学生的平均值为各组的中点乘以各组的频率和为平均值.
【详解】
解:(1)因为各组的频率和等于1,
故第四组的频率:,
频率分布直方图第四小组的纵坐标是:,
则频率分布直方图如下图所示:
(2)依题意,60及以上的分数所在的第三、四、五、六组,
频率和为,
所以,抽样学生成绩的合格率是,
利用组中值估算抽样学生的平均分为:
,
所以估计这次考试的平均分是71.
9、我国是世界上严重缺水的国家之一,某市为了制定合理的节水方案,对家庭用水情况进行了调查,通过抽样,获得了某年100个家庭的月均用水量(单位:t),将数据按照,,,,分成5组,制成了如图所示的频率分布直方图.
(1)记事件A:“全市家庭月均用水量不低于6t”,求的估计值;
(2)假设同组中的每个数据都用该组区间的中点值代替,求全市家庭月均用水量平均数的估计值(精确到0.01);
(3)求全市家庭月均用水量的25%分位数的估计值(精确到0.01).
【答案】(1)0.3;(2)4.92 t.;(3)
【分析】
(1)通过频率分布直方图求得的频率,由此求得的估计值.
(2)根据由频率分布直方图计算平均数的方法,计算出全市家庭月均用水量平均数的估计值.
(3)通过频率分布直方图,计算出累计频率为的位置,从而求得全市家庭月均用水量的25%分位数的估计值.
【详解】
(1)由直方图可知的估计值为.
(2)因为.
因此全市家庭月均用水量的平均数估计值为4.92 t.
(3)频率分布直方图中,用水量低于2 t的频率为.
用水量低于4 t的频率为.
故全市家庭月均用水量的25%分位数的估计值为.