第二章 统计
2.2 用样本估计总体
知识
1.用样本的频率分布估计总体分布
(1)频率分布直方图
频率分布是指一个样本数据在各个小范围内所占比例的大小.一般用频率分布直方图反映样本的频率分布,频率分布直方图的绘制步骤如下:
①求极差(即一组数据中_________与_________的差).
②决定组距与组数.组距与组数的确定没有固定标准,需要一个尝试与选择的过程.组数与样本容量有关,一般样本容量越大,所分组数越多.当样本容量不超过100时,按照数据的多少,常分成5~12组.
为方便起见,组距的选择应力求“取整”..
③将数据分组.通常对组内数值所在区间取左闭右开区间,最后一组取闭区间.
④列频率分布表.落在各小组内的数据的个数叫做频数,每小组的频数与数据总数的比值叫做这一小组的频率.计算各小组的频率,作出频率分布表.
⑤画频率分布直方图:依据频率分布表画频率分布直方图,其中纵坐标(小长方形的高)表示频率与组距的比值,其相应组距上的频率等于该组上的小长方形的面积,即.这样,频率分布直方图就以面积的形式反映了数据落在各个小组的频率的大小,各个小长方形面积的总和等于__________.
(2)总体密度曲线
①频率分布折线图:连接频率分布直方图中各小长方形上端的__________,就得到频率分布折线图.
②总体密度曲线:随着样本容量的增加,作频率分布直方图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.总体密度曲线反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息.
(3)茎叶图
①概念:统计中有一种被用来表示数据的图叫做茎叶图.茎是指基本不变或变化不大的位,叶就是从茎的旁边生长出来的数.
②绘制步骤:(a)将数据分为“茎”、“叶”两部分;(b)将最大茎与最小茎之间的数字按大小顺序排成一列,茎相同者共用一个茎,再画上竖线作为分界线;(c)将各个数据的“叶”按大小顺序在分界线的一侧对应茎处同行列出.
③优缺点:在样本数据较少时,用茎叶图表示数据的效果较好.它不但可以保留所有信息,而且可以随时记录,这对数据的记录和表示都能带来方便.但当样本数据较多或数据位数较多时,茎叶图就显得不太方便,因为每一个数据都要在图中占据一定的空间,如果数据很多,枝叶就会很长.
注意:绘制茎叶图时,重复出现的数据要重复记录,不能遗漏,特别是“叶”位置的数据.同一数据出现几次,就要在图中体现几次.
2.用样本的数字特征估计总体的数字特征
(1)众数、中位数、平均数
①众数:在一组数据中出现次数__________的数据叫做这组数据的众数.在频率分布直方图中,它是最高的小长方形的__________.
②中位数:将一组数据按__________顺序依次排列,把处在最__________位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
③平均数:个样本数据的平均数为.由于样本平均数与每一个样本数据有关,所以,任何一个样本数据的改变都会引起平均数的改变.但特殊情况下,平均数可能受极端值的影响而偏离一般情况.
在频率分布直方图中,平均数的估计值等于__________.
(2)标准差和方差
①标准差:标准差是样本数据到平均数的一种平均距离,一般用s表示.假设样本数据是,表示这组数据的平均数,则标准差.
②方差:方差就是标准差的平方,即.显然,在刻画样本数据的分散程度上,方差与标准差是一样的.但在解决实际问题时,一般多采用标准差.
③标准差、方差描述了一组数据围绕平均数波动程度的大小.标准差、方差越大,则数据的离散程度__________;标准差、方差越小,数据的离散程度__________.反之亦可由离散程度的大小推算标准差、方差的大小.
知识参考答案:
1.(1)①最大值 最小值 ⑤ 1 (2)①中点
2.(1)①最多 中点 ②大小 中间 ③每个小矩形的面积乘以小矩形底边中点的横坐标之和 (2)① ② ③越大 越小
重点
重点
频率分布直方图、茎叶图的绘制及读图,平均数和方差的简单计算
难点
能通过样本的频率分布估计总体的分布
易错
容易忽略频率分布直方图中纵轴的意义,从而造成频率分布直方图画错
1.频率分布直方图
在绘制频率分布直方图时,要注意:
(1)所有的数据都必须在所分的组内,可适当将区间两端点的数据调整以便于分组;
(2)落在各小组内的频数必须计算正确.
在根据频率分布直方图进行相关计算时,需掌握下列关系式:
(1);
(2),
及其变形:,.
【例1】某厂对一批产品进行抽样检测,如图是抽检产品净重(单位:克)的频率分布直方图,样本数据分组为.若这批产品有120个,估计其中净重大于或等于78克且小于84克的产品的个数是
A.12 B.18
C.25 D.90
【答案】D
【解析】净重大于或等于78克且小于84克的频率为,所以在该范围内的产品个数为.
【例2】从某校参加高一年级基础知识数学测试的450名同学中,随机抽取若干名同学,将他们的成绩制成如下频率分布表.
(1)根据表中已知数据,填写在①、②、③处的数值分别为______ , ______ , ______ ;
(2)补全在区间[90,160]上的频率分布直方图;
(3)请你估计该校成绩不低于130分的同学人数.
分组
频数
频率
[90,100)
0.08
[100,110)
②
[110,120)
0.36
[120,130)
16
0.32
[130,140)
0.08
[140,150)
2
①
[150,160]
0.02
合计
③
【答案】答案详见解析.
(2)求出每组的,即为矩形的高,补全在区间[90,160]上的频率分布直方图如图所示:
(3),则在随机抽取的50名学生中有7名不低于130分.
,则450名学生中不低于130分的大约有63名.
【名师点睛】在频率分布直方图中,纵坐标表示的是频率与组距的比,不要误以为是频率,解题时要格外注意.在频率分布直方图中,各个小长方形的面积等于相应各组的频率,又各组的频率之和为1,所以所有长方形的面积之和等于1,由此可以判断画出的频率分布直方图是否正确.
2.茎叶图
对于样本数据较少,但较为集中的一组数据:若数据是两位整数,则将十位数字作茎,个位数字作叶;若数据是三位整数,则将百位、十位数字作茎,个位数字作叶.样本数据为小数时作类似处理.
【例3】在某杂志的一篇文章中,每个句子的字数如下:
10,28,31,17,23,27,18,15,26,24,20,19,36,27,14,25,15,22,11,24,27,17.
在某报纸的一篇文章中,每个句子的字数如下:
27,39,33,24,28,19,32,41,33,27,35,12,36,41,27,13,22,23,18,46,32,22.
(1)用茎叶图表示这两组数据;
(2)将这两组数据进行比较分析,得到什么结论?
【答案】答案详见解析.
【解析】(1)用茎叶图表示这两组数据如图所示:
杂志上文章
报纸上文章
9 8 7 7 5 5 4 1 0
1
2 3 8 9
8 7 7 7 6 5 4 4 3 2 0
2
2 2 3 4 7 7 7 8
6 1
3
2 2 3 3 5 6 9
4
1 1 6
(2)杂志上的文章每个句子的字数集中在10~30之间,而报纸上的文章每个句子的字数集中在20~40之间.还可以看出杂志上的文章每个句子的平均字数比报纸上的每个句子的平均字数要少,说明杂志作为科普读物需通俗易懂、简明.
【名师点睛】对于第(1)问,题干中的数据是十位数分别为1,2,3,4的两位整数,选择1,2,3,4为茎绘制茎叶图.对于第(2)问,从数据的分布情况作出解释,答案不唯一,只要合理、符合实际即可.
3.众数、中位数、平均数
1.众数只与这组数据中的部分数据有关,当一组数据中有不少数据重复出现时,众数往往更能反映问题.众数可以有一个,也可以有多个.
2.中位数仅与数据的排列位置有关,中位数可能在所给数据中,也可能不在所给数据中.当一组数据中的个别数据变动较大时,可用中位数描述其集中趋势.中位数只有一个.
3.平均数受个别极端数据的影响较大,因此若在数据中存在少量极端数据时,平均数对总体估计的可靠性较差,往往用众数或中位数去估计总体.有时也采用剔除最大值与最小值后所得的平均数去估计总体.平均数只有一个.
【例4】据报道,某公司的33名职工的月工资(单位:元)如下:
职务
董事长
副董事长
董事
总经理
经理
管理员
职员
人数
1
1
2
1
5
3
20
工资
5500
5000
3500
3000
2500
2000
1500
(1)求该公司职工月工资的平均数、中位数、众数;(精确到1元)
(2)假设副董事长的工资从5000元提升到20000元,董事长的工资从5500元提升到30000元,那么新的平均数、中位数、众数又是多少?(精确到1元)
(3)你认为哪个统计量更能反映这个公司员工的工资水平?结合此问题谈一谈你的看法.
【答案】答案详见解析.
【解析】(1)平均数是
.
中位数是1500,众数是1500.
(2)新的平均数是
.
新的中位数是1500,新的众数是1500.
(3)在这个问题中,中位数或众数均能反映该公司大部分员工的工资水平.因为公司中少数人的工资额与大多数人的工资额差别较大,这样导致平均数与中位数和众数偏差较大,所以平均数不能反映这个公司员工的工资水平.
【名师点睛】计算平均数时,可以先估计一下平均数,然后再用这个估计值加上所有数据与其差的平均值就是精确的平均数,这样计算平均数能减少计算量.
4.标准差、方差
用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似.实际应用中,当所得数据的平均数不相等时,需先分析平均水平,再计算标准差(方差)分析稳定情况.
【例5】从甲、乙两名学生中选拔一人参加射箭比赛,为此需要对他们的射箭水平进行测试.现这两名学生在相同条件下各射箭10次,命中的环数如下:
甲
8
9
7
9
7
6
10
10
8
6
乙
10
9
8
6
8
7
9
7
8
8
(1)计算甲、乙两人射箭命中环数的平均数和标准差;
(2)比较两个人的成绩,然后决定选择哪名学生参加射箭比赛.
【答案】答案详见解析.
(2)∵,且,∴乙的成绩较为稳定,故选择乙参加射箭比赛.
【名师点睛】若数据与之间满足关系式,且数据的平均数和方差分别为和,那么的平均数为,方差为,标准差为.
基础训练
1.容量为20的样本数据,分组后的频数如下表:
分组
[10,20)
[20,30)
[30,40)
[40,50)
[50,60)
[60,70)
频数
2
3
4
5
4
2
则样本数据落在区间[40,70)的频率为
A.0.35 B.0.45 C.0.55 D.0.65
2.下列说法中正确的是
A.一组数据的平均数一定大于这组数据中的每个数据
B.一组数据不可能有两个众数
C.一组数据的中位数一定是这组数据中的某个数据
D.一组数据的方差越大,说明这组数据的波动程度越大
3.在一次数学测验中,某小组16名学生的成绩与全班的平均分116分的差分别是2,3,–3,–5,–6,12,12,8,2,–1,4,–10,–2,5,5,6那么这个小组的平均分是_____________.
4.已知某同学四次数学单元测试的成绩为118,125,128,129,则该同学成绩的方差为_____________.
5.已知一组数据1,3,x,5,4的平均数为3,则这组数据的方差是_____________.
6.已知三个正整数,其平均数和方差都是2,则这三个数中最大的数是_____________.
7.为了分析某篮球运动员在比赛中发挥的稳定程度,统计了该运动员在6场比赛中的得分,用茎叶图表示如图所示,则该组数据的标准差为_____________.
8.某市发布2017年6月11日到6月20日的空气质量指数(AQI),数据如下:153,203,268,166,157,164,268,407,335,119,则这组数据的中位数是_____________.
9.已知在一组数列1,2,4,5,5,8,9中,设中位数为a,众数为b,则=_____________.
10.一组数据:40、10、80、20、70、30、50、90、70,若这组数据的平均数为m,众数为n,中位数为p,则m,n,p之间的大小关系是_____________.
11.已知一组数据按从小到大的顺序排列,得到–1,0,3,x,7,14中位数为5,求这组数据的平均数和方差.
能力提升
12.已知一组数据x1,x2,x3,x4,x5的平均数是2,标准差是1,则另一组数据2x1+1,2x2+1,2x3+1,2x4+1,2x5+1的平均数和标准差分别为
A.5, B.2,2
C.5,2 D.2,
13.一组数据的平均数是3.8,方差是0.96,若将这组数据中的每一个数据都乘以10再加1,得到一组新数据,则所得新数据的平均数和方差分别是
A.39,96 B.38,96
C.39,9.6 D.38,9.6
14.一个样本a,3,4,5,6的平均数为b,且方程x2–6x+c=0的两个根为a,b,则该样本的方差为
A.1 B.2
C. D.
15.设样本数据x1,x2,…x10的均值和方差分别为1和4,若yi=xi+a(a为非零常数,i=1,2,…,10),则y1,y2,…,y10的方差为_____________.
16.由正整数组成的一组数据x1,x2,x3,x4,其平均数和中位数都是2,且标准差等于,则这组数据为_____________.(从小到大排列)
17.某班48名同学,在一次考试中统计出平均分为70,方差为75,后来发现有2名同学的分数登记错了,甲实际得了80分,却记成了50分,乙实际得了70分,却记成了100分,更正后方差应为_____________.
18.若样本x1+1,x2+1,…xn+1,的平均数为10,方差为2,则对于样本x1+2,x2+2,…xn+2其平均数和方差的和为_____________.
19.从某企业生产的某种产品中抽取一部分,测量这些产品的一项质量指标值,由测量表得如下表:
质量指标值分组
[75,85)
[85,95)
[95,105)
[105,115)
[115,125)
合计
频数
6
a
38
22
b
n
频率
0.06
0.26
0.38
c
d
1
(1)求出频率分布表中的a,b,c,d,n的值.
(2)在答题卡上作出这些数据的频率分布直方图:
(3)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表).
20.在某篮球比赛中,根据甲和乙两人的得分情况得到如图所示的茎叶图.
(1)从茎叶图的特征来说明他们谁发挥得更稳定;
(2)用样本的数字特征验证他们谁发挥得更好.
真题练习
21.(2018?山东)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为
A.3,5 B.5,5 C.3,7 D.5,7
22.(2019?新课标Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别是x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是
A.x1,x2,…,xn的平均数 B.x1,x2,…,xn的标准差
C.x1,x2,…,xn的最大值 D.x1,x2,…,xn的中位数
23.(2019新课标Ⅲ·理科)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对7月至12月,波动性更小,变化比较平稳
24.(2019?江苏)已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为_____________.
25.(2018?新课标Ⅰ)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
日用水量
[0,0.1)
[0.1,0.2)
[0.2,0.3)
[0.3,0.4)
[0.4,0.5)
[0.5,0.6)
[0.6,0.7)
频数
1
3
2
4
9
26
5
使用了节水龙头50天的日用水量频数分布表
日用水量
[0,0.1)
[0.1,0.2)
[0.2,0.3)
[0.3,0.4)
[0.4,0.5)
[0.5,0.6)
频数
1
5
13
10
16
5
(1)作出使用了节水龙头50天的日用水量数据的频率分布直方图;
(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率;
(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)
26.(2018?北京)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…[80,90],并整理得到如下频率分布直方图:
(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;
(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;
(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.
参考答案
1
2
12
13
14
21
22
23
C
D
C
A
B
A
B
A
1.【答案】C
【解析】由已知中样本数据落在区间[40,70)累积频数为:5+4+2=11,故样本数据落在区间[40,70)的频率为=0.55,故选C.
2.【答案】D
【解析】当两组数据个数相等,平均数相等或接近时,用方差可以比较其波动大小及稳定性,方差较大的数据波动较大,稳定程度低;方差较小的数据波动较小,稳定程度高.故选D.
3.【答案】118
【解析】116×16+(2+3–3–5–6+12+12+8+2–1+4–10–2+5+5+6)=116×16+32,平均分是(116×16+32)=116+2=118,故答案为:118.
6.【答案】4
【解析】设这三个数为a,b,c,且a≤b≤c,则,因为(a–2)2+(b–2)2+(c–2)2=6,且a,b,c为正整数,则(a–2)2=1,(b–2)2=1,(c–2)2=4,再结合a+b+c=6,解得a=b=1,c=4.故这三个数中最大的数是4.故答案为:4.
7.【答案】
【解析】由茎叶图知该组数据的平均数为:(14+17+18+18+20+21)=18,
方差S2=[(14–18)2+(17–18)2+(18–18)2+(18–18)2+(20–18)2+(21–18)2]=5,
∴该组数据的标准差为S=.故答案为:.
8.【答案】184.5
【解析】把这组数据数据:153,203,268,166,157,164,268,407,335,119
从小到大排列,得:119,153,157,164,166,203,268,268,335,407,
∴这组数据的中位数是:=184.5.故答案为:184.5.
9.【答案】1
【解析】一组数列1,2,4,5,5,8,9中,中位数为a=5,众数为b=5,则=1.故答案为:1.
10.【答案】n>m>p
【解析】这组数据从小到大排列为:10、20、30、40、50、70、70、80、90,则这组数据的平均数为m=×(40+10+80+20+70+30+50+90+70)=,众数为n=70,中位数为p=50,则m,n,p之间的大小关系是n>m>p.故答案为:n>m>p.
12.【答案】C
【解析】∵一组数据x1,x2,x3,x4,x5的平均数是2,标准差是1,∴另一组数据2x1+1,2x2+1,2x3+1,2x4+1,2x5+1的平均数为2×2+1=5,标准差为=2.故选C.
13.【答案】A
【解析】一组数据的平均数是=3.8,方差是s2=0.96,将这组数据中的每一个数据都乘以10再加1,得到一组新数据,则所得新数据的平均数是10+1=39,方差是102s2=96.故选A.
14.【答案】B
【解析】∵一个样本a,3,4,5,6的平均数为b,且方程x2–6x+c=0的两个根为a,b,∴a+=6,解得a=2,b==4,∴该样本的方差为:[(2–4)2+(3–4)2+(4–4)2+(5–4)2+(6–4)2]=2.故选B.
15.【答案】4
【解析】均值,方差=
=
=.故答案为:4.
16.【答案】1,2,2,3
【解析】设0∴,解得x1=1,x2=x3=2,x4=3.∴这组数据为1,2,2,3.故答案为:1,2,2,3.
17.【答案】50
【解析】设更正前甲,乙,丙…的成绩依次为a1,a2,…,a48,则a1+a2+…+a48=48×70,即50+100+a3+…+a48=48×70,(a1–70)2+(a2–70)2+…+(a48–70)2=48×75,即202+302+(a3–70)2+…+(a48–70)2=48×75,更正后平均分=70,方差s2=[(80–70)2+(70–70)2+(a3–70)2+…+(a48–70)2]=[100+(a3–70)2+…+(a48–70)2]=×[100+48×75–202–302]=×2400=50.故答案为:50.
18.【答案】13
【解析】∵样本1+x1,1+x2,1+x3,…..1+xn,的平均数为10,方差为2,
∴=10,
∴1+=10,∴=9,
s2==2,
∵样本2+x1,2+x2,2+x3,…2+xn,
∴=2+=2+9=11,
∴s2==2,
∴样本2+x1,2+x2,2+x3,…..2+xn,其平均数和方差的和为:11+2=13.故答案为:13.
(3)根据频率分布直方图,估计质量指标值的样本平均数为:
=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100;
方差为:S2=(–20)2×0.06+(–10)2×0.26+0×0.38+102×0.22+202×0.08=104.
20.【答案】(1)甲发挥得更稳定;(2)甲发挥得更好.
【解析】(1)茎叶图的直观形状像横放的频率分布直方图,
且保留了所有原始数据的信息,
所以从数与形的特征来看,甲和乙的得分都是对称的,
叶的分布是“单峰”的,
但甲全部的叶都集中在茎2上,
而乙只有的叶集中在茎2上,
这说明甲发挥得更稳定.
(2)甲==25,
乙==25,
S2甲=[(20–25)2+(21–25)2+(25–25)2+(26–25)2+(27–25)2+(28–25)2+(28–25)2]≈9.14,
S2乙=[(17–25)2+(23–25)2+(24–25)2+(25–25)2+(26–25)2+(29–25)2+(31–25)2]≈17.43.
因为甲=乙,S2甲21.【答案】A
【解析】由已知中甲组数据的中位数为65,故乙组数据的中位数也为65,即y=5,则乙组数据的平均数为:66,故x=3,故选A.
22.【答案】B
【解析】在A中,平均数是表示一组数据集中趋势的量数,它是反映数据集中趋势的一项指标,故A不可以用来评估这种农作物亩产量稳定程度;在B中,标准差能反映一个数据集的离散程度,故B可以用来评估这种农作物亩产量稳定程度;在C中,最大值是一组数据最大的量,故C不可以用来评估这种农作物亩产量稳定程度;在D中,中位数将数据分成前半部分和后半部分,用来代表一组数据的“中等水平”,故D不可以用来评估这种农作物亩产量稳定程度.故选B.
24.【答案】90
【解析】根据茎叶图中的数据知,这5位裁判打出的分数为89、89、90、91、91,它们的平均数为×(89+89+90+91+91)=90.故答案为:90.
25.【答案】(1)详见解析;(2)0.48;(3)47.45 m3.
【解析】(1)根据使用了节水龙头50天的日用水量频数分布表,
作出使用了节水龙头50天的日用水量数据的频率分布直方图,如下图:
(2)根据频率分布直方图得:
该家庭使用节水龙头后,日用水量小于0.35 m3的概率为:
p=(0.2+1.0+2.6+1)×0.1=0.48.
(3)由题意得未使用水龙头50天的日均水量为:
(1×0.05+3×0.15+2×0.25+4×0.35+9×0.45+26×0.55+5×0.65)=0.48,
使用节水龙头50天的日均用水量为:
(1×0.05+5×0.15+13×0.25+10×0.35+16×0.45+5×0.55)=0.35,
∴估计该家庭使用节水龙头后,一年能节省:365×(0.48–0.35)=47.45 m3.
26.【解析】(1)由频率分布直方图知:分数小于70的频率为:1–(0.04+0.02)×10=0.4,
故从总体的400名学生中随机抽取一人,估计其分数小于70的概率为0.4;
(2)已知样本中分数小于40的学生有5人,
故样本中分数小于40的频率为:0.05,
则分数在区间[40,50)内的频率为:1–(0.04+0.02+0.02+0.01)×10–0.05=0.05,
估计总体中分数在区间[40,50)内的人数为400×0.05=20人,
(3)样本中分数不小于70的频率为:0.6,
由于样本中分数不小于70的男女生人数相等.
故分数不小于70的男生的频率为:0.3,
由样本中有一半男生的分数不小于70,
故男生的频率为:0.6,即女生的频率为:0.4,
即总体中男生和女生人数的比例约为:3∶2.