5.1 统计(新课)
知识梳理
1.数据的收集
简单随机抽样 分层抽样
2.数据的数字特征
总数 中位数 平均数
3.频率分布直方图
(1)各矩形的面积和为1;
(2)横轴表示组距,纵轴的含义为 ,矩形的面积;
(3)众数:出现次数最多的数据。
(4)中位数:将数据按大小依次排列,处在最中间位置的数。
(5)平均数:样本数据的算术平均值。
2.茎叶图
(1)学会分析茎叶图的特点,分析稳定性和平均数大小;
(2)学会计算平均数、中位数和方差.
3.折线图
连接频率分布直方图中小长方形上端中点,就得到频率分布折线图。
4.方差和标准差
方差和标准差反映了数据波动程度的大小
方差:
标准差:
典例讲解
考点一:数据的收集
例1(抽样方法).某单位有老年人28人 中年人54人 青年人81人,为了调查他们的身体状况,从中抽取一个容量为36的样本,则最适合抽取样本的方法是( )
A.随机数表法 B.抽签法
C.分层抽样 D.先从老年人中剔除1人,再用分层抽样
变式1.问题:①有1000个乒乓球分别装在3个箱子内,其中红色箱子内有500个,蓝色箱子内有200个,黄色箱子内有300个,现从中抽取一个容量为100的样本;②从20名学生中选出3名参加座谈会.
方法:Ⅰ.简单随机抽样;Ⅱ.分层抽样.
其中问题与方法能配对的是( )
A.①Ⅰ,②Ⅱ B.①Ⅱ,②Ⅰ C.①Ⅱ,②Ⅱ D.①Ⅰ,②Ⅰ
变式2.下列4个抽样中,简单随机抽样的个数是( )
①一儿童从玩具箱的20件玩具中任意拿一件玩,玩后放回再拿一件,连续玩了5件;
②仓库中有1万支奥运火炬,从中一次性抽取100支火炬进行质量检查;
③某连队从200名党员官兵中,挑选出50名最优秀的官兵赶赴灾区开展救灾工作;
④一彩民选号,从装有36个大小 形状都相同的号签的盒子中无放回地抽出6个号签.
A.0 B.1 C.2 D.3
例2(分层抽样).某中学高一年级560人,高二年级540人,高三年级520人,用分层抽样的方法抽取部分样本,若从高一年级抽取28人,则从高二、高三年级分别抽取人数是( )
A.27 26 B.26 27 C.26 28 D.27 28
变式1.我国古代数学名著《九章算术》中有如下问题:“今有北乡8758人,西乡有7236人,南乡有8356人,现要按人数多少从三个乡共征集487人,问从各乡征集多少人”.在上述问题中,需从南乡征集的人数大约是( )
A.112 B.128 C.145 D.167
变式2.某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________ 件.
例3(随机数表法).为了保障人民群众的身体健康,在预防新型冠状病毒期间,贵阳市市场监督管理局加强了对市场的监管力度,对生产口罩的某工厂利用随机数表对生产的个口罩进行抽样测试是否合格,先将个口罩进行编号,编号分别为;从中抽取个样本,如下提供随机数表的第行到第行:
若从表中第行第列开始向右依次读取个数据,则得到的第个样本编号为( )
A. B. C. D.
变式1.从800件产品中抽取60件进行质检,利用随机数表法抽取样本时,先将800件产品按001,002,…,800进行编号.如果从随机数表第8行第8列的数8开始往右读数(随机数表第7行至第9行的数如下),则抽取的第4件产品的编号是( )
……
8442175331 5724550688 77047447672176335025 8392120676
6301637859 1695566711 69105671751286735807 4439523879
3321123429 7864560782 5242074438 1551001342 9966027954
……
A.105 B.556 C.671 D.169
变式2.总体由编号为的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行第6列的数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )
21 16 65 08 90 34 20 76 43 81 26 34 91 64 17 50 71 59 45 06
91 27 35 36 80 72 74 67 21 33 50 25 83 12 02 76 11 87 05 26
A.12 B.07 C.15 D.16
考点二:数据的数字特征
例4(众数、中位数、平均数、方差).王明同学随机抽查某市10个小区所得到的绿化率情况如下表所示:
小区绿化率(%) 20 25 30 32
小区个数 2 4 3 1
则关于这10个小区绿化率情况,下列说法错误的是( )
A.方差是13% B.众数是25% C.中位数是25% D.平均数是26.2%
变式1.已知是1,2,3,,5,6,7这七个数据的中位数,且1,3,,这四个数据的平均数为1,那么的最小值是( )
A. B. C. D.不存在
变式2.已知一组数据10,5,4,2,2,2,,且这组数据的平均数与众数的和是中位数的2倍,则所有可能的取值为__________.
例5(抽象数据的平均数与方差).如果,…的方差为2,则,,…的方差为( )
A.2 B.4 C.8 D.16
变式1.如果数据x1,x2,…,xn的平均数是,方差是s2,则3x1+2,3x2+2,…,3xn+2的平均数和方差分别是 ( )
A.和s2 B.3和9s2
C.3+2和9s2 D.3+2和12s2+4
变式2.设个数据,,,的平均数为,则其方差.若数据,,,,的方差为3,则数据,,,的方差是( )
A.6 B.8 C.10 D.12
考点三:数据的直观表示
例6(茎叶图、折线图、频率分布直方图).一次选拔运动员,测得7名选手的身高(单位:)分布茎叶图如图,已知7人的平均身高为,有一名选手的身高记录不清楚,其末位数记为,则的值是( )
A.8 B.7 C.6 D.5
变式1.即空气质量指数,越小,表明空气质量越好,当不大于100时称空气质量为“优良”.如图是某市3月1日到12日的统计数据.则下列叙述正确的是( )
A.这天的的中位数是 B.天中超过天空气质量为“优良”
C.从3月4日到9日,空气质量越来越好D.这天的的平均值为
变式2.(多选题)某学校为了调查学生在一周生活方面的支出情况,抽出了一个容量为n的样本,其频率分布直方图如图所示,其中支出在元的学生有60人,则下列说法正确的是( )
A.样本中支出在元的频率为0.03 B.样本中支出不少于40元的人数为132
C.n的值为200 D.若该校有2000名学生,则定有600人支出在元
例7.为了研究一种新药的疗效,选名患者随机分成两组,每组各名,一组服药,另一组不服药.一段时间后,记录了两组患者的生理指标和的数据,并制成如图,其中“”表示服药者,“”表示未服药者.
下列说法中,错误的是( )
A.服药组的指标的均值和方差比未服药组的都低
B.未服药组的指标的均值和方差比服药组的都高
C.以统计的频率作为概率,患者服药一段时间后指标低于的概率约为
D.这种疾病的患者的生理指标基本都大于
变式1.某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图.根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
变式2(多选).我国是世界第一产粮大国,我国粮食产量很高,整体很安全按照14亿人口计算,中国人均粮食产量约为950斤﹣比全球人均粮食产量高了约250斤.如图是中国国家统计局网站中2010﹣2019年,我国粮食产量(千万吨)与年末总人口(千万人)的条形图,根据如图可知在2010﹣2019年中( )
A.我国粮食年产量与年末总人口均逐年递增B.2011年我国粮食年产量的年增长率最大
C.2015﹣2019年我国粮食年产量相对稳定D.2015年我国人均粮食年产量达到了最高峰
考点四:样本估计总体
例8.全民健身旨在全面提高国民体质和健康水平,倡导全民做到每天参加一次以上的健身活动,学会两种以上健身方法,每年进行一次体质测定.为响应全民健身号召,某单位在职工体测后就某项健康指数(百分制)随机抽取了30名职工的体测数据作为样本进行调查,具体数据如茎叶图所示,其中有1名女职工的健康指数的数据模糊不清(用x表示),已知这30名职工的健康指数的平均数为76.2.
(1)根据茎叶图,求样本中男职工健康指数的众数和中位数;
(2)根据茎叶图,按男女用分层抽样从这30名职工中随机抽取5人,再从抽取的5人中随机抽取2人,求抽取的2人都是男职工的概率;
(3)经计算,样本中男职工健康指数的平均数为81,女职工现有数据(即剔除x)健康指数的平均数为69,方差为190,求样本中所有女职工的健康指数的平均数和方差(结果精确到0.1).
变式1.某工厂为生产一种标准长度为的精密器件,研发了一台生产该精密器件的车床,该精密器件的实际长度为,“长度误差”为,只要“长度误差”不超过就认为合格.已知这台车床分昼、夜两个独立批次生产,每天每批次各生产件.已知每件产品的成本为元,每件合格品的利润为元.在昼、夜两个批次生产的产品中分别随机抽取件,检测其长度并绘制了如下茎叶图:
(1)分别估计在昼、夜两个批次的产品中随机抽取一件产品为合格品的概率;
(2)以上述样本的频率作为概率,求这台车床一天的总利润的平均值.
变式2. 为了比较两种治疗失眠症的药(分别称为A药,B药)的疗效,随机地选取20位患者服用A药,20位患者服用B药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:
服用A药的20位患者日平均增加的睡眠时间:
0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.5 2.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4
服用B药的20位患者日平均增加的睡眠时间:
3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.3 1.4 1.6 0.5 1.8 0.6 2.1 1.1 2.5 1.2 2.7 0.5
(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好?
(2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?
例9.为研究某植物园中某类植物的高度,随机抽取了高度在(单位:)的50株植物,得到其高度的频率分布直方图(如图所示).
(1)求的值;
(2)若园内有该植物1000株,试根据直方图信息估计高度在的植物数量.
变式1.《中华人民共和国个人所得税法》规定,公民月收入总额(工资、薪金等)不超过免征额的部分不必纳税,超过免征额的部分为全月应纳税所得额,个人所得税税款按税率表分段累计计算.为了给公民合理减负,稳步提升公民的收入水平,自2018年10月1日起,个人所得税免征额和税率进行了调整,调整前后的个人所得税税率表如下:
个人所得税税率表(调整前) 个人所得税税率表(调整后)
免征额3500元 免征额5000元
级数 全月应纳税所得额 税率 级数 全月应纳税所得额 税率
1 不超过1500元的部分 1 不超过3000元的部分
2 超过1500元至4500元的部分 2 超过3000元至12000元的部分
3 超过4500元至9000元的部分 3 超过12000元至25000元的部分
… … … … … …
(1)已知小李2018年9月份上交的税费是295元,10月份工资、薪金等税前收入与9月份相同,请帮小李计算一下税率调整后小李10月份的税后实际收入是多少?
(2)某税务部门在小李所在公司利用分层抽样方法抽取某月100位不同层次员工的税前收入,并制成下面的频率分布直方图.
(i)请根据频率分布直方图估计该公司员工税前收入的中位数;
(ii)同一组中的数据以这组数据所在区间中点的值作代表,按调整后税率表,试估计小李所在的公司员工该月平均纳税多少元?
变式2.(2015湖北)某电子商务公司对10000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间内,其频率分布直方图如图所示.
(1)求直方图中的;
(2)在这些购物者中,消费金额在区间内的购物者的人数多少?
(3)试估算消费金额的平均数,中位数与众数分别是多少(保留小数点后三位有效数字)。
巩固练习
1.要完成下列两项调查:①从某社区125户高收入家庭 280户中等收入家庭 95户低收入家庭中选出100户调查社会购买力的某项指标;②从某中学的15名艺术特长生中选出3人调查学习负担情况.宜采用的抽样方法依次为________ ________.
2.假设要考察某公司生产的流感疫苗的剂量是否达标,现从500支疫苗中抽取50支进行检验,利用随机数表法抽取样本时,先将500支疫苗按进行编号,如果从随机数表第7行第8列的数开始向右读,请写出第3支疫苗的编号________.(下面摘取了随机数表第7行至第9行)
第7行:84 42 17 53 31 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76
第8行:63 01 63 78 59 16 95 56 67 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79
第9行:33 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54
3.已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是________.
4.如图是某位学生十一次周考的历史成绩统计茎叶图,则这组数据的众数是________.
5.已知一组数据为,5,7,X,11,且这组数据的众数为5,那么这组数据的中位数是________.
6.若1,2,3,x的平均数是5,而1,3,3,x,y的平均数是6,则1,2,3,x,y的方差是________.
7.如果数据,,,的平均数为,方差为,则,,,的方差为______.
8(多选).已知下图为2020年1月10日到2月21日我国新型冠状肺炎累计确诊人数及现有疑似人数趋势图,则下面结论正确的是( )
A.截至2020年2月15日,我国新型冠状肺炎累计确诊人数已经超过65000人
B.从1月28日到2月3日,现有疑似人数超过累计确诊人数
C.从2020年1月22日到2月21日一个月的时间内,累计确诊人数.上升幅度一直在增加
D.2月15日与2月9日相比较,现有疑似人数减少超过50%
9(多选).某篮球爱好者在一次篮球训练中,需进行五轮投篮,每轮投篮5次.统计各轮投进球的个数,获知其前四轮投中的个数分别为2,3,4,4,则第五轮结束后下列数字特征有可能发生的是( )
A.平均数为3,极差是3 B.中位数是3,极差是3
C.平均数为3,方差是0.8 D.中位数是3,方差是0.56
10(多选).产能利用率是工业总产出对生产设备的比率,反映了实际生产能力到底有多少在运转发挥生产作用.汽车制造业的产能利用率的正常值区间为,称为“安全线”.如图是2017年第3季度到2019年第4季度的中国汽车制造业的产能利用率的统计图.以下结论正确的是( )
A.10个季度中,汽车产能利用率低于“安全线”的季度有5个
B.10个季度中,汽车产能利用率的中位数为
C.2018年4个季度的汽车产能利用率的平均数为
D.与上一季度相比,汽车产能利用率变化最大的是2019年第4季度
11(多选).某文体局为了解“跑团”每月跑步的平均里程,收集并整理了2019年1月至2019年11月期间“跑团”每月跑步的平均里程(单位:公里)的数据,绘制了下面的折线图.
根据折线图,下列结论错误的是( )
A.月跑步平均里程的中位数为6月份对应的里程数
B.月跑步平均里程逐月增加
C.月跑步平均里程高峰期大致在8、9月
D.1月至5月的月跑步平均里程相对于6月至11月,波动性更小,变化比较平稳
12.在一次歌手大奖赛上,七位评委为歌手打出的分数如下:9.4,8.4,9.4,9.9,9.6,9.4,9.7,去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为( )
A.9.4,0.484 B.9.4,0.016 C.9.5,0.04 D.9.5,0.016
13.(2015安徽)若样本数据的标准差为,则数据,,,的标准差为( )
A. B. C. D.
14.(2016 山东 理3)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是,样本数据分组为
.根据直方图,这200名学生中每周的自习
时间不少于22.5小时的人数是( )
A.56 B.60 C.120 D.140
15.(2015重庆,文4)重庆市2013年各月的平均气温(°C)数据的茎叶图如下
0 8 9
1 2 5 8
2 0 0 3 3 8
3 1 2
则这组数据中的中位数是( )
A.19 B.20 C.21.5 D.23
16.某市为了考核甲、乙两部门的工作情况,随机访问了50位市民。根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如右。
⑴分别估计该市的市民对甲、乙部门评分的中位数;
⑵根据茎叶图分析该市的市民对甲、乙两部门的评价。
17.(2015广东)某城市100户居民的月平均用电量(单位:度),以,,,,,,分组的频率分布直方图如图:
(1)求直方图中的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为,,,的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在的用户中应抽取多少户?
18.(2014北京)从某校随机抽取100名学生,获得了他们一周课外阅读时间(单位:小时)的数据,整理得到数据分组及频数分布表和频率分布直方图:
(1)从该校随机选取一名学生,试估计这名学生该周课外阅读时间少于12小时的概率;
(2)求频率分布直方图中的的值;
(3)假设同一组中的每个数据可用该组区间的中点值代替,试估计样本中的100名学生该周课外阅读时间的平均数在第几组(只需写出结论)。
19.有关部门从甲、乙两个城市所有的自动售货机中分别随机抽取了16台,记录下一上午各自的销售情况:(单位:元)
甲:18,8,10,43,5,30,10,22,6,27,25,28,14,18,30,41;
乙:22,31,32,42,20,27,48,23,38,43,12,34,18,10,34,23。
(1)请写出这两组数据的茎叶图;
(2)将这两组数据进行比较分析,你能得到什么结论?
5.1统计答案
例1.D
变式1.B
变式2.B
例2.A
变式1.D
变式2.18
例3.D
变式1.A
变式2.C
例4.A
变式1.A
变式2.或3或17
例5.C
变式1.C
变式2.D
例6.A
变式1.C
变式2.BC
例7.B
变式1.A
变式2.BCD
例8.(1)众数是76,中位数是81;(2);(3)平均数为69,方差约为174.2.
变式1.(1)昼、夜批次合格品概率估计值分别为、;(2)元.
变式2. (1)=2.3,=1.6.
由以上计算结果可得>,因此可看出A药的疗效更好.
(2)由此可看出A药的疗效更好
例9.(1);(2)280.
变式1.(1)调整后小李的实际收入是元;(2)(i)该公司员工收入的中位数为6625千元;(ii)小李所在的公司员工平均纳税129.2元.
变式2.(1) (2)6000(3)平均数0.537,中位数0.533,众数0.550
巩固练习
1.分层抽样 简单随机抽样
2.068
3.0.1
4.84
5.5.
6.24.56
7.1600
8.ABD
9.BCD
10.AC
11.ABC
12.
13.
14.D
15.B
16.⑴75。67;⑵由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数。而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大。
17.(1) (2)(3)
18.(1)(2)(3)
19.(1)略(2)乙比甲的集中