冲刺高考(文科数学) 统计、统计案例
考点一 抽样方法——依特点,定方法
1.简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体较少.
2.系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.
3.分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.
[例1] (1)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9,抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷B的人数为( )
A.7 B.9
C.10 D.15
解析:由题意知应将960人分成32组,每组30人.设每组选出的人的号码为30k+9(k=0,1,…,31).由451≤30k+9≤750,解得????????????????????≤k≤????????????????????,又k∈N,故k=15,16,…,24,共10人.
?
答案:C
(2)为应对新冠肺炎疫情,许多企业在非常时期转产抗疫急需物资,某工厂转产甲、乙、丙、丁四种不同型号的防疫物资,产量分别为200,400,300,100(单位:件).为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从甲种型号的产品中抽取________件.
答案:12
解析:依题意,注意到在甲、乙、丙、丁四种不同型号的防疫物资中,甲种型号的产品占????????????????????????+????????????+????????????+????????????=????????.因此,采用分层抽样的方法从这些产品中抽取60件进行检验,应从甲种型号的产品中抽取60×????????=12(件).
?
归纳总结
1.解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与总体容量的比值.
2.在系统抽样的过程中,要注意分段间隔,需要抽取n个个体,样本就需要分成n个组,则分段间隔即为????????(n为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.
?
1.总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第6个数字开始向右读(每两个连续数字组成一个编号),则选出来的第5个个体的编号为( )
21 16 65 08 90 34 20 76 43 81 26 34 91 64 17 50 71 59 45 06
91 27 35 36 80 72 74 67 21 33 50 25 83 12 02 76 11 87 05 26
A.12 B.07
C.15 D.16
解析:从随机数表第1行的第6个数字开始由左到右依次选取两个数字中小于20的编号依次为03,07,12,16,07,15,其中第二个和第五个都是07,重复,所以选出的5个个体的编号为03,07,12,16,15,则第5个个体的编号为15.故选C.
答案:C
2.某企业三月中旬生产A、B、C三种产品共3 000件,根据分层抽样的结果,企业统计员制作了如下的统计表格:
产品类别
A
B
C
产品数量(件)
?
1 300
?
样本容量(件)
?
130
?
由于不小心,表格中A、C产品的有关数据已被损坏,统计员记得A产品的样本容量比C产品的样本容量多10,根据以上信息,可得C产品的数量是________.
答案:800
解析:设样本的总容量为x,则?????????????????????×1 300=130,∴x=300.∴A产品和C产品在样本中共有300-130=170(件),设C产品的样本容量为y,则y+y+10=170,∴y=80,∴C产品的数量为?????????????????????????????×80=800.
?
考点二 用样本估计总体——读懂图表,明确数字
1.频率分布直方图的两个结论
(1)小长方形的面积=组距×频率组距=________.
(2)各小长方形的面积之和等于________.
?
频率
1
2.统计中的四个数字特征
(1)众数:在样本数据中,出现次数最多的那个数据.
(2)中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.
(3)平均数:样本数据的算术平均数,即x=________________.
(4)方差与标准差
方差:s2=____________________________,
标准差:s=________________________________.
?
1n(x1+x2+…+xn)
?
1n[(x1-x)2+(x2-x)2+…+(xn-x)2]
?
1nx1?x2+x2?x2+…+xn?x2
?
角度1 统计图表的应用——读图、识图、整合信息
[例2] 如图是某统计部门网站发布的《某市2020年2~12月国民经济和社会发展统计公报》中居民消费价格指数(CPI)月度涨跌幅度折线图.(注:同比是今年第n个月与去年第n个月相比,环比是现在的统计周期与上一个统计周期相比)
下列说法错误的是( )
①2020年9月CPI环比上升0.5%,同比上涨2.1%
②2020年9月CPI环比上升0.2%,同比无变化
③2020年3月CPI环比下降1.1%,同比上涨0.2%
④2020年3月CPI环比下降0.2%,同比上涨1.7%
A.①③ B.①④
C.②④ D.②③
解析:由题意可知,题图中上面的折线为月度同比、下面的折线为月度环比,观察题图中数据可知,9月CPI环比上升0.5%,同比上涨2.1%,3月CPI环比下降0.2%,同比上涨1.7%,所以正确的说法是①④,错误的说法是②③,故选D.
答案:D
归纳总结
从图表中挖掘信息
(1)折线图,条形图
破解此类题的关键:一是从总体上看折线的变化是总体升高还是下降,或是趋于平稳.二是看相邻点的变化:是陡还是缓,是升还是降.三是看最高点和最低点.
(2)表格
破解此类题只需过“双关”:一是看表关,即会观察频数分布表,读出相关的数据信息;二是定义关,即会利用众数、中位数的定义,求出样本中的众数、中位数,从而估计出总体中的相关数据.
(3)“饼形图”
将整体分成若干区域来表示所占的比例:即其圆心角的大小与360°的比值.
角度2 用样本的数字特征估计总体的数字特征——平均数、方差、准确计算
[例3] 某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备
9.8
10.3
10.0
10.2
9.9
9.8
10.0
10.1
10.2
9.7
新设备
10.1
10.4
10.1
10.0
10.1
10.3
10.6
10.5
10.4
10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为x和y,样本方差分别记为s12和s22.
(1)求????,????,????12?,????22;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果y?x≥2????12+????22?10,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).
?
解析:(1)由题中数据可得:
????=????.????+????????.????+????????.????+????????.????+????.????+????.????+????????.????+????????.????+????????.????+????.????????????=10.0,
????=????????.????+????????.????+????????.????+????????.????+????????.????+????????.????+????????.????+????????.????+????????.????+????????.????????????=10.3,
????????????=????????????[(9.8-10.0)2+(10.3-10.0)2+(10.0-10.0)2+(10.2-10.0)2+(9.9-10.0)2+(9.8-10.0)2+(10.0-10.0)2+(10.1-10.0)2+(10.2-10.0)2+(9.7-10.0)2]=0.036,
????????????=????????????[(10.1-10.3)2+(10.4-10.3)2+(10.1-10.3)2+(10.0-10.3)2+(10.1-10.3)2+(10.3-10.3)2+(10.6-10.3)2+(10.5-10.3)2+(10.4-10.3)2+(10.5-10.3)2]=0.04.
?
(2)由(1)知?????????=10.3-10.0=0.3,而????????????????+????????????????????=2????.????????????+????.????????????????=2????.?????????????????,
则0.3=????.????????>2????.?????????????????=????.?????????????????,
所以可判断新设备生产产品的该项指标的均值较旧设备有显著提高.
?
归纳总结
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
对点训练
1某省普通高中学业水平考试成绩由高分到低分按人数所占比例依次分为A,B,C,D,E五个等级,A等级15%,B等级30%,C等级30%,D,E等级共25%.其中E等级为不合格,原则上比例不超过5%.该省某校高二年级学生都参加学业水平考试,先从中随机抽取了部分学生的考试成绩进行统计,统计结果如图所示.若该校高二年级共有1 000名学生,则估计该年级拿到C等级及以上级别的学生人数为( )
A.45 B.660
C.880 D.900
答案:D
解析:由题中两图可知C等级所占比例为????????????????×20%=24%,所以C等级及以上级别所占比例为20%+24%+46%=90%,所以C等级及以上级别的学生人数为1 000×90%=900.故选D.
?
2.[2021·成都市模拟]某校随机抽取100名同学进行“垃圾分类”的问卷测试,测试结果显示这100名同学的得分都在[50,100]内,按得分分成5组:[50,60),[60,70),[70,80),[80,90),[90,100],得到如图所示的频率分布直方图,则这100名同学的得分的中位数为( )
A.72.5 B.75
C.77.5 D.80
?
答案:A
解析:频率分布直方图中左边第一个小长方形的面积为0.010×10=0.1,左边第二个小长方形的面积为0.030×10=0.3.设这100名同学的得分的中位数为x,则(x-70)×0.040=0.5-0.3-0.1,所以x=72.5.
考点三 回归分析的实际应用——准确计算,数据分析
线性回归方程
方程y=bx+a称为线性回归方程,其中b=????=1?????????????????????????????????????=1????????????2?????????2,a=y?bx;(x,y)称为样本中心点.
?
[例4] 某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.该种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:
使用年限x/年
1
2
3
4
5
6
7
失效费y/万元
2.90
3.30
3.60
4.40
4.80
5.20
5.90
(1)由上表数据可知,可用线性回归模型拟合y与x的关系,请用相关系数加以说明;(精确到0.01)
(2)求出y关于x的线性回归方程,并估算该种机械设备使用10年的失效费.
解析:(1)由题意,知????=????+????+????+????+????+????+????????=4,
????=????.????????+????.????????+????.????????+????.????????+????.????????+????.????????+????.????????????=4.30,
????=????????(?????????????)????=(1-4)2+(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2+(7-4)2=28,
∴相关系数r=????????.????????????????×????.????????=????????.????????????????????.????????≈????????.????????????????.????????≈0.99.
∵y与x的相关系数近似为0.99,∴y与x的线性相关程度相当大,从而可以用线性回归模型拟合y与x的关系.
?
(2)∵????=????=??????????????????????????????????????=?????????????????????????=????????.????????????????=0.5,
∴????=?????????????=4.30-0.5×4=2.3.
∴y关于x的线性回归方程为????=0.5x+2.3.
将x=10代入线性回归方程,得????=0.5×10+2.3=7.3.
∴估算该种机械设备使用10年的失效费为7.3万元.
?
归纳总结
求回归直线方程的方法
(1)若所求的回归直线方程是在选择题中,常利用回归直线y=bx+a必经过样本点的中心(x,y)快速选择.
(2)若所求的回归直线方程是在解答题中,则求回归直线方程的一般步骤为:
?
对点训练
某地随着经济的发展,居民收入逐年增长,下表是该地某银行连续五年的储蓄存款(年底余额).
年份x
2011
2012
2013
2014
2015
储蓄存款y/千亿元
5
6
7
8
10
为了方便研究,工作人员将上表的数据进行了处理,令t=x-2 010,z=y-5,得到下表.
t
1
2
3
4
5
z
0
1
2
3
5
(1)求z关于t的线性回归方程;
(2)用所求的线性回归方程预测,到2020年年底该银行储蓄存款额可达多少?
解析:(1)????=3,????=2.2,????=????????????????????????=45,????=????????????????????=????????,
????=?????????????×????×????.?????????????????×????=1.2,????=?????????·????=2.2-3×1.2=-1.4,所以????=1.2t-1.4.
(2)将t=x-2 010,z=y-5,代入????=1.2t-1.4,得y-5=1.2(x-2 010)-1.4,
即????=1.2x-2 408.4,
当x=2 020时,????=1.2×2 020-2 408.4=15.6(千亿元),
所以预测到2020年年底该银行储蓄存款额可达15.6千亿元.
?
考点四 独立性检验的实际应用——阅读理解,统计推断
随机变量
K2=a+b+c+dad?bc2a+bc+da+cb+d,
若K2>3.841,则有95%的把握说两个事件有关;
若K2>6.635,则有99%的把握说两个事件有关.
?
[例5] ]甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
?
一级品
二级品
合计
甲机床
150
50
200
乙机床
120
80
200
合计
270
130
400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
解析:(1)根据题表中数据知,甲机床生产的产品中一级品的频率是????????????????????????=0.75,乙机床生产的产品中一级品的频率是????????????????????????=0.6.
(2)根据题表中的数据可得K2=????????????×????????????×?????????????????????×????????????????????????×????????????×????????????×????????????=????????????????????≈10.256.
因为10.256>6.635,所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.
?
归纳总结
独立性检验的解题步骤
(1)根据样本数据列出2×2列联表.
(2)计算K2的观测值k,查下表确定临界值k0.
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
k0
0.455
0.708
1.323
2.072
2.706
P(K2≥k0)
0.05
0.025
0.010
0.005
0.001
k0
3.841
5.024
6.635
7.879
10.828
(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
节能降耗是企业的生存之本,所以要树立一种“点点滴滴降成本,分分秒秒增效益”的节能意识,以最好的管理来实现节能效益的最大化.为此某国企进行节能降耗技术改造,下面是该国企节能降耗技术改造后连续五年的生产利润:
年份x
1
2
3
4
5
年生产利润y/千万元
0.7
0.8
1
1.1
1.4
A.1.88千万元 B.2.21千万元
C.1.85千万元 D.2.34千万元?
答案:C
解析:由已知可得????=????+????+????+????+????????=3,
????=????.????+????.????+????+????.????+????.????????=1,????=????.????????????=0.17,
则????=?????????????=1-0.17×3=0.49,
所以年生产利润与年份的回归方程为????=0.17x+0.49,当x=8时,????=0.17×8+0.49=1.85,故选C.