2019年数学北师大版必修3新一线同步(讲义+课时跟踪检测):复习课(一) 统 计

文档属性

名称 2019年数学北师大版必修3新一线同步(讲义+课时跟踪检测):复习课(一) 统 计
格式 zip
文件大小 1.0MB
资源类型 教案
版本资源 北师大版
科目 数学
更新时间 2019-04-27 10:27:01

图片预览

文档简介


复习课(一) 统 计
抽样方法的选取及应用
此类问题多以选择题、填空题的形式考查,有时与概率问题相结合以解答题的形式出现,难度偏小,属中、低档题.

1.三种抽样方法
(1)简单随机抽样:是抽样中一个最基本的方法——逐一不放回地抽取.一次抽取所有样本和抽取样本检查后放回样本都不是简单随机抽样.
(2)系统抽样:按照简单随机抽样抽取第一个样本,然后按相同的间隔(即抽样距)抽取其他样本.
(3)分层抽样:将总体分成若干层,在各层中按照所占比例随机抽取一定的样本.
2.三种抽样方法的适用原则
(1)看总体是否由差异明显的几个层组成.若是,则选用分层抽样;否则,考虑用简单随机抽样或系统抽样.
(2)看总体容量和样本容量的大小.当总体容量较小时,采用抽签法;当总体容量较大、样本容量较小时,采用随机数表法;当总体容量较大、样本容量也较大时,采用系统抽样.
[典例] (1)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为(  )
类别
人数
老年教师
900
中年教师
1 800
青年教师
1 600
合计
4 300
A.90          B.100
C.180 D.300
(2)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.

若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是(  )
A.3 B.4
C.5 D.6
[解析] (1)设样本中的老年教师人数为x,则=,解得x=180,选C.
(2)第一组(130,130,133,134,135),第二组(136,136,138,138,138),第三组(139,141,141,141,142),第四组(142,142,143,143,144),第五组(144,145,145,145,146),第六组(146,147,148,150,151),第七组(152,152,153,153,153),故成绩在[139,151]上恰有4组,故有4人,选B.
[答案] (1)C (2)B
[类题通法]
(1)分层抽样中容量的计算
分层抽样的特点是“按比例抽样”,即
=.
(2)系统抽样中个体编号的确定
系统抽样的特点是“等距抽样”,即第一段抽取的是编号为i的个体,则第k段抽取的是第k段中的第i个.
(3)当总体容量或其中某层中的个体数使得不能恰好按比例或等距抽取时,应该采取简单随机抽样的方法剔除若干个体后再进行.

1.某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是(  )
A.抽签法 B.系统抽样法
C.分层抽样法 D.随机数法
解析:选C 根据年级不同产生差异及按人数比例抽取易知应为分层抽样法.
2.有20位同学,编号从1至20,现在从中抽取4人做问卷调查,用系统抽样的方法确定所抽的编号可能为(  )
A.3,8,13,18       B.2,6,10,14
C.2,4,6,8 D.5,8,11,14
解析:选A 总体个体数是20,样本容量为4,因此分段间隔k==5,只有选项A中的数据的分段间隔为5.
3.某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________.
解析:设男生抽取x人,则有=,
解得x=25.
答案:25
4.某学校高一、高二、高三三个年级共有学生3 500人,其中高三学生数是高一学生数的两倍,高二学生数比高一学生数多300人,现在按的抽样比用分层抽样的方法抽取样本,则应抽取高一学生数为________.
解析:若设高三学生数为x,则高一学生数为,高二学生数为+300,所以有x+++300=3 500,解得x=1 600.故高一学生数为800,因此应抽取高一学生数为=8.
答案:8
用样本的频率分布估计总体分布
此类问题多以选择题、填空题的形式考查频率分布直方图、茎叶图等,属中、低档题.有时与概率等知识相结合以解答题的形式出现.

1.频率分布直方图
2.茎叶图
[典例] (1)对一批产品的长度(单位:毫米)进行抽样检测,如图为检测结果的频率分布直方图.根据标准, 产品长度在区间[20,25)上为一等品,在区间[15,20)和[25,30)上为二等品,在区间[10,15)和[30,35]上为三等品.用频率估计概率,现从该批产品中随机抽取1件,则其为二等品的概率是(  )
A.0.09 B.0.20
C.0.25 D.0.45
(2)某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示.以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是(  )
(3)某电子商务公司对10 000名网络购物者2015年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.
①直方图中的a=________;
②在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.
[解析] (1)由频率分布直方图的性质可知,样本数据在区间[25,30)上的频率为1-5×(0.02+0.04+0.06+0.03)=0.25,则二等品的频率为0.25+0.04×5=0.45,故任取1件为二等品的概率为0.45.
(2)由茎叶图知,各组频数统计如下表:
分组区间
[0,5)
[5,10)
[10,15)
[15,20)
[20,25)
[25,30)
[30,35)
[35,40]
频数统计
1
1
4
2
4
3
3
2
上表对应的频率分布直方图为A.
(3)①由0.1×1.5+0.1×2.5+0.1a+0.1×2.0+0.1×0.8+0.1×0.2=1,解得a=3.
②区间[0.3,0.5)内的频率为0.1×1.5+0.1×2.5=0.4,故[0.5,0.9]内的频率为1-0.4=0.6.
因此,消费金额在区间[0.5,0.9]内的购物者的人数为0.6×10 000=6 000.
[答案] (1)D (2)A (3)①3 ②6 000
[类题通法]
(1)茎叶图与频率分布表的关系如下:
频率分布表中的分组茎叶图的茎;
频率分布表中指定区间组的频率茎上叶的数目.
(2)频率分布直方图中计算用到的知识:
①图中小矩形的面积=组距×=频率.
②所有小矩形的面积之和为1.

1.如图是某公司10个销售店某月销售某产品数量(单位:台)的茎叶图,则数据落在区间[22,30)内的频率为(  )
A.0.2 B.0.4
C.0.5 D.0.6
解析:选B 由茎叶图可知数据落在区间[22,30)内的频数为4,所以数据落在区间[22,30)内的频率为=0.4,故选B.
2.某地教育部门为了调查学生在数学考试中的有关信息,从上次参加考试的10 000名考生中用分层抽样的方法抽取500人,并根据这500人的数学成绩画出样本的频率分布直方图(如图所示),则这10 000人的数学成绩在[140,150](单位:分)段的约是________人.
解析:设500人的数学成绩在[140,150]段的人数为x,10 000人的数学成绩在[140,150]段的人数为n.由样本频率分布直方图知数学成绩在[140,150]段的频率是相应小矩形的面积,即0.008×10=0.08=,∴x=40.又样本的个数占总体个数的,即每组的抽样比为,∴=,∴n=800,因此10 000人的数学成绩在[140,150]段的约是800人.
答案:800
用样本的数字特征估计总体的数字特征
此类问题主要以选择题、填空题形式考查平均数、方差等数字特征的计算,有时与其他知识结合出现在解答题中.

1.有关数据的数字特征
2.众数、中位数、平均数的异同
(1)众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量.
(2)平均数的大小与一组数据里每个数据均有关系,任何一个数据的变动都会相应引起平均数的变动.
(3)众数考查各数据出现的频率,大小只与这组数据中的部分数据有关,当一组数据中有不少数据多次重复出现时,众数往往更能反映问题.
(4)中位数仅与数据的大小排列顺序有关,某些数据的变动可能对中位数没有影响,,也可能不在所给数据中,当一组数据中的个别数据变动较大时,可用中位数描述其集中趋势.
[典例] (1)重庆市2015年各月的平均气温(℃)数据的茎叶图如图,则这组数据的中位数是(  )
A.19 B.20
C.21.5 D.23
(2)某工厂36名工人的年龄数据如下表.
工人
编号
年龄
工人
编号
年龄
工人
编号
年龄
工人
编号
年龄
1
40
10
36
19
27
28
34
2
44
11
31
20
43
29
39
3
40
12
38
21
41
30
43
4
41
13
39
22
37
31
38
5
33
14
43
23
34
32
42
6
40
15
45
24
42
33
53
7
45
16
39
25
37
34
37
8
42
17
38
26
44
35
49
9
43
18
36
27
42
36
39
①用系统抽样法从36名工人中抽取容量为9的样本,且在第一分段里用随机抽样法抽到的年龄数据为44,列出样本的年龄数据.
②计算①中样本的均值和方差s2.
③36名工人中年龄在-s与+s之间有多少人?所占的百分比是多少(精确到0.01%)?
[解析] (1)由茎叶图可知这组数据由小到大依次为8,9,12,15,18,20,20,23,23,28,31,32,所以中位数为=20.
答案:B
(2)解:①36人分成9组,每组4人,其中第一组的工人年龄为44,所以它在组中的编号为2,
所以所有样本数据的编号为4n-2(n=1,2,…,9),
其年龄数据为:44,40,36,43,36,37,44,43,37.
②由均值公式知:==40,
由方差公式知:s2=[(44-40)2+(40-40)2+…+(37-40)2]=.
③因为s2=,s=,
所以36名工人中年龄在-s和+s之间的人数等于年龄在区间[37,43]上的人数,
即40,40,41,…,39,共23人.
所以36名工人中年龄在-s和+s之间的人数所占的百分比为×100%≈63.89%.
[类题通法]
通常我们用样本的平均数和方差(标准差)来近似代替总体的平均数和方差(标准差),呈现样本数据的集中趋势及波动大小,从而实现对总体的估计.
(1)一般情况下,需要将平均数和标准差结合,得到更多样本数据的信息,从而对总体作出较好的估计.因为平均数容易掩盖一些极端情况,使我们对总体作出片面的判断,而标准差较好地避免了极端情况.
(2)若两组数据的平均数差别很大,也可以仅比较平均数,估计总体的平均水平,从而作出判断.

1.为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:
①甲地该月14时的平均气温低于乙地该月14时的平均气温;
②甲地该月14时的平均气温高于乙地该月14时的平均气温;
③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;
④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.
其中根据茎叶图能得到的统计结论的编号为(  )
A.①③ B.①④
C.②③ D.②④
解析:选B 法一:∵甲==29,
乙==30,
∴甲<乙,
又s==,s==2,
∴s甲>s乙.故可判断结论①④正确.
法二:甲地该月14时的气温数据分布在26和31之间,且数据波动较大,而乙地该月14时的气温数据分布在28和32之间,且数据波动较小,可以判断结论①④正确,故选B.
2.若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为(  )
A.8 B.15
C.16 D.32
解析:选C 已知样本数据x1,x2,…,x10的标准差为s=8,则s2=64,数据2x1-1,2x2-1,…,2x10-1的方差为22s2=22×64,所以其标准差为=2×8=16,故选C.
3.(新课标全国卷Ⅱ)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表.
图①
B地区用户满意度评分的频数分布表
满意度评分分组
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
2
8
14
10
6
(1)在图②中作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可).
图②
(2)根据用户满意度评分,将用户的满意度分为三个等级:
满意度评分
低于70分
70分到89分
不低于90分
满意度等级
不满意
满意
非常满意
估计哪个地区用户的满意度等级为不满意的概率大?说明理由.
解:(1)如图所示.
通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.
(2)A地区用户的满意度等级为不满意的概率大.记CA表示事件:“A地区用户的满意度等级为不满意”;CB表示事件:“B地区用户的满意度等级为不满意”.由直方图得P(CA)的估计值为(0.01+0.02+0.03)×10=0.6,P(CB)的估计值为(0.005+0.02)×10=0.25.所以A地区用户的满意度等级为不满意的概率大.
变量的相关性
此类问题既有选择题、填空题,也有解答题,主要考查线性回归方程的求法及应用.

1.最小二乘法
求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫作最小二乘法.
2.线性回归方程
方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的线性回归方程,其中a,b是待定参数.

[典例] (1)(福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x(万元)
8.2
8.6
10.0
11.3
11.9
支出y(万元)
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程y=bx+a,其中b=0.76,a=-b.据此估计,该社区一户年收入为15万元家庭的年支出为(  )
A.11.4万元 B.11.8万元
C.12.0万元 D.12.2万元
(2)(重庆高考)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份
2010
2011
2012
2013
2014
时间代号t
1
2
3
4
5
储蓄存款y(千亿元)
5
6
7
8
10
①求y关于t的回归方程y=bt+a;
②用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.
[解析] (1)由题意知,
==10,
==8,
∴a=8-0.76×10=0.4,
∴当x=15时,y=0.76×15+0.4=11.8(万元).
答案:B
(2)解:①列表计算如下:
i
ti
yi
t
tiyi
1
1
5
1
5
2
2
6
4
12
3
3
7
9
21
4
4
8
16
32
5
5
10
25
50

15
36
55
120
这里n=5,=i==3,=i==7.2.
又-n2=55-5×32=10,iyi-n=120-5×3×7.2=12,
从而b==1.2,a=-b=7.2-1.2×3=3.6,故所求回归方程为y=1.2t+3.6.
②将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为y=1.2×6+3.6=10.8(千亿元).
[类题通法]
线性回归分析就是研究两组变量间线性相关关系的一种方法,通过对统计数据的分析,可以预测可能的结果,这就是线性回归方程的基本应用,因此利用最小二乘法求线性回归方程是关键,必须熟练掌握线性回归方程中两个重要估计量的计算.

1.(新课标全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是(  )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
解析:选D 对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.
2.以下是某地搜集到的新房屋的销售价格y和房屋面积x的数据:
房屋面积x(m2)
115
110
80
135
105
销售价格y(万元)
24.8
21.6
18.4
29.2
22
(1)画出数据对应的散点图;
(2)求线性回归方程,并在散点图中加上回归直线;
(3)根据(2)的结果估计当房屋面积为150 m2时的销售价格.
解:(1)数据对应的散点图如下图所示:
(2)=i=109,(xi-)2=1 570,
=i=23.2,(xi-)(yi-)=308.
设所求回归直线方程为y=bx+a,则
b==≈0.196 2,
a=-b≈23.2-109×0.1 962=1.814 2.
故回归直线方程为y=0.196 2x+1.814 2,回归直线在(1)中的散点图中.
(3)据(2)知当x=150 m2时,销售价格估计为:
y=0.196 2×150+1.814 2=31.244 2≈31.2(万元).