课件30张PPT。第二章 统 计章末复习课用样本的频率分布估计总体分布 用样本的数字特征估计总体的数字特征 用线性回归方程对总体进行估计 点击右图进入…Thank you for watching !章末综合测评(二) 统 计
(满分:150分 时间:120分钟)
一、选择题(本大题共12小题,每小题5分,满分60分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.下列各选项中的两个变量具有相关关系的是( )
A.长方体的体积与边长
B.大气压强与水的沸点
C.人们消费水平越高,社会经济水平越好
D.球的半径与表面积
C [A、B、D是函数关系,C是相关关系.]
2.某班学生父母年龄的茎叶图如图所示,左边是父亲年龄,右边是母亲年龄,则该班同学父亲的平均年龄比母亲的平均年龄大( )
父亲
母亲
9 9 8 9
3
5 6 7 8 8
7 8 8 2 9 3 5 1 4 2
4
0 4 3 2 1 5 6 1 1 3 4
3 4 1 4 5 0
5
0 1 0 2
A.2.7岁 B.3.1岁
C.3.2岁 D.4岁
C [由茎叶图提供数据,分别求出父亲与母亲年龄的平均值,可得结论.]
3.如果在一次试验中,测得(x,y)的四组数值分别是A(1,3),B(2,3.8),C(3,5.2),D(4,6),则y与x之间的回归直线方程是( )
A.=x+1.9 B.=1.04x+1.9
C.=0.95x+1.04 D.=1.05x-0.9
B [=(1+2+3+4)=2.5,=(3+3.8+5.2+6)=4.5,由于回归直线方程过样本中心点(,),代入验证知,B选项满足.]
4.在学校开展的综合实践活动中,某班进行了小制作评比.作品上交时间为5月1日至31日,评委会把同学们上交作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形的高的比为2∶3∶4∶6∶4∶1,第3组的频数为12.则参加本次活动的作品数是( )
A.60 B.66
C.68 D.72
A [由题意知第3组的频率为4÷(2+3+4+6+4+1)=0.2,又第3组的频数为12,则共有12÷0.2=60(件)作品参加评比.]
5.某同学使用计算器求30个数据的平均数时,错将其中一个数据105输入为15,则由此求出的平均数与实际平均数的差是( )
A.3.5 B.-3
C.3 D.-0.5
B [少输入90,=3,平均数少3,求出的平均数减去实际平均数为-3.]
6.某年级有1 000名学生,随机编号为0001,0002,…,1 000,现用系统抽样的方法从中抽出200人,若0122号被抽到,则下列编号也被抽到的是( )
A.0116 B.0927
C.0834 D.0726
B [样本间隔为1 000÷200=5,因为122÷5=24余2,故抽取的号码是除以5余2的数,验证可得B正确.]
7.如图是一容量为100的样本的质量的频率分布直方图,则由图可估计样本质量的中位数为( )
A.11 B.11.5
C.12 D.12.5
C [由直方图知,组距为5,故各组频率分别是0.3,0.5,0.2,从而中位数为10+×5=12.]
8.某校高三级部分为甲、乙两个级部,现用分层抽样的方法从高三级部中抽取30名老师去参加教研会,已知乙级部中每个老师被抽到的可能性都为,则高三级部的全体老师的个数为( )
A.10 B.30
C.60 D.90
D [因为乙级部中每个老师被抽到的可能性都为,所以高三年级中每个老师被抽到的可能性都为,由30÷=90(人),可得全体老师人数.]
9.如果数据x1,x2,x3,…,xn的平均数是,方差是s2,则3x1+2,3x2+2,…,3xn+2的平均数和方差分别是( )
A.和s2 B.3和9s2
C.3+2和9s2 D.3+2和12s2+4
C [由平均数与方差的计算公式得,3x1+2,3x2+2,…,3xn+2的平均数为3+2,方差为9s2.]
10.在样本频率分布直方图中,共有11个小长方形,若中间一个小长方形的面积等于其他10个小长方形面积和的,且样本容量为160,则中间一组的频数为( )
A.32 B.0.2
C.40 D.0.25
A [由频率分布直方图的性质,可设中间一组的频率为x,则x+4x=1,∴x=0.2,故中间一组的频数为160×0.2=32.]
11.下表提供了某厂节能降耗技术改造后生产某产品的过程中产量x(吨)与相应的生产能耗y(吨)的几组对应数据.根据表中提供的数据,求出y关于x的回归方程是=0.7x+0.35,那么表中t的值是( )
x
3
4
5
6
y
2.5
t
4
4.5
A.4.5 B.4
C.3 D.3.15
C [=(3+4+5+6)=4.5,代入=0.7x+0.35知=3.5,即(2.5+t+4+4.5)=3.5,∴t=3.]
12.在某地区某高传染性病毒流行期间,为了建立指标显示疫情已受控制,以便向该地区居民显示可以过正常生活,有公共卫生专家建议的指标是“连续7天每天新增感染人数不超过5人”,根据连续7天的新增病例数计算,下列各项中,一定符合上述指标的是( )
①平均数≤3;②标准差s≤2;③平均数≤3且标准差s≤2;④平均数≤3且极差小于或等于2;⑤众数等于1且极差小于或等于4.
A.①② B.③④
C.③④⑤ D.④⑤
D [①②③不符合,④符合,若极差为0或1,在≤3的条件下,显然符合指标;若极差为2且≤3,则每天新增感染人数的最小值与最大值有下列可能:(1)0,2,(2)1,3;(3)2,4,符合指标.⑤符合,若众数为1且极差小于或等于4,则最大值不超过5,符合指标.]
二、填空题(本大题共4小题,每小题5分,共20分,把答案填在答题纸的横线上)
13.某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人):
篮球组
书画组
乐器组
高一
45
30
a
高二
15
10
20
学校要对这三个小组的活动效果进行抽样调查,按小组分层抽样,从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________.
30 [由题意知,=.解得a=30.]
14.从一堆苹果中任取20个,并得到它们的质量(单位:克)数据分布如下:
分组
[90,
100)
[100,
110)
[110,
120)
[120,
130)
[130,
140)
[140,
150)
频数
1
2
3
10
3
1
则这堆苹果中,质量不少于120克的苹果数约占苹果总数的________%.
70 [∵质量不少于120克的苹果的频数为14,∴频率为×100%=70%.]
15.某产品的广告费用x(万元)与销售额y(万元)的统计数据如下表:
广告费用x(万元)
3
4
5
6
销售额y(万元)
25
30
40
45
根据上表可得线性回归方程=x+中的为7.据此模型预测广告费用为10万元时销售额为________万元.
73.5 [由题表知,=4.5,=35,代入回归方程得=3.5,所以回归方程为=7x+3.5,故当x=10时,=7×10+3.5=73.5(万元).]
16.从甲、乙、丙三个厂家生产的同一种产品中各抽取8件产品,对其使用寿命(单位:年)跟踪调查结果如下:
甲:3,4,5,6,8,8,8,10;
乙:4,6,6,6,8,9,12,13;
丙:3,3,4,7,9,10,11,12.
三个厂家在广告中都称该产品的使用寿命是8年,请根据结果判断厂家在广告中分别运用了平均数、众数、中位数中的哪一种集中趋势的特征数:甲__________,乙__________,丙__________.
众数 平均数 中位数 [ 甲、乙、丙三个厂家从不同角度描述了一组数据的特征.甲:该组数据8出现的次数最多;乙:该组数据的平均数==8;丙:该组数据的中位数是=8.]
三、解答题(本大题共6小题,共70分.解答应写出文字说明、证明过程或演算步骤)
17.(本小题满分10分)某公司为了了解一年内的用水情况,抽取了10天的用水量如下表所示:
天数
1
1
1
2
2
1
2
用水量/吨
22
38
40
41
44
50
95
(1)在这10天中,该公司用水量的平均数是多少?
(2)在这10天中,该公司每天用水量的中位数是多少?
(3)你认为应该用平均数和中位数中的哪一个数来描述该公司每天的用水量?
[解] (1)=(22+38+40+2×41+2×44+50+2×95)=51(吨).
(2)中位数为=42.5(吨).
(3)平均数受数据中的极端值(2个95)影响较大,使平均数在估计总体时可靠性降低,10天的用水量有8天都在平均值以下,故用中位数描述每天的用水量更合适.
18.(本小题满分12分)2017年春节前,有超过20万名来自广西、四川的外来务工人员选择驾乘摩托车沿321国道返乡过年,为防止摩托车驾驶人员因长途疲劳驾驶而引发交通事故,肇庆市公安交警部门在321国道沿线设立了多个休息站,让过往的摩托车驾驶人员有一个停车休息的场所.交警小李在某休息站连续5天对进站休息的摩托车驾驶人员每隔50人询问一次省籍,询问结果如图所示:
(1)交警小李对进站休息的驾驶人员的省籍询问采用的是什么抽样方法?
(2)用分层抽样的方法对被询问了省籍的驾驶人员进行抽样,若广西籍的有5名,则四川籍的应抽取几名?
[解] (1)根据题意,因为有相同的间隔,符合系统抽样的特点,所以交警小李对进站休息的驾驶人员的省籍询问采用的是系统抽样方法.
(2)从图中可知,被询问了省籍的驾驶人员中
广西籍的有5+20+25+20+30=100(人),
四川籍的有15+10+5+5+5=40(人),
设四川籍的驾驶人员应抽取x名,依题意得=,
解得x=2,即四川籍的应抽取2名.
19.(本小题满分12分)抽样调查30个工人家庭的人均月收入,得到如下数据(单位:元):
404 444 556 430 380 420 500 430 420 384
420 404 424 340 424 412 388 472 358 476
376 396 428 444 366 436 364 438 330 426
(1)取组距为60,起点为320,列出样本的频率分布表;
(2)画出频率分布直方图;
(3)根据频率分布直方图估计人均月收入在[440,560]上的家庭所占的百分比.
[解] (1)频率分布表如下:
分组
频数
频率
[320,380)
6
0.20
[380,440)
18
0.60
[440,500)
4
0.13
[500,560]
2
0.07
合计
30
1.00
(2)频率分布直方图如图.
(3)人均月收入落在[440,560]上的家庭所占的频率为0.13+0.07=0.2=20%.所以估计人均月收入在[440,560]上的家庭所占的百分比为20%.
20.(本小题满分12分)农科院的专家为了了解新培育的甲、乙两种麦苗的长势情况,从甲、乙两种麦苗的试验田中各抽取6株麦苗测量麦苗的株高,数据如下:(单位:cm)
甲:9,10,11,12,10,20;
乙:8,14,13,10,12,21.
(1)在如图给出的方框内绘出所抽取的甲、乙两种麦苗株高的茎叶图;
(2)分别计算所抽取的甲、乙两种麦苗株高的平均数与方差,并由此判断甲、乙两种麦苗的长势情况.
[解] (1)茎叶图如图所示:
(2) 甲==12,
乙==13,
s≈13.67,s≈16.67.
因为甲<乙,所以乙种麦苗平均株高较高,又因为s<s,所以甲种麦苗长得较为整齐.
21.(本小题满分12分)下表数据是退水温度x(单位:℃)对黄酮延长性y(单位:%)效应的试验结果,y是以延长度计算的.
x/℃
300
400
500
600
700
800
y/%
40
50
55
60
67
70
(1)画出散点图;
(2)指出x,y是否线性相关;
(3)若线性相关,求y关于x的线性回归方程;
(4)估计当退水温度是1 000 ℃时,黄酮延长性的情况.
[解] (1)散点图如图.
(2)由散点图可以看出样本点分布在一条直线附近,可见y与x线性相关.
(3)列出下表并用科学计算器进行有关计算.
i
1
2
3
4
5
6
xi
300
400
500
600
700
800
yi
40
50
55
60
67
70
xiyi
12 000
20 000
27 500
36 000
46 900
56 000
x
90 000
160 000
250 000
360 000
490 000
640 000
=550,=57,
x=1 990 000,xiyi=198 400
设线性回归方程为=x+,于是可得,
≈0.058 86,
=-=57-0.058 86×550=24.627.
因此所求线性回归方程为
=0.058 86x+24.627.
(4)将x=1 000代入线性回归方程得,
=0.058 86×1 000+24.627=83.487,
即当退水温度是1 000 ℃时,
黄酮延长性大约是83.487%.
22.(本小题满分12分)甲、乙两人在相同的条件下各射靶10次,每次射靶成绩(单位:环)如图所示:
(1)填写下表:
平均数
中位数
命中9环以上
甲
7
________
1
乙
________
________
3
(2)请从四个不同的角度对这次测试进行分析:
①结合平均数和方差,分析偏离程度;
②结合平均数和中位数,分析谁的成绩好些;
③结合平均数和命中9环以上(含9环)的次数,看谁的成绩好些;
④结合折线图上两人射击命中环数及走势,分析谁更有潜力.
[解] (1)甲的射靶环数从小到大排列为5,6,6,7,7,7,7,8,8,9,
∴中位数为7环.
乙的射靶环数依次为2,4,6,8,7,7,8,9,9,10,
∴乙=(2+4+6+8+7+7+8+9+9+10)=7(环).乙的射靶环数从小到大排列为2,4,6,7,7,8,8,9,9,10,
∴中位数是=7.5(环).
于是填充后的表格,如表所示:
平均数
中位数
命中9环以上(含9环)
甲
7
7
1
乙
7
7.5
3
(2)s=[(5-7)2+(6-7)2×2+(7-7)2×4+(8-7)2×2+(9-7)2]=1.2,
s=[(2-7)2+(4-7)2+(6-7)2+(7-7)2×2+(8-7)2×2+(9-7)2×2+(10-7)2]=5.4.
①甲、乙的平均数相同,均为7,但s②甲、乙的平均数相同,而乙的中位数比甲大,说明乙射靶环数的优秀次数比甲多.
③甲、乙的平均数相同,而乙命中9环以上(含9环)的次数比甲多2次,可知乙的射靶成绩比甲好.
④从折线图上看,乙的成绩呈上升趋势,而甲的成绩在平均线上波动不大,说明乙的状态在提升,更有潜力.
用样本的频率分布估计总体分布
【例1】 某地教育部门为了调查学生在数学考试中的有关信息,从上次考试的10 000名考生中用分层抽样的方法抽取500人,并根据这500人的数学成绩画出样本的频率分布直方图(如图),则这10 000名考生的数学成绩在[140,150]内的约有________人.
思路点拨:根据频率分布直方图求出样本中数学成绩在[140,150]内的频率,可估计总体中成绩在[140,150]内的人数.
800 [由样本的频率分布直方图知数学成绩在[140,150]内的频率是相应小矩形的面积,即0.008×10=0.08,因此这10 000名考生中数学成绩在[140,150]内的约有10 000×0.08=800(人).]
用样本的频率分布估计总体分布
通常要对样本数据进行列表、作图处理.这类问题采取的图表主要有:条形图、直方图、茎叶图、频率分布折线图、扇形图等.它们的主要优点是直观,能够清楚表示总体的分布走势.除茎叶图外,其他几种图表法的缺点是原始数据信息有丢失.
1.已知总体数据均在[10,70]内,从中抽取一个容量为20的样本,分组后对应组的频数如下表所示:
分组
[10,20)
[20,30)
[30,40)
[40,50)
[50,60)
[60,70]
频数
2
3
4
5
4
2
则总体数据在区间[10,50)内的频率约为( )
A.0.5 B.0.25
C.0.6 D.0.7
D [由频率分布表可知样本数据在区间[10,50)内的频数等于[10,20),[20,30),[30,40),[40,50)四个分组的频数之和,即2+3+4+5=14,频率为=0.7.
由样本的频率分布估计总体分布的思想可知,总体数据在区间[10,50)内的频率约为0.7.]
用样本的数字特征估计总体的数字特征
【例2】 在射击比赛中,甲、乙两名运动员分在同一小组,给出了他们命中的环数如下表:
甲
9
6
7
6
2
7
7
9
8
9
乙
2
4
6
8
7
8
9
7
9
10
赛后甲、乙两名运动员都说自己是胜者,如果你是裁判,你将给出怎样的评判?
思路点拨:规则不同,评判结果有所不同.
[解] 为了分析的方便,先计算两人的统计指标如下表所示.
平均环数
方差
中位数
命中10环次数
甲
7
4
7
0
乙
7
5.4
7.5
1
规则1:平均环数和方差相结合,平均环数高者胜.若平均环数相等,则再看方差,方差小者胜,则甲胜.
规则2:平均环数与中位数相结合,平均环数高者胜.若平均环数相等,则再看中位数,中位数大者胜,则乙胜.
规则3:平均环数与命中10环次数相结合,平均环数高者胜.若平均环数相等,则再看命中10环次数,命中10环次数多者胜,则乙胜.
以上规则都是以平均环数为第一标准,如果比赛规则是看命中7环以上或10环的次数,那么就不需要先看平均环数了.
样本的数字特征可分为两大类,一类反映样本数据的集中趋势,包括样本平均数、众数、中位数;另一类反映样本数据的波动大小,包括样本方差及标准差.通常,我们用样本的数字特征估计总体的数字特征.有关样本平均数及方差的计算和应用是高考考查的热点.
2.如图是某赛季甲、乙两名篮球运动员5场比赛得分的茎叶图,已知甲的成绩的极差为31,乙的成绩的平均值为24,则下列结论错误的是( )
A.x=9
B.y=8
C.乙的成绩的中位数为26
D.乙的成绩的方差小于甲的成绩的方差
B [甲的成绩极差为31,所以最高成绩为39.x=9;由乙平均值是24,得y=24×5-(12+25+26+31)-20=6;由茎叶图知乙成绩的中位数为26,对比甲、乙成绩分布发现,乙成绩较集中,其方差较小. ]
用线性回归方程对总体进行估计
【例3】 理论预测某城市2020到2024年人口总数与年份的关系如下表所示:
年份202x(年)
0
1
2
3
4
人口数y(十万)
5
7
8
11
19
(1)请画出上表数据的散点图;
(2)指出x与y是否线性相关;
(3)若x与y线性相关,请根据上表提供的数据,用最小二乘法求出y关于x的回归方程=x+;
(4)据此估计2025年该城市人口总数.
(参数数据:0×5+1×7+2×8+3×11+4×19=132,02+12+22+32+42=30)
[解] (1)数据的散点图如图:
(2)由散点图可知,样本点基本上分布在一条直线附近,故x与y呈线性相关.
(3)由表知:=×(0+1+2+3+4)=2,=×(5+7+8+11+19)=10.
=-=3.6,
∴回归方程为=3.2x+3.6.
(4)当x=5时,=19.6(十万)=196万.故2025年该城市人口总数约为196万.
对两个变量进行研究,通常是先作出两个变量之间的散点图,根据散点图直观判断两个变量是否具有线性相关关系,如果具有,就可以应用最小二乘法求线性回归直线方程.由于样本可以反映总体,所以可以利用所求的线性回归直线方程,对这两个变量所确定的总体进行估计,即根据一个变量的取值,预测另一个变量的取值.
3.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份
2013
2014
2015
2016
2017
时间代号t
1
2
3
4
5
储蓄存款y(千亿元)
5
6
7
8
10
(1)求y关于t的回归方程= t+;
(2)用所求回归方程预测该地区2018年(t=6)的人民币储蓄存款.
[解] (1)列表计算如下:
i
ti
yi
t
tiyi
1
1
5
1
5
2
2
6
4
12
3
3
7
9
21
4
4
8
16
32
5
5
10
25
50
∑
15
36
55
120
这里n=5,=i==3,
从而==1.2,=y- t=7.2-1.2×3=3.6,
故所求回归方程为=1.2t+3.6.
(2)将t=6代入回归方程可预测该地区2018年的人民币储蓄存款为=1.2×6+3.6=10.8(千亿元).