专题五 概率与统计
第1讲 统计与统计案例
考情分析
KAO QING FEN XI
高考对本讲内容的考查往往以实际问题为背景,考查随机抽样与用样本估计总体,线性回归方程的求解与运用,独立性检验问题.常与概率综合考查,中等难度.
内
容
索
引
考点一
考点二
考点三
专题强化练
1
考点一 统计图表
PART ONE
核心提炼
2.频率分布直方图中各小长方形的面积之和为1.
3.利用频率分布直方图求众数、中位数与平均数.
频率分布直方图中:
(1)最高的小长方形底边中点的横坐标即众数.
(2)中位数左边和右边的小长方形的面积和相等.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
例1 (1)(2020·济南模拟)随着我国经济实力的不断提升,居民收入也在不断增加.某家庭2020年全年的收入与2016年全年的收入相比增加了一倍,实现翻番.同时该家庭的消费结构随之也发生了变化,现统计了该家庭这两年不同品类的消费额占全年总收入的比例,得到了如下折线图:
则下列结论中正确的是
A.该家庭2020年食品的消费额是2016年食品的消费额的一半
B.该家庭2020年教育医疗的消费额与2016年教育医疗的消费额相等
C.该家庭2020年休闲旅游的消费额是2016年休闲旅游的消费额的五倍
D.该家庭2020年生活用品的消费额是2016年生活用品的消费额的两倍
√
解析 选项A中,2020年食品消费占0.2,2016年食品消费占0.4,因为2020年全年的收入与2016年全年的收入相比增加了一倍,所以两年的食品消费额相等,故A项错误;
选项B中,2020年教育医疗消费占0.2,2016年教育医疗消费占0.2,因为2020年全年的收入与2016年全年的收入相比增加了一倍,所以2020年教育医疗消费额是2016年的两倍,故B项错误;
选项C中,2020年休闲旅游消费占0.25,2016年休闲旅游消费占0.1,因为2020年全年的收入与2016年全年的收入相比增加了一倍,所以2020年休闲旅游消费额是2016年的五倍,故C项正确;
选项D中,2020年生活用品消费占0.3,2016年生活用品消费占0.15,因为2020年全年的收入与2016年全年的收入相比增加了一倍,所以2020年生活用品消费额是2016年的四倍,故D项错误.
(2)学校为了了解新课程标准提升阅读要求对学生阅读兴趣的影响情况,随机抽取了100名学生进行调查.根据调查结果绘制学生周末阅读时间的频率分布直方图如图所示:
将阅读时间不低于30分钟的学生称为“阅读霸”,则下列结论正确的是
A.抽样表明,该校约有一半学生
为阅读霸
B.该校只有50名学生不喜欢阅读
C.该校只有50名学生喜欢阅读
D.抽样表明,该校有50名学生为
阅读霸
√
解析 根据频率分布直方图可列下表:
阅读时间
(分钟)
[0,10)
[10,20)
[20,30)
[30,40)
[40,50)
[50,60]
抽样人数
(名)
10
18
22
25
20
5
抽样100名学生中有50名为阅读霸,占一半,据此可判断该校约有一半学生为阅读霸.
易错提醒
(1)对于给出的统计图表,一定要结合问题背景理解图表意义,不能似懂非懂.
(2)频率分布直方图中纵坐标不要误以为频率.
跟踪演练1 (1)某数学教师为了解A,B两个班级学生的数学竞赛成绩,将两个班级参加数学竞赛的学生的成绩绘制成茎叶图,如图所示,设A,B两班的平均成绩分别为 ,中位数分别为mA,mB,则
√
(2)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是
A.各月的平均最低气温都在0 ℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温不低于20 ℃的月份有5个
√
解析 由题中雷达图易知A,C正确.
七月份平均最高气温超过20 ℃,平均最低气温约为13 ℃;
一月份平均最高气温约为6 ℃,平均最低气温约为2 ℃,所以七月的平均温差比一月平均温差大,故B正确.
由题图知平均最高气温不低于20 ℃的月份为六、七、八月,有3个.
2
考点二 回归分析
PART TWO
核心提炼
在分析两个变量的相关关系时,可根据样本数据作出散点图来判断两个变量之间是否具有相关关系.若具有线性相关关系,则回归直线过样本点的中心( ),并且可通过线性回归方程估计预报变量的值.
例2 (2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
解 样本(xi,yi)(i=1,2,…,20)的相关系数
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
解 分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.
由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
规律方法
样本数据的相关系数
反映样本数据的相关程度,|r|越大,则相关性越强.
跟踪演练2 (1)已知某产品的销售额y与广告费用x之间的关系如下表:
x(单位:万元)
0
1
2
3
4
y(单位:万元)
10
15
20
30
35
若求得其线性回归方程为 =6.5x+ ,则预计当广告费用为6万元时的销售额为
A.42万元 B.45万元
C.48万元 D.51万元
√
解析 由题意,根据下表中的数据,
x(单位:万元)
0
1
2
3
4
y(单位:万元)
10
15
20
30
35
即样本点的中心为(2,22),
(2)(2020·河北衡水中学月考)有一散点图如图所示,在5个(x,y)数据中去掉D(3,10)后,下列说法正确的是
A.残差平方和变小
B.相关系数r变小
C.相关指数R2变小
D.解释变量x与预报变量y的相关性变弱
√
解析 ∵从散点图可分析得出:
只有D点偏离直线远,去掉D点,解释变量x与预报变量y的线性相关性变强,
∴相关系数变大,相关指数变大,残差平方和变小,故选A.
3
考点三 独立性检验
PART THREE
核心提炼
假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
?
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
例3 (2020·宁夏六盘山高级中学模拟)为了调查一款手机的使用时间,研究人员对该款手机进行了相应的测试,将得到的数据统计如图所示:
并对不同年龄层的市民对这款手机的购买意愿作出调查,得到的数据如下表所示:
?
愿意购买该款手机
不愿意购买该款手机
总计
40岁以下
?
600
?
40岁以上
800
?
1 000
总计
1 200
?
?
(1)根据图中的数据,试估计该款手机的平均使用时间;
解 4×0.05×2+4×0.09×6+4×0.07×10+4×0.03×14+4×0.01×18=7.76,该款手机的平均使用时间为7.76年.
(2)请将表格中的数据补充完整,并根据表中数据,判断是否有99.9%的把握认为“愿意购买该款手机”与“市民的年龄”有关.
?
愿意购买该款手机
不愿意购买该款手机
总计
40岁以下
?
600
?
40岁以上
800
?
1 000
总计
1 200
?
?
参考数据:
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
解
?
愿意购买
该款手机
不愿意购买该款手机
总计
40岁以下
400
600
1 000
40岁以上
800
200
1 000
总计
1 200
800
2 000
可知有99.9%的把握认为“愿意购买该款手机”与“市民的年龄”有关.
规律方法
独立性检验的关键
(1)根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.
(2)K2的观测值k越大,对应的假设H0成立的概率越小,H0不成立的概率越大.
跟踪演练3 随着国家二胎政策的全面放开,为了调查一线城市和非一线城市的二胎生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如右表.
附表:
?
非一线城市
一线城市
总计
愿生
45
20
65
不愿生
13
22
35
总计
58
42
100
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
参照附表,得到的正确结论是
A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”
C.有99%以上的把握认为“生育意愿与城市级别有关”
D.有99%以上的把握认为“生育意愿与城市级别无关”
√
解析 由题意知,
K2的观测值k≈9.616>6.635,
∴有99%以上的把握认为“生育意愿与城市级别有关”.
4
专题强化练
PART FOUR
一、选择题
1.某人5次上班途中所花的时间(单位:分钟)分别为x,y,10,11,9,已知这组数据的平均数为10,方差为2,则|x-y|的值为
A.4 B.3 C.2 D.1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
√
(x-10)2+(y-10)2+(10-10)2+(11-10)2+(9-10)2=5×2,
解得x=8,y=12或x=12,y=8,故|x-y|=4.
2.(2019·全国Ⅲ)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为
A.0.5 B.0.6
C.0.7 D.0.8
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
解析 根据题意阅读过《红楼梦》《西游记》的人数用韦恩图表示如下:
所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为 =0.7.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
3.某生产车间的甲、乙两位工人生产同一种零件,这种零件的标准尺寸为85 mm,现分别从他们生产的零件中各随机抽取8件进行检测,其尺寸(单位:mm)用茎叶图表示如图所示,则估计
A.甲、乙生产的零件尺寸的中位数相等
B.甲、乙生产的零件质量相当
C.甲生产的零件质量比乙生产的零件质量好
D.乙生产的零件质量比甲生产的零件质量好
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
解析 甲生产的零件尺寸是93,89,88,85,84,82,
79,78;乙生产的零件尺寸是90,88,86,85,85,84,
84,78.
根据数据分析,乙的数据较稳定,故乙生产的零件质量比甲生产的零件质量好,故B,C错误.
4.(2020·全国Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图可以看出,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是
A.y=a+bx B.y=a+bx2 C.y=a+bex D.y=a+bln x
√
解析 由散点图可以看出,点大致分布在对数型函数的图象附近.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
5.利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问110名不同的大学生是否爱好该项运动,得出2×2列联表,由计算可得K2≈8.806.
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.706
3.841
5.024
6.635
7.879
10.828
参照附表,得到的正确结论是
A.有99.5%以上的把握认为“爱好该项运动与性别无关”
B.有99.5%以上的把握认为“爱好该项运动与性别有关”
C.在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别无关”
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
解析 由于计算得K2≈8.806>7.879,根据独立性检验的知识可知有99.5%以上的把握认为“爱好该项运动与性别有关”.
6.为了研究某班学生的脚长x(单位:cm)和身高y(单位:cm)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其线性回归方程为 .已知 =225,
=1 600, =4.该班某学生的脚长为24 cm,据此估计其身高为
A.160 cm B.163 cm
C.166 cm D.170 cm
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
7.某校进行了一次创新作文大赛,共有100名同学参赛,经过评判,这100名参赛者的得分都在[40,90]之间,其得分的频率分布直方图如图所示,则下列结论错误的是
A.得分在[40,60)之间的共有40人
B.从这100名参赛者中随机选取1人,
其得分在[60,80)之间的概率为0.5
C.估计得分的众数为55
D.这100名参赛者得分的中位数为65
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
解析 根据频率和为1,计算(a+0.035+0.030+0.020+0.010)×10=1,解得a=0.005,
得分在[40,60)之间的频率是0.4,估计得分在[40,60)之间的有100×0.4=40(人),A正确;
得分在[60,80)之间的频率为0.5,可得从这100名参赛者中随机选取1人,得分在[60,80)之间的概率为0.5,B正确;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
根据频率分布直方图知,得分低于60分的直方图面积为(0.005+0.035)×10=0.4<0.5,而得分低于70分的直方图面积为(0.005+0.035+0.030)×10=0.7>0.5,所以100名参赛者得分的中位数估计为60+
≈63.3,D错误.
8.(2020·青岛模拟)某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布饼状图、90后从事互联网行业岗位分布条形图,则下列结论错误的是
注:90后指1990年及以后出生,80后指1980-1989年之间出生,80前指1979年及以前出生.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
A.互联网行业从业人员中从事技术和运营岗位的人数占总人数的三成
以上
B.互联网行业中从事技术岗位的人数超过总人数的20%
C.互联网行业中从事运营岗位的人数90后比80前多
D.互联网行业中从事技术岗位的人数90后比80后多
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
解析 选项A,因为互联网行业从业人员中,“90后”占比为56%,其中从事技术和运营岗位的人数占的比分别为39.6%和17%,则“90后”从事技术和运营岗位的人数占总人数的56%×(39.6%+17%)≈31.7%.
“80前”和“80后”中必然也有从事技术和运营岗位的人,则总的占比一定超过三成,故选项A正确;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
选项B,因为互联网行业从业人员中,“90后”占比为56%,其中从事技术岗位的人数占的比为39.6%,则“90后”从事技术岗位的人数占总人数的56%×39.6%≈22.2%.
“80前”和“80后”中必然也有从事技术岗位的人,则总的占比一定超过20%,故选项B正确;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
选项C,“90后”从事运营岗位的人数占总人数的比为56%×17%≈9.5%,大于“80前”的总人数所占比3%,故选项C正确;
选项D,“90后”从事技术岗位的人数占总人数的56%×39.6%≈22.2%,“80后”的总人数所占比为41%,条件中未给出“80后”从事技术岗位的占比,故不能判断,所以选项D错误.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
二、填空题
9.如图是100位居民月均用水量的频率分布直方图,则月均用水量在[2,2.5)(单位:t)范围内的居民有________人.
25
解析 依题意知,月均用水量在[2,2.5)范围内的频率为0.50×0.5=0.25,
故所求居民人数为100×0.25=25.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
10.某赛季甲、乙两名篮球运动员每场比赛得分数据用茎叶图表示,如图所示,从茎叶图的分布情况看,_____运动员的发挥更稳定.
乙
解析 从茎叶图可以看出,乙的数据分布更加集中,
所以乙运动员的发挥更稳定.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
11.下面的折线图给出的是甲、乙两只股票在某年中每月的收盘价格,已知股票甲的极差是6.88元,标准差为2.04元;股票乙的极差为27.47元,标准差为9.63元,根据这两只股票在这一年中的波动程度,给出下列结论:①股票甲在这一年中波动相对较小,表现的更加稳定;②购买股票乙风险高但可能获得高回报;③股票甲的走势相对平稳,股票乙的收盘价格波动较大;④两只股票在全年
都处于上升趋势.其中正确的结论是
_________.(填序号)
①②③
解析 由题意可知,甲的标准差为2.04元,乙的标准差为9.63元,可知股票甲在这一年中波动相对较小,表现的更加稳定,故①正确;
甲的极差是6.88元,乙的极差为27.47元,可知购买股票乙风险高但可能获得高回报,故②正确;
通过折线图可知股票甲的走势相对平稳,股票乙的收盘价格波动较大,故③正确;
通过折线图可得乙在6月到8月明显是下降趋势,故④错误.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
12.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为 =0.85x-85.71,则下列结论中不正确的是________.
(填序号)
①y与x具有正的线性相关关系;
②回归直线过样本点的中心( );
③若该大学某女生身高增加1 cm,则其体重约增加0.85 kg;
④若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg.
④
1
2
3
4
5
6
7
8
9
10
11
12
13
14
解析 由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故①正确;
由线性回归方程的意义知,某女生的身高增加1 cm,其体重约增加0.85 kg,故③正确;
当某女生的身高为170 cm时,其体重估计值是58.79 kg,这不是确定值,因此④不正确.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
三、解答题
13.(2020·潍坊模拟)某水果种植基地引进一种新水果品种,经研究发现该水果每株的产量y(单位:kg)和与它“相近”的株数x具有线性相关关系(两株作物“相近”是指它们的直线距离不超过1 m),并分别记录了相近株数为0,1,2,3,4时每株产量的相关数量如下:
x
0
1
2
3
4
y
15
12
11
9
8
(1)求出该种水果每株的产量y关于它“相近”株数x的回归方程;
解 由题意得,
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(2)该种植基地在如图所示的长方形地块的每个格点(横、纵直线的交点)处都种了一株该种水果,其中每个小正方形的面积都为1 m2,现从所种的该水果中随机选取一株,试根据(1)中的回归方程,预测它的产量的平均数.
?
?
?
?
?
?
?
?
?
?
?
?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
解 由回归方程得
所以一株产量的平均数为9.13 kg.
14.(2020·全国Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次
空气质量等级
[0,200]
(200,400]
(400,600]
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
1
2
3
4
5
6
7
8
9
10
11
12
13
14
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成右面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
?
人次≤400
人次>400
空气
质量好
?
?
空气质量不好
?
?
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
1
2
3
4
5
6
7
8
9
10
11
12
13
14
解 2×2列联表如下:
?
人次≤400
人次>400
总计
空气质量好
33
37
70
空气质量不好
22
8
30
总计
55
45
100
因此,有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
本课结束