(共65张PPT)
统计与统计案例
第22练
解析 由折线图,7月份后月接待游客量减少,A错误.
专项典题精练
高考汇编
1.(2017·全国Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月份
D.各年1月至6月的月接待游客量相对7月至12月,波动性更小,变化比较平稳
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
2.(多选)(2021·新高考全国Ⅰ)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
√
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
因为c≠0,所以C,D正确.
3.(多选)(2021·新高考全国Ⅱ)下列统计量中,能度量样本x1,x2,…,xn的离散程度的是
A.样本x1,x2,…,xn的标准差
B.样本x1,x2,…,xn的中位数
C.样本x1,x2,…,xn的极差
D.样本x1,x2,…,xn的平均数
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
√
解析 由标准差的定义可知,标准差考查的是数据的离散程度;
由中位数的定义可知,中位数考查的是数据的集中趋势;
由极差的定义可知,极差考查的是数据的离散程度;
由平均数的定义可知,平均数考查的是数据的集中趋势.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
4.(2021·全国甲卷)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是
A.该地农户家庭年收入低于4.5万元的
农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元
的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
√
解析 对于A,根据频率分布直方图
可知,家庭年收入低于4.5万元的农户
比率约为(0.02+0.04)×1×100%=6%,
故A正确;
对于B,根据频率分布直方图可知,家庭年收入不低于10.5万元的农户比率约为(0.04+0.02+0.02+0.02)×1×100%=10%,故B正确;
对于C,根据频率分布直方图可知,该地农户家庭年收入的平均值约为3×0.02+4×0.04+5×0.10+6×0.14+7×0.20+8×0.20+9×0.10+10×0.10+11×0.04+12×0.02+13×0.02+14×0.02=7.68(万元),故C错误;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
对于D,根据频率分布直方图可知,家庭年收入介于4.5万元至8.5万元之间的农户比率约为(0.10+0.14+0.20+0.20)×1×100%=64%>50%,故D正确.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
5.(2019·全国Ⅱ)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为_____.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
0.98
解析 经停该站高铁列车所有车次的平均正点率的估计值为
=0.98.
6.(2014·江苏)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有____株树木的底部周长小于100 cm.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解析 底部周长在[80,90)的频率为0.015×10=0.15,
底部周长在[90,100)的频率为0.025×10=0.25,
样本容量为60,
所以树木的底部周长小于100 cm的株数为(0.15+0.25)×60=24.
24
7.(2021·全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
P(K2≥k0) 0.050 0.010 0.001
k0 3.841 6.635 10.828
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解 根据题表中的数据可得
所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
8.(2016·全国Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码17分别对应年份2008-2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
附注:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解 由折线图中数据和附注中参考数据得
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)建立y关于t的线性回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
附注:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
所以预测2016年我国生活垃圾无害化处理
量将约为1.82亿吨.
9.(2021·盐城模拟)某词汇研究机构为对某城市人们使用流行语的情况进行调查,随机抽取了200人进行调查统计得下方的2×2列联表.则根据列联表可知
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
模拟精选
年轻人 非年轻人 合计
经常用流行用语 125 25 150
不常用流行用语 35 15 50
合计 160 40 200
参考公式:K2= ,其中n=a+b+c+d.
下面的临界值表供参考:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
P(K2≥k0) 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k0 2.072 2.706 3.841 5.024 6.635 7.879 10.828
有95%的把握认为经常用流行语与年轻人有关系.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
A.有95%的把握认为“经常用流行用语”与“年轻人”有关系
B.没有95%的把握认为“经常用流行用语”与“年轻人”有关系
C.有97.5%的把握认为“经常用流行用语”与“年轻人”有关系
D.有97.5%的把握认为“经常用流行用语”与“年轻人”没有关系
√
10.(多选)(2021·日照模拟)某保险公司为客户定制了5个险种:甲,一年期短险;乙,两全保险;丙,理财类保险;丁,定期寿险;戊,重大疾病保险,各种保险按相关约定进行参保与理赔.该保险公司对5个险种参保客户进行抽样调查,得出如右的统计图例:
用该样本估计总体,以下四个选项正确的是
A.54周岁以上参保人数最少
B.18~29周岁人群参保总费用最少
C.丁险种更受参保人青睐
D.30周岁以上的人群约占参保人群的20%
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
√
解析 对于A,由扇形图可知,54周岁以上参保人数最少,故选项A正确;
对于B,由折线图可知,18~29周岁人群人均参保费用最少,但是由扇形图知参保人数并不是最少的,所以参保总费用不是最少,故选项B错误;
对于C,由柱状图可知,丁险种参保比例最高,故选项C正确;
对于D,由扇形图可知,30周岁以上的人群约占参保人群的80%,故选项D错误.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
11.(2021·南昌模拟)蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率x(每分钟鸣叫的次数)与气温y(单位:℃)存在着较强的线性相关关系.某地观测人员根据下表的观测数据,建立了y关于x的线性回归方程 =0.25x+k.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
x(次数/分钟) 20 30 40 50 60
y(℃) 25 27.5 29 32.5 36
则当蟋蟀每分钟鸣叫52次时,该地当时的气温预报值为
A.33℃ B.34℃ C.35℃ D.35.5℃
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
当x=52时,y=0.25×52+20=33.
x(次数/分钟) 20 30 40 50 60
y(℃) 25 27.5 29 32.5 36
12.(多选)(2021·漳州模拟)在第一次全市高三年级统考后,某数学老师为了解本班学生的本次数学考试情况,将全班50名学生的数学成绩绘制成频率分布直方图.已知该班级学生的数学成绩全部介于65到145之间(满分150分),将数学成绩按如下方式分成八组:第一组[65,75),第二组[75,85),……,第八组[135,145],按上述分组方法得到的频率分布直方图的一部分,如图所示,则下列结论正确的是
A.第七组的频率为0.008
B.该班级数学成绩的中位数的估计值为101
C.该班级数学成绩的平均分的估计值大于95
D.该班级数学成绩的方差的估计值大于26
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
√
√
√
解析 A项,设第七组的频率为x,则10×(0.004+0.012+0.016+0.03+0.02+0.006+0.004)+x=1,得x=0.08,错误;
B项,由10×(0.004+0.012+0.016+0.03)=0.62>0.5>10×(0.004+0.012+0.016)=0.32知,中位数在[95,105)区间,若中位数为x,则10×(0.004+0.012+0.016)+(x-95)×0.03=0.5,解得x=101,正确;
C项,由题图知,70×0.04+80×0.12+90×
0.16+100×0.3+110×0.2+120×0.06+130
×0.08+140×0.04=102,正确;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
D项,s2= =(70-102)2×0.04+(80-102)2×0.12+(90-
102)2×0.16+(100-102)2×0.3+(110-102)2×0.2+(120-102)2×0.06+(130-102)2×0.08+(140-102)2×0.04=276,正确.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
13.为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下2×2 列联表:
则在犯错误的概率不超过
______的前提下,认为喜
爱打篮球与性别有关(请用
百分数表示).
参考公式及数据:K2= ,n=a+b+c+d.
喜爱打篮球 不喜爱打篮球 合计
男生 20 5 25
女生 10 15 25
合计 30 20 50
P(K2≥k0) 0.100 0.050 0.010 0.005 0.001
k0 2.706 3.841 6.635 7.879 10.828
0.5%
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
则在犯错误的概率不超过0.5%的前提下,认为喜爱打篮球与性别有关.
14.(2021·广州模拟)某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据如表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
零件数x(个) 10 20 30 40 50
加工时间y(min) 62 a 75 81 89
若用最小二乘法求得线性回归方程为 =0.67x+54.9,则a的值为____.
68
15.(2021·兰州模拟)某校高二生物研究性学习小组的同学们为了研究当地某种昆虫的产卵数与温度的变化关系,他们收集了一只该种昆虫在温度x ℃时相对应产卵数个数为y的8组数据,为了对数据进行分析,他们绘制了如下散点图:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解 乙同学模型的相关指数R2更接近1.
(1)根据散点图,甲、乙两位同学分别用y=bx+a和z=dx+c(其中z=ln y)两种模型进行回归分析,试判断这两位同学得到的回归方程中,哪一个的相关指数R2更接近1;(给出判断即可,不必说明理由)
(2)根据(1)的结论选定上述两个模型中更适宜作为对昆虫产卵数与温度变化关系进行回归分析的模型,并利用下表中数据,计算该模型的线性回归方程;(方程表示为y=f(x)的形式,最后计算结果保留两位小数)
26 72 3.3 11 871 757 5 722
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
解 根据(1)的结论,应选择z=dx+c作为线性回归方程,根据公式,
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(3)据测算,若此种昆虫的产卵数超过e4,则会发生虫害.研究性学习小组的同学通过查阅气象资料得知近期当地温度维持在25 ℃左右,试利用(2)中的线性回归方程预测近期当地是否会发生虫害.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
因此近期当地不会发生虫害.
16.(2021·淮南模拟)中国探月工程自2004年立项以来,聚焦“自主创新、重点跨越、支撑发展、引领未来”的目标,创造了许多项中国首次.2020年12月17日凌晨,嫦娥五号返回器携带“月壤”着陆地球,又首次实现了我国地外天体无人采样返回.为了了解某中学高三学生对此新闻事件的关注程度,从该校高三学生中随机抽取了100名学生进行调查,调查样本中有40名女生.右图是根据样本的调查结果绘制
的等高堆积条形图(阴影区域表示关注“嫦娥五号”
的部分).
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(1)完成下面的2×2列联表,并判断是否有95%的把握认为对“嫦娥五号”的关注程度与性别有关?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
关注 没关注 合计
男
女
合计
附:
P(K2≥k0) 0.150 0.100 0.050 0.010 0.005
k0 2.072 2.706 3.841 6.635 7.879
所以有95%的把握认为对“嫦娥五号”的关注程度与性别有关.
解
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
关注 没关注 合计
男 30 30 60
女 12 28 40
合计 42 58 100
根据列联表中数据,得
(2)若将频率视为概率,现从该中学高三的女生中随机抽取3人.记被抽取的3名女生中对“嫦娥五号”新闻关注的人数为随机变量X,求X的分布列及均值.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
所以随机变量X的分布列为
X 0 1 2 3
P
考情分析
练后疑难精讲
高考近几年考查热点,主要考查线性回归分析和独立性检验,以实际应用题的形式出现,题目阅读量大,难度中档.
一、用样本估计总体
核心提炼
1.统计中的四个数据特征:
(1)众数:在样本数据中,出现次数最多的那个数据.
(2)中位数:在样本数据中,将数据按从小到大顺序排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.
(4)方差与标准差:
题号 1 2 3 4 5 6 10 12
2.频率分布直方图的两个结论:
(2)各小长方形的面积之和等于1.
二、回归分析
核心提炼
题号 8 11 14 15
2.相关系数:
(1)当r>0时,称样本数据正相关;当r<0时,称样本数据负相关.
(2)当|r|>0.75时,称样本数据具有较强的线性相关关系.
三、独立性检验
核心提炼
1.独立性检验的一般步骤
(1)根据样本数据列成2×2列联表;
(2)根据公式
(3)查表比较K2与临界值的大小关系,作统计判断.
题号 7 9 13 16
2.K2的值越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.
1
2
3
4
5
易错对点精补
1.[T1补偿](多选)(2021·福州一中模拟)刘女士的网店经营坚果类食品,2020年各月份的收入、支出(单位:百元)情况的统计如图所示,下列说法中正确的是
A.4至5月份的收入的变化率与11至12月
份的收入的变化率相同
B.支出最高值与支出最低值的比是5∶1
C.第三季度月平均收入为5 000元
D.利润最高的月份是3月份和10月份
√
√
√
1
2
3
4
5
对于B选项,支出最高值是2月份的60百元,支出最低值是5月份的10百元,故支出最高值与支出最低值的比是6∶1,故B项错误.
1
2
3
4
5
对于D选项,利润最高的月份是3月份和10月份都是30百元,故D项正确.
2.[T9补偿](2021·蚌埠模拟)某校随机调查了110名不同的高中生是否喜欢篮球,得到如下的列联表:
1
2
3
4
5
男 女
喜欢篮球 40 20
不喜欢篮球 20 30
P(K2≥k0) 0.050 0.010 0.001
k0 3.841 6.635 10.828
P(K2≥k0) 0.050 0.010 0.001
k0 3.841 6.635 10.828
参照附表,得到的正确结论是
A.在犯错误的概率不超过0.1%的前提下,认为“喜欢篮球与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“喜欢篮球与性别无关”
C.有99%以上的把握认为“喜欢篮球与性别有关”
D.有99%以上的把握认为“喜欢篮球与性别无关”
1
2
3
4
5
√
男 女
喜欢篮球 40 20
不喜欢篮球 20 30
P(K2≥k0) 0.050 0.010 0.001
k0 3.841 6.635 10.828
6.635<7.822<10.828,
所以有99%的把握认为“喜欢篮球与性别有关”.
男 女
喜欢篮球 40 20
不喜欢篮球 20 30
1
2
3
4
5
1
2
3
4
5
3.[T12补偿](2021·兰州模拟)“学习强国”学习平台是由中共中央宣传部主管,以习近平新时代中国特色社会主义思想和党的十九大精神为主要内容,立足全体党员、面向全社会的优质平台.2019年1月1日,“学习强国”学习平台在全国上线,某单位组织全体党员登录学习,统计学习积分得到的频率分布直方图如图所示.若学习积分
在[1,1.5)(单位:万分)的人数是32人,则该单位
共有____名党员,若学习积分超过2万分的党员
可获得“学习达人”称号,则该单位有___名党
员能获得该称号.
80
8
1
2
3
4
5
解析 由频率分布直方图可知,该单位学习积分在[1,1.5)内的党员所占的频率为0.8×0.5=0.4,
该单位学习积分超过2万分的党员所占的频率为0.2×0.5=0.1,
因此该单位能获得“学习达人”称号的党员人数为80×0.1=8.
4.[T14补偿](2021·长沙模拟)若某商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:
1
2
3
4
5
x 2 4 5 6 8
y 20 40 60 70 80
根据上表,利用最小二乘法求得y关于x的线性回归方程为 ,据此预测,当投入10万元时,销售额的估计值为_____万元.
106.5
1
2
3
4
5
5.[T15补偿](2021·张家口模拟)某电器企业统计了近10年的年利润额y(千万元)与投入的年广告费用x(十万元)的相关数据,散点图如图,对数据作出如下处理:令ui=ln xi,vi=ln yi,得到相关数据如表所示:
1
2
3
4
5
30.5 15 15 46.5
(1)从①y=bx+a,②y=m·xk(m>0,k>0),③y=cx2+dx+e三个函数中选择一个作为年广告费用x和年利润额y的回归类型,判断哪个类型符合,不必说明理由;
解 由散点图知,年广告费用x和年利润额y的回归类型并不是直线型的,而是曲线型的,且y与x呈正相关.
所以选择回归类型y=m·xk更好.
1
2
3
4
5
(2)根据(1)中选择的回归类型,求出y与x的线性回归方程;
1
2
3
4
5
解 对y=m·xk两边取自然对数,
得ln y=ln m+kln x,
因为v=ln y,u=ln x,
则v=ln m+ku,
由表中数据得,
1
2
3
4
5
30.5 15 15 46.5
所以m=e,
所以年广告费用x和年利润额y的回归方程为y= .
1
2
3
4
5
30.5 15 15 46.5
(3)预计要使年利润额突破1亿,下一年应至少投入多少广告费用?(结果保留到万元)
1
2
3
4
5
1
2
3
4
5
解 由(2),知y= ,
令y= >10,
得 >3.678 8,
所以x>3.67883≈49.787,
所以x≈49.8(十万元).
故下一年应至少投入498万元广告费用.