2014-2023年高考数学真题专题分类--11.4 统计与统计案例(含解析)

文档属性

名称 2014-2023年高考数学真题专题分类--11.4 统计与统计案例(含解析)
格式 docx
文件大小 1.2MB
资源类型 试卷
版本资源 通用版
科目 数学
更新时间 2023-09-19 09:42:26

图片预览

文档简介

2014-2023年高考数学真题专题分类
11.4 统计与统计案例
考点一 抽样方法与总体分布的估计
1.(2020课标Ⅲ文,3,5分)设一组样本数据x1,x2,…,xn的方差为0.01,则数据10x1,10x2,…,10xn的方差为(  )
A.0.01    B.0.1    C.1    D.10
答案 C 由已知条件可知样本数据x1,x2,…,xn的平均数=,方差=[(x1-)2+(x2-)2+…+(xn-)2]=0.01,则数据10x1,10x2,…,10xn的平均数为=10.
所以这组数据的方差=[(10x1-10)2+(10x2-10)2+…+(10xn-10)2]=[(x1-)2+(x2-)2+…+(xn-)2]=100=100×0.01=1,故选C.
2.(2015安徽理,6,5分)若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为(  )
A.8    B.15    C.16    D.32
答案 C 设样本数据x1,x2,…,x10的标准差为s,则s=8,可知数据2x1-1,2x2-1,…,2x10-1的标准差为2s=16.
3.(2014陕西文,9,5分)某公司10位员工的月工资(单位:元)为x1,x2,…,x10,其均值和方差分别为和s2,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的均值和方差分别为(  )
A.,s2+1002    B.+100,s2+1002
C.,s2     D.+100,s2
答案 D 设增加工资后10位员工下月工资均值为',方差为s'2,则'=[(x1+100)+(x2+100)+…+(x10+100)]=(x1+x2+…+x10)+100=+100;方差s'2=[(x1+100-')2+(x2+100-')2+…+(x10+100-')2]=[(x1-)2+(x2-)2+…+(x10-)2]=s2.故选D.
4.(2017课标Ⅲ理,3,5分)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.(  )
根据该折线图,下列结论错误的是(  )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
答案 A 本题考查统计,数据分析.
观察2014年的折线图,发现从8月至9月,以及10月开始的三个月接待游客量都是减少的,故A选项是错误的.
5.(2017山东文,8,5分)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为(  )
A.3,5    B.5,5    C.3,7    D.5,7
答案 A 由茎叶图,可得甲组数据的中位数为65,从而乙组数据的中位数也是65,所以y=5.
由乙组数据59,61,67,65,78,可得乙组数据的平均值为66,
故甲组数据的平均值也为66,从而有=66,解得x=3.故选A.
6.(2016山东理,3文3,5分)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是(  )
A.56    B.60    C.120    D.140
答案 D 由频率分布直方图知这200名学生每周的自习时间不少于22.5小时的频率为1-(0.02+0.10)×2.5=0.7,则这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140,故选D.
7.(2016课标Ⅲ理,4,5分)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15℃,B点表示四月的平均最低气温约为5℃.下面叙述不正确的是(  )
A.各月的平均最低气温都在0℃以上    
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同    
D.平均最高气温高于20℃的月份有5个
答案 D 由雷达图易知A、C正确;七月的平均最高气温超过20℃,平均最低气温约为12℃,一月的平均最高气温约为6℃,平均最低气温约为2℃,所以七月的平均温差比一月的平均温差大,故B正确;由雷达图知平均最高气温超过20℃的月份有3个月.故选D.
8.(2015课标Ⅱ理,3,5分)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是(  )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
答案 D 由柱形图可知:A、B、C均正确,2006年以来我国二氧化硫年排放量在逐渐减少,所以排放量与年份负相关,∴D不正确.
9.(2022全国乙文,4,5分,应用性)分别统计了甲、乙两位同学16周的各周课外体育运动时长(单位:h),得如下茎叶图:
则下列结论中错误的是 (  )
A.甲同学周课外体育运动时长的样本中位数为7.4
B.乙同学周课外体育运动时长的样本平均数大于8
C.甲同学周课外体育运动时长大于8的概率的估计值大于0.4
D.乙同学周课外体育运动时长大于8的概率的估计值大于0.6
答案 C 对于A,甲同学周课外体育运动时长的样本中位数为=7.4,故结论A正确;
对于B,乙同学周课外体育运动时长大部分在8 h以上,故样本平均数大于8,故结论B正确;
对于C,甲同学周课外体育运动时长大于8的频率为=0.375,由频率估计概率可知,甲同学周课外体育运动时长大于8的概率为0.375<0.4,故结论C错误;
对于D,乙同学周课外体育运动时长大于8的频率为=0.812 5,由频率估计概率可知,乙同学周课外体育运动时长大于8的概率为0.812 5>0.6,故结论D正确.
故选C.
10.(2022全国甲,理2,文2,5分,应用性)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:
则 (  )
A.讲座前问卷答题的正确率的中位数小于70%
B.讲座后问卷答题的正确率的平均数大于85%
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
答案 B 对于A项,将讲座前的10个数据从小到大排列依次为60%,60%,65%,65%,70%,75%,80%,85%,90%,95%,易知这10个数据的中位数是第5个与第6个数据的平均数,为=72.5%>70%,故A错误;
对于B项,×(90%+85%+80%+90%+85%+85%+95%+100%+85%+100%)=89.5%>85%,故B正确;
对于C项,×(60%+60%+65%+65%+70%+75%+80%+85%+90%+95%)=74.5%,s前=≈11.93%,
s后==6.5%,11.93%>6.5%,故C错误;
对于D项,讲座前问卷答题的正确率的极差为95%-60%=35%,讲座后问卷答题的正确率的极差为100%-80%=20%,20%<35%,故D错误.故选B.
11.(2021全国甲理,2,5分)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是 (  )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
答案 C 解题指导:利用频率分布直方图估计频率,再将频率转化为比率.
解析 由频率分布直方图可得,该地农户家庭年收入低于4.5万元和不低于10.5万元的频率分别为0.06和0.1,则农户比率分别为6%和10%,故A、B中结论正确;家庭年收入介于4.5万元和8.5万元之间的频率为0.1+0.14+0.2+0.2=0.64,故D中结论正确;
家庭年收入的平均值为0.02×3+0.04×4+0.1×5+0.14×6+0.2×7+0.2×8+0.1×9+0.1×10+0.04×11+0.02×12+0.02×13+0.02×14=7.68万元,因为7.68>6.5,所以估计该地区农户家庭年收入的平均值超过6.5万元,故C中结论不正确.故选C.
12.(多选)(2021新高考Ⅰ,9,5分)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则 (  )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
答案 CD A项,设xi,则(xi+c)=xi+c,因为c≠0,所以+c,
所以,所以A选项错误.
B项,因为yi=xi+c(i=1,2,…,n),所以y1,y2,…,yn的中位数是x1,x2,…,xn的中位数加c,所以B选项错误.
C项,设(xi-)2,(yi-)2,
所以(xi+c--c)2=(xi-)2,
所以,
所以两组数据的方差相同,从而这两组数据的标准差相同,所以C选项正确.
D项,设x1设y1所以两组数据的极差相同,
所以D选项正确,故选CD.
13.(2011江苏,6,5分)某老师从星期一到星期五收到的信件数分别为10,6,8,5,6,则该组数据的方差s2=    .
答案 
解析 记星期一到星期五收到的信件数分别为x1,x2,x3,x4,x5,则===7.
∴s2=[(x1-)2+(x2-)2+(x3-)2+(x4-)2+(x5-)2]=[(10-7)2+(6-7)2+(8-7)2+(5-7)2+(6-7)2]=.
评析 本题主要考查方差的公式,考查学生的运算求解能力.公式记忆准确,运算无误是解答本题的关键,属中等难度题.
14.(2018江苏,3,5分)已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为    .
8 9 9
9 0 1 1
答案 90
解析 本题考查茎叶图、平均数.
5位裁判打出的分数分别为89,89,90,91,91,
则这5位裁判打出的分数的平均数为×(89+89+90+91+91)=90.
方法总结 要明确“茎”处数字是十位数字,“叶”处数字是个位数字,正确写出所有数据,再根据平均数的概念进行计算.
15.(2015湖北文,14,5分)某电子商务公司对10000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.
(1)直方图中的a=    ;
(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为    .
答案 (1)3 (2)6000
解析 (1)由频率分布直方图可知:
0.1×(0.2+0.8+1.5+2.0+2.5+a)=1,解得a=3.
(2)消费金额在区间[0.5,0.9]内的购物者的频率为0.1×(3.0+2.0+0.8+0.2)=0.6,所以所求购物者的人数为0.6×10000=6000.
16.(2014江苏,文6,5分)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有    株树木的底部周长小于100cm.
答案 24
解析 60×(0.015+0.025)×10=24(株).
17.(2019课标Ⅱ文,19,12分)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
y的分组 [-0.20,0) [0,0.20) [0.20,0.40) [0.40,0.60) [0.60,0.80)
企业数 2 24 53 14 7
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:≈8.602.
解析 本题考查了统计的基础知识、基本思想和方法,考查学生对频数分布表的理解与应用,考查样本的平均数,标准差等数字特征的计算方法,以及对现实社会中实际数据的分析处理能力.
(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为=0.21.
产值负增长的企业频率为=0.02.
用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2)=(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
s2=ni(yi-)2
=[2×(-0.40)2+24×(-0.20)2+53×02+14×0.202+7×0.402]=0.0296,
s==0.02×≈0.17.
所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%.
方法总结 利用频数分布表求平均数估计值的方法:各组区间中点值乘该组频数,并求和,再除以样本容量.利用频数分布表求标准差估计值的方法:用各组区间中点值代表该组,代入标准差公式即可.
18.(2018课标Ⅰ文,19,12分)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
日用水量 [0,0.1) [0.1,0.2) [0.2,0.3) [0.3,0.4) [0.4,0.5) [0.5,0.6) [0.6,0.7)
频数 1 3 2 4 9 26 5
使用了节水龙头50天的日用水量频数分布表
日用水量 [0,0.1) [0.1,0.2) [0.2,0.3) [0.3,0.4) [0.4,0.5) [0.5,0.6)
频数 1 5 13 10 16 5
(1)作出使用了节水龙头50天的日用水量数据的频率分布直方图;
(2)估计该家庭使用节水龙头后,日用水量小于0.35m3的概率;
(3)估计该家庭使用节水龙头后,一年能节省多少水.(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)
解析 (1)
(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,
因此该家庭使用节水龙头后日用水量小于0.35m3的概率的估计值为0.48.
(3)该家庭未使用节水龙头50天日用水量的平均数为
=×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.
该家庭使用了节水龙头后50天日用水量的平均数为
=×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.
估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).
易错警示 利用频率分布直方图求众数、中位数与平均数时,应注意区分这三者,在频率分布直方图中:
(1)最高的小长方形底边中点的横坐标即是众数;
(2)中位数左边和右边的小长方形的面积和是相等的;
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和.
19.(2016北京文,17,13分)某市居民用水拟实行阶梯水价.每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:
(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少
(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.
解析 (1)由用水量的频率分布直方图知,
该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.(3分)
所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.(5分)
依题意,w至少定为3.(6分)
(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表:
组号 1 2 3 4 5 6 7 8
分组 [2,4] (4,6] (6,8] (8,10] (10,12] (12,17] (17,22] (22,27]
频率 0.1 0.15 0.2 0.25 0.15 0.05 0.05 0.05
(10分)
根据题意,该市居民该月的人均水费估计为:
4×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).(13分)
思路分析 第(1)问,需要计算该市居民月用水量在各区间上的频率,根据样本的频率分布直方图即可获解.
第(2)问,由月用水量的频率分布直方图和w=3可计算居民该月用水费用的数据的分组与频率分布表,由此可估计该市居民该月的人均水费.
评析 本题考查了频率分布直方图及用样本估计总体,属中档题.
20.(2015课标Ⅱ理,18,12分)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了20个用户,得到用户对产品的满意度评分如下:
A地区:62 73 81 92 95 85 74 64 53 76
    78 86 95 66 97 78 88 82 76 89
B地区:    73 83 62 51 91 46 53 73 64 82
    93 48 65 81 74 56 54 76 65 79
(1)根据两组数据完成两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);
A地区 B地区
4
5
6
7
8
9
(2)根据用户满意度评分,将用户的满意度从低到高分为三个等级:
满意度评分 低于70分 70分到89分 不低于90分
满意度等级 不满意 满意 非常满意
记事件C:“A地区用户的满意度等级高于B地区用户的满意度等级”.假设两地区用户的评价结果相互独立.根据所给数据,以事件发生的频率作为相应事件发生的概率,求C的概率.
解析 (1)两地区用户满意度评分的茎叶图如下:
A地区 B地区
4 6 8
3 5 1 3 6 4
6 4 2 6 2 4 5 5
6 8 8 6 4 3 7 3 3 4 6 9
9 2 8 6 5 1 8 3 2 1
7 5 5 2 9 1 3
通过茎叶图可以看出,A地区用户满意度评分的平均值高于B地区用户满意度评分的平均值;A地区用户满意度评分比较集中,B地区用户满意度评分比较分散.
(2)记CA1表示事件:“A地区用户的满意度等级为满意或非常满意”;
CA2表示事件:“A地区用户的满意度等级为非常满意”;
CB1表示事件:“B地区用户的满意度等级为不满意”;
CB2表示事件:“B地区用户的满意度等级为满意”,
则CA1与CB1独立,CA2与CB2独立,CB1与CB2互斥,C=CB1CA1∪CB2CA2.
P(C)=P(CB1CA1∪CB2CA2)
=P(CB1CA1)+P(CB2CA2)
=P(CB1)P(CA1)+P(CB2)P(CA2).
由所给数据得CA1,CA2,CB1,CB2发生的频率分别为,,,,故P(CA1)=,P(CA2)=,P(CB1)=,P(CB2)=,P(C)=×+×=0.48.
21.(2015课标Ⅱ文,18,12分)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表.
B地区用户满意度评分的频数分布表
满意度评分分组 [50,60) [60,70) [70,80) [80,90) [90,100]
频 数 2 8 14 10 6
(1)作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);
(2)根据用户满意度评分,将用户的满意度分为三个等级:
满意度评分 低于70分 70分到89分 不低于90分
满意度等级 不满意 满意 非常满意
估计哪个地区用户的满意度等级为不满意的概率大,说明理由.
解析 (1)
通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.
(2)A地区用户的满意度等级为不满意的概率大.
记CA表示事件:“A地区用户的满意度等级为不满意”;CB表示事件:“B地区用户的满意度等级为不满意”.
由直方图得P(CA)的估计值为(0.01+0.02+0.03)×10=0.6,
P(CB)的估计值为(0.005+0.02)×10=0.25.
所以A地区用户的满意度等级为不满意的概率大.
22.(2015广东文,17,12分)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户
解析 (1)由已知得,20×(0.002+0.0095+0.011+0.0125+x+0.005+0.0025)=1,解得x=0.0075.
(2)由题图可知,面积最大的矩形对应的月平均用电量区间为[220,240),所以月平均用电量的众数的估计值为230;
因为20×(0.002+0.0095+0.011)=0.45<0.5,
20×(0.002+0.0095+0.011+0.0125)=0.7>0.5,所以中位数在区间[220,240)内.
设中位数为m,则20×(0.002+0.0095+0.011)+0.0125×(m-220)=0.5,解得m=224.
所以月平均用电量的中位数为224.
(3)由题图知,月平均用电量为[220,240)的用户数为(240-220)×0.0125×100=25,同理可得,月平均用电量为[240,260),[260,280),[280,300]的用户数分别为15,10,5.
故用分层抽样的方式抽取11户居民,月平均用电量在[220,240)的用户中应抽取11×=5(户).
23.(2014课标Ⅰ文,18,12分)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
质量指标值分组 [75,85) [85,95) [95,105) [105,115) [115,125)
频数 6 26 38 22 8
(1)作出这些数据的频率分布直方图;
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定
解析 (1)
(2)质量指标值的样本平均数为
=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.
质量指标值的样本方差为
s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.
所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.
(3)质量指标值不低于95的产品所占比例的估计值为
0.38+0.22+0.08=0.68.
由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.
评析 本题考查绘制频率分布直方图,计算样本的数字特征,及用样本估计总体等知识,同时考查统计的思想方法.
24.(2014课标Ⅱ文,19,12分)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:
甲部门 乙部门
4 97 97665332110 98877766555554443332100 6655200 632220 3 4 5 6 7 8 9 10 59 0448 122456677789 011234688 00113449 123345 011456 000
(1)分别估计该市的市民对甲、乙两部门评分的中位数;
(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;
(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.
解析 (1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为=67,所以该市的市民对乙部门评分的中位数的估计值是67.
(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为=0.1,=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.
(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.
评析 本题考查利用茎叶图进行中位数,概率的相关计算,考查用样本的数字特征估计总体的数字特征,运用统计与概率的知识与方法解决实际问题的能力,考查数据处理能力及应用意识.
25.(2014北京文,18,13分)从某校随机抽取100名学生,获得了他们一周课外阅读时间(单位:小时)的数据,整理得到数据分组及频数分布表和频率分布直方图:
组号 分组 频数
1 [0,2) 6
2 [2,4) 8
3 [4,6) 17
4 [6,8) 22
5 [8,10) 25
6 [10,12) 12
7 [12,14) 6
8 [14,16) 2
9 [16,18) 2
合计 100
(1)从该校随机选取一名学生,试估计这名学生该周课外阅读时间少于12小时的概率;
(2)求频率分布直方图中的a,b的值;
(3)假设同一组中的每个数据可用该组区间的中点值代替,试估计样本中的100名学生该周课外阅读时间的平均数在第几组.(只需写出结论)
解析 (1)根据频数分布表知,100名学生中一周课外阅读时间不少于12小时的学生共有6+2+2=10名,所以样本中的学生一周课外阅读时间少于12小时的频率是1-=0.9.
故从该校随机选取一名学生,估计其该周课外阅读时间少于12小时的概率为0.9.
(2)课外阅读时间落在组[4,6)内的有17人,频率为0.17,所以a===0.085.
课外阅读时间落在组[8,10)内的有25人,频率为0.25,所以b===0.125.
(3)样本中的100名学生该周课外阅读时间的平均数在第4组.
26.(2013课标Ⅰ文,18,12分)为了比较两种治疗失眠症的药(分别称为A药,B药)的疗效,随机地选取20位患者服用A药,20位患者服用B药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:
服用A药的20位患者日平均增加的睡眠时间:
0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.5
2.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4
服用B药的20位患者日平均增加的睡眠时间:
3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.3 1.4
1.6 0.5 1.8 0.6 2.1 1.1 2.5 1.2 2.7 0.5
(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好
(2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好
解析 (1)设A药观测数据的平均数为,B药观测数据的平均数为,由观测结果可得=×(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+2.6+2.7+2.7+2.8+2.9+3.0+3.1+3.2+3.5)=2.3,
=×(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+1.7+1.8+1.9+2.1+2.4+2.5+2.6+2.7+3.2)=1.6.
由以上计算结果可得>,因此可看出A药的疗效更好.
(2)由观测结果可绘制如下茎叶图:
从以上茎叶图可以看出,A药疗效的试验结果有的叶集中在茎2,3上,而B药疗效的试验结果有的叶集中在茎0,1上,由此可看出A药的疗效更好.
评析 本题考查数据的平均数和茎叶图,考查数据的分析处理能力和应用意识.
27.(2013安徽文,17,12分)为调查甲、乙两校高三年级学生某次联考数学成绩情况,用简单随机抽样,从这两校中各抽取30名高三年级学生,以他们的数学成绩(百分制)作为样本,样本数据的茎叶图如下:
(1)若甲校高三年级每位学生被抽取的概率为0.05,求甲校高三年级学生总人数,并估计甲校高三年级这次联考数学成绩的及格率(60分及60分以上为及格);
(2)设甲、乙两校高三年级学生这次联考数学平均成绩分别为、,估计-的值.
解析 (1)设甲校高三年级学生总人数为n.由题意知,=0.05,即n=600.
样本中甲校高三年级学生数学成绩不及格人数为5,据此估计甲校高三年级此次联考数学成绩及格率为1-=.
(2)设甲、乙两校样本平均数分别为'1、'2,根据样本茎叶图可知,
30('1-'2)=30'1-30'2=(7-5)+(55+8-14)+(24-12-65)+(26-24-79)+(22-20)+92=2+49-53-77+2+92=15.
因此'1-'2=0.5.故-的估计值为0.5分.
评析 本题考查随机抽样与茎叶图等统计学的基本知识,考查学生用样本估计总体的思想以及数据分析处理能力.
28.(2020课标Ⅰ文,17,12分)某厂接受了一项加工业务,加工出来的产品(单位:件)按标准分为A,B,C,D四个等级.加工业务约定:对于A级品、B级品、C级品,厂家每件分别收取加工费90元,50元,20元;对于D级品,厂家每件要赔偿原料损失费50元.该厂有甲、乙两个分厂可承接加工业务.甲分厂加工成本费为25元/件,乙分厂加工成本费为20元/件.厂家为决定由哪个分厂承接加工业务,在两个分厂各试加工了100件这种产品,并统计了这些产品的等级,整理如下:
甲分厂产品等级的频数分布表
等级 A B C D
频数 40 20 20 20
乙分厂产品等级的频数分布表
等级 A B C D
频数 28 17 34 21
(1)分别估计甲、乙两分厂加工出来的一件产品为A级品的概率;
(2)分别求甲、乙两分厂加工出来的100件产品的平均利润,以平均利润为依据,厂家应选哪个分厂承接加工业务
解析 (1)由试加工产品等级的频数分布表知,
甲分厂加工出来的一件产品为A级品的概率的估计值为=0.4;
乙分厂加工出来的一件产品为A级品的概率的估计值为=0.28.
(2)由数据知甲分厂加工出来的100件产品利润的频数分布表为
利润 65 25 -5 -75
频数 40 20 20 20
因此甲分厂加工出来的100件产品的平均利润为=15.
由数据知乙分厂加工出来的100件产品利润的频数分布表为
利润 70 30 0 -70
频数 28 17 34 21
因此乙分厂加工出来的100件产品的平均利润为=10.
比较甲、乙两分厂加工的产品的平均利润,应选甲分厂承接加工业务.
29.(2017课标Ⅲ文,18,12分)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,以每瓶2元的价格当天全部处理完.根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关.如果最高气温不低于25,需求量为500瓶;如果最高气温位于区间[20,25),需求量为300瓶;如果最高气温低于20,需求量为200瓶.为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表:
最高气温 [10,15) [15,20) [20,25) [25,30) [30,35) [35,40)
天数 2 16 36 25 7 4
以最高气温位于各区间的频率估计最高气温位于该区间的概率.
(1)估计六月份这种酸奶一天的需求量不超过300瓶的概率;
(2)设六月份一天销售这种酸奶的利润为Y(单位:元).当六月份这种酸奶一天的进货量为450瓶时,写出Y的所有可能值,并估计Y大于零的概率.
解析 本题考查概率的计算.
(1)这种酸奶一天的需求量不超过300瓶,当且仅当最高气温低于25,由表格数据知,最高气温低于25的频率为=0.6,所以这种酸奶一天的需求量不超过300瓶的概率的估计值为0.6.
(2)当这种酸奶一天的进货量为450瓶时,
若最高气温不低于25,则Y=6×450-4×450=900;
若最高气温位于区间[20,25),则Y=6×300+2×(450-300)-4×450=300;
若最高气温低于20,则Y=6×200+2×(450-200)-4×450=-100.
所以,Y的所有可能值为900,300,-100.
Y大于零当且仅当最高气温不低于20,由表格数据知,最高气温不低于20的频率为=0.8,因此Y大于零的概率的估计值为0.8.
30.(2016课标Ⅰ文,19,12分)某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图:
记x表示1台机器在三年使用期内需更换的易损零件数,y表示1台机器在购买易损零件上所需的费用(单位:元),n表示购机的同时购买的易损零件数.
(1)若n=19,求y与x的函数解析式;
(2)若要求“需更换的易损零件数不大于n”的频率不小于0.5,求n的最小值;
(3)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件
解析 (1)当x≤19时,y=3800;
当x>19时,y=3800+500(x-19)=500x-5700,
所以y与x的函数解析式为
y=(x∈N).(4分)
(2)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n的最小值为19.(5分)
(3)若每台机器在购机同时都购买19个易损零件,则这100台机器中有70台在购买易损零件上的费用为3800元,20台的费用为4300元,10台的费用为4800元,因此这100台机器在购买易损零件上所需费用的平均数为(3800×70+4300×20+4800×10)=4000(元).(7分)
若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4000元,10台的费用为4500元,因此这100台机器在购买易损零件上所需费用的平均数为(4000×90+4500×10)=4050(元).(10分)
比较两个平均数可知,购买1台机器的同时应购买19个易损零件.(12分)
思路分析 先写出y与x的函数关系式(分段函数),然后分别求所需费用的平均数,通过比较两个平均数的大小可得所求结果.
评析 本题以条形图为载体,考查了函数的综合应用,对考生用图、识图的能力进行了考查,同时体现了数学源于生活又服务于生活的特点.
31.(2014湖南文,17,12分)某企业有甲、乙两个研发小组,为了比较他们的研发水平,现随机抽取这两个小组往年研发新产品的结果如下:
(a,b),(a,),(a,b),(,b),(,),(a,b),(a,b),(a,),(,b),(a,),(,),(a,b),(a,),(,b),(a,b),
其中a,分别表示甲组研发成功和失败;b,分别表示乙组研发成功和失败.
(1)若某组成功研发一种新产品,则给该组记1分,否则记0分.试计算甲、乙两组研发新产品的成绩的平均数和方差,并比较甲、乙两组的研发水平;
(2)若该企业安排甲、乙两组各自研发一种新产品,试估计恰有一组研发成功的概率.
解析 (1)甲组研发新产品的成绩为1,1,1,0,0,1,1,1,0,1,0,1,1,0,1,
其平均数为==;
方差为==.
乙组研发新产品的成绩为1,0,1,1,0,1,1,0,1,0,0,1,0,1,1,其平均数为==;
方差为==.
因为>,<,所以甲组的研发水平优于乙组.
(2)记E={恰有一组研发成功}.
在所抽得的15个结果中,恰有一组研发成功的结果是(a,),(,b),(a,),(,b),(a,),(a,),(,b),共7个,故事件E发生的频率为.将频率视为概率,即得所求概率为P(E)=.
评析 本题考查样本的数字特征及用样本的频率估计概率,同时考查分析问题、解决问题及运用统计思想的能力.
32.(2012课标文,18,12分)某花店每天以每枝5元的价格从农场购进若干枝玫瑰花,然后以每枝10元的价格出售.如果当天卖不完,剩下的玫瑰花作垃圾处理.
(1)若花店一天购进17枝玫瑰花,求当天的利润y(单位:元)关于当天需求量n(单位:枝,n∈N)的函数解析式;
(2)花店记录了100天玫瑰花的日需求量(单位:枝),整理得下表:
日需求量n 14 15 16 17 18 19 20
频数 10 20 16 16 15 13 10
(i)假设花店在这100天内每天购进17枝玫瑰花,求这100天的日利润(单位:元)的平均数;
(ii)若花店一天购进17枝玫瑰花,以100天记录的各需求量的频率作为各需求量发生的概率,求当天的利润不少于75元的概率.
解析 (1)当日需求量n≥17时,利润y=85.
当日需求量n<17时,利润y=10n-85.
所以y关于n的函数解析式为
y=(n∈N).
(2)(i)这100天中有10天的日利润为55元,20天的日利润为65元,16天的日利润为75元,54天的日利润为85元,所以这100天的日利润的平均数为(55×10+65×20+75×16+85×54)=76.4.
(ii)利润不低于75元当且仅当日需求量不少于16枝.故当天的利润不少于75元的概率为P=0.16+0.16+0.15+0.13+0.1=0.7.
评析 本题考查概率统计,考查运用样本频率估计总体概率及运算求解能力.
33.(2011课标文,19,12分)某种产品的质量以其质量指标值衡量,质量指标值越大表明质量越好,且质量指标值大于或等于102的产品为优质品.现用两种新配方(分别称为A配方和B配方)做试验,各生产了100件这种产品,并测量了每件产品的质量指标值,得到下面试验结果:
A配方的频数分布表
指标值 分组 [90,94) [94,98) [98,102) [102,106) [106,110]
频数 8 20 42 22 8
B配方的频数分布表
A [90,94) [94,98) [98,102) [102,106) [106,110]
频数 4 12 42 32 10
(1)分别估计用A配方,B配方生产的产品的优质品率;
(2)已知用B配方生产的一件产品的利润y(单位:元)与其质量指标值t的关系式为y=
估计用B配方生产的一件产品的利润大于0的概率,并求用B配方生产的上述100件产品平均一件的利润.
解析 (1)由试验结果知,用A配方生产的产品中优质品的频率为=0.3,所以用A配方生产的产品的优质品率的估计值为0.3.
由试验结果知,用B配方生产的产品中优质品的频率为=0.42,所以用B配方生产的产品的优质品率的估计值为0.42.
(2)由条件知,用B配方生产的一件产品的利润大于0当且仅当其质量指标值t≥94,由试验结果知,质量指标值t≥94的频率为0.96.所以用B配方生产的一件产品的利润大于0的概率估计值为0.96.
用B配方生产的产品平均一件的利润为
×[4×(-2)+54×2+42×4]=2.68(元).
34.(2021全国乙理,17,12分)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7
新设备 10.1 10.4 10.1 10.0 10.1 10.3 10.6 10.5 10.4 10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为 ,样本方差分别记为.
(1)求;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高如果,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高.
解析 (1)×(9.8+10.3+10.0+10.2+9.9+9.8+10.0+10.1+10.2+9.7)=10.
×(10.1+10.4+10.1+10.0+10.1+10.3+10.6+10.5+10.4+10.5)=10.3.
×(0.22+0.32+02+0.22+0.12+0.22+02+0.12+0.22+0.32)=0.036.
×(0.22+0.12+0.22+0.32+0.22+02+0.32+0.22+0.12+0.22)=0.04.
(2)∵,2,且,∴成立,∴认为新设备生产产品的该项指标的均值较旧设备有显著提高.
易错警示 1.要牢记数据方差的计算公式;2.注意数据计算的准确性.
35.(2022新高考Ⅱ,19,12分,应用性)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图:
(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);
(2)估计该地区一位这种疾病患者的年龄位于区间[20,70)的概率;
(3)已知该地区这种疾病的患病率为0.1%,该地区年龄位于区间[40,50)的人口占该地区总人口的16%.从该地区中任选一人,若此人的年龄位于区间[40,50),求此人患这种疾病的概率(以样本数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率,精确到0.000 1).
解析 (1)平均年龄为(5×0.001+15×0.002+25×0.012+35×0.017+45×0.023+55×0.020+65×0.017+75×0.006+85×0.002)×10=47.9(岁).
(2)设事件A=“该地区一位这种疾病患者的年龄位于区间[20,70)”,则P(A)=1-P()=1-(0.001+0.002+0.006+0.002)×10=1-0.11=0.89.
(3)设事件B=“任选一人年龄位于区间[40,50)”,事件C=“任选一人患这种疾病”,由条件概率公式可得
P(C|B)==0.001 437 5≈0.001 4.
36.(2022全国乙,理19,文19,12分,应用性)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i  1 2  3  4  5  6  7  8  9 10 总和
根部横截 面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.070.06 0.6
材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.420.40 3.9
并计算得=0.038,=1.615 8,xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数,≈1.377.
解析 (1)估计该林区这种树木平均一棵的根部横截面积为=0.06(m2),
平均一棵的材积量为=0.39(m3).
(2)样本相关系数=
=
=≈0.97.
即该林区这种树木的根部横截面积与材积量的样本相关系数约为0.97.
(3)设这种树木的根部横截总面积为X m2,总材积量为Y m3,
则,则Y==1 209,
所以该林区这种树木的总材积量的估计值为1 209 m3.
37.(2023新课标Ⅱ,19,12分,中)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:
利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为p(c);误诊率是将未患病者判定为阳性的概率,记为q(c).假设数据在组内均匀分布.以事件发生的频率作为相应事件发生的概率.
(1)当漏诊率p(c)=0.5%时,求临界值c和误诊率q(c);
(2)设函数f(c)=p(c)+q(c).当c∈[95,105]时,求f(c)的解析式,并求f(c)在区间[95,105]的最小值.
解析 (1)由题意知(c-95)×0.002=0.5%,得c=97.5,
q(c)=0.01×2.5+5×0.002=0.035=3.5%.
(2)当c∈[95,100]时,
f(c)=p(c)+q(c)=(c-95)×0.002+(100-c)×0.01+5×0.002=-0.008c+0.82≥0.02.
当c∈(100,105]时,
f(c)=p(c)+q(c)=5×0.002+(c-100)×0.012+(105-c)×0.002=0.01c-0.98>0.02.
∴f(c)=
∴f(c)min=0.02.
考点二 变量间的相关关系、统计案例
1.(2015湖北文,4,5分)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是(  )                  
A.x与y正相关,x与z负相关    B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关    D.x与y负相关,x与z正相关
答案 C 由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关,故选C.
2.(2015课标Ⅰ,理19,文19,12分)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2 (wi-)2 (xi-)(yi-) (wi-)(yi-)
46.6 563 6.8 289.8 1.6 1469 108.8
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型 (给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
(i)年宣传费x=49时,年销售量及年利润的预报值是多少
(ii)年宣传费x为何值时,年利润的预报值最大
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为
=,=-.
解析 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.(2分)
(2)令w=,先建立y关于w的线性回归方程.由于
===68,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.(6分)
(3)(i)由(2)知,当x=49时,年销售量y的预报值
=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.(9分)
(ii)根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.(12分)
3.(2015重庆文,17,13分)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份 2010 2011 2012 2013 2014
时间代号t 1 2 3 4 5
储蓄存款y(千亿元) 5 6 7 8 10
(1)求y关于t的回归方程=t+;
(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.
附:回归方程=t+中,
==-.
解析 (1)列表计算如下:
i ti yi tiyi
1 1 5 1 5
2 2 6 4 12
3 3 7 9 21
4 4 8 16 32
5 5 10 25 50
15 36 55 120
这里n=5,=ti==3,=yi==7.2.
又ltt=-n=55-5×32=10,lty=tiyi-n =120-5×3×7.2=12,
从而===1.2,=-=7.2-1.2×3=3.6,
故所求回归方程为=1.2t+3.6.
(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为=1.2×6+3.6=10.8(千亿元).
4.(2014课标Ⅱ理,19,12分)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年 份 2007 2008 2009 2010 2011 2012 2013
年份代号t 1 2 3 4 5 6 7
人均纯收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:
=,=-.
解析 (1)由所给数据计算得
=×(1+2+3+4+5+6+7)=4,
=×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
(ti-)2=9+4+1+0+1+4+9=28,
(ti-)(yi-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
===0.5,
=-=4.3-0.5×4=2.3,
所求回归方程为=0.5t+2.3.
(2)由(1)知,=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.
将2015年的年份代号t=9代入(1)中的回归方程,得=0.5×9+2.3=6.8,
故预测该地区2015年农村居民家庭人均纯收入为6.8千元.
评析 本题考查了回归直线方程的求解,注意回归直线恒过点(,)是关键,考查了回归系数的几何意义.考查了学生的计算求解能力.
5.(2016课标Ⅲ,18,12分)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附:
参考数据:yi=9.32,tiyi=40.17,=0.55,≈2.646.
参考公式:相关系数r=,
回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=-.
解析 (1)由折线图中数据和附注中参考数据得
=4,(ti-)2=28,=0.55,
(ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89,
r≈≈0.99.(4分)
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.(6分)
(2)由=≈1.331及(1)得==≈0.10,
=-=1.331-0.10×4≈0.93.
所以,y关于t的回归方程为=0.93+0.10t.(10分)
将2016年对应的t=9代入回归方程得=0.93+0.10×9=1.83.
所以预测2016年我国生活垃圾无害化处理量约为1.83亿吨.(12分)
6.(2017课标Ⅰ文,19,12分)为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序 1 2 3 4 5 6 7 8
零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04
抽取次序 9 10 11 12 13 14 15 16
零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
经计算得=xi=9.97,s=
=≈0.212,
≈18.439,(xi-)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查
(ii)在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:样本(xi,yi)(i=1,2,…,n)的相关系数
r=.
≈0.09.
解析 本题考查统计问题中的相关系数及样本数据的均值与方差.
(1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数为r=
=≈-0.18.
由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)(i)由于=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查.
(ii)剔除离群值,即第13个数据,剩下数据的平均数为×(16×9.97-9.22)=10.02,
这条生产线当天生产的零件尺寸的均值的估计值为10.02.
=16×0.2122+16×9.972≈1591.134,
剔除第13个数据,剩下数据的样本方差为
×(1591.134-9.222-15×10.022)≈0.008,
这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09.
方法总结 样本的数字特征.
(1)样本数据的相关系数r,
r=
反映样本数据的相关程度,|r|越大,则相关性越强.
(2)样本数据的均值反映样本数据的平均水平;样本数据的方差反映样本数据的稳定性,方差越小,数据越稳定;样本数据的标准差为方差的算术平方根.
7.(2020课标Ⅱ理,18,12分)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得xi=60,yi=1 200,(xi-)2=80,(yi-)2=9 000,(xi-)(yi-)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数,≈1.414.
解析 (1)由已知得样本平均数yi=60,从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数
≈0.94.
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
8.(2017课标Ⅱ文,19,12分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量<50kg 箱产量≥50kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
,
K2=.
解析 本题考查了频率分布直方图及独立性检验.
(1)旧养殖法的箱产量低于50kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表:
箱产量<50kg 箱产量≥50kg
旧养殖法 62 38
新养殖法 34 66
K2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50kg到55kg之间,旧养殖法的箱产量平均值(或中位数)在45kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
解后反思 解独立性检验问题的关注点:
(1)两个明确:①明确两类主体;②明确研究的两个问题.
(2)两个关键:①准确画出2×2列联表;②准确求解K2.
9.(2021全国甲理,17,12分)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异
附:K2=,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
.
解题指导:(1)根据表中数据分别计算甲、乙两台机床所生产的产品中一级品的数量,进而得出结论;(2)根据2×2列联表中的数据计算K2,然后对照临界值表作出判断.
解析 (1)因为甲机床生产的200件产品中有150件一级品,所以甲机床生产的产品中一级品的频率为,因为乙机床生产的200件产品中有120件一级品,所以乙机床生产的产品中一级品的频率为.
(2)根据2×2列联表中的数据,得K2=
=≈10.256,因为10.256>6.635,所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.
方法总结 解决独立性检验问题的一般步骤:
11.(2020新高考Ⅰ,19,12分)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
   SO2
PM2.5    [0,50] (50,150] (150,475]
[0,35] 32 18 4
(35,75] 6 8 12
(75,115] 3 7 10
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
   SO2 PM2.5   
[0,150] (150,475]
[0,75]
(75,115]
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
附:K2=,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
.
答案 解题思路:(1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为=0.64. (4分)
(2)根据抽查数据,可得2×2列联表:
  SO2 PM2.5  
[0,150] (150,475]
[0,75] 64 16
(75,115] 10 10
(8分)
(3)根据(2)的列联表得
K2=≈7.484.
由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关. (12分)
12.(2022全国甲文,17,12分,应用性)甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数 未准点班次数
A 240 20
B 210 30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关
附:K2=,
P(K2≥k) 0.100 0.050 0.010
k 2.706 3.841 6.635
解析 (1)由题意可得A公司长途客车准点的概率P1=,B公司长途客车准点的概率P2=.
(2)因为K2=≈3.205>2.706,
所以有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
13.(2023全国甲理,19,12分,中)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).
(1)设X表示指定的两只小白鼠中分配到对照组的只数,求X的分布列和数学期望;
(2)试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8
26.5 27.5 30.1 32.6 34.3 34.8 35.6
35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2 19.8 20.2 21.6 22.8
23.6 23.9 25.1 28.2 32.3 36.5
(i)求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表:
对照组
试验组
(ii)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异
附:K2=,
P(K2≥k) 0.100 0.050 0.010
k 2.706 3.841 6.635
.
解析 (1)依题意得,X的所有可能取值为0,1,2,
则P(X=0)==,
P(X=1)==,
P(X=2)==,
∴X的分布列为
X 0 1 2
P
∴E(X)=×0+×1+×2=1.
(2)(i)依题意可得m==23.4.
则对照组样本中小于m的数据的个数为6,
试验组样本中小于m的数据的个数为14,
则列联表为
对照组 6 14
试验组 14 6
(ii)由(i)中列联表可得
K2==6.4>3.841,
∴有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异.
14.(2023全国甲文,19,12分,中)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8
26.5 27.5 30.1 32.6 34.3 34.8 35.6
35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5
18.0 18.8 19.2 19.8 20.2 21.6 22.8
23.6 23.9 25.1 28.2 32.3 36.5
(1)计算试验组的样本平均数;
(2)(i)求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表:
对照组
试验组
(ii)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异
附:K2=,
P(K2≥k) 0.100 0.050 0.010
k 2.706 3.841 6.635
.
解析 (1)试验组的样本平均数=×(7.8+9.2+11.4+12.4+13.2+15.5+16.5+18.0+18.8+19.2+19.8+20.2+21.6+22.8+23.6+23.9+25.1+28.2+32.3+36.5)=19.8.
(2)(i)依题意可得m==23.4.
则对照组样本中小于m的数据的个数为6,
试验组样本中小于m的数据的个数为14,
则列联表为
对照组 6 14
试验组 14 6
(ii)由(i)中列联表可得
K2==6.4>3.841,
∴有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异.
(

38
页共
38

)
同课章节目录