2020届人教A版(文科数学) 统计与统计案例 单元测试
1.(2018·北京师范大学附中模拟)已知甲、乙两组数据的茎叶图如图所示,若它们的中位数相同,则甲组数据的平均数为( )
A.30 B.31 C.32 D.33
答案 B
解析 阅读茎叶图可知,乙组的中位数为=33,
结合题意可知,甲组的中位数为33,即m=3,
则甲组数据的平均数为=31.
2.(2018·衡水金卷信息卷)A地的天气预报显示,A地在今后的三天中,每一天有强浓雾的概率为30%,现用随机模拟的方法估计这三天中至少有两天有强浓雾的概率:先利用计算器产生0~9之间整数值的随机数,并用0,1,2,3,4,5,6表示没有强浓雾,用7,8,9表示有强浓雾,再以每3个随机数作为一组,代表三天的天气情况,产生了如下20组随机数:
402 978 191 925 273 842 812 479 569 683
231 357 394 027 506 588 730 113 537 779
则这三天中至少有两天有强浓雾的概率近似值为( )
A. B. C. D.
答案 D
解析 由随机数表可知,满足题意的数据为978,479,588,779,据此可知,这三天中至少有两天有强浓雾的概率近似为P==.
3.(2018·黄山模拟)在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( )
A.若K2的观测值k=6.635,则在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌
B.由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌
C.若从随机变量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误
D.以上三种说法都不正确
答案 C
解析 独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.
结合所给选项可得若从随机变量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误.
4.(2018·吉林省长春市名校联盟)下列命题:①在线性回归模型中,相关指数R2表示解释变量x对于预报变量y的贡献率,R2越接近于1,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③在线性回归方程=-0.5x+2中,当解释变量x每增加一个单位时,预报变量平均减少0.5个单位;④对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大.其中正确命题的个数是( )
A.1 B.2 C.3 D.4
答案 C
解析 对于①,在回归分析模型中,相关指数R2表示解释变量x对于预报变量y的贡献率,R2越接近于1,表示回归效果越好,正确,因为相关指数R2越大,则残差平方和越小,模型的拟合效果越好,①正确;
对于②,两个变量相关性越强,则相关系数的绝对值就越接近于1;
对于③,在线性回归方程=-0.5x+2中,当解释变量x每增加一个单位时,预报变量平均减少0.5个单位,正确;
对于④,对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大,错误,因为在对分类变量X与Y进行独立性检验时,随机变量K2的观测值k越大,则“X与Y相关”的可信程度越大,故④错误.故选C.
5.(2018·辽宁省部分重点中学协作体模拟)一支田径队共有运动员98人,其中女运动员42人,用分层抽样的方法抽取一个样本,每名运动员被抽到的概率都是,则男运动员应抽取________人.
答案 16
解析 由题意得男运动员的人数为98-42=56.
因为每名运动员被抽到的概率都是,
所以男运动员应抽取56×=16(人).
6.(2018·重庆调研)某公司对一批产品的质量进行检测,现采用系统抽样的方法从100件产品中抽取5件进行检测,对这100件产品随机编号后分成5组,第一组1~20号,第二组21~40号,…,第五组81~100号,若在第二组中抽取的编号为24,则在第四组中抽取的编号为________.
答案 64
解析 设在第一组中抽取的号码为a1,则在各组中抽取的号码满足首项为a1,公差为20的等差数列,即an=a1+(n-1)×20,
又在第二组抽取的号码为24,即a1+20=24,
所以a1=4,
所以在第四组抽取的号码为4+(4-1)×20=64.
7.某班40名学生参加普法知识竞赛,成绩都在区间[40,100]内,其频率分布直方图如图所示,则成绩不低于60分的人数为________.
答案 30
解析 由题意可得40×(0.015+0.030+0.025+0.005)×10=30,
则成绩不低于60分的人数为30.
8.某设备的使用年数x与所支出的维修总费用y的统计数据如下表:
使用年数x (单位:年)
2
3
4
5
6
维修总费用y (单位:万元)
1.5
4.5
5.5
6.5
7.5
根据上表可得线性回归方程为=1.4x+.若该设备维修总费用超过12万元就报废,据此模型预测该设备最多可使用________年.
答案 8
解析 因为==4,
==5.1,
故代入线性回归方程可得=5.1-1.4×4=-0.5,
所以线性回归方程为 =1.4x-0.5,
当y=12时,解得x≈8.9.
9.(2018·全国Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表;
超过m
不超过m
总计
第一种生产方式
第二种生产方式
总计
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,n=a+b+c+d.
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
解 (1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80 min;用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79 min.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知,用第一种生产方式的工人完成生产任务所需时间的中位数为85.5 min;用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知,用第一种生产方式的工人完成生产任务平均所需时间高于80 min;用第二种生产方式的工人完成生产任务平均所需时间低于80 min.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知,用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
总计
第一种生产方式
15
5
20
第二种生产方式
5
15
20
总计
20
20
40
(3)因为K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
B组 能力提高
10.某公司有30名男职员和20名女职员,公司进行了一次全员参与的职业能力测试,现随机询问了该公司5名男职员和5名女职员在测试中的成绩(满分为30分),可知这5名男职员的测试成绩分别为16,24,18,22,20,5名女职员的测试成绩分别为18,23,23,18,23,则下列说法一定正确的是( )
A.这种抽样方法是分层抽样
B.这种抽样方法是系统抽样
C.这5名男职员的测试成绩的方差大于这5名女职员的测试成绩的方差
D.该测试中公司男职员的测试成绩的平均数小于女职员的测试成绩的平均数
答案 C
解析 根据抽样方法的特点,可知这种抽样既不是分层抽样,也不是系统抽样,故A,B是错误的;由这5名男职员和5名女职员的测试成绩得不出该公司男职员和女职员的测试成绩的平均数,故D是错误的;根据公式,可以求得这5名男职员的测试成绩的方差为s=8,5名女职员的测试成绩的方差为s=6,所以C正确.故选C.
11.某青少年成长关爱机构为了调查所在地区青少年的年龄与身高状况,随机抽取6岁,9岁,12岁,15岁,18岁的青少年身高数据各1 000个,根据各年龄段平均身高作出如图所示的散点图和回归直线l.根据图中数据,下列对该样本描述错误的是( )
A.据样本数据估计,该地区青少年身高与年龄成正相关
B.所抽取数据中,5 000名青少年平均身高约为145 cm
C.直线l的斜率的值近似等于样本中青少年平均身高每年的增量
D.从这5种年龄的青少年中各取一人的身高数据,由这5人的平均年龄和平均身高数据作出的点一定在直线l上
答案 D
解析 在给定范围内,随着年龄增加,年龄越大身高越高,故该地区青少年身高与年龄成正相关,故A正确;用样本数据估计总体可得平均数大约是145 cm,故B正确;根据直线斜率的意义可知,斜率的值近似等于样本中青少年平均身高每年的增量,故C正确;各取一人具有随机性,根据数据作出的点只能在直线附近,不一定在直线上,故D错误.
12.为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的实验数据,计算得线性回归方程为=0.85x-0.25.由以上信息,可得表中c的值为________.
天数x
3
4
5
6
7
繁殖数量y(千个)
2.5
3
4
4.5
c
答案 6
解析 ==5,==,代入线性回归方程,得=0.85×5-0.25,
解得c=6.
13.(2018·咸阳模拟)某校为调查高一、高二学生周日在家学习用时情况,随机抽取了高一、高二各20人,对他们的学习时间进行了统计,分别得到了高一学生学习时间(单位:小时)的频数分布表和高二学生学习时间的频率分布直方图.
高一学生学习时间的频数分布表(学习时间均在区间内):
学习时间
频数
3
1
8
4
2
2
高二学生学习时间的频率分布直方图:
(1)求高二学生学习时间在内的人数;
(2)利用分层抽样的方法,从高一学生学习时间在,的两组里抽取6人,再从这6人中随机抽取2人,求学习时间在这一组中恰有1人被抽中的概率;
(3)若周日学习时间不少于4小时为学习投入时间较多,否则为学习投入时间较少,依据上述样本研究学习投入时间与学生所在年级是否有关,完成下列2×2列联表,并判断是否有99%的把握认为学习投入时间多少与学生所在年级有关.
年级
学习投入时间较多
学习投入时间较少
总计
高一
高二
总计
K2=,其中n=a+b+c+d.
P(K2≥k0)
0.025
0.010
0.005
k0
5.024
6.635
7.879
解 (1)高二学生学习时间在内的人数为20×(0.25+0.30)=11.
(2)根据分层抽样,从高一学生学习时间在中抽取4人,从高一学生学习时间在中抽取2人.
设从高一学生学习时间在中抽的4人分别为A,B,C,D,在中抽的2人分别为a,b,则在6人中任抽2人的所有情况有(A,B),(A,C),(A,D),(A,a),(A,b),(B,C),(B,D),(B,a),(B,b),(C,D),(C,a),(C,b),(D,a),(D,b),(a,b),共有15种,
其中这一组中恰有1人被抽中的情况包含(A,a),(A,b),(B,a),(B,b),(C,a),(C,b),(D,a),(D,b),共有8种,因此学习时间在[3,4)这一组中恰有1人被抽中的概率为.
(3)2×2列联表如下:
年级
学习投入时间较多
学习投入时间较少
总计
高一
4
16
20
高二
9
11
20
总计
13
27
40
K2=≈2.849<6.635,
所以没有99%的把握认为学习投入时间多少与学生所在年级有关.