主题强化练20 统计与成对数据的统计分析
【核心归纳】
一、用样本估计总体
1.统计中的四个数据特征:
(1)众数:在样本数据中,出现次数最多的那个数据.
(2)中位数:在样本数据中,将数据按从小到大顺序排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.
(3)平均数:样本数据的算术平均数,即=(x1+x2+…+xn).
(4)方差与标准差:
s2=[(x1-)2+(x2-)2+…+(xn-)2],
s=.
2.频率分布直方图的两个结论:
(1)小长方形的面积=组距×=频率.
(2)各小长方形的面积之和等于1.
二、回归分析
1.经验回归直线=x+经过样本点的中心(,),若x取某一个值,代入经验回归方程=x+中,可求出y的估计值.
2.样本相关系数:
当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
三、独立性检验
1.独立性检验的一般步骤
(1)根据样本数据列成2×2列联表;
(2)根据公式χ2=,计算χ2的值;
(3)查表比较χ2与临界值的大小关系,作统计判断.
2.χ2的值越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.
【真题示范】
1.(2017·全国Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年
1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月份
D.各年1月至6月的月接待游客量相对7月至12月,波动性更小,变化比较平稳
2.(多选)(2021·新高考全国Ⅰ)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则( )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
3.(2022·全国甲卷)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如图,
则( )
A.讲座前问卷答题的正确率的中位数小于70%
B.讲座后问卷答题的正确率的平均数大于85%
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
4.(2021·全国甲卷)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是( )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
5.(2019·全国Ⅱ)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为________.
6.(2014·江苏)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有________株树木的底部周长小于100 cm.
7.(2021·全国乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7
新设备 10.1 10.4 10.1 10.0 10.1 10.3 10.6 10.5 10.4 10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为和,样本方差分别记为s和s.
(1)求,,s,s;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果-≥2,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
8.(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得=0.038,=1.615 8,iyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:样本相关系数r=,≈1.377.
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
【模拟演练】
9.(2022·上海模拟)2022年2月4日至2月20日春节期间,第24届冬奥会在北京市和张家口市联合举行.共有3个冬奥村供运动员和代表队人员入住,其中北京冬奥村的容量约为2 250人,延庆冬奥村的容量约1 440人,张家口冬奥村的容量约2 610人.为了解各冬奥村服务质量,现共准备了140份调查问卷,采用比例分配的分层随机抽样的方法,则需在延庆冬奥村投放的问卷数量是( )
A.58份 B.50份
C.32份 D.19份
10.(多选)(2022·济宁模拟)下列说法正确的是( )
A.将一组数据中的每一个数据都加上同一个常数后,方差不变
B.设具有线性相关关系的两个变量x,y的相关系数为r,则|r|越接近于0,x和y之间的线性相关程度越强
C.在一个2×2列联表中,由计算得χ2的值,则χ2的值越小,判断两个变量有关的把握越大
D.若X~N(1,σ2),P(X>2)=0.2,则P(011.(2022·郑州质检)如图为2022年上半年中国火锅消费频率的扇形图及地域分析的条形图,根据所给统计图,下列结论中不正确的是( )
A.2022年上半年中国消费者每天都要吃火锅的占比为5.0%
B.2022年上半年中国消费者每月都要吃火锅的超过70%
C.2022年上半年西南与华东地区消费者每周吃两次及以上的超过70%
D.2022年上半年中国七个区域消费者每周吃两次及以上频率的平均数超过25%
12.(多选)(2022·菏泽模拟)某地为响应“扶贫必扶智,扶智就是扶知识、扶技术、扶方法”的号召,建立农业科技图书馆,供农民免费借阅,收集了近5年借阅数据如下表:
年份 2017 2018 2019 2020 2021
年份代码x 1 2 3 4 5
年借阅量y(万册) 4.9 5.1 5.5 5.7 5.8
根据上表,可得y关于x的经验回归方程为=0.24x+,下列结论正确的有( )
A.=4.68
B.借阅量4.9,5.1,5.5,5.7,5.8的75%分位数为5.7
C.y与x的线性相关系数r>0
D.2022年的借阅量一定不少于6.12万册
13.(多选)(2022·重庆调研)某高中学校积极响应国家“阳光体育运动”的号召,为确保学生每天一小时的体育锻炼,调查该校2 000名高中学生每周平均参加体育锻炼时间的情况,现从高一、高二、高三三个年级学生中按照3∶1∶1的比例分层随机抽样,收集了200名学生每周平均体育运动时间的样本数据(单位:小时),整理后得到如图所示的频率分布直方图,则下列说法中,正确的是( )
A.估计该校高中学生每周平均体育运动时间不足4小时的人数为500
B.估计该校高中学生每周平均体育运动时间不少于8小时的人数百分比为20%
C.估计该校高中学生每周平均体育运动时间的中位数为5小时
D.估计该校高中学生每周平均体育运动时间为5.8小时
14.(多选)(2022·沈阳模拟)在了解学校学生每年平均阅读文学经典名著的数量时,甲同学抽取了一个样本容量为10的样本,并算得样本的平均数为5,方差为9;乙同学也抽取了一个样本容量为10的样本,并算得样本的平均数为7,方差为16.已知甲、乙两同学抽取的样本合在一起组成一个容量为20的新样本,则新样本数据的( )
A.平均数为6.5 B.平均数为6
C.方差为14.5 D.方差为13.5
15. (2022·芜湖模拟)某市轻轨成为城市发展的新亮点,一号线自2021年11月3日(周三)正式运行以来,给该市居民出行带来了极大的便捷.如图为轻轨一号线正式运行后连续若干天的客流量折线图,根据该折线图,下列说法中错误的是( )
A.一周中周六客流量最大
B.一周中周一客流量最小
C.11月13日客流量再创新高
D.平均客流量大约为5万人
16. (2022·成都模拟)某位同学掷骰子五次,分别记录每次骰子出现的点数.根据这位同学的统计结果,可以判断出一定没有出现点数6的是( )
A.平均数为3,中位数为2
B.中位数为3,众数为2
C.平均数为2,方差为2.4
D.中位数为3,方差为2.8
17. (2022·咸阳模拟)某校随机抽取100名学生进行“绿色环保知识”问卷测试.测试结果发现这100名学生的得分都在[50,100]内,按得分情况分成5组:[50,60),[60,70),[70,80),[80,90),[90,100],得到如图所示的频率分布直方图.则下列说法错误的是( )
A.这100名学生得分的中位数是72.5
B.这100名学生得分的平均数是72.5
C.这100名学生得分小于70分的有50人
D.这100名学生得分不小于90分的有5人
18. (2022·长沙模拟)若某商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:
x 2 4 5 6 8
y 20 40 60 70 80
根据上表,利用最小二乘法求得y关于x的经验回归方程为=x+1.5,据此预测,当投入10万元时,销售额的估计值为________万元.
19.(2022·邵阳模拟)2020年东京奥运会,中国举重代表队共10人,其中主教练、教练各1人,参赛选手8人,赛后结果7金1银,在全世界面前展现了真正的中国力量;举重比赛根据体重进行分级,某次举重比赛中,男子举重按运动员体重分为下列十级:
级别 54公斤级 59公斤级 64公斤级 70公斤级 76公斤级
体重 ≤54 54.01~59 59.01~64 64.01~70 70.01~76
级别 83公斤级 91公斤级 99公斤级 108公斤级 108公斤级以上
体重 76.01~83 83.01~91 91.01~99 99.01~108 >108
每个级别的比赛分为抓举与挺举两个部分,最后综合两部分的成绩得出总成绩,所举重量最大者获胜,在该次举重比赛中,获得金牌的运动员的体重以及举重成绩如下表.
体重 54 59 64 70 76 83 91 99 106
举重成绩 291 304 337 353 363 389 406 421 430
(1)根据表中的数据,求出运动员举重成绩y与运动员的体重x的经验回归方程(保留1位小数);
(2)某金牌运动员抓举成绩为180公斤,挺举成绩为218公斤,则该运动员最有可能是参加的哪个级别的举重?
(3)比赛结束后,中央一台记者从中国举重代表队的10人中随机抽取3人进行访谈,用ξ表示抽取到的是金牌得主的人数,求ξ的分布列与均值.
参考数据:(xi-)2=2 620,(xi-)·(yi-)=7 076;
参考公式:=,=- .
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
20.近年来,我国大学生毕业人数基数大而且增长不断加快,大学毕业生的就业压力也越来越大,大学生就业已经成为社会关注的热点问题.在某大型公司的赞助下,某大学就业部从该大学2022届已就业的A,B两个专业的大学本科毕业生中随机抽取了200人进行月薪情况的问卷调查,经统计,发现他们的月薪收入在3 000元到9 000元之间,具体统计数据如下表:
月薪/百元 [30,40) [40,50) [50,60) [60,70) [70,80) [80,90]
人数 20 36 44 50 40 10
将月薪不低于7 000元的毕业生视为“高薪收入群体”,月薪低于7 000元的毕业生视为“非高薪收入群体”,并将频率视为概率,已知该校2022届大学本科毕业生小明参与了本次问卷调查,其月薪为3 500元.
(1)请根据上述表格中的统计数据填写下面的2×2列联表.根据小概率值α=0.05的独立性检验,分析“高薪收入群体”与所学专业是否有关;
单位:人
非高薪收入群体 高薪收入群体 合计
A专业
B专业 20 110
合计
(2)经统计,发现该大学2022届的大学本科毕业生月薪X(单位:百元)近似服从正态分布N(μ,190),其中μ近似为样本平均数(每组数据取区间的中点值作代表).若X落在区间[μ-2σ,μ+2σ]外的左侧,则可认为该本科毕业生属于“就业不理想”的学生,学校将联系本人,咨询月薪过低的原因,为以后的毕业生就业提供更好的指导.
①试判断小明是否属于“就业不理想”的学生;
②该大型公司为这次参与调查的大学本科毕业生制订了赠送话费的活动,赠送方式为:月薪低于μ的获赠两次随机话费;月薪不低于μ的获赠一次随机话费.每次赠送的话费Z及对应的概率如下:
赠送话费Z/元 60 120 180
P
求小明获得的话费总金额的均值.
附:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
χ2=,其中n=a+b+c+d,≈14.
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
21. (2022·重庆调研)5G的到来给人们的生活带来颠覆性的变革,某科技创新公司基于领先技术的支持,5G经济收入在短期内逐月攀升,该科技创新公司在第1月份至6月份的5G经济收入y(单位:百万元)关于月份x的数据如表:
时间(月份) 1 2 3 4 5 6
收入(百万元) 6.6 8.6 16.1 21.6 33.0 41.0
根据以上数据绘制散点图,如图.
参考数据:
(xi-)2 (xi-)·(yi-) (xi-)·(ui-)
3.50 21.15 2.85 17.50 125.35 6.73
其中设=ln ,ui=ln yi(i=1,2,3,4,5,6).
参考公式和数据:对于一组具有线性相关关系的数据(xi,vi)(i=1,2,3,…,n),其经验回归直线=x+的斜率和截距的最小二乘估计公式分别为:=,=-,e4.56≈95.58,e4.58≈97.51.
(1)根据散点图判断=x+与(,,,均为常数),哪一个适宜作为5G经济收入y关于月份x的经验回归方程类型?(给出判断即可,不必说明理由)
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
(2)根据(1)的结果及表中数据,求出y关于x的经验回归方程,并预测该公司8月份的5G经济收入;
(3)从前6个月的收入中抽取3个,记月收入超过16百万的个数为X,求X的分布列和均值.
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
参考答案
1.A 2.CD 3.B 4.C 5.0.98
6.24
解析 底部周长在[80,90)的频率为0.015×10=0.15,
底部周长在[90,100)的频率为0.025×10=0.25,
样本容量为60,所以树木的底部周长小于100 cm的株数为(0.15+0.25)×60=24.
7.解 (1)由表格中的数据易得
=+10.0=10.0,
=+10.0=10.3,
s=×[(9.7-10.0)2+2×(9.8-10.0)2+(9.9-10.0)2+2×(10.0-10.0)2+(10.1-10.0)2+2×(10.2-10.0)2+(10.3-10.0)2]=0.036,
s=×[(10.0-10.3)2+3×(10.1-10.3)2+(10.3-10.3)2+2×(10.4-10.3)2+2×(10.5-10.3)2+(10.6-10.3)2]=0.04.
(2)由(1)中数据可得-=10.3-10.0=0.3,而2==,显然有->2成立,所以认为新设备生产产品的该项指标的均值较旧设备有显著提高.
8.解 (1)样本中10棵这种树木的根部横截面积的平均值==0.06,
样本中10棵这种树木的材积量的平均值==0.39,
据此可估计该林区这种树木平均一棵的根部横截面积为0.06 m2,平均一棵的材积量为0.39 m3.
(2)r=
=
=
=≈≈0.97,
则r≈0.97.
(3)设该林区这种树木的总材积量的估计值为Y m3,
又已知树木的材积量与其根部横截面积近似成正比,
可得=,
解得Y=1 209.
则该林区这种树木的总材积量估计为1 209 m3.
9.C 10.AD 11.C
12.ABC [因为=×(1+2+3+4+5)=3,
=×(4.9+5.1+5.5+5.7+5.8)=5.4,
所以5.4=0.24×3+,
解得=4.68,所以A正确;
因为5×75%=3.75,
所以借阅量4.9,5.1,5.5,5.7,5.8的75%分位数为5.7,所以B正确;
因为0.24>0,
所以y与x的线性相关系数r>0,所以C正确;
由选项A可知经验回归方程为
=0.24x+4.68,
当x=6时,=0.24×6+4.68
=6.12,
所以2022年的借阅量约为6.12万册,所以D错误.]
13.ABD [由频率分布直方图可知,该校学生每周平均体育运动时间不足4小时的频率为
(0.025+0.1)×2=0.25,
所以估计该校高中学生每周平均体育运动时间不足4小时的人数约为2 000×0.25=500,故A选项正确;
该校学生每周平均体育运动时间不少于8小时的百分比为(0.075+0.025)×2×100%=20%,故B选项正确;
估计该校高中学生每周平均体育运动时间的中位数为4+≈5.7(小时),故C选项不正确;
该校高中学生每周平均体育运动时间为0.025×2×1+0.1×2×3+0.15×2×5+0.125×2×7+0.075×2×9+0.025×2×11=5.8(小时),故D选项正确.]
14.BD [由题意知,新样本数据的平均数为==6,
方差为s2=×[9+(5-6)2]+×[16+(7-6)2]=13.5.]
15.B 16.C 17.C
18.106.5
解析 由题意得=×(2+4+5+6+8)=5,
=×(20+40+60+70+80)=54,
所以54=5+1.5,解得=10.5,
所以=10.5x+1.5,
当x=10时,
=10.5×10+1.5=106.5.
19.解 (1)依题意,
==78,
==366,
==
≈2.70,
则=- =366-2.7×78
=155.4,
故经验回归方程为=2.7x+155.4.
(2)该运动员的抓举和挺举的总成绩为398公斤,
根据经验回归方程可知
398=2.7x+155.4,
解得x≈89.9,
即该运动员的体重应该在90公斤左右,
即参加的应该是91公斤级举重.
(3)随机变量ξ的可能取值为0,1,2,3.则
P(ξ=0)==,
P(ξ=1)==,
P(ξ=2)==,
P(ξ=3)==,
所以随机变量ξ的分布列为
ξ 0 1 2 3
P
所以随机变量ξ的均值为E(ξ)=0×+1×+2×+3×=2.1.
20.解 (1)零假设为H0:“高薪收入群体”与所学专业之间无关联.
2×2列联表如下:
单位:人
非高薪收入群体 高薪收入群体 合计
A专业 60 30 90
B专业 90 20 110
合计 150 50 200
根据列联表中的数据,经计算得到
χ2=
=≈6.061>3.841=x0.05,
根据小概率值α=0.05的独立性检验,可以推断H0不成立,即认为“高薪收入群体”与所学专业有关.
(2)①所调查的200名学生的月薪频率分布表如下:
月薪/百元 [30,40) [40,50) [50,60) [60,70) [70,80) [80,90)
人数 20 36 44 50 40 10
频率 0.1 0.18 0.22 0.25 0.2 0.05
μ=35×0.1+45×0.18+55×0.22+65×0.25+75×0.2+85×0.05
=59.2.
因为这200名学生的月薪X近似服从正态分布N(μ,190),
所以σ2=190,σ≈14,
所以μ-2σ=59.2-28=31.2.
因为小明的月薪为3 500元=35百元,μ-2σ=59.2-28=31.2<35,
所以小明不属于“就业不理想”的学生.
②由①知μ=59.2百元=5 920元,小明的工资为3 500元,低于5 920元,所以小明可获赠两次随机话费,所获得的话费Z的所有可能取值为120,180,240,300,360,
P(Z=120)=×=,
P(Z=180)=C××=,
P(Z=240)=×+C××=,
P(Z=300)=C××=,
P(Z=360)=×=.
故Z的分布列为
Z 120 180 240 300 360
P
则小明获得的话费总金额的均值
E(Z)=120×+180×+240×+300×+360×=200(元).
21.解 (1)=,散点图中点的分布不是一条直线,相邻两点在y轴上差距是增大的趋势,
故用=表示更合适.
(2)由=得ln =ln
=ln +x,
设=ln ,所以=ln +x,
因为=3.50,(xi-)2=17.50,
(xi-)(ui-)=6.73,=2.85,
所以=
=≈0.38,
ln =-0.38=2.58-0.38×3.50=1.52,
所以ln =1.52+0.38x,
即=e1.52+0.38x,
则经验回归方程为=e1.52+0.38x,
预测该公司8月份的5G经济收入y=e1.52e0.38×8=e4.56≈95.58(百万元).
(3)月收入超过16百万的个数X的可能取值为1,2,3,
则P(X=1)===,
P(X=2)===,
P(X=3)===,
则X的分布列为
X 1 2 3
P
所以E(X)=1×+2×+3×=2.