【高考快车道】专题限时集训11 统计与成对数据的统计分析(含解析)--2026版高考数学二轮专题复习与策略

文档属性

名称 【高考快车道】专题限时集训11 统计与成对数据的统计分析(含解析)--2026版高考数学二轮专题复习与策略
格式 zip
文件大小 432.5KB
资源类型 试卷
版本资源 通用版
科目 数学
更新时间 2025-09-05 11:31:28

文档简介

专题限时集训(十一) 统计与成对数据的统计分析
一、单项选择题
1.(2024·四川成都二模)对变量x,y有观测数据(xi,yi)(i∈N*),得散点图如图1;对变量u,v有观测数据(ui,vi)(i∈N*),得散点图如图2.r1表示变量x,y之间的样本相关系数,r2表示变量u,v之间的样本相关系数,则下列说法正确的是(  )
A.变量x与y呈现正相关,且< 
B.变量x与y呈现负相关,且>
C.变量x与y呈现正相关,且> 
D.变量x与y呈现负相关,且<
2.(2024·安徽蚌埠模拟)为维护市场秩序,保护消费者权益,在“五一”假期来临之际,某市物价部门对某商品在5家商场的售价x(元)及其一天的销售量y(件)进行调查,得到五对数据(xi,yi)(i=1,2,3,4,5),经过分析、计算,得=10=8,y关于x的经验回归方程为=-3x+,则对于数据(9,10)的残差为(  )
A.-1   B.1   C.-3   D.3
3.样本数据x1,x2,…,xn的平均数=4,方差s2=1,则样本数据2x1+1,2x2+1,…,2xn+1的平均数,方差分别为(  )
A.9,4 B.9,2 
C.4,1 D.2,1
4.(2024·辽宁葫芦岛二模)某地为了了解学生的睡眠时间,根据初中和高中学生的人数比例采用分层随机抽样的方法,抽取了40名初中生和20名高中生,调查发现初中生每天的平均睡眠时间为8小时,方差为2,高中生每天的平均睡眠时间为7小时,方差为1.根据调查数据,估计该地区中学生每天睡眠时间的总体方差为(  )
A.1.3 B.1.5
C.1.7 D.1.9
5.(2024·陕西西安模拟)某校为了解在校学生对中国传统文化的传承认知情况,随机抽取了100名学生进行中国传统文化知识考试,并将这100名学生的成绩整理得到如图所示的频率分布直方图.根据此频率分布直方图(分成[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]六组),下列结论中不正确的是(  )
A.图中的a=0.012
B.若从成绩在[70,80),[80,90)内的学生中采用分层随机抽样的方法抽取10名学生,则成绩在[80,90)内的抽取3人
C.这100名学生成绩的中位数约为65
D.若同一组中的数据用该组区间的中点值作代表,则这100名学生的平均成绩约为68.2
6.(2024·内蒙古锡林郭勒盟模拟)为了积极推进国家乡村振兴战略,某示范村不断自主创新,拓宽村民增收渠道,近年来取得了显著成效.据悉该村2023年经济总收入是2022年的2倍,为了更好地了解该村经济收入变化情况,统计了该村两年的经济收入构成比例,得到如图所示的条形图和饼图.则以下说法错误的是(  )
A.2023年“种植收入”和2022年“种植收入”一样多
B.2023 年“养殖收入”与“第三产业收入”之和比2022年的全年总收入还多
C.2023年“外出务工收入”是2022年“外出务工收入”的
D.2023年“其他收入”比2022年“其他收入”的2倍还多
二、多项选择题
7.(2024·福建莆田模拟)已知一组正实数样本数据xi(i=1,2,3,…,10),满足x1≤x2≤x3≤…≤x10,则(  )
A.样本数据的第80百分位数为x8
B.去掉样本的一个数据,样本数据的极差可能不变
C.若样本数据的频率分布直方图为单峰不对称,且在右边“拖尾”,则样本数据的平均数大于中位数
D.将样本数据中的每个数据变为原来的2倍,则所得的新样本数据的方差是原样本数据方差的2倍
8.(2024·河南洛阳模拟)某研究机构为了探究过量饮酒与患疾病A是否有关,调查了400人,得到如图所示的2×2列联表,其中b=12a,则(  )
单位:人
饮酒情况 疾病A 合计
患疾病A 不患疾病A
过量饮酒 3a b
不过量饮酒 a 2b
合计 400
参考公式与临界值表:χ2=
α 0.100 0.050 0.010 0.001
xα 2.706 3.841 6.635 10.828
A.任意一人不患疾病A的概率为0.9
B.任意一人不过量饮酒的概率为
C.任意一人在不过量饮酒的条件下不患疾病A的概率为
D.依据小概率值α=0.001的独立性检验,认为过量饮酒与患疾病A有关
三、填空题
9.(2024·广东深圳模拟)某中学举行数学解题比赛,其中7人的比赛成绩分别为70,97,85,90,98,73,95,则这7人成绩的上四分位数是________.
10.(2024·广东广州一模)某校数学建模兴趣小组收集了一组恒温动物体重W(单位:克)与脉搏率f (单位:心跳次数/分钟)的对应数据(Wi,f i)(i=1,2,…,8),根据生物学常识和散点图得出f 与W近似满足f =cWk(c,k为参数).令xi=ln Wi,yi=ln f i,计算得=8=5,=214.由最小二乘法得经验回归方程为=x+7.4,则k的值为________;为判断拟合效果,通过经验回归方程求得预测值i(i=1,2,…,8),若残差平方和≈0.28,则决定系数R2≈________.
四、解答题
11.(2024·山东烟台二模)ChatGPT是AI技术驱动的自然语言处理工具,引领了人工智能的新一轮创新浪潮.某数学兴趣小组为了解使用ChatGPT人群中年龄与是否喜欢该程序的关系,从某社区使用过该程序的人群中随机抽取了200名居民进行调查,并依据年龄样本数据绘制了如图所示的频率分布直方图.
(1)根据频率分布直方图,估计年龄样本数据的75%分位数;
(2)将年龄不超过(1)中75%分位数的居民视为青年居民,否则视为非青年居民.
①完成下列2×2列联表,并依据小概率值α=0.05的独立性检验,分析年龄与喜欢该程序是否有关联?
单位:人
喜欢情况 年龄 合计
青年 非青年
喜欢 20
不喜欢 60
合计 200
②按照等比例分层随机抽样的方式从样本中随机抽取8名居民.若从选定的这8名居民中随机抽取4名居民做进一步调查,求这4名居民中至少有3人为青年居民的概率.
参考公式:χ2=其中n=a+b+c+d.
参考数据:
α 0.100 0.050 0.010
xα 2.706 3.841 6.635
12.(2024·浙江台州二模)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司近5年的年广告费xi(单位:百万元)和年销售量yi(单位:百万辆)的关系如图所示,令vi=ln xi(i=1,2,…,5),数据经过初步处理,得如下统计表.
现有①y=bx+a和②y=n ln x+m两种作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从样本相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的经验回归方程,并预测年广告费为6百万元时,产品的年销售量是多少?
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润除受年广告费和年研发经费影响外还受随机变量ξ影响,设随机变量ξ服从正态分布N(600,σ2),且满足P(ξ>800)=0.3.在(2)的条件下,求该公司年净利润的最大值大于1 000百万元的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量)
附:①样本相关系数
经验回归直线=+x中
②参考数据:=8.06≈20.1,ln 5≈1.6,ln 6≈1.8.
1/1专题限时集训(十一)
1.C [由题意可知,变量x,y的散点图中,y随x的增大而增大,所以变量x与y呈现正相关;
再分别观察两个散点图,图1比图2的点更加集中,相关程度更高,所以>.故选C.]
2.A [因为经验回归直线过样本点中心(),即(10,8),将其代入=-3x+,可得8=-3×10+,
解得=38,当x=9时,=-3×9+38=11,所以残差为10-11=-1.故选A.]
3.A [由=4,得样本数据2x1+1,2x2+1,…,2xn+1的平均数为2+1=2×4+1=9,
由s2=1,得样本数据2x1+1,2x2+1,…,2xn+1的方差为4s2=4.故选A.]
4.D [该地区中学生每天睡眠时间的平均数为:×8+×7=(小时),
该地区中学生每天睡眠时间的方差为:=≈1.9.
故选D.]
5.C [由(0.008×2+a+0.020×2+0.032)×10=1,得a=0.012,所以A正确;
这100名学生中成绩在[70,80),[80,90)内的频率分别为0.2,0.12,0.08,所以采用分层随机抽样的方法抽取的10名学生中成绩在[80,90)内的有10×=3(人),故B正确;
根据频率分布直方图,因为0.08+0.2=0.28<0.5,0.08+0.2+0.32=0.6>0.5,所以这100名学生成绩的中位数在[60,70)之间,设中位数为x,则(x-60)×0.032=0.22,所以x=66.875,故C错误;
根据频率分布直方图的平均数的计算公式,可得=45×0.08+55×0.2+65×0.32+75×0.2+85×0.12+95×0.08=68.2,D正确.故选C.]
6.C [设2022年总收入为m,则2023年总收入为2m,
对于A,2022年种植收入为0.4m,2023年种植收入为0.2×2m=0.4m,A正确;
对于B,2023年养殖收入和第三产业收入之和为0.35×2m+0.2×2m=1.1m,B正确;
对于C,2022年外出务工收入为0.15m,2023年外出务工收入为0.05×2m=0.1m,是2022年外出务工收入的C不正确;
对于D,2022年其他收入为0.15m,2023年其他收入为0.2×2m=0.4m,
由于0.4m>2×0.15m,故2023年其他收入比2022年其他收入的2倍还多,D正确.
故选C.]
7.BC [对于A,由10×80%=8,所以样本数据的第80百分位数为故A错误;
对于B,由题意存在这样一种可能,若x1=x2≤x3≤…≤x10,
则极差为x10-x1=x10-x2,此时样本数据的极差不变,故B正确;
对于C,数据的频率分布直方图为单峰不对称,向右边“拖尾”,大致如图.
由于“右拖”时最高峰偏左,中位数靠近高峰处,平均数靠近中点处,
此时平均数大于中位数,故C正确;
对于D,s′2=4s2,故D错误.故选BC.]
8.ACD [由已知得4a+3b=400,又b=12a,所以a=10,b=120.
任意一人不患疾病A的概率为=0.9,所以A正确;
任意一人不过量饮酒的概率为=所以B错误;
任意一人在不过量饮酒的条件下不患疾病A的概率为=所以C正确;
对于D,2×2列联表如下:
单位:人
饮酒情况 疾病A 合计
患疾病A 不患疾病A
过量饮酒 30 120 150
不过量饮酒 10 240 250
合计 40 360 400
零假设为H0:过量饮酒与患疾病A无关.
由列联表数据得χ2==≈26.67,由于26.67>10.828=x0.001,
依据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为过量饮酒与患疾病A有关,所以D正确.故选ACD.]
9.97 [将7个数据从小到大排列为70,73,85,90,95,97,98,因为7×75%=5.25,所以这7人成绩的上四分位数是97.]
10.-0.3 0.98 [因为f =cWk,两边取对数可得ln f =ln c+kln W,又xi=ln Wi,yi=ln f i,
且经验回归方程=x+7.4必过样本点中心(),
所以5=8+7.4,解得=-0.3,所以k=-0.3,
≈1-=0.98.]
11.解:(1)由频率分布直方图可知,
年龄在40岁以下的居民所占比例为10×(0.010+0.025+0.030)=0.65,
年龄在50岁以下的居民所占比例为0.65+10×0.020=0.85,所以75%分位数位于[40,50)内,
由40+10×=45,
所以样本数据的75%分位数为45.
(2)①由题知,2×2列联表如下:
单位:人
喜欢情况 年龄 合计
青年 非青年
喜欢 90 20 110
不喜欢 60 30 90
合计 150 50 200
零假设为H0:年龄与是否喜欢该程序无关联.
根据列联表中的数据,可得
χ2=≈6.061>3.841=x0.05.
依据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为年龄与是否喜欢该程序有关联.
②按照分层随机抽样,青年居民应抽取8×=6(人),非青年居民应抽取2人.
设从中随机抽取的4名居民中为青年居民的人数为X,
P(X=3)==P(X=4)==
所以P(X≥3)=P(X=3)+P(X=4)=
所以这4名居民中至少有3人为青年居民的概率为.
12.解:(1)设模型①和②的样本相关系数分别为r1,r2.
由题意可得
≈≈0.97,
===1.
所以<由样本相关系数的相关性质可得,模型②的拟合程度更好.
(2)因为==5,
得m==8.8-0.96×5=4,
所以y=5v+4,即非线性经验回归方程为=5ln x+4.
当x=6时,=5ln 6+4≈13,因此当年广告费为6百万元时,产品的年销售量大约是13百万辆.
(3)年净利润为200×(5ln x+4)-200x-ξ(x>0),令g(x)=200×(5ln x+4)-200x-ξ,
所以g′(x)=-200.
可得g(x)在(0,5)上单调递增,在(5,+∞)上单调递减.
所以g(x)max=g(5)=200×(5ln 5+4-5)-ξ≈1 400-ξ,由题意得:1 400-ξ>1 000,即ξ<400,
P(ξ<400)=P(ξ>800)=0.3,
即该公司年净利润的最大值大于1 000百万元的概率为0.3.
1/1
同课章节目录