成对数据的统计分析
1. 如图,是对某位同学一学期8次体育测试成绩单位,分进行统计得到的散点图,关于这位同学的成绩分析,下列结论错误的是( )
A. 该同学的体育测试成绩总的趋势是在逐步提高,且8次测试成绩的极差超过15分
B. 该同学8次测试成绩的众数是48分
C. 该同学8次测试成绩的中位数是49分
D. 该同学8次测试成绩与测试次数具有相关性,且呈正相关
2. 现收集了7组观测数据.用4种模型分别进行拟合.由此得到相应的回归方程并进行残差分析,进一步得到如图4幅残差图,根据残差图,拟合效果最好的模型是( )
A. 模型一 B. 模型二 C. 模型三 D. 模型四
3. 某机构为调查网游爱好者是否有性别差异,通过调研数据统计:500名男性中有200名爱玩网游,在400名女生中有50名爱玩网游.若要确定网游爱好是否与性别有关时,用下列最适合的统计方法是( )
A. 均值 B. 方差 C. 独立性检验 D. 回归分析
4. 对于两个变量x和y进行回归分析,得到一组样本数据:,,…,,则下列说法正确的是( )
①由样本数据得到的回归直线必经过样本点中心
②用来刻画回归效果,的值越小,说明模型的拟合效果越好
③残差平方和越小的模型,拟合的效果越好
④用相关系数r来衡量两个变量之间线性关系的强弱时,越接近于1,相关性越弱;
A. ①② B. ①③④ C. ①②③ D. ①③
5. 根据分类变量x与y的成对样本数据,计算得到依据的独立性检验,结论为( )
A. 变量x与y不独立
B. 变量x与y不独立,这个结论犯错误的概率不超过
C. 变量x与y独立
D. 变量x与y独立,这个结论犯错误的概率不超过
6. 为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出如下四个等高条形图,最能体现该药物对预防禽流感有效果的图形是( )
A. B.
C. D.
7. 北京冬奥会的举办掀起了一阵冰雪运动的热潮.某高校在本校学生中对“喜欢滑冰是否与性别有关”做了一次调查,参与调查的学生中,男生人数是女生人数的3倍,有的男生喜欢滑冰,有的女生喜欢滑冰.若根据独立性检验的方法,有的把握认为是否喜欢滑冰和性别有关,则参与调查的男生人数可能为( )
参考公式:,其中
参考数据:
A. 12 B. 18 C. 36 D. 48
8. 随着社会的发展与进步,传播和存储状态已全面进入数字时代,以数字格式存储,以互联网为平台进行传输的音乐——数字音乐已然融入了我们的日常生活.虽然我国音乐相关市场仍处在起步阶段,但政策利好使音乐产业逐渐得到资本市场更多的关注.对比如下两幅统计图,下列说法正确的是( )
A. 年我国音乐产业投融资事件数量逐年增长
B. 年我国录制音乐营收与音乐产业投融资事件数量呈正相关关系
C. 2016年我国音乐产业投融资事件的平均营收约为亿美元
D. 年我国录制音乐营收年增长率最大的是2018年
9. 下列说法正确的是( )
A. 若随机变量服从二项分布,则
B. 若两个具有线性相关关系的变量的相关性越强,则线性相关系数r的值越接近于1
C. 在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高
D. 由一组样本数据,,…,得到的关于x的经验回归方程为,则相应的经验回归直线至少经过点,,…,中的一个
10. 下列命题正确的是( )
A. 两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1
B. 对具有线性相关关系的变量x、y,有一组观测数据,其线性回归方程是,且,则
C. 已知样本数据的方差为4,则的标准差是4
D. 已知随机变量,若,则
11. 两个分类变量X和Y,它们的取值分别为和,其样本频数如列联表所示:
合计
10 20 30
c d 20
合计 50
注:①
②
若X与Y有关系的可信程度不小于,则c的值可能为( )
A. 3 B. 2 C. 1 D. 0
12. 某淘宝商家想通过软件广告推荐功能吸引潜在客户.为使广告能够精准投放达到利益最大化,随机抽取了200名在本店一季度消费过的客户数据,现统计如下:
按照年龄分为年轻人岁和非年轻人岁及以上,若一季度内购买超过三次及以上就记为优质客户,其中非年轻人占比,通过数据可以得到结论( )
附:
A. 为了增加优质客户的比例,应向30岁以下人群投放广告
B. 有的把握认为是否为优质客户与年龄有关
C. 已知一位顾客是年轻人,则他是优质客户的概率是
D. 已知一位顾客仅购买一次,则他是非年轻人的概率是
13. 某工厂为研究某种产品的产量吨与所需某种原材料的质量吨的相关性,在生产过程中收集4组对应数据,如下表所示.残差=观测值-预测值
x 3 4 5 6
y 3 4 m
根据表中数据,得出y关于x的经验回归方程为据此计算出在样本处的残差为,则表中m的值为__________.
14. 某足球联赛期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢甲队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据绘制成如下列联表:
年龄 是否喜欢甲队 合计
不喜欢甲队 喜欢甲队
高于40岁 p q 50
不高于40岁 15 35 50
合计 a b 100
若工作人员从调查的所有人中任取一人,取到喜欢甲队的人的概率为,在犯错误的概率不超过__________的前提下认为年龄与甲队的被喜欢程度有关.
附:,
15. 某市举行了首届阅读大会,为调查市民对阅读大会的满意度,相关部门随机抽取男女市民各50名,每位市民对大会给出满意或不满意的评价,得到下面列联表:
满意 不满意
男市民
女市民
当,时,若没有的把握认为男、女市民对大会的评价有差异,则m的最小值为__________.
附:,其中
16. 商家项目投资的利润产生是一个复杂的系统结果.它与项目落地国的商业环境,政府执政能力,法律生态等都有重大的关联.下表所示是某项目在中国和南亚某国投资额和相应利润的统计表.
项目落地国 中国 南亚某国
投资额亿元 10 11 12 13 14 10 11 12 13 14
利润亿元 11 12 14 16 19 12 13 13 14 15
请选择平均利润较高的落地国,用最小二乘法求出回归直线方程为__________,并根据回归直线方程预计在该国投资15亿元所获得的利润是__________亿元.
参考数据和公式:,中国,南亚某国 ,
17. 一般来说,市场上产品的宣传费用与产品的销量存在一定关系.已知产品甲的年宣传费用百万元和年销量万箱的统计数据如下:
年宣传费用百万元 3 5 6 10 13 15 18
年销量y
万箱 2 3 4
求y与x的相关系数精确到,并判断y与x的关系是否可用线性回归方程模型拟合?规定:时,可用线性回归方程模型拟合;
从年销量不少于3万箱中任取两个数据作为样本,求恰有1个数据不少于4万箱的概率.
附:①相关系数
②,,,;
18. 小明大学毕业后准备自主创业,他计划在某商场租一间商铺开服装店,为了解市场行情,在该商场调查了20家服装店,统计得到了它们的面积单位:和日均客流量单位:百人的数据,初步判断x与y线性相关,并计算得,,,
求y关于x的回归直线方程;
已知服装店每天的经济效益,该商场现有的商铺出租,根据的结果进行预测,要使单位面积的经济效益Z最高,小明应该租多大面积的商铺?
参考公式:回归直线方程中,,
19. 某地区2015年至2021年农村居民家庭人均纯收入单位:千元的数据如下表:
年份 2015 2016 2017 2018 2019 2020 2021
年份代号t 1 2 3 4 5 6 7
人均纯收入y 11 20
求y关于t的线性回归方程;
利用中的回归方程,分析2015年至2021年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2023年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘法估计公式分别为:,
20. 根据国家电影局发布的数据,2020年中国电影总票房为亿,年度票房首度超越北美,成为2020年全球第一大电影市场.国产历史战争题材影片《八佰》和《金刚川》合力贡献了国内全年票房的我们用简单随机抽样的方法,分别从这两部电影的购票观众中各随调查了100名观众,得到结果如下:图1是购票观众年龄分布情况;图2是购票观众性别分布情况.
记C表示事件:“观看电影《八佰》的观众年龄低于30岁”,根据图1的数据,估计C的概率;
现从参与调查的电影《金刚川》的100名购票观众中随机抽取两名依次进行电话回访,求在第1次抽到男性观众的条件下,第2次仍抽到男性观众的概率.
填写下面的列联表,并根据小概率值的独立性检验,分析男性观众与女性观众对这两部历史战争题材影片的选择是否有差异?
影片 女性观众 男性观众 总计
《八佰》 100
《金刚川》 100
总计 200
附:
21. 海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量单位:,其频率分布直方图如图:
设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50kg,新养殖法的箱产量不低于50kg”,估计A的概率;
填写下面列联表,并根据列联表判断是否有的把握认为箱产量与养殖方法有关:
箱产量 箱产量
旧养殖法
新养殖法
根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值精确到
附:
k
22. 新型冠状病毒的传染主要是人与人之间进行传播,感染人群年龄大多数是50岁以上人群.该病毒进入人体后有潜伏期,潜伏期是指病原体侵入人体至最早出现临床症状的这段时间.潜伏期越长,感染到他人的可能性越高,现对400个病例的潜伏期单位:天进行调查,统计发现潜伏期平均数为,方差为如果认为超过8天的潜伏期属于“长潜伏期”,按照年龄统计样本,得到下面的列联表:
年龄/人数 长期潜伏 非长期潜伏
50岁以上 60 220
50岁及50岁以下 40 80
是否有的把握认为“长期潜伏”与年龄有关;
假设潜伏期X服从正态分布,其中近似为样本平均数,近似为样本方差
现在很多省市对入境旅客一律要求隔离14天,请用概率的知识解释其合理性;
以题目中的样本频率估计概率,设1000个病例中恰有个属于“长期潜伏”的概率是,当k为何值时,取得最大值.
附:
若,则,
答案和解析
1.【答案】C
【解析】
【分析】
本题考查命题真假的判断,考查散点图、极差、众数、中位数、相关性,属于中档题.
根据给定的散点图,逐一分析极差、众数、中位数、相关性即可判断选项.
【解答】
解:由散点图得:
对于A,该同学的体育测试成绩总的趋势是在逐步提高,且8次测试成绩的极差为:,超过15分,故A正确;
对于B,散点图中8次测试成绩的众数是48分,故B正确;
对于C,散点图中8个数由小到大排列,最中间两个数都是48,则8次测试成绩的中位数是:分,故C错误;
对于D,散点图中8个点落在某条斜向上的直线附近,则8次测试成绩与测试次数具有相关性,且呈正相关,故D正确.
故选:
2.【答案】D
【解析】
【分析】
本题考查了残差图的应用问题,是基础题.
根据残差的带状宽度对拟合效果的影响,即可作出判断.
【解答】
解:当残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,带状区域的宽度越窄,拟合的精确度越好,拟合效果越好,对比四个残差图,可知模型四的图对应的带状区域的宽度最窄.
故本题选
3.【答案】C
【解析】
【分析】
本题考查了独立性检验思想的应用问题,是基础题.
根据题意判断两个分类变量是否有关系时,符合独立性检验的方法.
【解答】
解:判断两个分类变量是否有关系时,利用独立性检验的方法最有说服力,
500名男性中有200名爱玩网游,在400名女生中有50名爱玩网游.
故对判断“性别”与“是否爱好网游”是否有关系时,利用独立性检验的方法.
故选
4.【答案】D
【解析】
【分析】
本题考查利用回归直线方程,相关系数,残差及决定系数,属于基础题.
根据回归方程的基本特征,相关系数与线性关系强弱的联系,残差及决定系数与模型拟合效果的关系,对每个小命题逐一判断即可.
【解答】
解:样本中心点在回归直线上,故①正确;
越大拟合效果越好,故②不正确;
残差平方和越小的模型,拟合效果越好,故③正确;
用相关系数r来衡量两个变量之间线性关系的强弱时,越接近于1,相关性越强,故④不正确.
故选
5.【答案】C
【解析】
【分析】
本题考查了独立性检验,属于基础题.
直接运用独立性检验知识求解.
【解答】
解:时,,则大于时相关,不独立,
而,所以变量x与y独立,
但是这个结论犯错误的概率超过,故A,B,D错误,C正确.
故选
6.【答案】D
【解析】
【分析】
本题考查了列联表中条形图的应用问题,是基础题.
根据四个列联表中的等高条形图看出不服药与服药时患禽流感的差异大小,从而得出结论.
【解答】
解:根据四个列联表中的等高条形图知,
图形D中不服药与服药时患禽流感的差异最大,
它最能体现该药物对预防禽流感有效果.
故选:
7.【答案】C
【解析】
【分析】
本题考查了独立性检验及卡方计算.
设男生人数为3x,则女生人数为x,且,写出列联表并根据卡方计算公式,结合题意确定卡方值的范围,即可确定x的取值范围,进而确定男生可能人数.
【解答】
解:设男生人数为3x,则女生人数为x,且,
可得列联表如下:
男生 女生 合计
喜欢滑冰 2x
不喜欢滑冰 x
合计 3x x 4x
所以,
因为有的把握认为是否喜欢滑冰和性别有关,
所以解得,
所以,结合选项只有C正确.
故选:
8.【答案】B
【解析】
【分析】
本题考察统计图的实际运用,属于基础题.
结合统计图逐一排除即可.
【解答】
解:对于A:2013年我国音乐产业投融资事件数为10,比2012年我国音乐产业投融资事件数量11少,故A错误;
对于B:由图可知年我国录制音乐营收与音乐产业投融资事件数量的增加而增加,故呈正相关关系,故B正确;
对于C:2016年我国音乐产业投融资事件的平均营收为亿美元,故c错误;
对于D:年我国录制音乐营收年增长率最大的是2015年,年增长率为,故D错误.
故选
9.【答案】AC
【解析】
【分析】
本题考查回归直线方程、相关系数、残差与残差图、二项分布的方差,属于基础题.
根据题意,对各选项逐项判定,即可求出结果.
【解答】
解:A选项,随机变量X服从二项分布,
,
,故A正确;
B选项,若两个具有线性相关关系的变量的相关性越强,则线性相关系数 r的绝对值值越接近于1,故B错误;
C选项,利用残差分析模型拟合效果时,在残差图中,残差点分布的带状区域的宽度越狭窄,
其模型拟合的精度越高,故C正确;
D选项,线性回归方程对应的直线一定经过,可能不经过样本数据点,故D错误.
10.【答案】ABC
【解析】
【分析】
本题考查相关系数的意义,回归方程的性质,具有线性关系的数据的方差的关系与标准差的计算,以及正态曲线的性质与正态分布中概率计算,属于中档题.
根据相关系数的意义可判断A;求出样本点中心坐标,代入回归方程可判断B;根据具有线性关系的数据的方差的关系可求出第二组数据的方差,进一步得到其标准差,从而可判断C;利用正态曲线的性质与正态分布中概率计算可知,可判断
【解答】
解:对于A,根据相关系数的意义知:两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1,故 A正确;
对于B,在相应条件下,,,所以样本点中心为,
于是由,得,故 B正确;
对于C,因为样本数据的方差为4,
所以的方差为,
它的标准差是,故C正确;
对于D,因为在正态分布中,,又,
所以,于是,
所以,
而,所以,故 D错误.
故选
11.【答案】CD
【解析】
【分析】
本题考查独立性检验,属于中档题.
根据题意,分别计算出,2,1,0时,的观测值,与比较大小即可.
【解答】
解:由题意得,,的观测值,
即,
当时,,不符合题意;
当时,,不符合题意;
当时,,符合题意;
当时,,符合题意;
故当X与Y有关系的可信程度不小于时,则c的值可能为0或
故选
12.【答案】BC
【解析】
【分析】
本题考查统计图表,独立性检验和概率计算,属于一般题.
根据题意完善列联表,由公式求出,结合古典概型的概率公式逐个判断即可.
【解答】
解:由题意可知抽取的年轻人为人,
非年轻人人,
抽取的优质客户有人,
则非优质客户为80人,
其中优质客户中年轻人有60人,非年轻人有60人,
则列联表如下:
优质客户 非优质客户 合计
年轻人 60 60 120
非年轻人 60 20 80
合计 120 80 200
对于A,优质客户中年轻人和非年轻人的人数相同,
而年轻人的优质客户有,非年轻人的优质客户有,
所以非年轻人购买力强,所以为了增加优质客户的比例,应向30岁及以上人群投放广告,所以 A错误,
对于B,因为,
所以有的把握认为是否为优质客户与年龄有关,故B正确;
对于C,因为年轻人共120人,其中优质客户60人,
所以已知一位顾客是年轻人,则他是优质客户的概率是,所以C正确,
对于D,因为非优质客户80人中,非年轻人20人,
所以已知一位顾客仅购买一次,则他是非年轻人的概率是,所以D错误,
故选:
13.【答案】
【解析】
【分析】
本题考查回归直线方程的应用.
根据残差求出的值,再由回归直线过样本中心点即可求解.
【解答】
解:因为样本处的残差为,
即,
所以,
所以回归方程为:,
因为,
,
因为样本中心点在回归直线上,
所以,
解得:,
故答案为:
14.【答案】
【解析】
【分析】
本题考查了独立性检验和古典概型的计算,考察学生的数据分析能力与计算能力,属中档题.
由古典概型公式得,可得q、p、a、b,再由公式得出,对照临界值表可得结论.
【解答】
解:设“从所有人中任意抽取一个,取到喜欢甲队的人”为事件 A,
由已知得,
所以,,,
故犯错误的概率不超过的前提下认为年龄与甲队的被喜欢程度有关.
故答案为
15.【答案】21
【解析】
【分析】
本题考查独立性检验,属于中档题.
根据没有的把握认为男、女市民对大会的评价有差异,求出关于m的表达式,从而可以通过解不等式得到m的取值范围,再加上m是正整数,从而可以得到答案.
【解答】
解:由题意可知,,
由题意可知,
整理得,又,,
所以m的最小值为
故答案为:
16.【答案】
【解析】
【分析】
本题主要考查回归直线方程及回归分析的应用,平均数的计算,属于中档题.
分别计算出中国和南亚某国的投资额、利润的平均数,然后进行比较和选择,然后利用公式和参考数据计算出的值,再根据计算出的值,则回归直线方程可求.
根据回归直线方程计算出时y的取值即可.
【解答】
解:由表中数据可求得,,
,,
因此应选择中国.
由参考数据和公式可知,
,
所以所求回归直线方程为,
当时,
故答案为:;
17.【答案】解:由题意可知,
,
由公式,
即,
与x的关系可用线性回归模型拟合;
满足条件的所有取法为:3万箱与万箱;3万箱与4万箱;3万箱与万箱;万箱与4万箱;万箱与万箱;4万箱与万箱,共有六种;
恰有1个数据不少于4万箱包含:3万箱与4万箱;3万箱与万箱;万箱与4万箱;万箱与万箱,共有四种;
【解析】本题考查相关系数,古典概型,属于基础题.
代入公式可得,可得y与x的关系可用线性回归模型拟合;
写出所有基本事件共有六种,满足条件的共有四种,代入公式可得概率.
18.【答案】解:,,
,,
又,,
,
关于x的回归直线方程为;
服装店每天的经济效益,
单位面积的经济效益,
令,则
由二次函数的性质知,当,即时,Z最大,
小明应该租的商铺.
【解析】本题考查线性回归方程的求法,考查运算求解能力,是基础题.
由已知数据求得与的值,可得y关于x的回归直线方程;
由题意可得单位面积的经济效益,利用换元法,结合一元二次函数性质求最值.
19.【答案】解:由所给数据计算得,
,
,
,则
所求回归方程为
由知,,故2015年至2021年该地区农村居民家庭人均纯收入逐年增加,平均每年增加千元.
将2023年的年份代号,代入中的回归方程,得,
故预测该地区2023年农村居民家庭人均纯收入为23千元.
【解析】本题考查回归直线方程及应用,属于中档题.
根据所给的数据,求出回归直线方程的系数,写出线性回归方程.
由线性回归方程的一次项系数判断人均纯收入逐年递增,代入所给的t的值,预测该地区2023年农村居民家庭人均纯收入.
20.【答案】解:由图1可知,“观看电影《八佰》的观众年龄低于30岁”的频率为,
由此估计事件C的概率为;
由图2可知,参与调查的电影《金刚川》的100名购票观众中男性人数为61人,
从100名观众中依次抽两名,在第一次抽到男性的条件下,第二次仍抽到男性为事件B,
相当于从含有60名男性观众的99名观众中任抽1人,抽到男性的事件,
故其概率为;
零假设为:影片与观众性别独立,即男性和女性观众对这两部历史战争题材影片的选择没有差异.
由题意可知,列联表如下:
影片 女性观众 男性观众 总计
《八佰》 47 53 100
《金刚川》 39 61 100
总计 86 114 200
则,
根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即男性观众与女性观众对这两部历史战争题材影片的选择没有差异.
【解析】本题考查了用频率估计概率的应用,古典概型概率公式的应用,独立性检验的应用,解题的关键是完成列联表,考查了逻辑推理能力与化简运算能力,属于基础题.
根据图1计算出“观看电影《八佰》的观众年龄低于30岁”的频率,由频率估计概率即可得到答案;
根据图2确定参与调查的电影《金刚川》的100名购票观众中男性人数,采用缩小样本空间的办法即可得到答案;
根据图2完成列联表,再计算的值,对照临界表中的数据,即可得到答案.
21.【答案】解:记B表示事件“旧养殖法的箱产量低于50kg”,C表示事件“新养殖法的箱产量不低于50kg”,
由,
则旧养殖法的箱产量低于50kg:,
故的估计值;
新养殖法的箱产量不低于50kg:,
故的估计值为
则事件A的概率估计值为,
发生的概率为
列联表:
箱产量 箱产量 总计
旧养殖法 62 38 100
新养殖法 34 66 100
总计 96 104 200
则,
由,
有的把握认为箱产量与养殖方法有关.
由新养殖法的箱产量频率分布直方图中,箱产量低于50kg的直方图的面积:
,
箱产量低于55kg的直方图面积为:
,
故新养殖法产量的中位数的估计值为:,
新养殖法箱产量的中位数的估计值
【解析】本题考查频率分布直方图的应用,考查独立性检验,考查计算能力,属于中档题.
由题意可知:,分布求得发生的频率,即可求得其概率;
完成列联表:求得观测值,与参考值比较,即可求得有的把握认为箱产量与养殖方法有关;
根据频率分布直方图即可求得其中位数.
22.【答案】解:由题意可得,
,
所以有的把握认为“长期潜伏”与年龄有关;
若潜伏期,
由,
所以潜伏期超过14天的概率很低,因此隔离14天使合理的;
由于400个病例中由100个属于长期潜伏期,
若以样本频率估计概率,一个患者属于“长潜伏期”的概率是,
所以,
则
,
当时,,
当时,,
所以,
,
故当时,取得最大值.
【解析】本题考查独立性检验的应用,正态分布曲线的特点及曲线所表示的意义,二次分布概率公式的运用,考查逻辑推理能力与化简运算能力,属于中档题.
根据列联表中的数据,计算的值,对照临界值表中的数据,即可得到答案;
利用正态分布,结合小概率事件进行判断即可;
先求出个患者属于“长潜伏期”的概率,然后利用二项分布的概率公式,再利用作商法判断单调性,即可得到答案.
第22页,共22页