第4讲 成对数据的统计分析
一、变量的相关关系
1.(多选)在下列所示的四个图中,每个图的两个变量间具有相关关系的是( ).
A. B. C. D.
【答案】BC
【分析】利用散点图判断相关关系的方法,逐一分析各个选项中的图形,判断作答.
【详解】对于A,散点落在某条曲线上,两个变量具有函数关系;
对于B、C,散点落在某条直线附近,这两个变量具有相关关系;
对于D,散点杂乱无章,无规律可言,这两个变量无相关性,不具有相关关系.
故选:BC
2.对变量、由观测数据得散点图,对变量、由观测数据得散点图.由这两个散点图可以判断( )
A.变量与负相关,与正相关 B.变量与负相关,与负相关
C.变量与正相关,与正相关 D.变量与正相关,与负相关
【答案】B
【分析】根据散点图直接判断可得出结论.
【详解】由散点图可知,变量与负相关,变量与正相关,所以,与负相关.
故选:B.
3.关于相关系数,下列说法错误的是( )
A.当时,表明两个变量正相关
B.当 时,表明两个变量负相关
C.的绝对值大于时,认为两个变量有很强的线性相关性
D.的绝对值越接近于1,表明两个变量之间几乎不存在线性相关关系
【答案】D
【分析】根据相关系数的含义,逐项判定,即可求解.
【详解】根据相关系数的含义,可得当时,表明两个变量正相关;当 时,表明两个变量负相关,的绝对值大于时,认为两个变量有很强的线性相关性;当的绝对值越接近于1时,两个变量的相关系越强,所以A、B、C正确,D错误.
故选:D.
4.某同学为了解气温对热饮销售的影响,经过统计分析,得到了一个卖出的热饮杯数与当天气温的回归方程.下列选项正确的是( )
A.与线性正相关 B.与线性负相关
C.随增大而增大 D.随减小而减小
【答案】B
【解析】根据回归方程,对选项进行判断即可:
正负相关和单调性都取决于x的系数的正负 .
【详解】由回归方程,可得:与线性负相关,且随增大而减小.
故选:B
5.下列说法正确的是( )
A.中的x,y是具有相关关系的两个变量
B.正四面体的体积与棱长具有相关关系
C.电脑的销售量与电脑的价格之间是一种确定性的关系
D.传染病医院感染传染病的医务人员数与医院收治的传染病人数是具有相关关系的两个变量
【答案】D
【分析】根据相关关系的定义、函数的定义即可判断
【详解】A,B均为函数关系,故A、B错误;C,D为相关关系,故C错,D对.故选:D
6.经济学专业的学生们为研究流通费率y和销售额x(单位:千万元)的关系,对同类型10家企业的相关数据()进行整理,并得到如下散点图:
由此散点图,在2千万元至1亿元之间,下面四个回归方程类型中最适宜作为流通费率y和销售额x的回归方程类型的是( )
A. B. C. D.
【答案】D
【分析】根据散点图的变化趋势,分析各选项中方程表示的曲线的特点,看是否合乎题意,即可得答案.
【详解】根据散点图,可以知道各点基本上是沿着一条具有递减趋势的曲线分布,并且变化趋势较平缓,
A中表示直线,变化趋势是定的,不合题意;
B中表示的曲线既有上升又有下降部分,不合题意;
C中表示的曲线不论是上升还是下降,都将比较快,曲线较“陡峭”,不合题意,
D中表示的曲线不论是上升还是下降,都将比较平缓,合乎题意,
故选:D.
二、样本相关系数
7.对于,两变量,有四组样本数据,分别算出它们的线性相关系数(如下),则线性相关性最强的是( )
A.-0.82 B.0.78 C.-0.69 D.0.87
【答案】D
【分析】根据相关系数与变量间相关性的关系,即可得答案.
【详解】由相关系数的绝对值越大,变量间的线性相关性越强知:各选项中的绝对值最大.
故选:D
8.在一组样本数据为,,,(,,,,,不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的相关系数为( )
A. B. C.1 D.-1
【答案】D
【分析】根据回归直线方程可得相关系数.
【详解】根据回归直线方程是yx+2,
可得这两个变量是负相关,故这组样本数据的样本相关系数为负值,
且所有样本点(xi,yi)(i=1,2,…,n)都在直线上,则有|r|=1,
∴相关系数r=﹣1.
故选D.
【点睛】本题考查了由回归直线方程求相关系数,熟练掌握回归直线方程的回归系数的含义是解题的关键.
9.下列有关样本相关系数说法不正确的是( )
A.,且越接近1,相关程度越大
B.,且越接近0,相关程度越小
C.,且越接近1,相关程度越大
D.相关系数用来衡量变量x与y的线性相关程度
【答案】A
【分析】根据相关系数的定义和性质判断.
【详解】由相关系数的定义可得,A错,
由相关系数的性质可得:
当越接近0,相关程度越小,B对,
越接近1,相关程度越大,C对,
相关系数与x与y的线性相关程度有关,D对,
故选:A.
10.已知r1表示变量X与Y之间的线性相关系数,r2表示变量U与V之间的线性相关系数,且r1=0.837,r2=﹣0.957,则( )
A.变量X与Y之间呈正相关关系,且X与Y之间的相关性强于U与V之间的相关性
B.变量X与Y之间呈负相关关系,且X与Y之间的相关性强于U与V之间的相关性
C.变量U与V之间呈负相关关系,且X与Y之间的相关性弱于U与V之间的相关性
D.变量U与V之间呈正相关关系,且X与Y之间的相关性弱于U与V之间的相关性
【答案】C
【分析】根据线性相关系数|r|越接近1,表示两个变量之间的相关性越强,线性相关系数r的正负表示两个变量之间呈正相关关系或负相关关系.
【详解】因为线性相关系数r1=0.837,r2=﹣0.957,
所以变量X与Y之间呈正相关关系,变量U与V之间呈负相关关系,
X与Y之间的相关性弱于U与V之间的相关性.
故选:C
三、线性回归方程
11.为了研究汽车减重对降低油耗的作用,对一组样本数据、、、进行分析,其中表示减重质量(单位:千克),表示每行驶一百千米降低的油耗(单位:升),、、、,由此得到的线性回归方程为.下述四个说法:
①的值一定为;②越大,减重对降低油耗的作用越大;
③残差的平方和越小,回归效果越好;④至少有一个数据点在回归直线上.
其中所有正确说法的编号是( )
A.①④ B.②③ C.②③④ D.①②④
【答案】B
【分析】根据拟合直线不一定过坐标原点可知①错误;由的实际意义可知②正确;残差的平方和越小,说明相关指数越接近于,其拟合效果越好,故③正确;由样本点和回归直线的位置关系可知④错误.
【详解】的实际意义为当减重质量为时,汽车每行驶一百千米所降低的油耗,
从其意义上来看,的值应该等于,
但拟合直线并不一定过坐标原点,因此的值可能比略大或略小,所以①错误;
的实际意义是每行驶一百千米降低的油耗量与减重质量之比,
因此越大,减重对降低油耗的作用越大,所以②正确;
相关指数,所以残差的平方和越小,越接近于,回归效果越好,所以③正确;
有可能没有数据点在回归直线上,所以④错误.
故选:B.
12.某地为响应“扶贫必扶智,扶智就扶知识、扶技术、扶方法”的号召,建立了农业科技图书馆,供农民免费借阅.现收集了该图书馆五年的借阅数据如下表:
年份 2016 2017 2018 2019 2020
年份代码x 1 2 3 4 5
年借阅量y(万册) 4.9 5.1 5.5 5.7 5.8
根据上表,可得y关于x的线性回归方程为,则下列说法中错误的是( ).
A.
B.借阅量4.9,5.1,5.5,5.7,5.8的第75百分位数为5.7
C.y与x的线性相关系数
D.2021年的借阅量一定少于6.12万册
【答案】D
【分析】对于A:根据线性回归方程必过样本中心点运算求解;对于B:根据百分位的定义运算求解;对于C:根据相关系数的定义分析判断;对于D:根据回归方程的进行预测.
【详解】对于选项A:年份代码x的平均数,
年借阅量y的平均数(万册),
则,解得,故A正确;
对于选项B:因为,所以借阅量的第75百分位数为5.7,故B正确;
对于选项C: 因为,所以y与x的线性相关系数,故C正确;
对于选项D:由选项A可得:,
令,可得,
预计2021年的借阅量为6.12万册,但并不能确定具体结果,故D错误;
故选:D.
13.(多选)某兴趣小组研究光照时长和向日葵种子发芽数量颗之间的关系,采集5组数据,作如图所示的散点图.若去掉后,下列说法正确的是( )
A.相关系数的绝对值变小
B.决定系数变大
C.残差平方和变大
D.解释变量与响应变量的相关性变强
【答案】BD
【分析】由图可知:较其他的点偏离直线最大,所以去掉后,回归效果更好.结合相关系数、决定系数、残差平方和以及相关性逐项分析判断.
【详解】由图可知:较其他的点偏离直线最大,所以去掉后,回归效果更好.
对于选项A:相关系数越接近于1,线性相关性越强,所以去掉后,相关系数的绝对值变大,故A错误;
对于选项B:决定系数越接近于1,拟合效果越好,所以去掉后,决定系数变大,故B正确;
对于选项C:残差平方和变大,拟合效果越差,所以去掉后,残差平方和变小,故C错误
对于选项D:由选项A可知:去掉后,相关系数的绝对值变大,所以解释变量与响应变量的相关性变强,故D正确;
故选:BD.
14.调查了某地若干户家庭的年收x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据.得到y对x的回归直线方程.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加约为__________万元.
【答案】
【分析】根据回归方程可年饮食支出平均增加得大致金额.
【详解】因为y对x的回归直线方程,
故家庭年收入每增加1万元,年饮食支出平均增加约为(万元),
故答案为:
15.2023年3月中旬,我国很多地区出现倒春寒现象,突然大幅降温,河南下起了暴雪.研究表明,温度的突然变化会引起机体产生呼吸道上皮组织的生理不良反应,从而导致呼吸系统疾病的发生或恶化.某数学建模兴趣小组欲研究昼夜温差大小与患感冒学生人数多少之间的关系,他们记录了某周连续六天的温差,查阅了这六天中每天去校医新增患感冒而就诊的学生人数,得到数据如下表:
日期 第一天 第二天 第三天 第四天 第五天 第六天
昼夜温差x() 4 7 8 9 14 12
新增就诊人数y(位)
参考数据:.
(1)已知第一天新增患感冒而就诊的学生中有6位女生,从第一天新增的患感冒而就诊的学生中随机抽取3位,若抽取的3人中至少有一位男生的概率为,求的值;
(2)求出y关于x的经验回归方程,且据此估计昼夜温差为时,该校新增患感冒的学生数(用四舍五入法结果保留整数).
附:.
【答案】(1)10;(2)约为35人.
【分析】(1)利用对立事件及古典概率列式求出的值作答.
(2)利用数表及给定的和求出,再利用最小二乘法公式求出回归直线方程,并估计数据作答.
【详解】(1)依题意,,整理得,
即,解得,
所以的值是10.
(2)由数表知,,即,则,
于是,
又,解得,
因此,则,
当时,,
所以可以估计,昼夜温差为时,该校新增患感冒的学生数为35人.
四、根据样本中心点求参数
16.蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率每分钟鸣叫的次数与气温单位:存在着较强的线性相关关系.某地观测人员根据下表的观测数据,建立了关于的线性回归方程.则当蟋蟀每分钟鸣叫次时,该地当时的气温预报值为( )
次数分钟
A. B. C. D.
【答案】C
【分析】求得样本中心点的坐标从而得到,然后将代入计算即可得到结果.
【详解】,,
则样本中心点为,代入,可得,即,
所以,
当时,.
所以当蟋蟀每分钟鸣叫60次时,该地当时的气温预报值为35.
故选:C.
17.为调查某企业环境污染整治情况,得到了7组成对数据如下表所示:
第x年 1 2 3 4 5 6 7
污染指数Y 6.1 5.2 4.5 4.7 3.8 3.4 3.1
由上表中数据求得Y关于x的回归直线方程为,据此计算样本点处的残差(残差=实际值-预测值)为( )
A.-0.25 B.0.25 C.0.15 D.-0.15
【答案】D
【分析】利用样本中心求解,即可求解时的预测值,由残差定义即可求解.
【详解】由表中数据可得,
故将样本中心代入得,
故,因此当时,,
所以样本点处的残差为,
故选:D
18.(多选)两个相关变量,的5组对应数据如表:
8.3 8.6 9.9 11.1 12.1
5.9 7.8 8.1 8.4 9.8
根据上表,可得线性回归方程,求得.据此估计,以下结论正确的是( )
A. B. C. D.当时,
【答案】AC
【分析】结合表中数据,根据回归直线过样本中心点,求得代入计算即可得出结果.
【详解】根据表中数据可知,,,
将代入线性回归方程,得,,
即,令,则.故选:AC
19.已知x,y的对应值如下表所示:
0 2 4 6 8
1 13
若y与x线性相关,且回归直线方程为,则______.
【答案】1
【分析】根据线性回归方程过样本中心点直接计算即可.
【详解】根据表格可知,,
,
因为y与x线性相关,且回归直线方程为,
所以,得,解得.故答案为:1
五、相关指数的计算及分析
20.对两组变量进行回归分析,得到不同的两组样本数据,第一组对应的相关系数,残差平方和,决定系数分别为,,,第二组对应的相关系数,残差平方和,决定系数分别为,,,则( )
A.若,则第一组变量比第二组的线性相关关系强
B.若,则第一组变量比第二组的线性相关关系强
C.若,则第一组变量比第二组变量拟合的效果好
D.若,则第二组变量比第一组变量拟合的效果好
【答案】B
【分析】由线性相关系数与决定系数的意义及残差平方和与的关系即可求解.
【详解】线性相关系数越大,两个变量的线性相关性越强,故A错误,B正确;
残差平方和越小,则决定系数越大,从而两个变量拟合的效果越好,
残差平方和越大,则决定系数越小,从而两个变量拟合的效果越差,
故C、D错误.
故选:B
21.营养学家对某地区居民的身高与营养摄入量的几组数据进行研究后发现两个变量存在相关关系,该营养学家按照不同的曲线拟合与之间的回归方程,并算出相关指数如下表所示:
拟合曲线 直线 指数曲线 抛物线 三次曲线
与的回归方程
相关指数 0.893 0.986 0.931 0.312
则这组数据模型的回归方程的最好选择应是( )
A. B. C. D.
【答案】B
【分析】根据相关指数的性质,相关指数的值越大,模型的拟合效果越好,即可得出答案.
【详解】相关指数的值越大,说明模型的拟合效果越好,观察可知,指数曲线的最大,故回归方程的最好选择应是,
故选:B.
22.两个具有线性相关关系的变量的一组数据,,,下列说法错误的是( )
A.落在回归直线方程上的样本点越多,回归直线方程拟合效果越好
B.相关系数越接近,变量,相关性越强
C.相关指数越小,残差平方和越大,即模型的拟合效果越差
D.若表示女大学生的身高,表示体重,则表示女大学生的身高解释了的体重变化
【答案】A
【分析】根据变量间的相关关系中:相关指数或相关系数的意义进行判定.
【详解】对于A:回归直线方程拟合效果的强弱是由相关指数或相关系数判定,故不正确;
对于B:根据相关系数越接近,变量相关性越强,故正确;
对于C:相关指数越小,残差平方和越大,效果越差,故正确;
对于D:根据的实际意义可得,表示女大学生的身高解释了的体重变化,故正确;
故选:.
23.在研究线性回归模型时,样本数据所对应的点均在直线上,用表示解释变量对于预报变量变化的贡献率,则( )
A. B. C.1 D.2
【答案】C
【分析】结合决定系数的知识确定正确答案.
【详解】因为样本数据所对应的点都在直线上,所以.故选:C
24.身高体重指数(BMI)的大小直接关系到人的健康状况,某高中高三(1)班班主任为了解该班学生的身体健康状况,从该班学生中随机选取5名学生,测量其身高、体重的数据如下表.
学生编号 1 2 3 4 5
身高x/cm l65 170 175 170 170
体重y/kg 58 67 67 65 63
(1)求体重关于身高的线性回归方程,并预测身高为180cm的同学的体重;
(2)试分析学生的体重差异约有多少是由身高引起的?(注:结果保留两位小数)参考公式:线性回归方程中,,,其中,为样本平均值,.
【答案】(1),身高为180cm的同学的体重大约为;(2)
【分析】(1)由所给数据求出,,,,即可求出、,从而求出回归直线方程,再令代入回归直线方程,从而得到预测值;
(2)根据(1)中的回归方程,求出残差,即可求出相关指数,即可判断;
【详解】(1)解:依题意可,,
,
所以,
所以回归直线方程为,
当时,所以身高为180cm的同学的体重大约为;
(2)由(1)回归方程可得,各组数据的残差,如表所示:
学生编号 1 2 3 4 5
身高 165 170 175 170 170
体重 58 67 67 65 63
残差
所以,,
则,故学生的体重差异约有是由身高引起的.
六、非线性回归
25.某市卫健委用模型的回归方程分析年月份感染新冠肺炎病毒的人数,令后得到的线性回归方程为,则( )
A. B. C. D.
【答案】A
【分析】利用对数与指数的互化可得出关于的等式,即可解得的值.
【详解】,所以,,解得.
故选:A.
26.从非洲蔓延到东南亚的蝗虫灾害严重威胁了国际农业生产,影响了人民生活.世界性与区域性温度的异常、旱涝频繁发生给蝗灾发生创造了机会.已知蝗虫的产卵量与温度的关系可以用模型(其中为自然底数)拟合,设,其变换后得到一组数据:
由上表可得线性回归方程,则当时,蝗虫的产卵量的估计值为( )
A. B. C. D.
【答案】B
【分析】先根据表中的数据求出,代入中求出的值,从而可得,而,所以,则可求得,再将代入可求得答案
【详解】由表格数据知:,,
代入,得,
,即,
,时,,
故选:B.
27.数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,下表为2017-2021年中国在线直播用户规模(单位:亿人),其中2017年-2021年对应的代码依次为1-5.
年份代码x 1 2 3 4 5
市场规模y 3.98 4.56 5.04 5.86 6.36
(1)由上表数据可知,可用函数模型拟合y与x的关系,请建立y关于x的回归方程(,的值精确到0.01);
(2)已知中国在线直播购物用户选择在品牌官方直播间购物与不在品牌官方直播间购物的人数之比为4:1,按照分层抽样从这两类用户中抽取5人,再从这5人中随机抽取2人,求这2人全是选择在品牌官方直播间购物用户的概率.
参考数据:,,,其中.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1);(2)
【分析】(1)结合回归方程的求法,求得回归方程.
(2)利用列举法,结合古典概型的概率计算公式,计算出所求的概率.
【详解】(1)设,则,
,,,
所以,
.
所以关于的回归方程为.
(2)因为中国在线直播购物用户选择在品牌官方直播间购物与不在品牌官方直播间购物的人数之比为4:1,
按照分层抽样从这两类用户中抽取5人,则选择在品牌官方直播间购物的用户为人,记作,
不在品牌官方直播间购物的用户为人,记作,
从这人随机抽取人,结果有:
,共种,
其中人全是选择在品牌官方直播间购物用户的结果为:
,共种,
所以这2人全是选择在品牌官方直播间购物用户的概率为.
28.云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.从中国信息通信研究院发布的《云计算白皮书(2022年)》可知,我国2017年至2021年云计算市场规模数据统计表如下:
年份 2017年 2018年 2019年 2020年 2021年
年份代码x 1 2 3 4 5
云计算市场规模y/亿元 692 962 1334 2091 3229
经计算得:=36.33,=112.85.
(1)根据以上数据,建立y关于x的回归方程(为自然对数的底数).
(2)云计算为企业降低生产成本 提升产品质量提供了强大助推力.某企业未引入云计算前,单件产品尺寸与标准品尺寸的误差,其中m为单件产品的成本(单位:元),且=0.6827;引入云计算后,单件产品尺寸与标准品尺寸的误差.若保持单件产品的成本不变,则将会变成多少?若保持产品质量不变(即误差的概率分布不变),则单件产品的成本将会下降多少?
附:对于一组数据其回归直线的斜率和截距的最小二乘估计分别为=,.
若,则,,
【答案】(1)
(2),成本下降3元.
【分析】(1)将非线性回归模型转化为线性回归模型求解;
(2)利用正态分布的概率模型求解,并结合特殊概率值求解.
【详解】(1)因为,所以,
所以,
所以,
所以.
(2)未引入云算力辅助前,,所以,
又,所以,所以.
引入云算力辅助后,,所以,
若保持产品成本不变,则,
所以
若产品质量不变,则,所以,
所以单件产品成本可以下降元.
29.为迎接年北京冬奥会,践行“更快更高更强”的奥林匹克格言,落实全民健身国家战略.某校高二年级发起了“发扬奥林匹克精神,锻炼健康体魄”的年度主题活动,经过一段时间后,学生的身体素质明显提高.
(1)为了解活动效果,该年级对开展活动以来近个月体重超重的人数进行了调查,调查结果统计如上图,根据上面的散点图可以认为散点集中在曲线的附近,请根据下表中的数据求出该年级体重超重人数与月份之间的经验回归方程(系数和的最终结果精确到),并预测从开展活动以来第几个月份开始该年级体重超标的人数降至人以下?
月份
体重超标人数
(2)在某次足球训练课上,球首先由队员控制,此后足球仅在、、三名队员之间传递,假设每名队员控球时传给其他队员的概率如下表所示:
控球队员
接球队员
概率
若传球次,记队员控球次数为,求的分布列及均值.
附:经验回归方程:中,,;
参考数据:,,,.
【答案】(1),第十个月
(2)分布列见解析,
【分析】(1)令,求出、的值,将参考数据代入最小二乘法公式,求出、的值,即可得出关于的经验回归方程,然后解不等式,即可得解;
(2)分析可知随机变量的可能取值有、、,可得出随机变量的分布列,进而可求得.
【详解】(1)解:由得.
由题意得,,
所以,
.
所以,即关于的经验回归方程为.
令,所以,解得.
由于,所以,
所以从第十个月开始,该年级体重超标的人数降至人以下.
(2)解:由题意得的可能取值为、、,
,,
,
所以的分布列为
所以,.
30.魔方,又叫鲁比克方块,通常意义下的魔方,即指三阶魔方,为的正方体结构,由26个色块组成.魔方竞速是一项手部极限运动,常规竞速玩法是将魔方打乱,然后在最短的时间内复原.
(1)某魔方爱好者进行一段时间的魔方还原训练,每天魔方还原的平均速度y(秒)与训练天数x(天)有关,经统计得到如下数据:
x(天) 1 2 3 4 5 6 7
y(秒) 99 99 45 32 30 24 21
现用作为回归方程类型,请利用表中数据,求出该回归方程,并预测该魔方爱好者经过长期训练后最终每天魔方还原的平均速度y约为多少秒(精确到1)?
参考数据:(其中)
184.5 0.37 0.55
参考公式:
对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为:,.
(2)现有一个复原好的三阶魔方,白面朝上,现规定只可以扭动最外层的六个表面.某人按规定将魔方随机扭动两次,每次均顺时针转动,记顶面白色色块的个数为X,求X的分布列及数学期望E(X).
【答案】(1),13秒
(2)分布列见解析,
【分析】(1)根据回归方程计算公式求得回归方程,进而求得预测值.
(2)结合古典概型的概率计算公式,求得分布列并求得数学期望.
【详解】(1)由题意,根据表格中的数据,
可得,
可得,
所以,
因此y关于x的回归方程为,当时,,
所以魔方爱好者经过长期训练后最终每天还原的平均速度y约为13秒.
(2)由题可得随机变量X的取值为3,,,9,
,
,
,
.
所以X的分布列为:
X 3 4 6 9
P
所以.
七、列联表与独立性检验
31.为调查某市高三学生是否愿意参加某项活动,用简单随机抽样方法从该市调查了100名高三年级学生,结果如下:
男 女
愿意参加该项活动 15 35
不愿意参加该项活动 30 20
(1)估计该市高三学生中,愿意参加该项活动的学生的比例;
(2)能否有99%的把握认为该市高三学生是否愿意参加该项活动与性别有关?
(3)根据(2)的结论,能否提出更好的调查方法来估计该市的高三学生中,愿意参加该项活动的学生的比例?
附:.
0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】(1)
(2)有,理由见解析
(3)答案见解析
【分析】(1)根据100名高三年级学生中愿意参加该项活动的人数得到答案;
(2)计算出卡方,与6.635比较后得到结论;
(3)按照男、女人数比,采用分层抽样的方法比采用简单随机抽样方法更好.
【详解】(1)调查了100名高三年级学生中,愿意参加该项活动的学生数为,
则估计该市高三学生中,愿意参加该项活动的学生的比例为;
(2),
故有99%的把握认为该市高三学生是否愿意参加该项活动与性别有关;
(3)调查时,先确定该市高三年级学生中男、女的比例,再把高三年级学生分成男、女两层并采用分层抽样的方法比采用简单随机抽样方法更好.
32.近日,抖音在北京、上海、成都开放商家自主入驻.为了从美团嘴里抢到肉,抖音采取了错位竞争的打法.首先,抖音配送并不求快.在立即配送之外,抖音增加了“预约点餐"形式,即可以预约后面几天的配送时间.市餐饮行业协会为掌握本市抖音配送方式的服务质量水平,从用该形式就餐的人员中随机抽取了1000人,每人分别对其评分,满分为100分.随后整理评分数据,将得分分成6组:第1组,第2组,第3组,第4组,第5组,第6组,得到频率分布直方图,如图:
(1)求的值;
(2)现市餐饮行业协会针对本地区成年人使用抖音配送方式是否与性别有关联进行了问卷调查,在1000人中随机抽取了100名成年人样本进行分析.
(i)请完成列联表,依据小概率值的独立性检验,能否认为使用抖音配送方式与性别有关
使用抖音配送方式 不使用抖音配送方式 总计
女性 20
男性 10 50
总计
(ii)现采用分层抽样从使用抖音配送方式的市民中抽取一个容量为8的样本,将该样本看成一个总体,从中随机抽取3人,用随机变量表示被抽到的男性顾客的人数,求的分布列和数学期望.
参考公式:,其中.
参考数据:
0.10 0.05 0.025 0.010 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
【答案】(1)
(2)(i)列联表见解析,认为使用抖音配送方式与性别有关,该推断犯错误的概率不超过;(ii)分布列见解析,数学期望为.
【分析】(1)根据频率分布直方图的面积就是频率,并且和为1即可求解;
(2)根据独立性检验和超几何分布概率公式即可求解.
【详解】(1)由,得,
(2)(i)列联表补充完整如下:
使用抖音配送方式 不使用抖音配送方式 总计
女性 30 20 50
男性 10 40 50
总计 40 60 100
零假设为:使用抖音配送方式与性别无关.
根据列联表中数据,经计算得,
依据小概率值的独立性检验,我们推断零假设不成立,即认为使用抖音配送方式与性别有关,该推断犯错误的概率不超过.
(ii)由题意得抽到的女性顾客的人数为6,男性顾客的人数为2.
则的所有可能取值有0,1,2,
;
;
所以的分布列为:
0 1 2
故.
33.飞盘运动是一项入门简单,又具有极强的趣味性和社交性的体育运动,目前已经成为了年轻人运动的新潮流.某俱乐部为了解年轻人爱好飞盘运动是否与性别有关,对该地区的年轻人进行了简单随机抽样,得到如下列联表:
性别 飞盘运动 合计
不爱好 爱好
男 6 16 22
女 4 24 28
合计 10 40 50
(1)在上述爱好飞盘运动的年轻人中按照性别采用分层抽样的方法抽取10人,再从这10人中随机选取3人访谈,记参与访谈的男性人数为X,求X的分布列和数学期望;
(2)依据小概率值的独立性检验,能否认为爱好飞盘运动与性别有关联?如果把上表中所有数据都扩大到原来的10倍,在相同的检验标准下,再用独立性检验推断爱好飞盘运动与性别之间的关联性,结论还一样吗?请解释其中的原因.
附:,其中.
0.1 0.01 0.001
2.706 6.635 10.828
【分析】(1)分别写出对相应概率列分布列求数学期望即可;
(2)先求 再根据数表对应判断相关性即可,对比两次的值可以得出结论说明原因.
【详解】(1)样本中爱好飞盘运动的年轻人中男性 16 人,女性 24 人,比例为 ,
按照性别采用分层抽样的方法抽取 10 人,则抽取男性 4人,女性 6人.
随机变量的取值为:.
,
,
随机变量的分布列为
随机变量的数学期望.
(2)零假设为:爱好飞盘运动与性别无关联.
根据列联表重的数据,经计算得到
根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即认为爱好飞盘运动与性别无关联.
列联表中所有数据都扩大到原来的10倍后,
根据小概率值的独立性检验,推断不成立,即认为爱好飞盘运动与性别有关联.
所以结论不一样,原因是每个数据都扩大为原来的 10 倍,相当于样本量变大为原来的 10 倍,导致推断结论发生了变化.
34.某数学兴趣小组为研究本校学生数学成绩与语文成绩的关系,采取有放回的简单随机抽样,从学校抽取样本容量为200的样本,将所得数学成绩与语文成绩的样本观测数据整理如下:
语文成绩 合计
优秀 不优秀
数学 成绩 优秀 50 30 80
不优秀 40 80 120
合计 90 110 200
(1)根据的独立性检验,能否认为数学成绩与语文成绩有关联?
(2)在人工智能中常用表示在事件发生的条件下事件发生的优势,在统计中称为似然比.现从该校学生中任选一人,表示“选到的学生语文成绩不优秀”,表示“选到的学生数学成绩不优秀”请利用样本数据,估计的值.
(3)现从数学成绩优秀的样本中,按分层抽样的方法选出8人组成一个小组,从抽取的8人里再随机抽取3人参加数学竞赛,求这3人中,语文成绩优秀的人数的概率分布列及数学期望.
附:
【答案】(1)认为数学成绩与语文成绩有关;(2);(3)分布列见解析,.
【分析】(1)零假设后,计算的值与比较即可;
(2)根据条件概率公式计算即可;
(3)分层抽样后运用超几何分布求解.
【详解】(1)零假设:数学成绩与语文成绩无关.
据表中数据计算得:
根据小概率值的的独立性检验,我们推断不成立,而认为数学成绩与语文成绩有关;
(2)∵,
∴估计的值为;
(3)按分层抽样,语文成绩优秀的5人,语文成绩不优秀的3人,随机变量的所有可能取值为.
,,
,,
∴的概率分布列为:
0 1 2 3
∴数学期望.
八、成对数据的统计分析综合问题
35.(多选)下列说法正确的是( )
A.经验回归方程对应的经验回归直线至少经过其样本数据点中的一个点
B.在残差的散点图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好
C.设随机变量服从正态分布,若,则
D.根据分类变量与的成对样本数据,计算得到.依据的独立性检验(),可判断与有关且犯错误的概率不超过0.05
【答案】BCD
【分析】对于A,根据经验回归直线可以不经过样本数据点中的任何一个点可判断;对于B,根据残差的定义可判断;对于C,由正态分布的对称性即可判断;对于D,根据卡方的含义即可判断.
【详解】对于A,经验回归直线可以不经过样本数据点中的任何一个点,A错误;
对于B,根据残差的定义可知,在残差图中,残差分布的水平带状区域的宽度越窄,预测值与实际值越接近,其模型的拟合效果越好,B正确;
对于C,随机变量服从正态分布,则,
所以,则,C正确;
对于D,因为,所以可判断与有关且犯错误的概率不超过0.05,D正确.
故选:BCD.
36.(多选)下列命题正确的是( )
A.若甲、乙两组数据的相关系数分别为0.66和,则乙组数据的线性相关性更强;
B.回归分析中常用残差平方和来刻画拟合效果好坏,残差平方和越小,拟合效果越好;
C.对变量x与y的统计量来说,值越小,判断“x与y有关系”的把握性越大;
D.对具有线性相关关系的变量x、y,有一组观测数据,其线性回归方程是,且,则实数的值是.
【答案】ABD
【分析】A.通过比较两数据的相关系数的绝对值可得该选项正确;B.残差平方和越小,拟合效果越好,所以该选项正确;C. 值越小,判断“x与y有关系”的把握性越小,所以该选项错误;D.求出样本中心点,再求出,得该选项正确.
【详解】A. 因为乙数据的相关系数的绝对值为,比甲数据的相关系数的绝对值0.66大 ,所以乙组数据的线性相关性更强,所以该选项正确;
B. 回归分析中常用残差平方和来刻画拟合效果好坏,残差平方和越小,拟合效果越好,所以该选项正确;
C. 对变量x与y的统计量来说,值越小,判断“x与y有关系”的把握性越小,所以该选项错误;
D. 由题得,所以样本中心点满足方程,所以,所以该选项正确.
故选:ABD
37.下列说法正确的序号是( )
A.在回归直线方程中,当解释变量x每增加一个单位时,响应变量平均平均增加0.8个单位;
B.利用最小二乘法求回归直线方程,就是使得最小的原理;
C.已知X,Y是两个分类变量,若它们的随机变量的观测值越大,则“X与Y有关系”的把握程度越小;
D.在一组样本数据…,(…,不全相等)的散点图中,若所有样本(…)都在直线上,则这组样本数据的线性相关系数为.
【答案】AB
【分析】根据回归方程的定义和性质知AB正确,随机变量的观测值越小,则“ 与 有关系”的把握程度越小,C错误,样本相关系与回归直线斜率无关,D错误,得到答案.
【详解】对于选项A:在回归直线方程中,当解释变量每增加一个单位时,响应变量平均增加0.8个单位,正确;
对于选项B:用随机误差的平方和,即,并使之达到最小,这样回归直线就是所有直线中取最小值的那一条,
由于平方又叫二乘,所以这种使 “随机误差的平方和为最小”的方法叫做最小二乘法,
所以利用最小二乘法求回归直线方程,就是使得 最小的原理,正确;
对于选项C:对分类变量与,对它们的随机变量的观测值越小,则“ 与 有关系”的把握程度越小,错误;
对于选项D:样本相关系数反映的是两变量之间线性相关程度的强弱,与回归直线斜率无关,题中样本数据的线性相关系数为,错误.
故选:.
38.随着人脸识别技术的发展,“刷脸支付”成为了一种便捷的支付方式,但是这种支付方式也带来了一些安全性问题.现从330人中进行调查,不同年龄层的人对“刷脸支付”所态度,结果统计如下表所示:
年龄在50周岁以上(含50周岁) 年龄在50周岁以下 总计
持支持态度 60 180 240
不持支持态度 30 30 60
总计 90 210 300
(1)从上述列联表中,判断是否有99.9%的把握认为年龄与所持态度具有相关性;
(2)已知某地的一连锁超市在安装了“刷脸支付”仪器后,使用“刷脸支付”的人数与第天之间的关系统计如下表所示,且数据的散点图呈现出很强的线性相关的特征,请根据表中的数据用最小二乘法求与的回归直线方程.
1 2 3 4 5 6 7
第天 2 4 8 12 22 26 38
使用人数
参考数据:,,.
0.050 0.010 0.001
3.841 6.635 10.828
参考公式:,,.
【答案】(1)有99.9%的把握认为年龄与所持态度具有相关性
(2)
【分析】(1)根据题意计算,并与临界值对比分析;
(2)先求,,再根据题中数据和公式求,即可得结果.
【详解】(1)由题意可得:,
所以有99.9%的把握认为年龄与所持态度具有相关性.
(2)因为,,
可得,
则,
所以与的回归直线方程.
39.2020年受疫情影响,我国企业曾一度停工停产,中央和地方政府纷纷出台各项政策支持企业复工复产,以减轻企业负担.为了深入研究疫情对我国企业生产经营的影响,帮扶困难职工,在甲、乙两行业里随机抽取了200名工人进行月薪情况的问卷调查,经统计发现他们的月薪在2000元到8000元之间,具体统计数据见下表.
月薪/元 [2000,3000) [3000,4000) [4000,5000) [5000,6000) [6000,7000) [7000,8000)
人数 20 36 44 50 40 10
将月薪不低于6000元的工人视为“I类收入群体”,低于6000元的工人视为“II类收入群体”,并将频率视为概率.
(1)根据所给数据完成下面的列联表:
I类收入群体 II类收入群体 总计
甲行业 60
乙行业 20
总计
根据上述列联表,判断是否有99%的把握认为“II类收入群体”与行业有关.
附件:,其中.
3.841 6.635 10.828
0.050 0.010 0.001
(2)经统计发现该地区工人的月薪X(单位:元)近似地服从正态分布,其中近似为样本的平均数(每组数据取区间的中点值).若X落在区间外的左侧,则可认为该工人“生活困难”,政府将联系本人,咨询月薪过低的原因,并提供帮助.
①已知工人王强参与了本次调查,其月薪为2500元,试判断王强是否属于“生活困难”的工人;
②某超市对调查的工人举行了购物券赠送活动,赠送方式为:月薪低于的获得两次赠送,月薪不低于的获得一次赠送.每次赠送金额及对应的概率如下:
赠送金额/元 100 200 300
概率
求王强获得的赠送总金额的数学期望.
【答案】(1)列联表见解析,没有99%的把握
(2)①不属于;②
【分析】(1)根据已知数据,补充列联表,进而计算即可判断;
(2)①根据题意,计算对应的平均数,再结合正态分布求解即可;②结合①获得的赠送总金额Y的可能取值为200,300,400,500,600,再求解相应的概率得出分布列,计算期望即可.
【详解】(1)列联表如下:
I类收入群体 II类收入群体 总计
甲行业 30 60 90
乙行业 20 90 110
总计 50 150 200
于是,
从而没有99%的把握认为“II类收入群体”与行业有关.
(2)①所调查的200名工人的月薪频率分布表如下:
月薪/元 [2000,3000) [3000,4000) [4000,5000) [5000,6000) [6000,7000) [7000,8000)
人数 20 36 44 50 40 10
频率 0.1 0.18 0.22 0.25 0.2 0.05
所以.
因为这200名工人的月薪X服从正态分布,所以,
从而.
因为王强的月薪为2500元,,所以王强不属于“生活困难”的工人.
②由①知,王强的月薪为2500元,低于4920元,所以王强可获赠两次购物券,
从而他获得的赠送总金额Y的可能取值为200,300,400,500,600,
则,,
,,
,故Y的分布列如下:
Y 200 300 400 500 600
P
所以王强获得的赠送总金额的数学期望
.
40.某汽车生产企业对其生产的四款新能源汽车进行市场调研,从购买者中选取50名车主对车辆进行性能评分,每款车都有1分、2分、3分、4分、5分五个等级,各评分的相应人数统计结果如下表所示.
评分 款式 1分 2分 3分 4分 5分
基础版 基础版1 2 2 3 1 0
基础版2 4 4 5 3 1
豪华版 豪华版1 1 3 5 4 1
豪华版2 0 0 3 5 3
(1)求这四款车得分的平均数和第90百分位数;
(2)约定当得分不小于4时,认为该款车型性能优秀,否则认为性能一般,根据上述样本数据,完成以下列联表,取显著性水平,能否认为汽车的性能与款式有关?说明理由
汽车性能 汽车款式 合计
基础版 豪华版
一般
优秀
合计
(3)为进一步提升产品品质,现从样本评分不大于2的基础版车主中,随机抽取3人征求意见,设随机变量表示其中基础版1车主的人数,求的分布和期望.
附:;,
【答案】(1)3;4.5
(2)答案见解析
(3)分布列见解析;
【分析】(1)根据平均数和百分位数的定义求解即可;
(2)根据题意写出列联表,再结合公式求解即可;
(3)根据超几何分布计算概率,进而求解分布列和期望.
【详解】(1)由题意,这四款车得分的平均数为,
因为,
所以这四款车得分的第90百分位数为.
(2)由题意,列联表如下:
汽车性能 汽车款式 合计
基础版 豪华版
一般 20 12 32
优秀 5 13 18
合计 25 25 50
则,
所以能在犯错误概率不超过的前提下认为汽车的性能与款式有关.
(3)由题意可得服从超几何分布,且,,,
的所有可能取值为0,1,2,3,
则,,
,,
所以的分布列为:
0 1 2 3
则.
41.数据报告显示,2018-2022年期间,某公司旗下一款软件产品的年度活跃用户数每年都保持着较为稳定的增长态势,具体数据如下表.
年份代码 1 2 3 4 5
活跃用户数(单位:亿) 11.51 12.25 12.58 13.67 18.01
(1)根据上表的数据,可用函数模型拟合与的关系,请建立关于的回归方程(计算的值时精确到0.01),并预测2025年的活跃用户数;
(2)公司规定,活跃用户数大于12.00(单位:亿)的年份为“企业腾飞年”.在企业腾飞年中,将活跃用户数低于13.00的视为良好,赋1分;将活跃用户数不低于13.00的视为优秀,赋2分.现从企业腾飞年中任取两年,用表示赋分之和,求的分布列和数学期望.
(参考数据:,,)
【答案】(1),2025年的活跃用户数约为20.85亿;
(2)分布列见解析,数学期望为.
【分析】(1)根据最小二乘法计算可得回归方程,代入年份代码即可预测2025年用户数;
(2)根据条件得出得分的分布列,由期望公式计算即可.
【详解】(1)由表格计算可得:,,
因为,,,
所以.
因为满足,即,
所以关于的回归方程是.
令,得,所以2025年的活跃用户数约为20.85亿.
(2)由表格可知:企业腾飞年有4个,其中计分为1分的年份有2个,计分为2分的年份有2个,所以的可能取值有2,3,4,
则,,,
所以的分布列为:
2 3 4
所以数学期望为.
1 / 32