第8章成对数据的统计分析章节专项练习解析版
一、单选题
1.对两变量间的关系,下列论述正确的是( )
A.任何两个变量都具有相关关系
B.正方形的面积与该正方形的边长具有相关关系
C.农作物的产量与施化肥量之间是一种确定性关系
D.一个学生的数学成绩与物理成绩之间是一种非确定性的关系
【答案】D
【分析】由两个变量之间相关关系与函数关系之间的定义及区别即可求解.
【详解】解:对A:当两个变量之间具有确定关系时,两个变量之间是函数关系,而不是相关关系,所以A错误;
对B:正方形的面积与该正方形的边长之间是函数关系,所以B错误;
对C:农作物的产量与施化肥量之间是相关关系,是非确定性的关系,所以C错误;
对D:学生的数学成绩与物理成绩之间是相关关系,是非确定性的关系,所以D正确;
故选:D.
2.在一项打鼾与患心脏病的调查中,共调查了2000人,经计算k=20.87,则( )
A.有95%的把握认为打鼾与患心脏病有关
B.约有95%的打鼾者患心脏病
C.有99%的把握认为打鼾与患心脏病有关
D.约有99%的打鼾者患心脏病
【答案】C
【分析】因为20.87>6.635,所以有99%的把握说明打鼾与患心脏病有关
【详解】因为20.87>6.635,所以有99%的把握说明打鼾与患心脏病有关.故选C
【点睛】由的临界值,得出结论.
3.某高中调查学生对2022年北京冬奥会的关注是否与性别有关,抽样调查150人,得到如下数据:
不关注 关注 总计
男生 54 18 72
女生 36 42 78
总计 90 60 150
根据表中数据,通过计算统计量并参考以下临界数据:
0.15 0.10 0.05 0.025 0.010
2.072 2.706 3.841 5.024 6.635
若由此认为“学生对2022年北京冬奥会的关注与性别有关”,则下列结论正确的是( )A.有的把握认为“学生对2022年北京冬奥会的关注与性别无关”
B.有的把握认为“学生对2022年北京冬奥会的关注与性别有关”
C.学生对2022年北京冬奥会的关注与性别有的关系
D.学生对2022年北京冬奥会的关注与性别有的关系
【答案】B
【分析】首先计算,再根据临界值参考数据比较,即可判断选项.
【详解】根据列联表,计算可得,
所以有的把握认为“学生对2022年北京冬奥会的关注与性别有关”.
故选:B
4.下列有关线性回归分析的四个命题:
①线性回归直线必过样本数据的中心点;
②回归直线就是散点图中经过样本数据点最多的那条直线;
③当相关性系数时,两个变量正相关;
④如果两个变量的相关性越强,则相关性系数就越接近于1.
其中真命题的个数为( )
A.1个 B.2个 C.3个 D.4个
【答案】B
【分析】根据回归方程及相关概念判断即可.
【详解】①线性回归直线必过样本数据的中心点(),故①正确;
②回归直线在散点图中可能不经过任一样本数据点,故②错误;
③当相关性系数时,则两个变量正相关,故③正确;
④如果两个变量的相关性越强,则相关性系数r就越接近于1或-1,故④错误.
故真命题的个数为2个
故选:B
【点睛】本题主要考查了线性回归方程,相关系数,样本数据中心点,属于容易题.
5.根据最小二乘法由一组样本点(其中),求得的回归方程是,则下列说法正确的是
A.至少有一个样本点落在回归直线上
B.若所有样本点都在回归直线上,则变量同的相关系数为1
C.对所有的解释变量(),的值一定与有误差
D.若回归直线的斜率,则变量x与y正相关
【答案】D
【分析】对每一个选项逐一分析判断得解.
【详解】回归直线必过样本数据中心点,但样本点可能全部不在回归直线上﹐故A错误;
所有样本点都在回归直线上,则变量间的相关系数为,故B错误;
若所有的样本点都在回归直线上,则的值与相等,故C错误;
相关系数r与符号相同,若回归直线的斜率,则,样本点分布应从左到右是上升的,则变量x与y正相关,故D正确.
故选D.
【点睛】本题主要考查线性回归方程的性质,意在考查学生对该知识的理解掌握水平和分析推理能力.
6.下列关于独立性检验的叙述:
①常用等高条形图展示列联表数据的频率特征;
②独立性检验依据小概率原理;
③样本不同,独立性检验的结论可能有差异;
④对分类变量与的随机变量的观测值来说,越小,与有关系的把握程度就越大.
其中正确的个数为
A.1 B.2 C.3 D.4
【答案】C
【详解】分析:根据独立性检验的定义及思想,可得结论.
详解:①常用等高条形图展示列联表数据的频率特征;正确;
②独立性检验依据小概率原理;正确;
③样本不同,独立性检验的结论可能有差异;正确;
④对分类变量与的随机变量的观测值来说,越大,与有关系的把握程度就越大.故④错误.
故选C.
点睛:本题考查了独立性检验的原理,考查了推理能力,属于基础题.
7.在一段时间内,分5次测得某种商品的价格(万元)和需求量(吨)之间的一组数据为:
价格x 1.4 1.6 1.8 2 2.2
需求量y 12 10 7 y0 3
若关于的线性回归方程为,则上表中的值为( )A.7.4 B.5.1 C.5 D.4
【答案】C
【分析】先求出两组相关数中的平均数,代入所提供的回归方程中求出,在运用平均数的定义建立方程求解即可求出.
【详解】解:因,将其代入得,
即,解之得,
故选:C.
8.已知、的对应值如下表所示:
x
y
与具有较好的线性相关关系,可用回归直线方程近似刻画,则在的取值中任取两个数均不大于的概率为( )A. B. C. D.
【答案】B
【分析】求出样本中心点的坐标,将其代入回归直线方程,求出的值,可得出的所有取值,然后利用组合计数原理结合古典概型的概率公式可求得所求事件的概率.
【详解】由表格中的数据可得,
,
所以这组数据的样本点的中心的坐标为,
又因为点在回归直线上,所以,解得,
所以的取值分别为、、、、,
在这个数中,任取两个,取到的两个数都不大于的概率为.
故选:B.
二、多选题
9.根据下面四个散点图中点的分布状态,可以直观地判断两个变量之间具有线性相关关系的是( )
A. B. C. D.
【答案】BC
【分析】根据散点图中点的分布情况即可得答案.
【详解】A中的点无规律分布,范围很广,表明两个变量之间的相关程度很小;
B,C中的点分布在一条直线的附近,两个变量之间具有线性相关关系;
D中所有的点分布在一条曲线附近,所以不是线性相关关系.
故选:BC.
10.某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每名学生对食堂的服务给出满意或不满意的评价,得到如下列联表.经计算,则可以推断出( ).
满意 不满意
男 30 20
女 40 10
A.该学校男生对食堂服务满意的概率的估计值为
B.该学校男生比女生对食堂服务更满意
C.依据的独立性检验,可以认为男、女生对该食堂服务的评价有差异
D.依据的独立性检验,可以认为男、女生对该食堂服务的评价有差异
【答案】AC
【分析】根据统计的数据,用频率估计概率可得该学校男、女生对食堂服务满意的概率的估计值;题目的条件中已经给出这组数据的观测值,我们只要把所给的观测值同节选的观测值表进行比较,发现它大于,有的把握认为男、女生对该食堂服务的评价有差异
【详解】该学校男生对食堂服务满意的概率的估计值为,故A正确;
该学校女生对食堂服务满意的概率的估计值为,故B错误;
因为,
所以依据的独立性检验,可以认为男、女生对该食堂服务的评价有差异,故C正确,D错误.
故选:AC.
11.下列说法正确的是( )
A.若,则事件与事件相互独立
B.回归直线方程必过点
C.连续抛一枚质地均匀的硬币5次,有3次正面向上,则抛一次这枚硬币,出现正面向上的概率是
D.90,92,92,93,93,94,95,96,99,100的75%分位数是96
【答案】ABD
【分析】根据相关概念依次判断各选项即可得答案.
【详解】解:对于A选项,根据独立事件的定义,,则事件与事件相互独立,故正确;
对于B选项,回归直线方程必过点,故正确;
对于C选项,由于所抛硬币质地均匀,故每次抛硬币,出现正面向上的概率是,故错误;
对于D选项,90,92,92,93,93,94,95,96,99,100的75%分位数是96,故正确.
故选:ABD
12.下列说法正确的是( )
A.,若,则
B.相关系数的绝对值越接近1,说明两个变量的线性相关性越强
C.若,则
D.在独立性检验中,统计变量越大,说明两个变量的关系就越弱
【答案】ABC
【分析】依据方差的运算规则求得判断选项A;依据相关系数的绝对值的意义判断选项B;求得n的值判断选项C;依据统计变量的意义判断选项D.
【详解】选项A:,则,若,则.判断正确;
选项B:相关系数的绝对值越接近1,说明两个变量的线性相关性越强. 判断正确;
选项C:由,可得,解之得.判断正确;
选项D:在独立性检验中,统计变量越大,说明认为两个变量有关系的把握越大,无法判断关系的强弱. 判断错误.
故选:ABC
三、填空题
13.已知具有相关关系的两个随机变量的一组数据的散点图如图所示,可以用来拟合,设,将其变换后得到线性回归方程,若,则__________.
【答案】
【分析】对进行取自然对数,结合对数的运算性质进行求解即可.
【详解】,
因为变换后得到线性回归方程,所以有,
又,所以,因此,
故答案为:
14.2022年中国脱贫攻坚战取得了全面胜利,为了巩固脱贫成果,某农科所调研得出农作物A的亩产量约为300公斤,其2017年~2021年的销售单价如下表:
年份 2017 2018 2019 2020 2021
年份编号x 1 2 3 4 5
单价y(元/公斤) 21 23 28 31 37
经计算,关于x的回归直线方程为.若2022年甲村农作物A的种植面积为100亩,假设农作物A能全部销售,则估计当年甲村农作物A的销售额为______万元.
【答案】120
【分析】先求得回归直线方程,再令,得到求解.
【详解】解:,,
所以,则,
当时,,
所以销售额约为万元.
故答案为:120
15.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:=0.245x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加_______万元.
【答案】0.245
【详解】当变为时,=0.245(x+1)+0.321=0.245x+0.321+0.245,而0.245x+0.321+0.245-(0.245x+0.321)=0.245.因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元,本题填写0.245.
16.给出下列5种说法:
①标准差越小,样本数据的波动也越小;
②回归分析研究的是两个相关事件的独立性;
③在回归分析中,预报变量是由解释变量和随机误差共同确定的;
④相关指数是用来刻画回归效果的,的值越大,说明回归模型的拟合效果越好.
⑤对分类变量与的随机变量的观测值来说,越小,判断“与有关系”的把握越小.
其中说法正确的是________(请将正确说法的序号写在横线上).
【答案】①③④⑤
【分析】①根据标准差的概念判断即可;②③根据回归分析的概念可判断;④根据相关指数的概念判断;⑤根据的计算公式可判断.
【详解】解:①标准差越小,方差越小,样本越稳定,故样本数据的波动也越小,故正确;
②回归分析研究的是,两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,而非独立性,故错误;
③在回归分析中,预报变量是由解释变量和随机误差共同确定的,故正确;
④相关指数是用来刻画回归效果的,表示解释变量对预报变量的贡献率,越接近于1,表示解释变量和预报变量的线性相关关系越强,越趋近0,关系越弱,故的值越大,说明回归模型的拟合效果越好,故正确.
⑤由的计算公式可知,对分类变量与的随机变量的观测值来说,越小,判断“与有关系”的把握越小,故正确
故答案为:①③④⑤
四、解答题
17.今年新冠肺炎疫情影响到各国的复工复产,导致我国部分进口行业的运营成本不断上升,经过调查,某种产品所需原料的价格今年以来不断上涨,近5个月的平均价格(万元/吨)如下表所示.
x(月份) 4 5 6 7 8
y(万元/吨) 40 50 55 65 90
已知平均价格和月份成线性相关关系.
(1)求平均价格y(万元/吨)关于x(月份)的线性回归方程;
(2)据此线性回归方程预测10月份该产品所需原料的平均价格.
附:回归直线方程中,,其中为样本平均值,是的方差.参考数据:.
【答案】(1)
(2)预测10月份该产品所需原料的平均价格为106万元/吨
【分析】(1)先求出,再利用公式和,从而求得答案;
(2)根据(1)的结果代入即可求解.
(1)
因为,
所以,
,
所以,
所以平均价格y(万元/吨)关于x(月份)的线性回归方程为.
(2)
当时,由(1),
所以预测10月份该产品所需原料的平均价格为106万元/吨.
18.随者生活水平的逐步提高,人们越来越注意养生,而豆浆由于其丰富的营养价值和预防疾病的作用而成为许多人选用的食材,现对某小区200位居民调查发现,有90%的人会选用豆浆作为食材,其中一周中有一天食用豆浆的有60人,其余的人食用豆浆的天数都在两天及其以上.若把居民分成青年(年小于40岁)中年(年龄不小于40岁)两阶段,那么食用豆浆的人中75%是中年人,若规定一周中食用豆浆的天数在两天其以上为有豆浆偏好、那么有豆浆偏好的居民中有是中年人.
(1)填写下面的列联表
中年人 青年人 合计
有豆浆偏好
无豆浆偏好
合计
(2)根据列联表的独立性检验,能否有99%的把握认为“有豆浆偏好与年龄有关”?附表及参考公式
,其中为样本容量.
【答案】(1)表格见解析;(2)有99.9%的把握认为“有豆浆偏好与年龄有关”..
【分析】先算出食用豆浆的人数,再算出有豆浆偏好的人数,后算出有豆浆偏好的中年人的人数即可.
【详解】(1)由已知可得,该小区中选用豆浆作为食材的有人,
有豆浆偏好的有人,其中中年人有人,
食用豆浆的人中中年人有人,
故列联表如下:
中年人 青年人 合计
有豆浆偏好 80 40 120
无豆浆偏好 55 5 60
合计 135 45 180
(2)将上表中数据代入公式可得的观测值.
∵,所以有99.9%的把握认为“有豆浆偏好与年龄有关”.
【点晴】此题考独立性检验,算出后,在附表中找比算出的小的最大的数即可算出相关概率.
19.某企业的某种产品产量与单位成本数据如下:
月份 1 2 3 4 5 6
产量/千件 2 3 4 3 4 5
单位成本/元 73 72 71 73 69 68
(1)试确定回归直线;
(2)产量每增加1000件时,单位成本下降多少?
(3)假定产量为6000件时,单位成本是多少?单位成本为70元时,产量应为多少件?
【答案】(1) ;(2)元;(3)元,千件.
【分析】(1)应用最小二次法求回归直线;
(2)根据(1)所得回归方程的系数,即知结果.
(3)将、代入求对应的即可.
【详解】(1)设产量为,单位成本为,令回归直线为,
由表格知:,,
所以,则,
故回归方程为.
(2)由(1)知:产量每增加1千件,单位成本下降元.
(3)当时,元;当时,,可得千件.
20.某地从2月20日开始的连续7天的某传染病累计确诊人数如下表:
天数 1 2 3 4 5 6 7
累计确诊人数 6 11 21 34 66 101 196
由上述表格得到如下散点图.
(1)根据散点图判断与(均为大于0的常数)哪一个更适合作为累计确诊人数y与天数x的回归方程类型(给出判断即可,不必说明理由),并求出y关于x的回归方程;
(2)3月20日,该地的疾控中心接受了1000份血液样本,假设每份样本的检验结果是阳性还是阴性是相互独立的,且每份样本是阳性的概率是0.6,试剂把阳性样本检测出阳性结果的概率是0.99(试剂存在阳性样本检测不出来的情况,但不会把阴性样本检测呈阳性样本),求这1000份样本中检测出呈阳性的份数的期望.
参考数据:
62.14 1.54 2535 50.12 3.47
其中
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)
(2)594
【分析】(1)由散点图可知,更适合作为累计确诊人数y与天数x的回归方程类型,把该式两边取常用对数,转化为线性回归方程求解;
(2)设这1000份样本中检测出呈阳性的份数为X,求得每份样本检测出阳性的概率为,再由二项分布的期望公式计算即可.
【详解】(1)由散点图可知,更适合作为累计确诊人数y与天数x的回归方程类型.
把两边取对数,得,
令,则,
,,
,
所以,则,
所以y关于x的回归方程为;
(2)设这1000份样本中检测出呈阳性的份数为X,
每份样本检测出阳性的概率为,
由题意可知,,
所以份.
故这1000份样本中检测出呈阳性的份数的期望为594.
21.某网店销售某种商品,为了解该商品的月销量(单位:千件)与月售价(单位:元/件)之间的关系,对近几年的月销售量和月销售价数据进行了统计分析,得到了下面的散点图.
(1)根据散点图判断,与哪一个更适宜作为月销量关于月销售价的回归方程类型?(给出判断即可,不需说明理由),并根据判断结果及表中数据,建立关于的回归方程;
(2)利用(1)中的结果回答问题:已知该商品的月销售额为(单位:千元),当月销售量为何值时,商品的月销售额预报值最大?(月销售额=月销售量×当月售价)
参考公式、参考数据及说明:
①对一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计分别为,.
②参考数据:
6.50 6.60 1.75 82.50 2.70 -143.25 -27.54
表中,.
③计算时,所有的小数都精确到0.01,如.
【答案】(1),(2)月销售量(千件)时,月销售额预报值最大.
【分析】(1)更适宜销量关于月销售价的回归方程类型,令,根据提供数据求出,即可求出回归方程;
(2)由,由(1)得到关于的函数,求导,求出单调区间,进而求出极值最值,即可得出结论.
【详解】(1)更适宜销量关于月销售价的回归方程类型.
令,先建立关于的线性回归方程,由于
,
,
所以关于的线性回归方程为,
因此关于的回归方程为.
(2)依题意得:,
,
令,即,解得,
所以,当时,递增,
当时,递减,
故当,取得极大值,
也是最大值即月销售量(千件)时,
月销售额预报值最大.
【点睛】本题考查线性回归方程的知识和应用,通过散点图判断变量之间的关系建立回归模型,通过利用线性回归方程求非线性回归方程,通过建立函数模型利用导数求最大销售额问题.综合考查概率统计知识分析处理数据,解决实际问题的能力,属于中档题.
22.2020年是全面建成小康社会目标实现之年,也是全面打赢脱贫攻坚战收关之年.某乡镇在2014年通过精准识别确定建档立卡的贫困户共有500户,结合当地实际情况采取多项精准扶贫措施,每年新脱贫户数如下表:
年份 2015 2016 2017 2018 2019
年份代码x 1 2 3 4 5
脱贫户数y 55 68 80 92 100
(1)根据2015-2019年的数据,求出y关于年份代码x的线性回归方程,并预测到2020年底该乡镇500户贫困户是否能全部脱贫;
(2)2019年的新脱贫户中有20户五保户,20户低保户,60户扶贫户.该乡镇某干部打算按照分层抽样的方法对2019年新脱贫户中的5户进行回访,了解生产生活、帮扶工作开展情况.为防止这些脱贫户再度返贫,随机抽取这5户中的2户进行每月跟踪帮扶,求抽取的2户中至少有1户是扶贫户的概率.
参考数据:,参考公式:,
【答案】(1),能够;
(2)
【分析】(1)由已知求得与的值,可得关于的线性回归方程,取求得值即可得结论;
(2)利用分层抽样可得抽取的5户贫困户中,有1户五保户,1户低保户,3户扶贫户,,,利用枚举法写出这5户中选2户的所有基本事件,得到抽取的2户中至少有1户是扶贫户的事件数,则概率可求.
【详解】(1)解:,
,.
.
,.
.
当时,,
即预测到2020年一年内该乡镇约有113户贫困户脱贫.
预测6年内该乡镇脱贫总户数有.
即预测到2020年底该乡镇500户贫困户能全部脱贫;
(2)解:由题意可得,按分层抽样抽取的5户贫困户中.
有1户五保户,1户低保户,3户扶贫户,,,
从这5户中选2户,共有10种情况:,,,,,,,,,,
其中抽取的2户中至少有1户是扶贫户有:,,,,,,,,共9种情况,
抽取的2户中至少有1户是扶贫户的概率为.第8章成对数据的统计分析章节专项练习解析版
一、单选题
1.对两变量间的关系,下列论述正确的是( )
A.任何两个变量都具有相关关系
B.正方形的面积与该正方形的边长具有相关关系
C.农作物的产量与施化肥量之间是一种确定性关系
D.一个学生的数学成绩与物理成绩之间是一种非确定性的关系
2.在一项打鼾与患心脏病的调查中,共调查了2000人,经计算k=20.87,则( )
A.有95%的把握认为打鼾与患心脏病有关
B.约有95%的打鼾者患心脏病
C.有99%的把握认为打鼾与患心脏病有关
D.约有99%的打鼾者患心脏病
3.某高中调查学生对2022年北京冬奥会的关注是否与性别有关,抽样调查150人,得到如下数据:
不关注 关注 总计
男生 54 18 72
女生 36 42 78
总计 90 60 150
根据表中数据,通过计算统计量并参考以下临界数据:
0.15 0.10 0.05 0.025 0.010
2.072 2.706 3.841 5.024 6.635
若由此认为“学生对2022年北京冬奥会的关注与性别有关”,则下列结论正确的是( )A.有的把握认为“学生对2022年北京冬奥会的关注与性别无关”
B.有的把握认为“学生对2022年北京冬奥会的关注与性别有关”
C.学生对2022年北京冬奥会的关注与性别有的关系
D.学生对2022年北京冬奥会的关注与性别有的关系
4.下列有关线性回归分析的四个命题:
①线性回归直线必过样本数据的中心点;
②回归直线就是散点图中经过样本数据点最多的那条直线;
③当相关性系数时,两个变量正相关;
④如果两个变量的相关性越强,则相关性系数就越接近于1.
其中真命题的个数为( )
A.1个 B.2个 C.3个 D.4个
5.根据最小二乘法由一组样本点(其中),求得的回归方程是,则下列说法正确的是
A.至少有一个样本点落在回归直线上
B.若所有样本点都在回归直线上,则变量同的相关系数为1
C.对所有的解释变量(),的值一定与有误差
D.若回归直线的斜率,则变量x与y正相关
6.下列关于独立性检验的叙述:
①常用等高条形图展示列联表数据的频率特征;
②独立性检验依据小概率原理;
③样本不同,独立性检验的结论可能有差异;
④对分类变量与的随机变量的观测值来说,越小,与有关系的把握程度就越大.
其中正确的个数为
A.1 B.2 C.3 D.4
7.在一段时间内,分5次测得某种商品的价格(万元)和需求量(吨)之间的一组数据为:
价格x 1.4 1.6 1.8 2 2.2
需求量y 12 10 7 y0 3
若关于的线性回归方程为,则上表中的值为( )A.7.4 B.5.1 C.5 D.4
8.已知、的对应值如下表所示:
x
y
与具有较好的线性相关关系,可用回归直线方程近似刻画,则在的取值中任取两个数均不大于的概率为( )A. B. C. D.
二、多选题
9.根据下面四个散点图中点的分布状态,可以直观地判断两个变量之间具有线性相关关系的是( )
A. B.
C. D.
10.某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每名学生对食堂的服务给出满意或不满意的评价,得到如下列联表.经计算,则可以推断出( ).
满意 不满意
男 30 20
女 40 10
A.该学校男生对食堂服务满意的概率的估计值为
B.该学校男生比女生对食堂服务更满意
C.依据的独立性检验,可以认为男、女生对该食堂服务的评价有差异
D.依据的独立性检验,可以认为男、女生对该食堂服务的评价有差异
11.下列说法正确的是( )
A.若,则事件与事件相互独立
B.回归直线方程必过点
C.连续抛一枚质地均匀的硬币5次,有3次正面向上,则抛一次这枚硬币,出现正面向上的概率是
D.90,92,92,93,93,94,95,96,99,100的75%分位数是96
12.下列说法正确的是( )
A.,若,则
B.相关系数的绝对值越接近1,说明两个变量的线性相关性越强
C.若,则
D.在独立性检验中,统计变量越大,说明两个变量的关系就越弱
三、填空题
13.已知具有相关关系的两个随机变量的一组数据的散点图如图所示,可以用来拟合,设,将其变换后得到线性回归方程,若,则__________.
14.2022年中国脱贫攻坚战取得了全面胜利,为了巩固脱贫成果,某农科所调研得出农作物A的亩产量约为300公斤,其2017年~2021年的销售单价如下表:
年份 2017 2018 2019 2020 2021
年份编号x 1 2 3 4 5
单价y(元/公斤) 21 23 28 31 37
经计算,关于x的回归直线方程为.若2022年甲村农作物A的种植面积为100亩,假设农作物A能全部销售,则估计当年甲村农作物A的销售额为______万元.
15.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:=0.245x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加_______万元.
16.给出下列5种说法:
①标准差越小,样本数据的波动也越小;
②回归分析研究的是两个相关事件的独立性;
③在回归分析中,预报变量是由解释变量和随机误差共同确定的;
④相关指数是用来刻画回归效果的,的值越大,说明回归模型的拟合效果越好.
⑤对分类变量与的随机变量的观测值来说,越小,判断“与有关系”的把握越小.
其中说法正确的是________(请将正确说法的序号写在横线上).
四、解答题
17.今年新冠肺炎疫情影响到各国的复工复产,导致我国部分进口行业的运营成本不断上升,经过调查,某种产品所需原料的价格今年以来不断上涨,近5个月的平均价格(万元/吨)如下表所示.
x(月份) 4 5 6 7 8
y(万元/吨) 40 50 55 65 90
已知平均价格和月份成线性相关关系.
(1)求平均价格y(万元/吨)关于x(月份)的线性回归方程;
(2)据此线性回归方程预测10月份该产品所需原料的平均价格.
附:回归直线方程中,,其中为样本平均值,是的方差.参考数据:.
18.随者生活水平的逐步提高,人们越来越注意养生,而豆浆由于其丰富的营养价值和预防疾病的作用而成为许多人选用的食材,现对某小区200位居民调查发现,有90%的人会选用豆浆作为食材,其中一周中有一天食用豆浆的有60人,其余的人食用豆浆的天数都在两天及其以上.若把居民分成青年(年小于40岁)中年(年龄不小于40岁)两阶段,那么食用豆浆的人中75%是中年人,若规定一周中食用豆浆的天数在两天其以上为有豆浆偏好、那么有豆浆偏好的居民中有是中年人.
(1)填写下面的列联表
中年人 青年人 合计
有豆浆偏好
无豆浆偏好
合计
(2)根据列联表的独立性检验,能否有99%的把握认为“有豆浆偏好与年龄有关”?附表及参考公式
,其中为样本容量.
19.某企业的某种产品产量与单位成本数据如下:
月份 1 2 3 4 5 6
产量/千件 2 3 4 3 4 5
单位成本/元 73 72 71 73 69 68
(1)试确定回归直线;
(2)产量每增加1000件时,单位成本下降多少?
(3)假定产量为6000件时,单位成本是多少?单位成本为70元时,产量应为多少件?
20.某地从2月20日开始的连续7天的某传染病累计确诊人数如下表:
天数 1 2 3 4 5 6 7
累计确诊人数 6 11 21 34 66 101 196
由上述表格得到如下散点图.
(1)根据散点图判断与(均为大于0的常数)哪一个更适合作为累计确诊人数y与天数x的回归方程类型(给出判断即可,不必说明理由),并求出y关于x的回归方程;
(2)3月20日,该地的疾控中心接受了1000份血液样本,假设每份样本的检验结果是阳性还是阴性是相互独立的,且每份样本是阳性的概率是0.6,试剂把阳性样本检测出阳性结果的概率是0.99(试剂存在阳性样本检测不出来的情况,但不会把阴性样本检测呈阳性样本),求这1000份样本中检测出呈阳性的份数的期望.
参考数据:
62.14 1.54 2535 50.12 3.47
其中
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为,.
21.某网店销售某种商品,为了解该商品的月销量(单位:千件)与月售价(单位:元/件)之间的关系,对近几年的月销售量和月销售价数据进行了统计分析,得到了下面的散点图.
(1)根据散点图判断,与哪一个更适宜作为月销量关于月销售价的回归方程类型?(给出判断即可,不需说明理由),并根据判断结果及表中数据,建立关于的回归方程;
(2)利用(1)中的结果回答问题:已知该商品的月销售额为(单位:千元),当月销售量为何值时,商品的月销售额预报值最大?(月销售额=月销售量×当月售价)
参考公式、参考数据及说明:
①对一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计分别为,.
②参考数据:
6.50 6.60 1.75 82.50 2.70 -143.25 -27.54
表中,.
③计算时,所有的小数都精确到0.01,如.
22.2020年是全面建成小康社会目标实现之年,也是全面打赢脱贫攻坚战收关之年.某乡镇在2014年通过精准识别确定建档立卡的贫困户共有500户,结合当地实际情况采取多项精准扶贫措施,每年新脱贫户数如下表:
年份 2015 2016 2017 2018 2019
年份代码x 1 2 3 4 5
脱贫户数y 55 68 80 92 100
(1)根据2015-2019年的数据,求出y关于年份代码x的线性回归方程,并预测到2020年底该乡镇500户贫困户是否能全部脱贫;
(2)2019年的新脱贫户中有20户五保户,20户低保户,60户扶贫户.该乡镇某干部打算按照分层抽样的方法对2019年新脱贫户中的5户进行回访,了解生产生活、帮扶工作开展情况.为防止这些脱贫户再度返贫,随机抽取这5户中的2户进行每月跟踪帮扶,求抽取的2户中至少有1户是扶贫户的概率.
参考数据:,参考公式:,