第八章测评
一、选择题:本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.
1.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图1;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图2.由这两个散点图可以判断( )
A.变量x与y正相关,变量u与v正相关
B.变量x与y正相关,变量u与v负相关
C.变量x与y负相关,变量u与v正相关
D.变量x与y负相关,变量u与v负相关
2.(2022江苏模拟)某词汇研究机构为对某城市人们使用流行用语的情况进行调查,随机抽取了200人进行调查统计得下方的2×2列联表.则根据列联表可知( )
是否经常用流行用语 年轻人 非年轻人 合计
是 125 25 150
否 35 15 50
合计 160 40 200
参考公式:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.认为“经常用流行用语”与“年轻人”有关系,此推断犯错误的概率不超过0.05
B.认为“经常用流行用语”与“年轻人”有关系,此推断犯错误的概率不超过0.1
C.认为“经常用流行用语”与“年轻人”有关系,此推断犯错误的概率不超过0.01
D.认为“经常用流行用语”与“年轻人”有关系,此推断犯错误的概率不超过0.005
3.已知一组样本数据点,用最小二乘法求得其经验回归方程为=-2x+4,若x1,x2,x3,…,x6的平均数为1,则y1+y2+y3+…+y6=( )
A.10 B.11 C.12 D.13
4.为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其经验回归方程为x+,已知xi=225,yi=1 600,=4,该班某学生的脚长为24厘米,据此估计其身高为( )
A.160厘米 B.163厘米
C.166厘米 D.170厘米
5.变量x与y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),变量u与v相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量y与x之间的线性相关系数,r2表示变量v与u之间的线性相关系数,则( )
A.r2C.r2<06.下列说法中正确的是( )
①样本相关系数r用来衡量成对样本数据的线性相关程度的强弱,|r|越接近于1,成对样本数据的线性相关程度越弱;
②经验回归直线x+一定经过样本点的中心();
③随机误差e的方差D(e)的大小是用来衡量预报的精确度;
④决定系数R2用来刻画回归的效果,R2越小,说明模型的拟合效果越好.
A.①② B.③④ C.①④ D.②③
7.某种产品的广告支出费用x(单位:万元)与销售量y(单位:万件)之间的对应数据如表所示:
广告支出费用x/万元 2.2 2.6 4.0 5.3 5.9
销售量y/万件 3.8 5.4 7.0 11.6 12.2
根据表中的数据可得经验回归方程=2.2x-1.08,R2≈0.96,以下说法正确的是( )
A.第三个样本点对应的残差=-1,回归模型的拟合效果一般
B.第三个样本点对应的残差=1,回归模型的拟合效果较好
C.销售量y的多少有96%是由广告支出费用引起的
D.销售量y的多少有4%是由广告支出费用引起的
8.为了调查学生对网络课程的热爱程度,研究人员随机调查了相同数量的男、女学生,发现有80%的男生喜欢网络课程,有40%的女生不喜欢网络课程,且认为是否喜欢网络课程与性别有关,此推断犯错误的概率超过0.001,但不超过0.01,则被调查的男、女学生总数量可能为( )
附:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.001
xα 2.706 3.841 6.635 10.828
A.130 B.190
C.240 D.250
二、选择题:本题共4小题,每小题5分,共20分.在每小题给出的选项中,有多项符合题目要求.全部选对的得5分,部分选对的得2分,有选错的得0分.
9.(2022湖南衡阳模拟)5G技术的运营不仅提高了网络传输速度,更拓宽了网络资源的服务范围.目前,我国加速了5G技术的融合与创新,前景美好!某手机商城统计了5个月的5G手机销量,如表所示:
月份 2021年 3月 2021年 4月 2021年 5月 2021年 6月 2021年 7月
月份编号x 1 2 3 4 5
销量y/部 52 95 a 185 227
若y与x线性相关,由上表数据求得经验回归方程为=44x+10,则下列说法正确的是( )
A.5G手机的销量逐月增加,平均每个月增加约10台
B.a=151
C.y与x正相关
D.预计2021年9月份该手机商城的5G手机销量约为318部
10.已知由样本数据点集合{(xi,yi)|i=1,2,…,n},求得经验回归方程为=1.5x+0.5,=3,现发现两个数据点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的经验回归直线l的斜率为1.2,则( )
A.变量x与y具有正相关关系
B.去除后的经验回归方程为=1.2x+1.4
C.去除后y的估计值增加速度变快
D.去除后,当x=4时,y的估计值为6.2
11.(2022江苏南通模拟)为了增强学生的身体素质,提高适应自然环境、克服困难的能力,某校在课外活动中新增了一项登山活动,并对“学生喜欢登山和性别是否有关”做了一次调查,其中被调查的男女生人数相同,得到如图所示的等高条形统计图,则下列说法中正确的有( )
附:χ2=,其中n=a+b+c+d.
α 0.05 0.01
xα 3.841 6.635
A.被调查的学生中喜欢登山的男生人数比喜欢登山的女生人数多
B.被调查的女生中喜欢登山的人数比不喜欢登山的人数多
C.若被调查的男女生均为100人,则认为喜欢登山和性别有关,该推断犯错误的概率不超过0.01
D.无论被调查的男女生人数为多少,认为喜欢登山和性别有关,该推断犯错误的概率均不超过0.01
12.某地响应号召,建立农业科技图书馆,供农民免费借阅,收集了近5年的借阅数据如下表:
年份 2017 2018 2019 2020 2021
年份代码x 1 2 3 4 5
年借阅量 y/万册 4.9 5.1 5.5 5.7 5.8
根据上表,可得y关于x的经验回归方程为=0.24x+,则下列说法正确的是( )
A.=4.68
B.近5年借阅量估计以0.24万册/年的速度增长
C.x与y的线性相关系数r>0
D.2022年的借阅量一定不少于6.12万册
三、填空题:本题共4小题,每小题5分,共20分.
13.高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级的排名情况如图所示,甲、乙、丙为该班三位学生.
从这次考试成绩看,
①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是 ;
②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是 .
14.(2022福建莆田模拟)2021年受疫情影响,国家鼓励员工在工作地过年.某机构统计了某市5个地区的外来务工人员数与他们选择留在当地过年的人数占比,得到如下的表格:
地区 A区 B区 C区 D区 E区
外来务工人员数 5 000 4 000 3 500 3 000 2 500
留在当地的 人数占比 80% 90% 80% 80% 84%
根据这5个地区的数据求得留在当地过年人员数y与外来务工人员数x的经验回归方程为=0.813 5x+.该市对外来务工人员选择留在当地过年的每人补贴1 000元,该市F区有10 000名外来务工人员,根据经验回归方程估计F区需要给外来务工人员中留在当地过年的人员的补贴总额为 万元.(参考数据:取0.813 5×36≈29.29)
15.为了调查患慢性气管炎是否与吸烟有关,调查了100名50岁以下的人,调查结果如下表:
是否 吸烟 是否患慢性气管炎 合计
患慢性气管炎 未患慢性气管炎
吸烟 20 b 40
不吸烟 c 55 60
合计 25 75 100
根据列联表数据,求得χ2= (精确到0.001).根据下表,在犯错误的概率(填最小值)不超过 的前提下认为患慢性气管炎与吸烟有关.
附:
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
χ2=,n=a+b+c+d.
16.(2022山东烟台一模)已知在党委政府精准扶贫政策下,自2018年起某地区贫困户第x年的年人均收入y(单位:万元)的统计数据如表:
年份 2018 2019 2020 2021
年份编号x 1 2 3 4
年人均收入y/万元 0.6 0.8 1.1 1.5
根据如表可得经验回归方程x+中的 为0.3,据此模型预报该地区贫困户2022年的年人均收入为 万元.
四、解答题:本题共6小题,共70分.解答应写出文字说明、证明过程或演算步骤.
17.(10分)如图是某地区2005年至2021年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2023年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2005年至2021年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2015年至2021年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2023年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠 并说明理由.
18.(12分)(2022吉林长春期中)随着全民运动健康意识的提高,马拉松运动在全国各大城市逐渐兴起,参与马拉松训练与比赛的人数逐年增加,为此某市对人们参加马拉松运动的情况进行了统计调查,其中一项调查是调查人员从参与马拉松运动的人中随机抽取200人,对其每周参与马拉松长跑训练的天数进行统计,得到以下统计表:
平均每周 进行长跑 训练天数 不大于2天 3天或4天 不少于5天
人数 30 130 40
若某人平均每周进行长跑训练天数不少于5天,则称其为“热烈参与者”,否则称为“非热烈参与者”.
附:χ2=(n为样本容量)
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
(1)经调查,该市约有3万人参与马拉松运动,估计其中“热烈参与者”的人数;
(2)根据上表的数据,填写下列2×2列联表,并通过计算判断是否能在犯错误的概率不超过0.01的前提下,认为“热烈参与马拉松”与性别有关
性别 热烈参与者 非热烈参与者 合计
男 140
女 55
合计
19.(12分)如图是我国2013年至2019年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1—7分别对应年份2013—2019.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明.
(2)建立y关于t的经验回归方程(系数精确到0.01),预测2021年我国生活垃圾无害化处理量.
参考数据:yi=9.32,tiyi=40.17,=0.55,≈2.646.
参考公式:相关系数r=,
经验回归方程 t中斜率和截距的最小二乘估计公式分别为.
20.(12分)(2022四川攀枝花模拟)某大学为调查学生对5G相关知识的了解程度,随机抽取男女学生各50人进行问卷测评,所得分数的频率分布直方图如图所示,并规定得分在80分以上为“比较了解”.
(1)求a的值,并估计该大学学生对5G比较了解的概率.
(2)已知对5G比较了解的样本中男女比例为4∶1.完成下列2×2列联表,并分析对5G比较了解是否与性别有关.
性别 比较了解 不太了解 合计
男
女
合计
附:χ2=,其中n=a+b+c+d.
α 0.05 0.010 0.005 0.001
xα 3.841 6.635 7.879 10.828
21.(12分)某校对高一新生是否适应寄宿生活十分关注,从高一新生中随机抽取了100人,其中男生占总人数的40%,且只有20%的男生表示自己不适应寄宿生活,女生中不适应寄宿生活的人数占高一新生抽取总人数的32%,学校为了考查学生对寄宿生活适应与否是否与性别有关,构建了如下2×2列联表:
性别 不适应寄宿生活 适应寄宿生活 合计
男生
女生
合计
(1)请将2×2列联表补充完整,分析“适应寄宿生活”与否是否与性别有关.
(2)从男生中以“是否适应寄宿生活”为标准采用分层抽样的方法随机抽取10人,再从这10人中随机抽取2人.若所选2名学生中的“不适应寄宿生活”人数为X,求随机变量X的分布列及数学期望.
附:χ2=.
α 0.10 0.05 0.01 0.001
xα 2.706 3.841 6.635 10.828
22.(12分)某茶场的黄金茶市场开发机构为了进一步开拓市场,对黄金茶交易市场某个品种的黄金茶日销售情况进行调研,得到这种黄金茶的定价x(单位:百元/千克)和销售率y(销售率是销售量与供应量的比值)的统计数据如表:
x 10 20 30 40 50 60
y 0.9 0.65 0.45 0.3 0.2 0.175
(1)设z=ln x,根据所给参考数据判断,回归模型x+z+哪个更适合作为经验回归方程 并根据你的判断结果求经验回归方程(的结果保留一位小数);
(2)某茶场的黄金茶生产销售公司每天向茶叶交易市场提供该品种的黄金茶1 200千克,根据(1)中的经验回归方程,估计定价x(单位:百元/千克)为多少时,这家公司该品种的黄金茶的日销售额W最大,并求W的最大值.
参考数据:y与x的相关系数r1≈-0.96,y与z的相关系数r2≈0.99,=35,≈0.45,=9 100,≈3.40,6≈69.32,yizi≈8.16,≈71.52,e3≈20.1,e3.4≈30.0,e3.5≈33.1,e4≈54.6.
参考公式:,r=.
第八章测评
1.C 由题图1可知,y随x的增大而减小,各点整体呈下降趋势,x与y负相关,由题图2可知,u随v的增大而增大,各点整体呈上升趋势,u与v正相关.
2.A 零假设为H0:“经常用流行用语”与“年轻人”无关系.根据独立性检验计算观测值χ2,
根据列联表中的数据,得χ2=4.167>3.841.
根据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为“经常用流行语”与“年轻人”有关系,此推断犯错误的概率不超过0.05.
3.C =1,,
由回归直线=-2x+4过样本点的中心,
所以=-2×1+4,
解得y1+y2+y3+…+y6=12.
故选C.
4.C 由经验回归方程为=4x+,
则xi=22.5,yi=160,
则测量数据样本点的中心为(22.5,160),
由经验回归方程过样本点的中心,则-4=160-4×22.5=70,
∴经验回归方程为=4x+70,
当x=24时,=4×24+70=166,
则估计其身高为166厘米.
5.C ∵变量x与y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),
可得变量y与x之间正相关,∴r1>0.
变量u与v相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),
可知变量v与u之间负相关,∴r2<0.
∴第一组数据的相关系数大于零,第二组数据的相关系数小于零,即r2<06.D ①相关系数r用来衡量两个变量之间线性关系的强弱,|r|越接近于1,则相关性越强,①错误;
②回归直线y=bx+a一定经过样本点的中心(),②正确;
③随机误差e的方差D(e)的大小是用来衡量预报的精确度,③正确;
④决定系数R2用来刻画回归的效果,R2越小,说明模型的拟合效果越不好,④错误.所以正确的有②③.
故选D.
7.C 由题意得,=7-(2.27×4-1.08)=-1,
由于R2≈0.96,∴该经验回归方程的拟合效果比较好,故A,B错误;
在线性回归模型中,R2表示解释变量对于预报变量的贡献率,R2≈0.96,
则销售量y的多少有96%是由广告支出费用引起的,C正确,D错误.
8.B 零假设为H0:是否喜欢网络课程与性别无关.
依题意,设男、女生的人数各为5x,建立2×2列联表如表所示:
性别 喜欢网络课程 不喜欢网络课程 总计
男生 4x x 5x
女生 3x 2x 5x
总计 7x 3x 10x
故χ2=,由题可知6.635<<10.828,
所以139.335<10x<227.388.只有B符合题意.
9.BCD 经验回归方程为=44x+10,5G手机的销量逐月增加,平均每个月增加约44台,故A不正确;
根据表中数据,可得=3,
=44×3+10=142.
于是,52+95+a+185+227=142×5=710,即a=151,故B正确;
由经验回归方程中x的系数大于0,可知y与x正相关,且相关系数r>0,故C正确;
9月份时,x=7,=44×7+10=318(部),故D正确.
10.ABD 由样本数据点集合{(xi,yi)|i=1,2,…,n}求得经验回归方程为=1.5x+0.5,
所以=1.5×3+0.5=5.
因为重新求得的经验回归直线l的斜率为1.2,故变量x,y之间的关系是正相关,故A正确;
设新的数据所有横坐标的平均值为',所有纵坐标的平均值为',
则'==3,'==5,
设重新求得的经验回归方程为=1.2x+b,则5=1.2×3+,故=1.4,
所以重新求得的经验回归方程为=1.2x+1.4.
故B正确;
因为斜率为1.2<1.5,所以y的估计值增长速度变慢,故C错误;
把x=4代入,得y=1.2×4+1.4=6.2,故D正确.
故选ABD.
11.AC 因为被调查的男女生人数相同,由等高条形统计图可知,喜欢登山的男生占80%,喜欢登山的女生占30%,所以A正确,B错误.
设被调查的男女生人数均为n,则由等高条形统计图可得2×2列联表如下:
性别 男 女 合计
喜欢 0.8n 0.3n 1.1n
不喜欢 0.2n 0.7n 0.9n
合计 n n 2n
零假设H0:喜欢登山和性别无关.
由公式可得χ2=
当n=100时,χ2=>6.635,所以认为喜欢登山和性别有关,该推断犯错误的概率不超过0.01;当n=10时,χ2=<6.635,依据小概率值α=0.01的χ2独立性检验,没有充分证据推断H0不成立.
显然χ2的值与n的取值有关,所以C正确,D错误.
12.ABC 把=3,=5.4代入=0.24x+,可得=4.68,所以A正确;
由=0.24x+,得直线的斜率为0.24,0.24万册是每年的借阅量的增长量的预测值,所以B正确;
因为=0.24>0,所以x与y正相关,所以r>0,所以C正确;
把x=6代入=0.24x+4.68,得=6.12,然而6.12万册是预测值,不是精确值,所以D错误.
故选ABC.
13.乙 数学 ①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是乙;
②丙同学的数学成绩名次位于中间稍微靠后,而总成绩相对靠后,所以丙同学的语文成绩名次比较靠后,所以丙同学的成绩名次靠前的科目是数学.
14.818.6 由已知=3 600,
=
=2 980,
所以2 980=0.813 5×3 600+,则=51,即=0.813 5x+51,
x=10 000时,y=0.813 5×10 000+51=8 186,
估计应补贴8 186×0.1=818.6(万元).
15.22.222 0.001 由20+b=40,得b=20.
由20+c=25,得c=5.
故χ2=22.222>10.828=x0.001.
所以在犯错误的概率不超过0.001的前提下认为患慢性气管炎与吸烟有关.
16.1.75 =2.5,
=1,
样本点的中心为(2.5,1),代入=0.3x+中,
可得=1-0.3×2.5=0.25,
则=0.3x+0.25,把x=5代入,可得=0.3×5+0.25=1.75(万元).
17.解 (1)根据模型①:=-30.4+13.5t,
计算t=19时,=-30.4+13.5×19=226.1(亿元),
利用这个模型,求出该地区2023年的环境基础设施投资额的预测值是226.1亿元;
根据模型②:=99+17.5t,
计算t=9时,=99+17.5×9=256.5(亿元),
利用这个模型,求出该地区2023年的环境基础设施投资额的预测值是256.5亿元.
(2)模型②得到的预测值更可靠.
因为从总体数据看,该地区从2005年到2021年的环境基础设施投资额是逐年上升的,
而从2005年到2014年间递增的幅度较小些,
从2015年到2021年间递增的幅度较大些,
所以,利用模型②的预测值更可靠些.
18.解 (1)设事件A:热烈参与者,x为3万人中热烈参与者的人数,
则P(A)=,
所以x=30 000=6 000(人).
(2)
性别 热烈参与者 非热烈参与者 合计
男 35 105 140
女 5 55 60
合计 40 160 200
零假设为H0:“热烈参与马拉松”与性别无关.
根据列联表中的数据,经计算得χ2=7.292>6.635=x0.01.
根据小概率值α=0.01的独立性检验,
我们推断H0不成立,即认为“热烈参与马拉松”与性别有关,此推断犯错误的概率不大于0.01.
19.解(1)由折线图看出,y与t的正线性相关程度很强.理由如下:
∵r=0.99,
∵样本相关系数r≈0.99,故y与t的正线性相关程度很强.
(2)0.10,
1.33-0.10×4=0.93,
∴y关于t的经验回归方程为=0.10t+0.93,
2021年对应的t值为9,
故=0.10×9+0.93=1.83(亿吨),
预测2021年我国生活垃圾无害化处理量为1.83亿吨.
20.解(1)根据频率和为1,得(0.004+0.008+0.020+0.028+0.020+a+0.004)×10=1,
解得α=0.016.
计算得分在80分以上的频率为(0.016+0.004)×10=0.20,
所以估计该大学学生对5G比较了解的概率为0.20.
(2)根据题意知,对5G比较了解的人数有100×0.2=20,
其中男性为20=16(人),女性为4人,列联表如下:
性别 比较了解 不太了解 合计
男 16 34 50
女 4 46 50
合计 20 80 100
零假设为H0:对5G比较了解与性别无关.根据列联表中的数据,可得χ2==9>7.879=x0.005.
根据小概率值α=0.005的独立性检验,推断H0不成立,即认为对5G比较了解与性别有关,此推断犯错误的概率不超过0.005.
21.解(1)根据题意填写列联表如下:
性别 不适应寄宿生活 适应寄宿生活 合计
男生 8 32 40
女生 32 28 60
合计 40 60 100
零假设为H0:“适应寄宿生活与否”与性别无关.
根据列联表中的数据可得,χ2=11.11>10.828=x0.001,
根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为“适应寄宿生活与否”与性别有关.
(2)用分层抽样的方法随机抽取10人,有2人不适应寄宿生活,8人适应寄宿生活,
由题可知随机变量X的取值可以是0,1,2.
计算P(X=0)=,P(X=1)=,P(X=2)=,
所以随机变量X的分布列为
X 0 1 2
P
数学期望为E(X)=0+1+2
22.解(1)因为回归模型x+的相关系数|r1|≈0.96,回归模型z+的相关系数|r2|≈0.99,
因为0.96<0.99<1,
由线性相关系数的意义可知,回归模型z+更合适,
=-0.46≈-0.5,
=0.45-(-0.46)×3.40≈2.0,
所以经验回归方程为=-0.5ln x+2.0.
(2)由题意可知,W=1 200×(-0.5ln x+2.0)x,
所以W'=1 200×(1.5-0.5ln x),
令W'=0,解得ln x=3,即x=e3≈20.1,
当00,W单调递增,
当x>e3时,W'<0,W单调递减,
所以当售价约为20.1百元/千克时,日销售额W最大,
最大值为1 200×(-0.5×ln e3+2.0)×e3≈1 200×(-0.5×3+2.0)×20.1=12 060(百元),