章末综合检测(三)
(时间:120分钟,满分:150分)
一、选择题:本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.
1.在建立两个变量y与x的回归模型中,选择了4个不同的模型,模型1的样本相关系数为-0.80,模型2的样本相关系数为-0.96,模型3的样本相关系数为-0.66,模型4的样本相关系数为-0.01,其中拟合效果最好的模型是( )
A.模型1 B.模型2 C.模型3 D.模型4
解析:选B.4个不同模型的样本相关系数的绝对值由小到大依次为:0.01,0.66,0.80,0.96,而样本相关系数的绝对值越接近于1,拟合效果越好,所以拟合效果最好的模型是模型2.故选B.
2.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图1;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图2.r1表示变量x,y之间的样本相关系数,r2表示变量u,v之间的样本相关系数,则( )
INCLUDEPICTURE "25-BS10.TIF"
A.-1C.0解析:选A.从题中图象中看出y随x增大而减小(图象下降),v随u增大而减小(图象下降),则y与x呈负相关关系,v与u呈负相关关系,即r1<0,r2<0, 故C,D不正确; 另外对比两图,容易看出y与x线性相关程度更强,故r1更接近-1,所以得-13.根据分类变量X与Y的抽样数据,计算得到χ2=3.452.依据α=0.1的独立性检验(x0.1=2.706),则下面说法正确的是( )
A.变量X与Y不独立,该推断犯错误的概率不超过0.1
B.变量X与Y不独立,该推断犯错误的概率不低于0.1
C.变量X与Y独立,该推断犯错误的概率不超过0.1
D.变量X与Y独立,该推断犯错误的概率不低于0.1
解析:选A.由独立性检验的具体检验规则及χ2=3.452>2.706=x0.1,得变量X与Y不独立,该推断犯错误的概率不超过0.1.故选A.
4.某公司研发新产品投入x(单位:百万)与该产品的收益y(单位:百万)的5组统计数据如表所示,由表中数据求得投入金额x与收益y满足经验回归方程=x+2.6,则下列结论不正确的是( )
x 5 6 8 9 12
y 16 20 25 28 36
A.x与y有正相关关系
B.经验回归直线经过点(8,25)
C.=2.4
D.x=9时,残差为0.2
解析:选C.对于A,由题中表格可知,x越大,y越大,所以x与y有正相关关系,故A正确;对于B,==8,==25,则样本点的中心为(8,25),所以经验回归直线经过点(8,25),故B正确;对于C,将(8,25)代入经验回归方程,得25=8+2.6,所以=2.8,故C不正确;对于D,=2.8x+2.6,当x=9时,=2.8×9+2.6=27.8,则残差为y-=28-27.8=0.2,故D正确.故选C.
5.为了解户籍、性别对生育三胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人,男性40人,女性60人,绘制不同群体中倾向选择生育三胎与选择不生育三胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育三胎的对应比例,则下列关于样本的叙述中正确的是( )
INCLUDEPICTURE "25-BS11.TIF"
A.是否倾向选择生育三胎与户籍无关
B.是否倾向选择生育三胎与性别有关
C.倾向选择生育三胎的人员中,男性人数与女性人数相同
D.倾向选择不生育三胎的人员中,农村户籍人数少于城镇户籍人数
解析:选D.对于A,城镇户籍中40%选择生育三胎,农村户籍中80%选择生育三胎,相差较大,则是否倾向选择生育三胎与户籍有关,A错误;对于B,男性和女性中均有60%选择生育三胎,则是否倾向选择生育三胎与性别无关,B错误;对于C,由于男性和女性中均有60%选择生育三胎,但样本中男性40人,女性60人,则倾向选择生育三胎的人员中,男性人数与女性人数不同,C错误;对于D,倾向选择不生育三胎的人员中,农村户籍有50×20%=10(人),城镇户籍有50×60%=30(人),农村户籍人数少于城镇户籍人数,D正确.故选D.
6.用模型y=aekx拟合一组数据(xi,yi)(i=1,2,3,…,7),其中x1+x2+…+x7=14,设z=ln y,得变换后的经验回归方程为=x+1,则y1y2·…·y7=( )
A.e35 B.e21 C.35 D.21
解析:选B.由题意得==2,故=+1=3,即ln y1+ln y2+…+ln y7=3×7=21,故ln (y1y2·…·y7)=21,解得y1y2·…·y7=e21.故选B.
7.某学校校医研究温差x(单位:℃)与本校当天新增感冒人数y(单位:人)的关系,该医生记录了5天的数据,且样本点的中心为(8,25).由于保管不善,记录的5天数据中有两个数据看不清楚,现用m,n代替,已知18≤m≤24,26≤n≤34,m,n∈N*,则下列结论正确的是( )
x 5 6 8 9 12
y 17 m 25 n 35
A.在m,n确定的条件下,去掉样本点的中心(8,25),则样本相关系数r增大
B.在m,n确定的条件下,经过拟合,发现基本符合经验回归方程=2.6x+,则=4
C.在m,n确定的条件下,经过拟合,发现基本符合经验回归方程=2.6x+,则当x=12时,残差为0.4
D.事件“m=20,n=28”发生的概率为
解析:选D.对于A,因为经验回归直线过样本点的中心(8,25),所以在m,n确定的条件下去掉样本点的中心(8,25),则样本相关系数r不变,所以A错误;对于B,由样本点的中心为(8,25),可得25=2.6×8+,解得=4.2,所以B错误;对于C,由=2.6x+4.2,当x=12时,可得=35.4,则35-35.4=-0.4,所以C错误;对于D,由17+m+25+n+35=5×25,可得m+n=48,则m可取18,19,20,21,22,n可取26,27,28,29,30,则(m,n)的取值为(18,30),(19,29),(20,28),(21,27),(22,26),所以事件“m=20,n=28”发生的概率为,所以D正确.故选D.
8.针对时下的“短视频热”,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为5m(m∈N*),男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.零假设为H0:喜欢短视频和性别相互独立.若依据α=0.05的独立性检验认为喜欢短视频和性别不独立,则m的最小值为( )
附:χ2=,附表:
α 0.05 0.01
xα 3.841 6.635
A.7 B.8 C.9 D.10
解析:选C.根据题意,可得a=4m,b=m,c=3m,d=2m,
于是χ2=
==,
由于依据α=0.05的独立性检验认为喜欢短视频和性别不独立,根据题中表格可知≥3.841,解得m≥8.066 1,则m的最小值为9.故选C.
二、选择题:本题共3小题,每小题6分,共18分.在每小题给出的选项中,有多项符合题目要求.全部选对的得6分,部分选对的得部分分,有选错的得0分.
9.在一次恶劣天气的飞行航程中,调查男、女乘客在飞机上晕机的情况,得到如下列联表,则( )
单位:人
性别 晕机 合计
晕机者 未晕机者
男 a 15 c
女 6 b d
合计 e 28 46
A.<
B.χ2<2.706
C.依据小概率值α=0.1的独立性检验,可以认为在恶劣天气的飞行航程中,是否晕机与性别有关
D.依据小概率值α=0.1的独立性检验,可以认为在恶劣天气的飞行航程中,是否晕机与性别无关
解析:选BD.由题中列联表数据,知
解得所以得到如下列联表:
单位:人
性别 晕机 合计
晕机者 未晕机者
男 12 15 27
女 6 13 19
合计 18 28 46
所以==>=,故A错误;零假设为H0:在恶劣天气的飞行航程中,是否晕机与性别无关,由列联表中的数据,得χ2=≈0.775<2.706=x0.1,依据小概率值α=0.1的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为在恶劣天气的飞行航程中,是否晕机与性别无关,故B,D正确,C错误.故选BD.
10.已知由样本数据(xi,yi)(i=1,2,3,…,10)组成的一个样本,得到经验回归方程为=-x+3,且=4.剔除一个偏离直线较大的异常点(-5,-1)后,得到新的经验回归直线经过点(6,-4).关于剔除该异常点后的说法正确的是( )
A.相关变量x,y具有正相关关系
B.样本相关系数的绝对值变大
C.经验回归直线经过点(5,-1)
D.随x值增加相关变量y值减小的速度变小
解析:选BC.依题意,原样本中,=-4+3=-1,剔除一个偏离直线较大的异常点(-5,-1)后,新样本中,′==5,′==-1,因此剔除该异常点后的经验回归直线经过点(5,-1),C正确;由新的经验回归直线经过点(6,-4),得新的回归直线斜率为=-3,因此相关变量x,y具有负相关关系,A错误;又|-3|>|-1|,则剔除该异常点后,随x值增加相关变量y值减小的速度变大,D错误;由剔除的是偏离直线较大的异常点,得剔除该点后,新样本数据的线性相关程度变强,即样本相关系数的绝对值变大,B正确.故选BC.
11.自然环境中,大气压受到各种因素的影响,如温度、湿度、风速和海拔等方面的改变,都将导致大气压发生相应的变化,其中以海拔的影响最为显著.下图是根据一组观测数据得到海拔6 km~15 km的大气压强散点图,根据一元线性回归模型得到经验回归方程为1=-4.0x+68.5,决定系数为R=0.99;根据非线性回归模型得到经验回归方程为2=132.9e-0.163x,决定系数为R=0.99,则下列说法正确的是( )
INCLUDEPICTURE "25-BS12.TIF"
A.由散点图可知,大气压强与海拔高度负相关
B.由方程1=-4.0x+68.5可知,海拔每升高1 km,大气压强必定降低4.0kPa
C.由方程1=-4.0x+68.5可知,样本点(11,22.6)的残差为-1.9
D.对比两个回归模型,结合实际情况,方程2=132.9e-0.163x的预报效果更好
解析:选ACD.对于A,由题中图象知,海拔高度越高,大气压强越低,所以大气压强与海拔高度负相关,故A正确;对于B,经验回归方程得到的数据为估计值,而非精确值,故B错误;对于C,当x=11时,1=-4.0×11+68.5=24.5,所以样本点(11,22.6)的残差为22.6-24.5=-1.9,故C正确;对于D,随着海拔高度的增加,大气压强越来越小,但不可能为负数,因此方程2=132.9e-0.163x的预报效果更好,故D正确.故选ACD.
三、填空题:本题共3小题,每小题5分,共15分.
12.独立性检验中,零假设为H0:变量X与变量Y相互独立.则在H0成立的情况下,χ2≥6.635=x0.01表示的意义是____________________.
解析:依据小概率值α=0.01的独立性检验可知:当χ2≥6.635时,我们就推断H0不成立,即认为变量X与变量Y不独立,该推断犯错误的概率不超过0.01.
答案:变量X与变量Y不独立,该推断犯错误的概率不超过0.01
13.已知某种商品的广告支出费用x(单位:万元)与销售额y(单位:万元)之间有如下表对应数据:
x 1 3 4 5 7
y 15 20 30 40 45
根据表中数据得到y关于x的经验回归方程为=5.5x+,则当x=7时,残差为________.
解析:=×(1+3+4+5+7)=4,=×(15+20+30+40+45)=30,
因为经验回归直线过点(4,30),代入=5.5x+,可得30=5.5×4+,解得=8,当x=7时,=5.5×7+8=38.5+8=46.5,所以残差为45-46.5=-1.5.
答案:-1.5
14.某校数学建模兴趣小组收集了一组恒温动物体重W(单位:克)与脉搏率f(单位:心跳次数/分钟)的对应数据(Wi,fi)(i=1,2,…,8),根据生物学常识和散点图(图略)得出f与W近似满足f=cWk(c,k为参数).令xi=ln Wi,yi=ln fi,计算得=8,=5,=214.由最小二乘法得经验回归方程为=x+7.4,则k的值为________;为判断拟合效果,通过经验回归方程求得预测值i(i=1,2,…,8),若残差平方和(yi-i)2≈0.28,则决定系数R2≈________.(参考公式:决定系数R2=1-)
解析:因为f=cWk,两边取对数可得ln f=ln c+k ln W,又xi=ln Wi,yi=ln fi,则y=ln c+kx,
依题意经验回归方程为=x+7.4,且必过样本点的中心 (,),
所以5=8+7.4,解得=-0.3,
所以k=-0.3,
又R2=1-=1- eq \f(\i\su(i=1,8, )(yi-\o(y,\s\up6(^))i)2,\i\su(i=1,8,y)-8\o(y,\s\up6(-))2)
≈1-=0.98.
答案:-0.3 0.98
四、解答题:本题共5小题,共77分.解答应写出文字说明、证明过程或演算步骤.
15.(本小题满分13分)某机构为了解学生是否喜欢绘画与性别是否有关,调查了400名学生(男女各一半),发现喜欢绘画的人数是300,喜欢绘画的男生比女生少60人.
(1)完成下面的2×2列联表;
单位:人
性别 绘画 合计
喜欢 不喜欢
男
女
合计
(2)根据调查数据回答:依据α=0.001的独立性经验,判断能否认为是否喜欢绘画与性别有关.
附:χ2=,n=a+b+c+d.临界值表如下:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
解:(1)2×2列联表为
单位:人
性别 绘画 合计
喜欢 不喜欢
男 120 80 200
女 180 20 200
合计 300 100 400
(2)零假设为H0:是否喜欢绘画与性别无关,由(1)中2×2列联表得,
χ2==48>10.828=x0.001,
根据小概率值α=0.001的独立性检验,我们推断H0不成立,所以能够认为是否喜欢绘画与性别有关,此推断犯错误的概率不大于0.001.
16.(本小题满分15分)某制冷技术重点实验室研究了不同果蔬在不同冻结速率下的冰点温度.设冻结速率为x(单位:min),冰点温度为y(单位:℃),下表为某种水果冰点温度随冻结速率变化的统计数据:
x 10 20 30 40 50
y -5 -4.5 -2 1 2
根据以上数据,绘制了散点图:
INCLUDEPICTURE "25-BS13.TIF"
(1)由散点图可以看出,可用线性回归模型拟合y与x的关系,请用样本相关系数r加以说明;
(2)求y关于x的经验回归方程,并预测当冻结速率为60 min时,这种水果的冰点温度.
附:样本(xi,yi)(i=1,2,…,n)的样本相关系数r=,当|r|∈[0.75,1]时,两个变量线性相关程度很强.经验回归方程=x+中,=,=-.
参考数据:(xi-)(yi-)=195,(xi-)2=1 000,(yi-)2≈40.
解:(1)r=≈=0.975,
因为0.975∈[0.75,1],故变量x与y间线性相关程度很强,所以可以用线性回归模型拟合y与x的关系.
(2)由题表可知,
==30,
==-1.7.
因为===0.195,
所以=- =-1.7-0.195×30=-7.55,
故y关于x的经验回归方程为=0.195x-7.55,当x=60时,=0.195×60-7.55=4.15(℃),
故当冻结速率为60 min时,预测这种水果的冰点温度为4.15 ℃.
17.(本小题满分15分)某品牌卫生纸生产厂家为保证产品的质量,现从甲、乙两条生产线生产的产品中各随机抽取500件进行品质鉴定,并将统计结果整理如下:
生产线 合格品 优等品
甲 250 250
乙 300 200
(1)根据小概率值α=0.001的独立性检验,能否认为产品的品质与生产线有关?
(2)用频率近似概率,从甲、乙两条生产线生产的产品中各随机抽取2件进行详细检测,记抽取的产品中优等品的件数为X,求随机变量X的分布列与均值.
附:χ2=,其中n=a+b+c+d.
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
解:(1)补充列联表如下:
单位:件
生产线 产品品质 合计
合格品 优等品
甲 250 250 500
乙 300 200 500
合计 550 450 1 000
零假设为H0:产品的品质与生产线无关.
根据列联表中的数据,经计算得到χ2==≈10.101<10.828,
所以根据小概率值α=0.001的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为产品的品质与生产线无关.
(2)由样本数据可知甲、乙两条生产线生产的产品中优等品的频率分别为,.
所以可估计从甲、乙两条生产线生产的产品中各随机抽取1件产品,其为优等品的概率分别为,.
X的所有可能值为0,1,2,3,4,
P(X=0)=()2×()2=,
P(X=1)=C×()2×()2+()2×C××=,
P(X=2)=()2×()2+C×()2×C××+()2×()2=,
P(X=3)=C×()2×()2+()2×C××=,
P(X=4)=()2×()2=.
所以X的分布列为
X 0 1 2 3 4
P
所以E(X)=0×+1×+2×+3×+4×=.
18.(本小题满分17分)两个具有相关关系的变量(x,y)的一组统计数据为(x1,y1),(x2,y2),…,(xn,yn).其样本点的中心为(25,36.8),且由统计知(xi-)2=138,(yi-)2=310.5,样本相关系数r≈0.96.
(1)求-n2;
(2)根据样本相关系数r以及下面所附公式,建立y关于x的经验回归方程.
附:r=,=,=-.
解:(1)(xi-)2=(x1-)2+(x2-)2+…+(xn-)2
=x+x+…+x-2(x1+x2+…+xn)+n2,
=-2n2+n2=-n2,
由题可得-n2=138.
(2)由已知得=25,=36.8,
因为===1.5,
所以≈0.96×1.5=1.44,
=-=36.8-1.44×25=0.8,
所以y关于x的经验回归方程为=1.44x+0.8.
19.(本小题满分17分)某个远洋运输公司出口营业额增长数据如下表:
月份 2024年1月 2024年2月 2024年3月 2024年4月
月份代码x 1 2 3 4
新增出口营业额y/亿元 2.4 2.8 3.6 5.1
月份 2024年5月 2024年6月 2024年7月 2024年8月
月份代码x 5 6 7 8
新增出口营业额y/亿元 7.1 9.1 11.7 14.2
某位同学分别用两种模型:①y=bx2+a,②y=cx+d进行拟合,得到相应的经验回归方程并进行残差分析,残差图如下:
INCLUDEPICTURE "25XH2.TIF"
这位同学在进行拟合时,对数据作了初步处理,得到一些统计量的值:
(xi-)(yi-)=72.8,(xi-)2=42,(ti-)(yi-)=686.8,
(ti-)2=3 570.其中ti=x,=i.
(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由.
(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程,并预测该远洋运输公司2024年10月新增出口营业额.(精确到0.01)
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),经验回归直线=+u的斜率和截距的最小二乘估计公式分别为=,=-.
解:(1)选择模型①.
理由如下:根据题图可以看出,模型①的预测值和观测值相对比较接近,模型②的残差相对较大一些,所以模型①的拟合效果相对较好.
(2)由(1),可知y关于x的经验回归方程为=x2+,令t=x2,则=t+.
由所给数据可得
=×(1+4+9+16+25+36+49+64)=25.5.
=×(2.4+2.8+3.6+5.1+7.1+9.1+11.7+14.2)=7.
所以==≈0.19.
=-=7-0.19×25.5≈2.16.
所以y关于x的非线性经验回归方程为=0.19x2+2.16.
预测该远洋运输公司2024年10月新增出口营业额为=0.19×102+2.16=21.16(亿元).