成对数据的统计分析
章末检测
(时间:120分钟,满分:150分)
一、单项选择题:本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.
1.(2024年汕尾月考)下列说法错误的是( )
A.正方体的体积与棱长之间的关系是函数关系
B.人的身高与视力之间的关系是相关关系
C.汽车的重量与汽车每消耗1升汽油所行驶的平均路程负相关
D.体重与学习成绩之间不具有相关关系
2.(2024年陕西月考)设变量X和变量Y的样本相关系数为r1,变量U和变量V的样本相关系数为r2,且r1=-0.734,r2=0.984,则( )
A.X和Y之间呈正线性相关关系,且X和Y的线性相关程度强于U和V的线性相关程度
B.X和Y之间呈负线性相关关系,且X和Y的线性相关程度强于U和V的线性相关程度
C.U和V之间呈负线性相关关系,且X和Y的线性相关程度弱于U和V的线性相关程度
D.U和V之间呈正线性相关关系,且X和Y的线性相关程度弱于U和V的线性相关程度
3.(2024年上海月考)对四组数据进行统计,获得如下散点图,关于其相关系数的比较,说法正确的是( )
A.r4C.r24.(2024年南阳月考)某同学在研究变量x,y之间的相关关系时,得到以下数据,并采用最小二乘法得到了线性回归方程=x+,则( )
x 4.8 5.8 7 8.3 9.1
y 2.8 4.1 7.2 9.1 11.8
A.>0,>0 B.>0,<0
C.<0,<0 D.<0,>0
5.(2024年辽宁月考)已知具有线性相关的两个变量x,y之间的一组数据如表:
x -2 -1 1 2 3
y 24 36 40 48 56
且回归方程为=5.5x+,则当x=4时,y的预测值为( )
A.59.5 B.60.5
C.61.5 D.62.5
6.(2024年长春月考)用模型y=aekx拟合一组数(xi,yi)(i=1,2,…,2 024),若x1+x2+…+x2 024=2 024,y1y2…y2 024=e20 240,设z=ln y,得变换后的线性回归方程为=bx+6,则ak=( )
A.20 240 B.6e4
C.4e6 D.2 024
7.(2024年德州期中)利用独立性检验考察两个变量X与Y是否有关系,通过2×2列联表进行独立性检验.经计算χ2=4.964,那么认为X与Y是有关系,这个结论错误的可能性不超过( )
P(χ2≥k0) 0.100 0.050 0.025 0.010 0.001
k0 2.706 3.841 5.024 6.635 10.828
A.0.001 B.0.005
C.0.05 D.0.01
8.(2024年宝鸡月考)通过随机调查140名性别不同的社区居民是否喜欢看电视剧,得到如下的列联表:
项目 男 女 总计
喜欢 50 40 90
不喜欢 20 30 50
总计 70 70 140
由公式算得χ2≈3.11,附:χ2=,
P(χ2≥k0) 0.10 0.05 0.010 0.001
k0 2.706 3.841 6.635 10.828
其中n=a+b+c+d参照附表,得到的正确结论是( )
A.有99%的把握认为“居民是否喜欢看电视剧”与性别有关
B.有99.9%的把握认为“居民是否喜欢看电视剧”与性别有关
C.有90%的把握认为“居民是否喜欢看电视剧”与性别有关
D.有95%的把握认为“居民是否喜欢看电视剧”与性别有关
二、多项选择题:本题共3小题,每小题6分,共18分.在每小题给出的选项中,有多项符合题目要求.全部选对的得6分,选对但不全的得部分分,有选错的得0分.
9.(2024年长沙月考)下列命题正确的是( )
A.若A,B两组成对数据的样本相关系数分别为rA=0.97,rB=-0.99,则A组数据比B组数据的相关性较强
B.决定系数R2越大的模型,拟合的效果越好
C.回归直线至少会经过其中一个样本点(xi,yi)
D.以y=aebx模型去拟合某组数据时,为了求出回归方程,设z=ln y,将其变换后得到线性方程z=6x+ln 2,则a,b的值分别为2,6
10.(2024年辽宁月考)下列有关回归分析的结论中,正确的是( )
A.若回归方程为=6-2.5x,则变量y与x负相关
B.运用最小二乘法求得的经验回归直线一定经过样本点的中心(,)
C.若线性相关系数|r|越小,说明两个变量之间的线性相关性越强
D.若散点图中所有点都在直线y=0.92x-4.21上,则相关系数r=0.92
11.(2024年南阳月考)如表,在两个变量X与Y的2×2列联表中,已知χ2=,其中n=a+b+c+d,下列结论正确的是( )
项目 y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c a+d a+b+c+d
A.若每个数据a,b,c,d均变为原来的2倍,则χ2的值不变
B.|ad-bc|越大,两个变量有关联的可能性越大
C.对于独立性检验,随机变量χ2的值越小,判定“两变量有关系”犯错误的概率越大
D.若计算得到χ2=5.012,则有95%的把握认为X与Y有关
三、填空题:本题共3小题,每小题5分,共15分.
12.(2024年宜春期中)已知成对样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥3)中x1,x2,…,xn互不相等,且所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组成对样本数据的样本相关系数r=________.
13.(2024年内蒙古月考)在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=ebx+a的周围.令=ln y,求得线性回归方程为令=0.25x-2.58,则该模型的非线性回归方程为________.
14.(2024年宜春期中)为了调查学生对网络课程是否喜爱,研究人员随机调查了相同人数的男、女学生,发现男生中有80%喜欢网络课程,女生中有40%不喜欢网络课程,且有95%的把握认为喜欢网络课程与性别有关,但没有99%的把握认为喜欢网络课程与性别有关.已知被调查的男、女学生的总人数为20k(k∈N*),则k=________.
附:χ2=.临界值表:
P(χ2≥x0) 0.050 0.010 0.005 0.001
x0 3.841 6.635 7.879 10.828
四、解答题:本题共5小题,共77分,解答应写出文字说明、证明过程或演算步骤.
15.(13分)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
新生 饮食习惯 合计
喜欢甜品 不喜欢甜品
南方学生 60 20 80
北方学生 10 10 20
合计 70 30 100
根据表中数据,依据α=0.05的独立性检验,能否认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”?
16.(15分)(2024年遵义月考)在2023年春节期间,某商场对销售的某商品一天的投放量x及其销量y进行调查,发现投放量x和销售量y之间的一组数据如下表所示:
投放量x 6 8 10 12
销售量y 2 3 5 6
通过分析,发现销售量y对投放量x具有线性相关关系.
(1)求销售量y对投放量x的回归直线方程;
(2)欲使销售量为8,则投放量应定为多少.(保留小数点后一位数)
附:=,=-.
17.(15分)(2024年滨州期末)为了加快实现我国高水平科技自立自强,某科技公司逐年加大高科技研发投入.图1是该公司2013年至2022年的年份代码x和年研发投入y(单位:亿元)的散点图,其中年份代码1-10分别对应年份2013-2022.
根据散点图,分别用模型①y=bx+a,②y=c+d作为年研发投入y关于年份代码x的经验回归方程模型,并进行残差分析,得到图2所示的残差图.结合数据,计算得到如下表所示的一些统计量的值:
(xi-)2 (ti-)2 (yi-)(xi-) (yi-)(ti-)
75 2.25 82.5 4.5 120 28.35
表中ti=,=ti.
(1)根据残差图,判断模型①和模型②哪一个更适宜作为年研发投入y关于年份代码x的经验回归方程模型?并说明理由;
(2)根据(1)中所选模型,求出y关于x的经验回归方程,并预测该公司2028年的高科技研发投入.
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归直线=+x的斜率和截距的最小二乘估计分别为=,=-.
18.(17分)(2024年河南月考)某剧场的座位数量是固定的,管理人员统计了最近在该剧场举办的五场表演的票价xi(单位:元)和上座率yi(上座人数与总座位数的比值)的数据,其中i=1,2,3,4,5,并根据统计数据得到如下的散点图:
(1)由散点图判断y=bx+a与y=c ln x+d哪个模型能更好地对y与x的关系进行拟合(给出判断即可,不必说明理由),并根据你的判断结果求回归方程.
(2)根据(1)所求的回归方程,预测票价为多少时,剧场的门票收入最多.
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为==,=-.参考数据:=240,=0.5,x=365 000,xiyi=457.5,设zi=ln xi,则zi≈27,z≈147.4,ziyi≈12.7;e5.2≈180,e5.4≈220,e6.4≈600.
19.(17分)(2024年长春月考)2024年1月4日,教育部在京召开全国“双减”工作视频调度会,会议要求进一步提高双减政治站位,将“双减”工作作为重中之重,坚定不移推进,成为受老师和家长关注的重要话题.某学校为了解家长对双减工作的满意程度进行问卷调查(评价结果仅有“满意”、“不满意”),从所有参与评价的对象中随机抽取120人进行调查,部分数据如表所示(单位:人):
项目 满意 不满意 合计
男性 10 50
女性 60
合计 120
(1)请将2×2列联表补充完整,试根据小概率值α=0.10的独立性检验,能否认为“对双减工作满意程度的评价与性别有关”?
(2)若将频率视为概率,从所有给出“满意”的家长中随机抽取3人,用随机变量X表示被抽到的男性家长的人数,求X的分布列;
(3)在抽出的120人中,从给出“满意”的家长中利用分层随机抽样的方法抽取10人,从给出“不满意”的对象中抽取m(m∈N*)人.现从这(10+m)人中,随机抽出2人,用随机变量Y表示被抽到的给出“满意”的女性家长的人数.若随机变量Y的数学期望不小于1,求m的最大值.
参考公式:χ2=,其中n=a+b+c+d.
参考数据:
P(χ2≥x0) 0.10 0.05 0.025 0.010 0.005 0.001
x0 2.706 3.841 5.024 6.635 7.879 10.828
参考答案
单项选择题
1.【答案】B
2.【答案】D
3.【答案】B
4.【答案】D
5.【答案】A
6.【答案】C
7.【答案】C 【解析】根据χ2检验结果,可知3.841<χ2=4.964<5.024,所以这个结论错误的可能性不超过0.050,即可知C正确.故选C.
8.【答案】C 【解析】由题意知,χ2≈3.11,因为2.706<3.11<3.841,所以有90%的把握认为“居民是否喜欢看电视剧”与性别有关.故选C.
二、多项选择题
9.【答案】BD 【解析】对于A,因为|rA|=0.97<|rB|=0.99,即A组数据比B组数据的相关性较弱,故A错误;对于B,决定系数R2越大,则其拟合的效果越好,故B正确;对于C,回归直线一定经过样本中心,但不一定经过其中一个样本点,故C错误;对于D,由z=6x+ln 2=ln y,得y=e6x+ln 2=e6x·eln 2=2·e6x,a=2,b=6,故D正确.故选BD.
10.【答案】AB 【解析】对于A,由于回归方程为=6-2.5x,有=-2.5<0,故变量y与x负相关,A正确;对于B,运用最小二乘法求得的经验回归直线一定经过样本点的中心(,),B正确;对于C,线性相关系数|r|越小,说明两个变量之间的线性相关性越弱,C错误;对于D,散点图中所有点都在直线y=0.92x-4.21上,则相关系数r=1,D错误.故选AB.
11.【答案】BCD 【解析】对于A,若2×2列联表中的每个数字均变成原来的2倍,则χ2==2×,此时χ2的值变为原来的2倍,故A错误;对于B,同一个样本中,|ad-bc|越小,说明两个变量的关系越弱,|ad-bc|越大,说明两个变量有关的关系越强,故B正确;对于C,独立性检验中,随机变量χ2的值越小,判定“两变量有关系”犯错误的概率越大,故C正确;对于D,根据独立性检验的意义可知χ2=5.012>3.841,所以有95%的把握认为X与Y有关,故D正确.故选BCD.
三、填空题
12.【答案】-1 【解析】因为所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,显然直线y=-x+1的斜率-<0,所以样本数据成负相关,样本相关系数为-1.
13.【答案】=e0.25x-2.58 【解析】由回归直线方程=0.25x-2.58,=ln y得ln y=0.25x-2.58,整理得y=e0.25x-2.58,所以该模型的回归方程为=e0.25x-2.58.
14.【答案】5或6 【解析】设男、女学生的总人数为2n,则2n=20k(k∈N*),所以χ2==.又因为有95%的把握认为喜欢网络课程与性别有关,但没有99%的把握认为喜欢网络课程与性别有关,所以3.841<≤6.635 80.661<2n≤139.335.又2n=20k(k∈N*),所以4.033四、解答题
15.解:零假设为H0:南方学生和北方学生在选用甜品的饮食习惯方面无差异.
χ2===≈4.762.
由于4.762>3.841=x0.05,依据α=0.05的独立性检验,我们推断H0不成立,即认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
16.解:(1)xiyi=6×2+8×3+10×5+12×6=158,
==9,==4,
x=36+64+100+144=344,
==0.7,=4-0.7×9=-2.3,
故回归直线方程为=0.7x-2.3.
(2)由题意知8=0.7x-2.3,解得x≈14.7.
所以销售量为8,则投放量应定为14.7.
17.解:(1)根据图2可知,模型①的残差波动性很大,说明拟合关系较差;
模型②的残差波动性很小,基本分布在0的附近,说明拟合关系很好,所以选择模型②更适宜.
(2)设t=,所以y=c+dt,
所以===6.3,=-=60.825,
所以y关于x的经验回归方程为=60.825+6.3,
令x=16,则=60.825+6.3×4=86.025,
即预测该公司2028年的高科技研发投入86.025亿元.
18.解:(1)由散点图知,散点趋向于递减的某条曲线附近,
所以y=c ln x+d能更好地对y与x的关系进行拟合.
设z=ln x,先求y关于z的线性回归方程.
由已知得=zi≈=5.4,
∴=====-0.5,
=-c=0.5-(-0.5)×5.4=3.2.
所以y关于z的线性回归方程为=-0.5z+3.2,
所以y关于x的回归方程为=-0.5ln x+3.2.
(2)设剧场的总座位数为M,由题意得门票收入为M(-0.5x ln x+3.2x),
设函数f(x)=-0.5x ln x+3.2x,则f′(x)=-0.5ln x+2.7,
当f′(x)<0,即x>e5.4时,函数单调递减,
当f′(x)>0,即0所以f(x)在x=e5.4≈220处取最大值,
所以剧场票价为220元时,剧场的门票收入最多.
19.解:(1)根据题意,得到2×2列联表如下:
满意 不满意 合计
男性 40 10 50
女性 60 10 70
合计 100 20 120
零假设:“对双减工作满意程度的评价与性别无关”,
χ2=≈0.686<2.706,
所以没有充分证据证明零假设不成立,
所以没有90%的把握认为“对双减工作满意程度的评价与性别有关”.
(2)从所有给出“满意”的家长中随机抽取1人为男性的概率为=,
且各次抽取之间相互独立,所以随机变量X~B,
所以P(X=0)==,P(X=1)=C××=,
P(X=2)=C××=,P(X=3)==,
故随机变量X的分布列为:
X 0 1 2 3
P
(3)从给出“满意”的观众中利用分层随机抽样的方法抽取10人,
其中男性有10×=4人,女性有10×=6人,所以随机变量Y的取值为0,1,2,
可得P(Y=0)=,P(Y=1)=,P(Y=2)=,
则随机变量Y的数学期望E(Y)=0×+1×+2×=,
则≥1,解得m≤2.又因为m∈N*,故m的最大值为2.