第3节 成对数据的统计分析
基础练
1.(2024·上海卷)已知沿海地区气温和海水表层温度相关,且样本相关系数为正数,对此描述正确的是( )
A.沿海地区气温高,海水表层温度就高
B.沿海地区气温高,海水表层温度就低
C.随着沿海地区气温由低到高,海水表层温度呈上升趋势
D.随着沿海地区气温由低到高,海水表层温度呈下降趋势
【答案】 C
【解析】 当沿海地区气温高时,海水表层温度的高低不确定,故A,B错误;因为样本相关系数为正数,故随着沿海地区气温由低到高,海水表层温度呈上升趋势,故C正确,D错误.
故选C.
2.某骑行爱好者在专业人士指导下对近段时间骑行锻炼情况进行统计分析,统计每次骑行期间的身体综合指标评分x与骑行用时y(单位:h)如下表:
身体综合 指标评分x 1 2 3 4 5
用时y/h 9.5 8.8 7.8 7 6.1
由上表数据得到的正确结论是( )
参考数据:=10,=7.412,(xi-)(yi-)=-8.6,≈8.609.
参考公式:样本相关系数r=.
A.身体综合指标评分x与骑行用时y正相关
B.身体综合指标评分x与骑行用时y的相关程度较弱
C.身体综合指标评分x与骑行用时y的相关程度较强
D.身体综合指标评分x与骑行用时y的关系不适合用线性回归模型拟合
【答案】 C
【解析】 因为样本相关系数r==≈-1.
即样本相关系数近似为-1,y与x负相关,且相关程度较强,从而可用线性回归模型拟合y与x的关系,所以选项A,B,D错误,C正确.故选C.
3.(2025·江苏盐城模拟)根据分类变量Ⅰ与Ⅱ的统计数据,计算得到χ2=2.954,则( )
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.变量Ⅰ与Ⅱ相关
B.变量Ⅰ与Ⅱ相关,这个结论犯错误的概率不超过0.1
C.变量Ⅰ与Ⅱ不相关
D.变量Ⅰ与Ⅱ不相关,这个结论犯错误的概率不超过0.1
【答案】 B
【解析】 零假设为H0:变量Ⅰ与Ⅱ不相关,
因为χ2=2.954>2.706,
依据小概率值α=0.1的独立性检验可知,推断H0不成立,
即认为变量Ⅰ与Ⅱ相关,这个结论犯错误的概率不超过0.1.故选B.
4.某医院为了提高服务水平和病人满意度,对一周前出院的病人进行电话回访.某天上午回访的5人中,通话时间(单位:s)如表所示.
序号x 1 2 3 4 5
时间y/s 37 65 21 m 32
根据表中数据,得到y关于x的经验回归方程=x+40.9.据此求出(5,32)的残差为-7.4,则m等于(残差=观测值-预测值)( )
A.45 B.25
C.37 D.7
【答案】 A
【解析】 由题意知,当x=5时,=5+40.9=32+7.4=39.4,解得=-0.3,
所以y关于x的经验回归方程为=-0.3x+40.9.
当x==3时,==-0.3×3+40.9=40,
所以×(37+65+21+m+32)=40,解得m=45.故选A.
5.(多选题)(2025·安徽芜湖模拟)已知由样本数据(xi,yi)(i=1,2,3,…,10)组成的一个样本,得到经验回归方程为=-x+3,且=4.剔除一个偏离经验回归直线较大的异常点(-5,-1)后,得到新的经验回归直线经过点(6,-4).则下列说法正确的是( )
A.相关变量x,y具有正相关关系
B.剔除该异常点后,样本相关系数的绝对值变大
C.剔除该异常点后的经验回归直线经过点(5,-1)
D.剔除该异常点后,随x值增加,相关变量y值减小速度变小
【答案】 BC
【解析】 依题意,原样本中,=-4+3=-1,剔除一个偏离经验回归直线较大的异常点(-5,-1)后,新样本中,==5,==-1,因此剔除该异常点后的经验回归直线经过点(5,-1),C正确;
由新的经验回归直线经过点(6,-4),得新的经验回归直线斜率为=-3,因此相关变量x,y具有负相关关系,A错误;
又|-3|>1,则剔除该异常点后,随x值增加相关变量y值减小速度变大,D错误;
由剔除的是偏离经验回归直线较大的异常点,得剔除该点后,新样本数据的线性相关程度变强,即样本相关系数的绝对值变大,B正确.故选BC.
6.(多选题)(2025·广东湛江模拟)某养老院有110名老人,经过一年的跟踪调查,过去的一年中他们是否患过某流行疾病和性别的相关数据如下表所示:
性别 是否患过某流行疾病 合计
患过该疾病 未患过该疾病
男 a=20 b a+b
女 c d=50 c+d
合计 a+c 80 110
下列说法正确的有( )
参考公式:χ2=,其中n=a+b+c+d.
附表:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.>
B.χ2>6.635
C.根据小概率值α=0.01的独立性检验,认为是否患过该流行疾病与性别有关联
D.根据小概率值α=0.01的独立性检验,没有充分的证据推断是否患过该流行疾病与性别有关联
【答案】 ABC
【解析】 根据列联表中的数据可求得a=20,b=30,c=10,d=50.
对于A,代入计算可得=>=,故A正确;
对于B,经计算可得χ2=≈7.486>6.635,故B正确;
对于C,D,结合附表数值以及独立性检验的实际意义,可根据小概率值α=0.01的独立性检验,认为是否患过该流行疾病与性别有关联,故C正确,D错误.故选ABC.
7.(2025·云南大理模拟)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如表对应数据.
x 1 3 4 5 7
y 15 20 30 40 45
根据表中数据得到y关于x的经验回归方程为=5.5x+,则当x=7时,残差为 .(残差=观测值-预测值)
【答案】 -1.5
【解析】 =×(1+3+4+5+7)=4,=×(15+20+30+40+45)=30,
因为经验回归直线过点(4,30),代入=5.5x+,可得30=5.5×4+,即=8,
当x=7时,=5.5×7+8=38.5+8=46.5,
所以残差为45-46.5=-1.5.
8.x和y的散点图如图所示,在相关关系中,若用=拟合时的决定系数为,用=x+拟合时的决定系数为,则,中较大的是 .
【答案】
【解析】 由题图知,用=拟合的效果比=x+拟合的效果要好,所以>,故较大者为.
9.(2025·江苏南京模拟)一项研究同年龄段的男、女生的注意力差别的脑功能实验,实验数据如下表.
注意力稳定 注意力不稳定
男生 29 7
女生 33 5
则χ2= (精确到小数点后三位),依据小概率值α=0.05的独立性检验(x0.05=3.841),该实验 (填“不支持”或“支持”)该年龄段的学生在注意力的稳定性上对于性别没有显著差异.
参考公式:χ2=,其中n=a+b+c+d.
【答案】 0.538 支持
【解析】 由表中数据可知,a=29,b=7,c=33,d=5,χ2=≈0.538<3.841,
所以没有足够把握认为该年龄段学生在注意力的稳定性上与性别有关,
即该实验支持该年龄段的学生在注意力的稳定性上对于性别没有显著差异.
10.(2025·广东汕头模拟)某汽车城统计新能源汽车从某天开始连续的营业天数x与销售总量y(单位:辆),采集了一组20对数据,并计算得到经验回归方程=0.67x+54.90,且这组数据中,连续的营业天数x的方差=200,销售总量y的方差=90.
(1)求样本相关系数r(结果保留小数点后4位),并推断y与x的相关程度;
(2)在这组数据中,若连续的营业天数x满足=2.2×104,试推算销售总量y的平均数 .
附:经验回归方程=x+,其中=,=-.
样本相关系数r=,≈2.236.
【解】 (1)因为r==
=·=·=0.67×=≈0.998 7,
可以推断连续的营业天数x与销售总量y这两个变量正线性相关,且相关程度很强.
(2)因为==(-2xi+)=(-2xi+)=-
=×22 000-=1 100-=200,所以=30(负值已舍去),
而=-,从而=+=0.67×30+54.90=75.
强化练
11.(2025·福建宁德模拟)在某次活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据(i,yi),其中i=1,2,3,4,5,yi为第i次入口人流量数据(单位:百人),由此得到y关于i的经验回归方程=log2(i+1)+5.已知=9,根据经验回归方程,可预测下午4点时入口游客的人流量为(参考数据:log23≈1.6,log25≈2.3)( )
A.9.6 B.11.0
C.11.3 D.12.0
【答案】 C
【解析】 设x=log2(i+1),i=1,2,3,4,5,则=x+5,
所以==≈=1.9,且=9,则9=×1.9+5,得=,所以=log2(i+1)+5,下午4点对应的i=7,此时预测入口的人流量=×log28+5≈
11.3.故选C.
12.(多选题)某农科所针对耕种深度x(单位:cm)与水稻每公顷产量(单位:t)的关系进行研究,所得部分数据如下表.
耕种深 度x/cm 8 10 12 14 16 18
每公顷 产量y/t 6 8 m n 11 12
已知mA.m+n=17 B.=
C.= D.ε1+ε2=-1
【答案】 ABD
【解析】 因为=510,=-6=24,所以=81,得到=9,
所以=9,得到m+n=17,故A正确;
因为==13,
又r==,=(8-13)2+(10-13)2+(12-13)2+(14-13)2+(16-13)2+
(18-13)2=70,
所以(xi-)(yi-)=××=40,所以===,故B正确;
因为=-=9-×13=,故C错误;
因为=x+,得到ε1=m-(×12+),ε2=n-(×14+),
所以ε1+ε2=m+n-18=-1,故D正确.故选ABD.
13.(2025·河北邢台模拟)有甲、乙两个班级共计100人进行体能测试,按照大于或等于80分为优秀,80分以下为非优秀统计成绩,得到如下所示的列联表:
优秀 非优秀 总计
甲班 10 b
乙班 c 30
已知在全部100人中随机抽取1人,成绩非优秀的概率为,则下列说法正确的有 .
(填序号)
①列联表中c的值为20,b的值为40;
②列联表中c的值为30,b的值为50;
③根据列联表中的数据,若依据小概率值α=0.025 的χ2独立性检验,能认为“成绩与班级有关系”;
④根据列联表中的数据,若依据小概率值α=0.025 的χ2独立性检验,不能认为“成绩与班级有关系”.
附:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.025 0.01 0.001
xα 2.706 3.841 5.024 6.635 10.828
【答案】 ①④
【解析】 由题意知,成绩非优秀的学生人数是100×=70,
成绩优秀的学生人数是30,所以c=20,b=40,
故①正确,②错误;
根据列联表中的数据,
得到χ2=≈4.762<5.024,
若依据小概率值α=0.025的χ2独立性检验。不能认为“成绩与班级有关系”.
故③错误,④正确.
14.(2025·山东济南模拟)某企业着力推进技术革新,利润稳步提高.统计该企业2020年至2024年的利润(单位:亿元),得到如图所示的散点图.其中2020年至2024年对应的年份代码依次为1,2,3,4,5.
(1)根据散点图判断y=a+bx和y=c+dx2哪一个适合作为企业利润y(单位:亿元)关于年份代码x的经验回归方程类型;(给出判断即可,不必说明理由)
(2)根据(1)中的判断结果,建立y关于x的经验回归方程;
(3)根据(2)的结果,估计2025年的企业利润.
参考公式及数据:
=,=-,
=55,=979,yi=390,xiyi=1 221,yi=4 607.9.
【解】 (1)由散点图的变化趋势,知y=c+dx2更适合作为企业利润y(单位:亿元)关于年份代码x的经验回归方程类型.
(2)由题意得,==11,=yi=78,
====0.85,
=-×=78-0.85×11=68.65,
所以=68.65+0.85x2.
(3)令x=6,=68.65+0.85×62=99.25,
估计2025年的企业利润为99.25亿元.
15.某兴趣小组调查并统计了某班级学生期末统考中的数学成绩和建立个性化错题本的情况,用来研究这两者是否有关.
(1)若该班级共有36名学生,建立列联表如下,依据小概率值α=0.005的独立性检验,分析学生期末统考中的数学成绩与建立个性化错题本是否有关;
个性化 错题本 期末统考中的数学成绩 合计
及格 不及格
建立 20 4 24
未建立 4 8 12
合计 24 12 36
(2)为进一步验证(1)中的判断,该兴趣小组准备在其他班级中抽取一个容量为36k的样本(假设根据新样本数据建立的列联表中,所有的数据都扩大为(1)中列联表中数据的k倍,且新列联表中的数据都为整数).若要使得依据α=0.001的独立性检验可以肯定(1)中的判断,试确定k的最小值.
参考公式及数据:χ2=,n=a+b+c+d.
α 0.01 0.005 0.001
xa 6.635 7.879 10.828
【解】 (1)零假设为H0:期末统考中的数学成绩与建立个性化错题本无关.
根据列联表中的数据,经计算得到χ2==9>7.879=x0.005.
根据小概率值α=0.005的独立性检验,我们推断H0不成立,即认为期末统考中的数学成绩与建立个性化错题本有关,此推断犯错误的概率不大于0.005.
(2)χ′2===9k≥10.828,解得k≥.
要使新列联表中的数据都为整数,则需4k∈Z.
又因为4k≥≈4.8,所以4k的最小值为5,故k的最小值是.第3节 成对数据的统计分析
基础练
1.(2024·上海卷)已知沿海地区气温和海水表层温度相关,且样本相关系数为正数,对此描述正确的是( )
A.沿海地区气温高,海水表层温度就高
B.沿海地区气温高,海水表层温度就低
C.随着沿海地区气温由低到高,海水表层温度呈上升趋势
D.随着沿海地区气温由低到高,海水表层温度呈下降趋势
2.某骑行爱好者在专业人士指导下对近段时间骑行锻炼情况进行统计分析,统计每次骑行期间的身体综合指标评分x与骑行用时y(单位:h)如下表:
身体综合 指标评分x 1 2 3 4 5
用时y/h 9.5 8.8 7.8 7 6.1
由上表数据得到的正确结论是( )
参考数据:=10,=7.412,(xi-)(yi-)=-8.6,≈8.609.
参考公式:样本相关系数r=.
A.身体综合指标评分x与骑行用时y正相关
B.身体综合指标评分x与骑行用时y的相关程度较弱
C.身体综合指标评分x与骑行用时y的相关程度较强
D.身体综合指标评分x与骑行用时y的关系不适合用线性回归模型拟合
3.(2025·江苏盐城模拟)根据分类变量Ⅰ与Ⅱ的统计数据,计算得到χ2=2.954,则( )
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.变量Ⅰ与Ⅱ相关
B.变量Ⅰ与Ⅱ相关,这个结论犯错误的概率不超过0.1
C.变量Ⅰ与Ⅱ不相关
D.变量Ⅰ与Ⅱ不相关,这个结论犯错误的概率不超过0.1
4.某医院为了提高服务水平和病人满意度,对一周前出院的病人进行电话回访.某天上午回访的5人中,通话时间(单位:s)如表所示.
序号x 1 2 3 4 5
时间y/s 37 65 21 m 32
根据表中数据,得到y关于x的经验回归方程=x+40.9.据此求出(5,32)的残差为-7.4,则m等于(残差=观测值-预测值)( )
A.45 B.25
C.37 D.7
5.(多选题)(2025·安徽芜湖模拟)已知由样本数据(xi,yi)(i=1,2,3,…,10)组成的一个样本,得到经验回归方程为=-x+3,且=4.剔除一个偏离经验回归直线较大的异常点(-5,-1)后,得到新的经验回归直线经过点(6,-4).则下列说法正确的是( )
A.相关变量x,y具有正相关关系
B.剔除该异常点后,样本相关系数的绝对值变大
C.剔除该异常点后的经验回归直线经过点(5,-1)
D.剔除该异常点后,随x值增加,相关变量y值减小速度变小
6.(多选题)(2025·广东湛江模拟)某养老院有110名老人,经过一年的跟踪调查,过去的一年中他们是否患过某流行疾病和性别的相关数据如下表所示:
性别 是否患过某流行疾病 合计
患过该疾病 未患过该疾病
男 a=20 b a+b
女 c d=50 c+d
合计 a+c 80 110
下列说法正确的有( )
参考公式:χ2=,其中n=a+b+c+d.
附表:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.>
B.χ2>6.635
C.根据小概率值α=0.01的独立性检验,认为是否患过该流行疾病与性别有关联
D.根据小概率值α=0.01的独立性检验,没有充分的证据推断是否患过该流行疾病与性别有关联
7.(2025·云南大理模拟)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如表对应数据.
x 1 3 4 5 7
y 15 20 30 40 45
根据表中数据得到y关于x的经验回归方程为=5.5x+,则当x=7时,残差为 .(残差=观测值-预测值)
8.x和y的散点图如图所示,在相关关系中,若用=拟合时的决定系数为,用=x+拟合时的决定系数为,则,中较大的是 .
9.(2025·江苏南京模拟)一项研究同年龄段的男、女生的注意力差别的脑功能实验,实验数据如下表.
注意力稳定 注意力不稳定
男生 29 7
女生 33 5
则χ2= (精确到小数点后三位),依据小概率值α=0.05的独立性检验(x0.05=3.841),该实验 (填“不支持”或“支持”)该年龄段的学生在注意力的稳定性上对于性别没有显著差异.
参考公式:χ2=,其中n=a+b+c+d.
10.(2025·广东汕头模拟)某汽车城统计新能源汽车从某天开始连续的营业天数x与销售总量y(单位:辆),采集了一组20对数据,并计算得到经验回归方程=0.67x+54.90,且这组数据中,连续的营业天数x的方差=200,销售总量y的方差=90.
(1)求样本相关系数r(结果保留小数点后4位),并推断y与x的相关程度;
(2)在这组数据中,若连续的营业天数x满足=2.2×104,试推算销售总量y的平均数 .
附:经验回归方程=x+,其中=,=-.
样本相关系数r=,≈2.236.
强化练
11.(2025·福建宁德模拟)在某次活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据(i,yi),其中i=1,2,3,4,5,yi为第i次入口人流量数据(单位:百人),由此得到y关于i的经验回归方程=log2(i+1)+5.已知=9,根据经验回归方程,可预测下午4点时入口游客的人流量为(参考数据:log23≈1.6,log25≈2.3)( )
A.9.6 B.11.0
C.11.3 D.12.0
12.(多选题)某农科所针对耕种深度x(单位:cm)与水稻每公顷产量(单位:t)的关系进行研究,所得部分数据如下表.
耕种深 度x/cm 8 10 12 14 16 18
每公顷 产量y/t 6 8 m n 11 12
已知mA.m+n=17 B.=
C.= D.ε1+ε2=-1
13.(2025·河北邢台模拟)有甲、乙两个班级共计100人进行体能测试,按照大于或等于80分为优秀,80分以下为非优秀统计成绩,得到如下所示的列联表:
优秀 非优秀 总计
甲班 10 b
乙班 c 30
已知在全部100人中随机抽取1人,成绩非优秀的概率为,则下列说法正确的有 .
(填序号)
①列联表中c的值为20,b的值为40;
②列联表中c的值为30,b的值为50;
③根据列联表中的数据,若依据小概率值α=0.025 的χ2独立性检验,能认为“成绩与班级有关系”;
④根据列联表中的数据,若依据小概率值α=0.025 的χ2独立性检验,不能认为“成绩与班级有关系”.
附:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.025 0.01 0.001
xα 2.706 3.841 5.024 6.635 10.828
14.(2025·山东济南模拟)某企业着力推进技术革新,利润稳步提高.统计该企业2020年至2024年的利润(单位:亿元),得到如图所示的散点图.其中2020年至2024年对应的年份代码依次为1,2,3,4,5.
(1)根据散点图判断y=a+bx和y=c+dx2哪一个适合作为企业利润y(单位:亿元)关于年份代码x的经验回归方程类型;(给出判断即可,不必说明理由)
(2)根据(1)中的判断结果,建立y关于x的经验回归方程;
(3)根据(2)的结果,估计2025年的企业利润.
参考公式及数据:
=,=-,
=55,=979,yi=390,xiyi=1 221,yi=4 607.9.
15.某兴趣小组调查并统计了某班级学生期末统考中的数学成绩和建立个性化错题本的情况,用来研究这两者是否有关.
(1)若该班级共有36名学生,建立列联表如下,依据小概率值α=0.005的独立性检验,分析学生期末统考中的数学成绩与建立个性化错题本是否有关;
个性化 错题本 期末统考中的数学成绩 合计
及格 不及格
建立 20 4 24
未建立 4 8 12
合计 24 12 36
(2)为进一步验证(1)中的判断,该兴趣小组准备在其他班级中抽取一个容量为36k的样本(假设根据新样本数据建立的列联表中,所有的数据都扩大为(1)中列联表中数据的k倍,且新列联表中的数据都为整数).若要使得依据α=0.001的独立性检验可以肯定(1)中的判断,试确定k的最小值.
参考公式及数据:χ2=,n=a+b+c+d.
α 0.01 0.005 0.001
xa 6.635 7.879 10.828