第八章 成对数据的统计分析 本 章 复 习
一、 单项选择题
1 在某活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据(i,yi),其中i=1,2,3,4,5,yi为第i次入口人流量数据(单位:百人),由此得到y关于i的经验回归方程=log2(i+1)+5.已知=9,根据回归方程,可预测下午4点时入口游客的人流量为(参考数据:log23≈1.6,log25≈2.3)( )
A. 9.6 B. 10.0 C. 11.3 D. 12.0
2 关于等高堆积条形图,下列说法中错误的是( )
A. 可用颜色和高度两个指标表示两种分类变量的信息
B. 可以估计个体的有关比例
C. 能估计“X与Y有关系”成立的可能性
D. 用ad和bc的差别表示“X与Y有关系”成立的可能性
3 某运动制衣品牌为了成衣尺寸更精准,现选择15名 志愿者,对其身高和臂展进行测量(单位:cm),如图为身高与臂展所对应的散点图,并求得其经验回归方程为y∧ =1.16x-30.75,则下列结论中正确的为( )
A. 15名志愿者身高的极差大于臂展的极差
B. 身高相差10 cm的两人臂展相差11.6 cm
C. 身高为190 cm的人臂展一定为189.65 cm
D. 15名志愿者身高和臂展成正相关关系
4 (2024重庆南开中学期中)某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为6m(m∈N*),男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.若有99%的把握认为喜欢短视频和性别有关联,则m的最小值为( )
附:χ2=.
临界值表:
α 0.050 0.010
xα 3.841 6.635
A. 18 B. 20 C. 22 D. 24
5 (2024呼和浩特月考)恩格尔系数是食品支出总额占个人消费支出总额的比值,恩格尔系数越小,消费结构越完善,生活水平越高.某学校社会调查小组通过调查得到如下数据:
年个人消费总额x/万元 1 1.5 2 2.5 3
恩格尔系数y 0.9 0.8 0.5 0.2 0.1
若y与x之间具有线性相关关系,老张年个人消费支出总额为2.8万元,据此估计其恩格尔系数为(参考数据:-5·=-1.1,-52=2.5;参考公式:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线y=x+的斜率和截距的最小二乘法估计分别为=,=-)( )
A. 0.148 B. 0.138
C. 0.248 D. 0.238
6 红铃虫是棉花的主要害虫之一,一只红铃虫的产卵数和温度有关.现收集了7组观测数据,用4种模型分别进行拟合.由此得到相应的回归方程并进行残差分析,进一步得到如图所示的4幅残差图.根据残差图,拟合效果最好的模型是( )
模型一的残差图
模型二的残差图
模型三的残差图
模型四的残差图
A. 模型一 B. 模型二
C. 模型三 D. 模型四
二、 多项选择题
7 (2024烟台月考)关于统计量χ2,下列说法中正确的是( )
A. 统计量χ2的值越大,两个分类变量的线性相关程度越强
B. 若求出统计量χ2=6.31,由于6.31比较接近x0.01=6.635,因此能推断两个分类变量有关系,且犯错误概率不超过0.01
C. 独立性检验的本质是比较观测值与期望值之间的差异,由统计量χ2所代表的这种差异的大小是通过确定适当的小概率值来进行判断的
D. 根据统计量χ2的构造过程可知,χ2的值越小,零假设H0成立的可能性越大
8 (2024南通二模)某农科所针对耕种深度x(单位:cm)与水稻每公顷产量(单位:t)的关系进行研究,所得部分数据如下表:
耕种深度x/cm 8 10 12 14 16 18
每公顷产量y/t 6 8 m n 11 12
已知mA. m+n=17 B. =
C. = D. ε1+ε2=-1
三、 填空题
9 (2024吉安期中)用模型y=aebx拟合一组数据(xi,yi)(i=1,2,…,9),其中y1y2…y9=e51.设z=ln y,则变换后的经验回归方程为=x+5,则x1+x2+…+x9=________.
10 (2024驻马店月考)给出下列说法:①经验回归直线=x+必过点(, );②独立性检验的统计假设是各事件之间相互独立;③相关系数r越小,表明两个变量相关性越弱;④在一个2×2列联表中,由计算得χ2=8.079,则有99%的把握认为这两个变量间有关系.其中正确说法的序号是________.
11 (2024东莞期中)已知x,y之间的一组数据如下表:
x 1 4 9 16
y 1 2.98 5.01 7.01
若y与满足经验回归方程=b+a,则此曲线必过点________.
四、 解答题
12 (2024十堰月考)近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业2019年至2023年的利润(单位:亿元),得到如图所示的散点图.其中2019年至2023年对应的年份代码依次为1,2,3,4,5.
(1) 根据散点图判断,y=a+bx和y=c+dx2哪一个适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型?
(2) 根据(1)中的判断结果,建立y关于x的回归方程;
(3) 根据(2)的结果,估计2024年的企业利润.
参考公式:=,=-x.
参考数据:=55,=979,=390,=1221,=4 607.9.
13 某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层随机抽样的方法从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到的25周岁以上(含25周岁)组和25周岁以下组的频率分布直方图分别如图1,图2.
图1 图2
(1) 从样本中日平均生产件数不足60的工人中随机抽取2人,求至少抽到一名25周岁以下工人的概率;
(2) 规定日平均生产件数不少于80者为生产能手,请你根据已知条件列出2×2列联表,并依据α=0.1的独立性检验,分析生产能手与工人所在的年龄组是否有关.
附:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
χ2=,其中n=a+b+c+d.
第八章 成对数据的统计分析
本 章 复 习
1. C 设x=log2(i+1),i=1,2,3,4,5,则=x+5,所以==≈=1.9,且=9,则9=×1.9+5,得=,所以=log2(i+1)+5,下午4点对应的i=7,预测此时游客的人流量为=×log28+5≈11.3.
2. D 颜色和高度是两个不同指标,可以用来表示两种分类变量的信息,故A正确;由等高堆积条形图的性质可知,条形图可以估计个体的有关比例,故B正确;通过等高堆积条形图中的比例分布,可以估计“X与Y有关系”成立的可能性,故C正确;由独立性检验的观测值计算公式χ2=可知,D错误.
3. D 对于A,身高极差大约是18,臂展极差大约是23,故A不正确;对于B,身高相差10 cm的两人展臂的估计值相差11.6 cm,但不是准确值,经验回归方程上的点并不都是准确的样本点,故B不正确;对于C,身高为190 cm,代入经验回归方程可得臂展等于189.65 cm,但不是准确值,故C错误;对于D,很明显根据散点图以及回归方程得到,身高矮展臂就会短一些,身高高一些,展臂就会长一些,故D正确.
4. B 根据题意,可得如下的2×2列联表:
喜欢 不喜欢 合计
男 3m 3m 6m
女 4m 2m 6m
合计 7m 5m 12m
所以χ2==.因为有99%的把握认为喜欢短视频和性别相关联,即χ2≥6.635,所以≥6.635,所以m≥19.352.又m∈N*,则m的最小值为20.
5. A ===-0.44,=0.5,=2,故=-=0.5-(-0.44)×2=1.38,则=-0.44x+1.38,所以估计老张的恩格尔系数为-0.44×2.8+1.38=0.148.
6. D 当残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明拟合精度越好,拟合效果越好.对比4个残差图,可知模型四的图对应的带状区域的宽度最窄.
7. CD 对于A,统计量χ2的值越大,两个分类变量的相关的可能性越大,与线性相关程度无关,故A错误;对于B,因为χ2=6.31<6.635,在犯错误概率不超过0.01的前提下,没有足够条件推断两个分类变量有关系,故B错误;对于C,根据独立性检验思想可知,独立性检验的本质是比较观测值与期望值之间的差异,由统计量χ2所代表的这种差异的大小是通过确定适当的小概率值来进行判断的,故C正确;对于D,根据独立性检验思想可知χ2的值越小,零假设H0成立的可能性越大,故D正确.故选CD.
8. ABD 对于A,因为=510,=-62=24,所以2=81,可得=9,所以×(6+8+m+n+11+12)=9,可得m+n=17,故A正确;对于B,因为=×(8+10+12+14+16+18)=13,又r==,=(8-13)2+(10-13)2+(12-13)2+(14-13)2+(16-13)2+(18-13)2=70,所以=××=40,所以===,故B正确;对于C,=-=9-×13=,故C错误;对于D,因为=x+,所以ε1=m-(×12+),ε2=n-,所以ε1+ε2=m+n-18=-1,故D正确.故选ABD.
9. 6 因为经验回归直线=x+5恒过点(,),又因为y1y2…y9=e51,ln (y1y2…y9)=51,即=×(ln y1+ln y2+…+ln y9)==,所以=+5=,解得=.又==,所以x1+x2+…+x9=6.
10. ①②④ ①显然正确;对于②,独立性检验的统计假设是各事件之间相互独立,故②正确;对于③,相关系数r的绝对值越小,表明两个变量相关性越弱,故③错误;对于④,在一个2×2列联表中,由计算得χ2=8.079>6.635,则有99%的把握认为这两个变量间有关系,故④正确.
11. (6.25,4) 依题意,得的平均数为=2.5,y的平均数为=4,所以此曲线必过点(6.25,4).
12. (1) y=c+dx2适宜,由散点图可知,相关点并不聚集在一条直线上,所以要用非线性模型拟合,故用y=c+dx2作为企业利润y关于年份代码x的回归方程类型.
(2) 由题意,得=(xi)2=11,==78,===0.85,
=-×()=78-0.85×11=68.65,
所以=68.65+0.85x2.
(3) 令x=6,则=68.65+0.85×62=99.25,
所以估计2024年的企业利润为99.25亿元.
13. (1) 由已知,得样本中有25周岁以上(含25周岁)工人60名,25周岁以下工人40名,
所以样本中日平均生产件数不足60的工人中,25周岁以上(含25周岁)的工人有60×0.05=3(名),记为A1,A2,A3;25周岁以下的工人有40×0.05=2(名),记为B1,B2.从中随机抽取2名工人,所有的可能结果共有10种,它们是(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).
其中,至少有一名25周岁以下工人的可能结果共有7种,它们是(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2),故所求概率P=.
(2) 由题中频率分布直方图可知,在抽取的100名工人中,25周岁以上(含25周岁)的生产能手有60×0.25=15(名),25周岁以下的生产能手有40×0.375=15(名),据此可得2×2列联表如下:
单位:名
生产能手 非生产能手 合计
25周岁以上(含25周岁) 15 45 60
25周岁以下 15 25 40
合计 30 70 100
零假设为H0:生产能手与工人所在的年龄组无关.
χ2=≈1.79<2.706=x0.1.
依据α=0.1的独立性检验,没有充分证据推断H0不成立,因此认为H0成立,即认为生产能手与工人所在的年龄组无关.