人教A版(2019)数学高二下期末复习-成对数据的统计分析(含解析)

文档属性

名称 人教A版(2019)数学高二下期末复习-成对数据的统计分析(含解析)
格式 docx
文件大小 787.3KB
资源类型 试卷
版本资源 人教A版(2019)
科目 数学
更新时间 2023-06-05 14:38:55

图片预览

内容文字预览

中小学教育资源及组卷应用平台
21世纪教育网(www.21cnjy.com)
成对数据的统计分析
知识体系:
2022-2023年度七校联考范围:
板块 期末分值 大题分布
导数 65 3个大题
计数原理 20 无
随机变量及其分布 65 3个大题
成对数据的统计分析
21世纪教育网(www.21cnjy.com)
知识清单:
回归分析
1.两个变量线性相关
(1)散点图:将样本中个数据点(i=1,2,…,)描在平面直角坐标系中得到的图形.
(2)正相关与负相关
①正相关:散点图中的点散布在从左下角到右上角的区域.
②负相关:散点图中的点散布在从左上角到右下角的区域.
2.回归直线的方程
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程:回归直线对应的方程叫回归直线的方程,简称回归方程.
(3)回归方程的推导过程:
①假设已经得到两个具有线性相关关系的变量的一组数据,,.
②设所求回归方程为,其中是待定参数.
③由最小二乘法得
相关系数:
样本相关系数r的取值范围为[-1,1].
若r>0时,成对样本数据正相关;
②若r<0时,成对样本数据负相关;
③当|r|越接近1时,成对样本数据的线性相关程度越强;
④当|r|越接近0时,成对样本数据的线性相关程度越弱.
其中,是回归方程的斜率,是截距.
回归直线方程
注意:在回归直线上
比较两个模型的拟合效果:
参数越大,残差平方和越小,拟合效果越好
参数越小,残差平方和越大,拟合效果越差
独立性检验
1.列联表
设,为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下:
总计
总计
2.独立性检验
利用随机变量(也可表示为)(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
随机变量越大,说明两个分类变量,关系越强;反之,越弱。
3.独立性检验的一般步骤
(1)根据样本数据列出列联表;
(2)计算随机变量的观测值k,查下表确定临界值k0:
(3)如果,就推断“X与Y有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”.
注意:
(1)通常认为时,样本数据就没有充分的证据显示“X与Y有关系”.
(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.
(3)先进行零假设
期末押题:
.选择题(共3小题)
1.下列说法正确的序号是  
①在回归直线方程中,当解释变量每增加一个单位时,预报变量平均增加0.8个单位;
②利用最小二乘法求回归直线方程,就是使得最小的原理;
③已知,是两个分类变量,若它们的随机变量的观测值越大,则“与有关系”的把握程度越小;
④在一组样本数据,,,,,,,,,,不全相等)的散点图中,若所有样本,,2,,都在直线上,则这组样本数据的线性相关系数为.
A.①③ B.①② C.②④ D.③④
2.用模型拟合一组数据组,,2,,,其中;设,得变换后的线性回归方程为,则  
A. B.70 C. D.35
3.设两个相关变量和分别满足下表:
1 2 3 4 5
1 2 8 8 16
若相关变量和可拟合为非线性回归方程,则当时,的估计值为  
(参考公式:对于一组数据,,,,,,,其回归直线的斜率和截距的最小二乘估计公式分别为:,;
A.33 B.37 C.65 D.73
二.多选题(共2小题)
4.下列说法中,正确的命题有  
A.已知随机变量服从正态分布,,则
B.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则, 的值分别是和0.3
C.8个完全相同的球放入编号为1,2,3的三个空盒中,要求放入后3个盒子均不空且数量均不同,则有12种放法
D.若样本数据,,,的方差为2,则数据的方差为4
5.下列命题正确的是  
A.两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1
B.对具有线性相关关系的变量、,有一组观测数据,,2,,,其线性回归方程是,且,则实的值是
C.已知样本数据,,,的方差为4,则,,,的标准差是4
D.已知随机变量,若,则
三.解答题(共3小题)
6.经验表明,一般树的直径(树的主干在地面以上处的直径)越大,树就越高.由于测量树高比测量直径困难,因此研究人员希望由树的直径预测树高.在研究树高与直径的关系时,某林场收集了某种树的一些数据如表:
编号 1 2 3 4 5 6
直径 19 22 26 29 34 38
树高 5 7 10 12 14 18
(1)请用样本相关系数(精确到说明变量和满足一元线性回归模型;
(2)建立关于的一元线性回归方程;并估计当树的直径为时,树高为多少?(精确到
附参考公式:相关系数回归直线的斜率和截距的最小二乘估计公式分别为:,
参考数据:
7.根据国家统计局统计,我国年的新生儿数量如下:
年份编号 1 2 3 4 5
年份 2018 2019 2020 2021 2022
新生儿数量(单位:万人) 1523 1465 1200 1062 956
(1)由表中数据可以看出,可用线性回归模型拟合新生儿数量与年份编号的关系,请用相关系数说明相关关系的强弱;,则认为与线性相关性很强)
(2)建立关于的回归方程,并预测我国2025年的新生儿数量.
参考公式及数据:,,,,,.
8.奥密克戎变异毒株的潜伏期又缩短了,但具体到个人,感染后潜伏期的长短还是有个体差异的.潜伏期是指已经感染了奥密克戎变异株,但未出现临床症状的和体征的一段时期,奥密克戎潜伏期做核算检测可能为阴性,建议可以多做几次核算检测,有助于明确诊断.某研究机构对某地1000名患者进行了调查和统计,得到如下表:
潜伏期:(单位:天) , , , , , , ,
人数 80 210 310 250 130 15 5
(1)求这1000名患者的潜伏期的样本平均值.
(2)该传染病的潜伏期受诸多因素的影响,为研究潜伏期与患者年龄的关系,以潜伏期是否超过6天为标准进行分层抽样,从上述1000名患者中抽取300人,得到如下列联表请将列联表补充完整,并根据列联表判断是否有的把握认为潜伏期与患者年龄有关.
潜伏期天 潜伏期天 总计
50岁以上(含 150
50岁以下 85
总计 300
(3)为了做好防疫工作,各个部门、单位抓紧将各项细节落到实处,对“确诊”、“疑似”、“无法明确排除”和“确诊密接者”等“四类”人员,强化网格化管理,不落一户、不漏一人.若在排查期间,某小区有5人被确认为“确诊患者的密接接触”,现医护人员要对这5人进行逐一“单人单管”核酸检测,只要出现一例阳性,则该小区将被划为“封控区”.假设每人被确诊的概率为且相互独立,若当时,至少检测了4人该小区就被划为“封控区”的概率取得最大值,求.
附:,其中
0.15 0.10 0.05 0.025 0.010 0.005
2.072 2.706 3.841 5.024 6.635 7.879
参考答案与试题解析
一.选择题(共3小题)
1.【解答】解:对于①,在回归直线方程中,当解释变量每增加一个单位时,预报变量平均增加0.8个单位,故①正确;
对于②,用离差的平方和,即:作为总离差,并使之达到最小;
这样回归直线就是所有直线中取最小值的那一条,
由于平方又叫二乘方,所以这种使“离差平方和为最小”的方法叫做最小二乘法;
所以利用最小二乘法求回归直线方程,就是使得最小的原理;故②正确;
对于③,对分类变量与,对它们的随机变量的观测值来说,越小,则“与有关系”的把握程度越小,故③错误;
对于④,相关系数反映的是两变量之间线性相关程度的强弱,与回归直线斜率无关,题中样本数据的线性相关系数为,故④错误.
故选:.
2.【解答】解:因为,所以,,
即.,
所以.
故选:.
3.【解答】解:令,则,
,,


故,
当时,.
故选:.
二.多选题(共2小题)
4.【解答】解:对于,服从正态分布,且,于是得,故错误;
对于,由得,依题意得,,即,故正确;
对于,将8个相同的球放进三个不同的盒子,可以等价于在8个球中间插两个板,将它分成3份并对应放到三个不同盒子中,共有种分法,
要求每个盒子中球的数量不相同,考虑存在相同的情况,首先不可能三个盒子数量均相同,只有两个盒子数量相同共3种情况:1、1、6,2、2、4,3、3、2,有种放法,故正确;
对于,若样本数据,,,的方差为2,则数据的方差为,故错误.
故选:.
5.【解答】解:两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,故正确;
,,由得,故正确;
样本数据,,,的方差为4,则样本数据,,,的方差为,标准差为4,正确;
随机变量,若,则,
则,故错误.
故选:.
三.解答题(共3小题)
6.【解答】解:(1),故,
,故,

故和成线性正相关,满足一元回归模型.
(2),,
,当 时,.
7.【解答】解:(1),,
,,

新生儿数量与年份编号具有很强的负相关性;
(2),


取,得.
预测我国2025年的新生儿数量为472.7万人.
8.【解答】解:(1)根据统计数据,计算平均数为(天;
(2)依题意潜伏期不超过6天的抽取人,
所以超过6天的抽取人,
所以可得列联表如下:
潜伏期天 潜伏期天 总计
50岁以上(含 95 55 150
50岁以下 85 65 150
总计 180 120 300
零假设:潜伏期和年龄独立。
根据列联表计算,
所以没有的把握认为潜伏期与年龄有关;
(3)至少检测4人该小区被测定为“封控区”包含两种情况:
①检测4次被确定,②检测5次被确定,
则至少检测了4人该小区被确定为“封控区”的概率为,
设,

,当时,当时,
即在上单调递增,在上单调递减,
所以时函数取得极大值即最大值,
当时,最大,.
同课章节目录