人教版高中数学理科选修2-3同步练习题、期中、期末复习资料、补习资料:22《统计案例》单元复习巩固

文档属性

名称 人教版高中数学理科选修2-3同步练习题、期中、期末复习资料、补习资料:22《统计案例》单元复习巩固
格式 zip
文件大小 369.5KB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2019-07-22 09:39:52

图片预览

文档简介

《统计案例》单元复习巩固
【学习目标】
1. 了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用.
2. 通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用.
3. 通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤.
4. 能作出散点图,能求其回归直线方程。
5. 会用所学的知识对简单的实际问题进行回归分析。
【知识网络】
【要点梳理】
要点一、分类变量
有一种变量,这种变量所取不同的“值”表示的是个体所属不同类别,称这种变量为分类变量。
要点诠释:
(1)对分类变量的理解。
这里的“变量”和“值”都应作为广义的“变量”和“值”进行理解。例如:“性别变量”有“男”和“女”两种类别,这里的变量指的是性别,同样这里的“值”指的是“男”和“女”。因此,这里所说的“变量”和“值”取的不一定是具体的数值。
(2)分类变量可以有多种类别。例如:吸烟变量有“吸烟”与“不吸烟”两种类别,而国籍变量则有多种类别。
要点二、2×2列联表
1. 列联表
用表格列出的分类变量的频数表,叫做列联表。
2. 2×2列联表
对于两个事件A,B,列出两个事件在两种状态下的数据,如下表所示:
事件B
事件
合计
事件A
a
b
a+b
事件
c
d
c+d
合计
a+c
b +d
a+b+c+d
这样的表格称为2×2列联表。
要点三:卡方统计量公式
为了研究分类变量X与Y的关系,经调查得到一张2×2列联表,如下表所示
Y1
Y2
合计
X1
a
b
a+b
X2
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
统计中有一个有用的(读做“卡方”)统计量,它的表达式是:
(为样本容量)。
要点四、独立性检验
独立性检验
通过2×2列联表,再通过卡方统计量公式计算的值,利用随机变量来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
变量独立性的判断
通过对统计量分布的研究,已经得到两个临界值:3.841和6.635。当数据量较大时,在统计中,用以下结果对变量的独立性进行判断:
①如果≤3.841时,认为事件A与B是无关的。
②如果>3.841时,有95%的把握说事件A与事件B有关;
③如果>6.635时,有99%的把握说事件A与事件B有关;
要点诠释:
(1)独立性检验一般是指通过计算统计量的大小对两个事件是否有关进行判断;
(2)独立性检验的基本思想类似于反证法。即在H0:事件A与B无关的统计假设下,利用统计量的大小来决定在多大程度上拒绝原来的统计假设H0,即拒绝“事件A与B无关”,从而认为事件A与B有关。独立性检验为假设检验的特例。
(3)利用独立性检验可以考察两个分类变量是否有关,并且能较精确地给出这种判断的把握程度。
3.独立性检验的基本步骤及简单应用
独立性检验的步骤:
要推断“A与B是否有关”,可按下面步骤进行:
(1)提出统计假设H0:事件A与B无关(相互独立);
(2)抽取样本(样本容量不要太小,每个数据都要大于5);
(3)列出2×2列联表;
(4)根据2×2列联表,利用公式:,计算出的值;
(5)统计推断:当>3.841时,有95%的把握说事件A与B有关;
当>6.635时,有99%的把握说事件A与B有关;
当>10.828时,有99.9%的把握说事件A与B有关;
当≤3.841时,认为事件A与B是无关的.
要点诠释:
使用统计量作2×2列联表的独立性检验时,要求表中的4个数据都要大于5.
一定要弄清的表达式中各个量的含义.
独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量应该很小,如果由观测数据计算得到的的观测值很大,则在一定程度上说明假设不合理.根据随机变量的含义,由实际计算的>6.635,说明假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.当≤3.841时,认为两个分类变量是无关的.
要点五、变量间的相关关系
1. 变量与变量间的两种关系:
(1) 函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法则唯一确定.例如圆的面积.S与半径r之间的关系S=πr2为函数关系.
(2)相关关系:这是一种非确定性关系.当一个变量取值一定时,另一个变量的取值带有一定的随机性,这两个变量之间的关系叫做相关关系。例如人的身高不能确定体重,但一般来说“身高者,体重也重”,我们说身高与体重这两个变量具有相关关系.
2. 相关关系的分类:
(1)在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量;
(2)两个变量均为随机变量,如某学生的语文成绩与化学成绩.
3. 散点图:
将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图.它直观地描述了两个变量之间有没有相关关系.这是我们判断的一种依据.
4. 回归分析:
与函数关系不同,相关关系是一种非确定性关系,对具有相关关系的两个变量进行统计分析的方法叫做回归分析。
要点六、线性回归方程:
1.回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
2.回归直线方程
对于一组具有线性相关关系的数据,,……,,其回归直线的截距和斜率的最小二乘法估计公式分别为:

其中表示数据xi(i=1,2,…,n)的均值,表示数据yi(i=1,2,…,n)的均值,表示数据xiyi(i=1,2,…,n)的均值.
、的意义是:以为基数,x每增加一个单位,y相应地平均变化个单位.
要点诠释:
①回归系数,也可以表示为,这样更便于实际计算。
②;。
③称为样本中心点,回归直线必经过样本中心点。
④回归直线方程中的表示x增加1个单位时的变化量,而表示不随x的变化而变化的量。
3.求回归直线方程的一般步骤:
①作出散点图
由样本点是否呈条状分布来判断两个量是否具有线性相关关系,若存在线性相关关系,进行第二步。
②求回归系数、
计算,,
,,
利用公式求出,
再由求出的值;
③写出回归直线方程;
④利用回归直线方程预报在x取某一个值时y的估计值。
要点诠释:
一般地,我们可以利用回归直线方程进行预测,但这里所得到的值是预报值,而不是精确值,它带有很大的随机性,可能对于某一次的实际值而言会有很大的出入,这是因为:
(1)回归直线的截距和斜率都是通过样本估计出来的,存在随机误差,这种误差可以导致预测结果的偏差。
(2)即使截距和斜率的估计没有误差,也不可能保证对应于x的预报值能够与实际值y很接近。我们不能保证点(x,y)落在回归直线上,甚至不能保证它落在回归直线的附近,事实上,,这里是随机变量,预报值与实际值y的接近程度由随机变量决定。
尽管我们利用回归直线方程所得到的值仅是一个预报值,它具有随机性,但它是我们根据统计规律所得到的结论,因而结论正确的概率很大。故我们可以放心地利用回归直线方程进行预测。
要点七、相关性检验
(1)相关系数r的定义
对于变量x与y随机抽取到的n对数据,,……,,称为x与y的样本相关系数。
(2)相关系数r的作用
样本相关系数r用于衡量两个变量之间是否具有线性相关关系,描述线性相关关系的强弱:

越接近1,表明两个变量之间的线性相关程度越强;越接近0,表明两个变量之间的线性相关程度越弱。
②当r>0时,表明两个变量正相关, 即x增加,y随之相应地增加,若x减少,y随之相应地减少.
当r<0时,表明两个变量负相关, 即x增加,y随之相应地减少;若x减少,y随之相应地增加.
若r=0,则称x与y不相关。
③当,认为x与y之间具有很强的线性相关关系。
④当大于时,表明有95%的把握认为x与y之间具有线性相关关系,这时求回归直线方程有必要也有意义,当时,寻找回归直线方程就没有意义。
(3)利用相关系数r检验的一般步骤:
法一:
①作统计假设:x与y不具有线性相关关系。
②根据样本相关系数计算公式算出r的值。
③比较与0.75的大小关系,得出统计结论。如果,认为x与y之间具有很强的线性相关关系。
法二:
①作统计假设:x与y不具有线性相关关系。
②根据样本相关系数计算公式算出r的值。
③根据小概率0.05与n-2在相关性检验的临界值表中查出r的一个临界值(n未数据的对数)。
④比较与,作统计推断,如果,表明有95%的把握认为x与y之间具有线性相关关系。如果,我们没有理由拒绝原来的假设,即不认为x与y之间具有线性相关关系。这时寻找回归直线方程是毫无意义的。
要点八、线性回归分析与非线性回归分析
1.线性回归分析
对于回归分析问题,在解题时应首先利用散点图或相关性检验判断x与y是否具有线性相关关系,如果线性相关,才能求解后面的问题.否则求线性回归方程没有实际意义,它不能反映变量x与y,之间的变化规律.只有在x与y之间具有相关关系时,求线性回归方程才有实际意义.
相关性检验的依据:主要利用检验统计量

(其中化简式容易记也好用)求出检验统计量的样本相关系数,再利用r的性质确定x和y是否具有线性相关关系,r具有的性质为:|r|≤1且|r|越接近于1,线性相关程度越强;|r|越接近于0,线性相关程度越弱.
2. 线性回归分析的一般步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)判断两变量是否具有线性相关关系
①作散点图
由样本点是否呈条状分布来判断两个量是否具有线性相关关系。
②求相关系数r
当,认为x与y之间具有很强的线性相关关系。
(3)若两变量存在线性相关关系,设所求的线性回归方程为,求回归系数、。
(4)写出回归直线方程;
(5)利用回归直线方程预报在x取某一个值时y的估计值。
3.非线性回归分析
(1)对于非线性回归分析问题,如果给出了经验公式可直接利用换元,使新元与y具有线性相关关系,进一步求出,,对新元的线性回归方程,换回x即可得y对x的回归曲线方程.
(2)非线性回归问题有时并不给出经验公式,这时按以下步骤求回归方程:
①画出已知数据的散点图,看是否是线性回归分析问题,如果不是,把它与必修数学中学过的函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,采用适当的变量置换,把非线性回归分析问题化为线性回归分析问题.
②作相关性检验,即判断寻找线性回归方程是否有意义.
③当寻找线性回归方程有意义时,计算系数,,得到线性回归方程.
④代回x得y对x的回归曲线方程.
【典型例题】
类型一、独立性检验及应用
例1.(2018 张掖校级模拟)某校通过随机询问100名性别不同的学生是否能做到“光盘”行动,得到所示联表:
附:
A.在犯错误的概率不超过1%的前提下,认为“该校学生能否做到‘光盘’与性别无关”
B.有99%以上的把握认为“该校学生能否做到‘光盘’与性别无关”
C.在犯错误的概率不超过10%的前提下,认为“该校学生能否做到‘光盘’与性别有关”
D.有90%以上的把握认为“该校学生能否做到‘光盘’与性别无关”
【答案】C
【思路点拨】通过图表读取数据,代入观测值公式计算,然后参照临界值表即可得到正确结论。
【解析】由2×2列联表得到a=45,b=10,c=30,d=15。
则a+b=55,c+d=45,a+c=75,b+d=25,ad=675,bc=300,n=100。
代入,
得k2的观测值。
因为2.706<3.030<3.841。
所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”。
即在犯错误的概率不超过10%的前提下,认为“该校学生能否做到‘光盘’与性别有关”
故选C。
【总结升华】本题是一个独立性检验,我们可以利用临界值的大小来决定是否拒绝原来的统计假设,若值较大就拒绝假设,即拒绝两个事件无关。
举一反三:
【变式】(2018春 香坊区校级期中)在一次独立性检验中,有300人按性别和是否色弱分类如下表:
由此表计算得统计量K2=( )(参考公式:)
A.2 B.3 C.2.4 D.3.6
【答案】C

故选C。
例2.(2018春 遵义校级期末)在对人们的休闲方式的一次调查中,共调查了120人,其中女性65人,男性55人。女性中有40人主要的休闲方式是看电视,另外25人主要的休闲方式是运动;男性中有20人主要的休闲方式是看电视,另外35人主要的休闲方式是运动。
其中n=a+b+c+d

(1)根据以上数据建立一个2×2的列联表;
(2)能够以多大的把握认为性别与休闲方式有关系,为什么?
【答案】(1)略(2)99%
【思路点拨】(1)根据题目所给的数据填写2×2列联表即可;
(2)计算K的观测值K2,对照题目中的表格,得出统计结论。
【解析】(1)根据题目所给数据得到如下2×2的列联表:

(2)假设H:“性别与休闲方式没有关系”,
则K的观测值:;
由于7.552>6.635,
∴有99%的把握认为休闲方式与性别是有关的。
举一反三:
【变式】(2018春 福建期末)随着移动互联网的深入普及,用手机上的网的人数日益增多,某教育部门成立了调查小组,调查“常上网与高度近视的关系”,对某校高中二年级800名学生进行检验,得到如下2×2列联表:

根据列联表的数据,计算得到K2≈7.524,则( )
A.有99.5%的把握认为常上网与高度近视有关
B.有99.5%的把握认为常上网与高度近视无关
C.有99%的把握认为常上网与高度近视有关
D.有99%的把握认为常上网与高度近视无关
【答案】∵根据表中数据,得到X2的观测值K2≈7.524>6.635,
由于P(K2≥36.636)≈0.01,
∴有99%的把握认为常上网与高度近视有关。
故选:C。
类型二、线性回归方程
例3.(2018 石嘴山校级二模)已知x、y取值如表:

画散点图分析可知:y与x线性相关,且求得回归方程为,则m的值(精确到0.1)为( )
A.1.5 B.1.6 C.1.7 D.1.8
【答案】C
【思路点拨】将代入回归方程为可得,则4m=6.7,即可得出结论。
【解析】将代入回归方程为可得,则4m=6.7,解得m=1.675,
即精确到0.1后m的值为1.7。
故选C。
【总结升华】线性回归直线一定过样本中心点,即 。
举一反三:
【变式】(2018·福建模拟)已知x与y之间的一组数据,则y与x的线性回归方程必过点( )

A.(2,2) B.(1,2) C.(1.5,4) D.(1.5,0)
【答案】C
【解析】回归方程必过点,
∵,,
∴回归方程过点(1.5,4)。
故选:C
类型三、线性相关及回归方程的应用
例4.(2018 河南二模 )下列说法错误的是( )
A.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;
B.在线性回归分析中,相关系数的值越大,变量间的相关性越强;
C.在残差图中,残差点分布的带状区域的宽度约狭窄,其模型拟合的精度越高;
D.在回归分析中,为0.98的模型比为为0.80的模型拟合的效果好。
【答案】B
【思路点拨】A根据相关关系的定义,判断命题A正确;
B线性回归分析的相关关系的绝对值越接近1,线性相关性越强,判断命题B错误;
C一组数据拟合程度的好坏,是残差点分布的带状区域宽度越狭窄,其模型拟合的精度越高,判断命题C正确;
D用相关指数刻画回归效果时,的值越大说明模型拟合效果越好,由此判断命题D正确。
【解析】对于A,根据相关关系的定义,即可判断自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系是相关关系,所以命题A正确;
对于B,线性回归分析中,相关系数的绝对值接近1,两个变量的线性相关性越强,反之,线性相关性越弱,所以命题B错误;
对于C,残差图中,对于一组数据拟合程度的好坏评价,是残差点分布的带状区域宽度越狭窄,其模型拟合的精度越高,所以命题C正确;
对于D,回归分析中,用相关指数刻画回归效果时,的值越大说明模型拟合效果越好,所以为0.98的模型比为0.80的模型拟合效果好,命题D正确。
故选:B
【总结升华】本题考查了“残差”的意义、相关指数的意义,也考查了理解能力和推理能力的应用问题。
举一反三:
【变式1】(2018秋 金台区校级期末)对于线性相关系数r,下列说法正确的是( )
A.|r|∈(-∞,+∞),|r|越大,相关程度越大;反之,相关程度越小
B.|r|≤1,r越大,相关程度越大;反之,相关程度越小
C.|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小
D.以上说法都不正确
【答案】选项A:线性相关系数r在[-1,1]之间,故不正确;
选项B:|r|越大,相关程度越大;反之,相关程度越小;故不正确;
故选C正确;
故选C。
【总结升华】本题考查了线性相关系数,-1≤r≤1,趋近1时线性相关越强,且是正相关,趋近-1时线性相关越强,且是负相关,趋近0时相关程度越小。
【变式2】(2018春 重庆期末)在两个变量y与x的回归模型中,分别选择了四个不同的模型,且它们的R2的值的大小关系为:R2模型3<R2模型4<R2模型1<R2模型2,则拟合效果最好的是( )
A.模型1 B.模型2 C.模型3 D.模型4
【思路点拨】两个变量y与x的回归模型中,它们的相关指数R2,越接近于1,这个模型的似合效果越好,即R2越大,这个模型的拟合效果越好,进而得到答案。
【解析】两个变量y与x的回归模型中,
它们的相关指数R2,越接近于1,这个模型的拟合效果越好,
即R2越大,这个模型的拟合效果越好,
∵R2模型3<R2模型4<R2模型1<R2模型2
故拟合效果最好的是模型2,
故选B
例5.(2018 新课标Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响。对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值。
表中
(Ⅰ)根据散点图判断,y=ax+bx与哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y关于x的回归方程:
(Ⅲ)已知这种产品的年利润z与x,y的关系为z=0.2y-x,根据(Ⅱ)的结果回答下列问题:
(ⅰ)年宣传费x=49时,年销售量及年利润的预报值是多少?
(ⅱ)年宣传费为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二估计分别为
【答案】(Ⅰ) (Ⅱ)68 (Ⅲ)(i)576.6千元和66.32千元
(ii)当即x=46.24时,年利润的预报值最大.
【思路点拨】(1)根据散点图得到变量之间的相关关系。
(2)根据公式得到线性回归方程的系数,再转化得到y与x之间的回归方程.
(3)代入回归方程运算即可
【解析】(Ⅰ)适宜作为y关于x的回归方程类型.
(Ⅱ)

回归方程为
(Ⅲ)(i)x=49时,

当宣传费为49千元时,年销售量及年利润预报值分别为576.6千元和66.32千元.
(ii)
当即x=46.24时,年利润的预报值最大.
【总结升华】求解两个变量的相关系数及它们的回归直线方程的计算量较大,需要细心、谨慎地计算.
举一反三:
【变式1】(2018 新课标Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年份
2007
2008
2009
2010
2011
2012
2013
年份代号t
1
2
3
4
5
6
7
人均纯收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(Ⅰ)求y关于t的线性回归方程;
(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2018年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:,
=-.
【答案】(Ⅰ)由题意,=(1+2+3+4+5+6+7)=4,(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
∴==0.5,
=4.3-0.5×4=2.3.
∴y关于t的线性回归方程为=0.5t+2.3;
(Ⅱ)由(Ⅰ)知,b=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.
将2018年的年份代号t=9代入=0.5t+2.3,得:=0.5×9+2.3=6.8,
故预测该地区2018年农村居民家庭人均纯收入为6.8千元.
【变式2】已知某地每单位面积菜地年平均使用氮肥量xkg与每单位面积蔬菜年平均产量yt之间的关系有如下数据:
年份
1985
1986
1987
1988
1989
1990
1991
1992
x(kg)
70
74
80
78
85
92
90
95
y(t)
5.1
6.0
6.8
7.8
9.0
10.2
10.0
12.0
  
年份
1993
1994
1995
1996
1997
1998
1999
x(kg)
92
108
115
123
130
138
145
y(t)
11.5
11.0
11.8
12.2
12.5
12.8
13.0
  
(1)求x与y之间的相关系数,并检验是否线性相关;
(2)若线性相关,求蔬菜产量y与使用氮肥量之间的回归直线方程,并估计每单位面积施肥150kg时,每单位面积蔬菜的年平均产量.
【思路点拨】
(1)使用样本相关系数计算公式来完成;
(2)查表得出显著性水平0.05与自由度15-2相应的相关系数临界比较,若则线性相关,否则不线性相关.
【答案】
(1)列出下表,并用科学计算器进行有关计算:
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
70
74
80
78
85
92
90
95
92
108
115
123
130
138
145
5.1
6.0
6.8
7.8
9.0
10.2
10.0
12.0
11.5
11.0
11.8
12.2
12.5
12.8
13.0
357
444
544
608.4
765
938.4
900
1140
1058
1188
1357
1500.6
1625
1766.4
1885
  ,,
  ,,.
故蔬菜产量与放用氮肥量的相关系数
  .
由于n=15,故自由度15-2=13.
由相关系数检验的临界值表查出与显著水平0.05及自由度13相关系数临界值,
则,
从而说明蔬菜产量与氮肥量之间存在着线性相关关系.
(2)设所求的回归直线方程为
则,
 ,
 ∴回归直线方程为.
【巩固练习】
一、选择题
1.下面4个散点图中,不能用线性回归模型拟合的两个变量是( )
2.散点图在回归分析过程中的作用是( )
A.查找个体个数
B.比较个体数据的大小关系
C.探究个体分类
D.粗略判断两个变量是否相关,具备哪种相关关系
3.(2018春 无为县校级期中)用独立性检验来考察两个分类变量x与y是否有关系,当统计量K2的观测值( )
A.越大,“x与y有关系”成立的可能性越小
B.越大,“x与y有关系”成立的可能性越大
C.越小,“x与y没有关系”成立的可能性越小
D.与“x与y有关系”成立的可能性无关
4.(2018 德州一模)为了增强环保意识,某校从男生中随机制取了60人,从女生中随机制取了50人参加环保知识测试,统计数据如下表所示:

附:

则有( )的把握认为环保知识是否优秀与性别有关。
A.90% B.95% C.99% D.99.9%
5.已知某车间加工零件的个数x与花费时间y(h)之间的线性回归方程为,则加工600个零件大约需要( )
A.6.5 h B.5.5 h C.3.5 h D.0.5 h
6.(2018春 龙岩校级月考)为了调查中学生近视情况,某校150名男生中有80名近视,140名女生中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )
A.平均数 B.方差 C.回归分析 D.独立性检验
7.(2018春 兴宁市校级期中)在下列命题中,真命题的个数是( )
①若K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
②由样本数据得到的回归直线必过样本点的中心;
③残差平方和越小的模型,拟合的效果越好;
④若复数z=m2-1+(m+1)i为纯虚数,则实数m=±1。
A.0 B.1 C.2 D.3
8.(2018 南昌校级二模)下列四个命题中:
①设有一个回归方程,变量x增加一个单位时,y平均增加3个单位;
②命题P“x0∈R,x02―x0―1>0”的否定p:“x∈R,x2―x―1≤0”;
③设随机变量X服从正态分布N(0,4),若P(X>1)=0.2,则P(-1<X<0)=0.3;
④在一个2×2列联表中,由计算得K2=6.679,则有99%的把握确认这两个变量间有关系。
其中正确的命题的个数有( )
本题可以参考独立性检验临界值表:

A.1个 B.2个 C.3个 D.4个
二、填空题
9. (2018春 银川校级月考)下表是关于出生男婴与女婴调查的列联表
那么A=________,B=________,C=________,D=________,E=________。
10. 已知一个回归方程为,x∈{1,5,7,13,19},则________。
11.“神舟七号”飞船的发射给我们带来了骄傲,我国成为了世界上第三个独立完成太空行走的国家。在“神舟七号”飞船发射之前,某次电脑模拟试验得到火箭某段时间飞行的近似直线轨迹经过的坐标如下:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
则线性回归方程为________。
12.(2018春 烟台期中)某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查对临界值知(K2≥3.841)≈0.05。
对此,四名同学做出了以下的判断:
p:有95%的把握认为“这种血清能起到预防感冒的作用”
q:若某人未使用该血清,那么他在一年中有95%的可能性得感冒
r:这种血清预防感冒的有效率为95%
s:这种血清预防感冒的有效率为5%
则下列结论中,正确结论的序号是________。(把你认为正确的命题序号都填上)
三、解答题
13.(本小题满分8分)下列是某地区的一种传染病与饮用水的调查表:
得病
不得病
合计
干净水
52
466
518
不干净水
94
218
312
合计
146
684
830
问这种传染病是否与饮用水的卫生程度有关?分别用等高条形图和独立性检验作出判断。
14.(本小题满分8分)某医院用光电比色计检验尿汞时,得尿汞含量(mg/L)与消光系数读数的结果如下:
尿汞含量x
2
4
6
8
10
消光系数y
64
138
205
285
360
(1)求回归方程。
(2)求相关指数R2,判断回归模型的似合程度。
15.(本小题满分10分)某运动队研制了一种有助于运动员在较大运动量的训练后快速恢复体力的口服制剂,为了实验新药的效果而抽取若干名运动员来实验,所得资料如下:
性别
是否用药
恢复效果
男运动员
女运动员
未用

未用

有效(恢复得好)
60
120
45
180
无效(恢复得差)
45
45
60
255
总计
105
165
105
434

研究该种药剂对男、女运动产生的效果的强弱。
【答案与解析】
1.【答案】A
【解析】 观察散点图可知B中的点近似分布在一条抛物线附近,可以转化为线性回归模型;C、D中的点近似分布在一条直线附近,A中的点无规律。
2.【答案】D
【解析】作出散点图,根据样本点是否落在某条曲线或直线附近,便可粗略判断两个变量是否具备一定的相关关系。
3.【答案】B
【解析】根据相关指数K2的观测值越大,“两个分类变量x与y是否有关系”,成立的可能性越大,判定B正确。故选B。
4.【答案】C
【解析】由题意,得:,
则K2≈7.822>6.635,
所以,有99%的把握认为环保知识是否优秀与性别有关。
5.【答案】A
6.【答案】D
【解析】分析已知条件,易得如下表格。

根据列联表可得:K2,再根据与临界值比较,
检验这些中学生眼睛近视是否与性别有关,
故利用独立性检验的方法最有说明力。
故选:D。
7.【答案】C
【解析】①若k2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,但不表示在100个吸烟的人中必有99人患有肺病,故①不正确。
②由样本数据得到的回归直线必过样本点的中心,正确;
③可用残差平方和判断模型的拟合效果,残差平方和越小,模型的似合效果越好,故正确;
④若复数z=m2―1+(m+1)i为纯虚数,则m2―1≠0且m+1=0,所以实数m=1,故不正确。
故选:C。
8.【答案】C
【解析】①设有一个回归方程,变量x增加一个单位时,y平均减少3个单位,故不正确;
②命题P“x0∈R,x02―x0―1>0”的否定p:“x∈R,x2―x―1≤0”,正确;
③设随机变量X服从正态分布N(0,4),若P(X>1)=0.2,则P(-1<X<0)=0.5-0.2=0.3,正确;
④在一个2×2列联表中,由计算得K2=6.679>6.635,则有99%的把握确认这两个变量间有关系,正确。
故选:C。
9.【答案】47,92,88,82,53
【解析】由题意,45+E=98,A+35=D,45+A=B,E+35=C,B+C=180
∴A=47,B=92,C=88,D=82,E=53
故答案为:47,92,88,82,53
10. 【答案】58.5
【解析】易知,∵,∴
11.【答案】
【解析】列表如下:
i
1
2
3
4
5
合计
xi
2
3
4
5
6
20
yi
2.2
3.8
5.5
6.5
7.0
25
xiyi
4.4
11.4
22.0
32.5
42.0
112.3
xi2
4
9
16
25
36
90



故所求的线性回归方程为。
12.【答案】p,r
【解析】∵K2≈3.918>3.841,P(K2≥3.841)≈0.05,
∴有95%的把握认为“这种血清能起到预防感冒的作用”,
也就是说这种血清预防感冒的有效率为95%
故答案为:p,r。
13.【解析】
,,作由等高条形图如下图,显然这种传染病与饮用不干净水有关。

根据上述表格中数据,由公式得K2的观测值

由54.212>10.828,因此在犯错误的概率不超过0.001的前提下认为该地区这种传染病与饮用不干净水有关。
14.【解析】(1)画出散点,如下图所示。

由图可知样本点大体分布在一条直线附近,因此可以用线性回归方程来拟合它。
设,
由,

故所求的直线方程为。
(2)把相应数值代入

得R2≈0.999。
∵R2接近于1,∴此回归模型的拟合程度较好。
15.【解析】对男运动由上表数据代入公式运算得K2的观测值

在犯错误的概率不超过0.01的前提下认为药剂对男运动员有效。
对女运动员,将上表数据代入公式运算得K2的观测值

没有充足的证据显示药剂与女运动员体力恢复有关系,因此该药对男运动员药效较好。