课件22张PPT。回归分析独立性检验的思想与方法 数形结合思想 课件71张PPT。教师用书独具演示演示结束回归分析 bx+a+e 0 σ2 随机误差 解释变量 预报变量 越小 比较均匀 越窄 R2越接近于1 解释变量 预报变量 解释变量 预报变量 散点图 残差图 过大 不随机的规律性 求线性回归方程 线性回归分析 非线性回归分析 课时作业(十六)课件53张PPT。教师用书独具演示演示结束独立性检验及其应用 个体所属 {x1,x2} {y1,y2} a+b c+d a+c b+d a+b+c+d n=a+b+c+d 两个分类变量有关系 利用等高条形图判断两个分类变量是否相关两个变量的独立性检验 独立性检验的综合应用 课时作业(十七)综合检测(三)
(时间:90分钟,满分:120分)
一、选择题(本大题共10小题,每小题5分共50分,在每小题给出的四个选项中,只有一项是符合题目要求的)
1.下列说法中错误的是( )
A.如果变量x与y之间存在着线性相关关系,则我们根据试验数据得到的点(xi,yi)(i=1,2,…,n)将散布在某一条直线的附近
B.如果两个变量x与y之间不存在着线性关系,那么根据它们的一组数据(xi,yi)(i=1,2,…,n)不能写出一个线性方程
C.设x,y是具有相关关系的两个变量,且y关于x的线性回归方程为=x+,叫做回归系数
D.为使求出的线性回归方程有意义,可用统计检验的方法来判断变量y与x之间是否存在线性相关关系
【解析】 任何一组(xi,yi)(i=1,2,…,n)都能写出一个线性方程,只是有的无意义.
【答案】 B
图1
2.如图1所示,图中有5组数据,去掉________组数据后(填字母代号),剩下的4组数据的线性相关性最大.( )
A.E B.C
C.D D.A
【解析】 由图易知A、B、C、D四点大致在一条直线上,而E点偏离最远,故去掉E点后数据的相关性最大.
【答案】 A
3.每一吨铸铁成本yc(元)与铸件废品率x%建立的回归方程=56+8x,下列说法正确的是( )
A.废品率每增加1%,成本每吨增加64元
B.废品率每增加1%,成本每吨增加8%
C.废品率每增加1%,成本每吨增加8元
D.如果废品率增加1%,则每吨成本为56元
【解析】 根据回归方程知y是关于x的单调增函数,并且由系数知x每增加一个单位,y平均增加8个单位.
【答案】 C
4.用等高条形图粗估计两个分类变量是否相关.观察下列各图,其中两个分类变量关系最强的是( )
【解析】 根据上述等高条形图可知,D中差距较大,所以分类变量关系最强.
【答案】 D
5.(2012·沈阳高二检测)经过对K2的统计量的研究,得到了若干个临界值,当K2≤2.706时,我们认为事件A与B( )
A.在犯错误的概率不超过0.05的前提下有关系
B.在犯错误的概率不超过0.01的前提下有关系
C.没有充分理由认为A与B有关系
D.不能确定
【解析】 因为K2≤2.706,而犯错误的概率约为15%,所以没有充分理由认为A与B有关系.
【答案】 C
6.若两个变量的残差平方和是325, (yi-)2=923,则随机误差对预报变量的贡献率约为( )
A.64.8% B.60%
C.35.2% D.40%
【解析】 由题意可知随机误差对预报变量的贡献率约为≈0.352.
【答案】 C
7.独立检验中,假设H0:变量X与变量Y没有关系,则在H0成立的情况下,P(K2≥6.635)=0.010表示的意义是( )
A.变量X与变量Y有关系的概率为1%
B.变量X与变量Y没有关系的概率为99.9%
C.变量X与变量Y没有关系的概率为99%
D.变量X与变量Y有关系的概率为99%
【解析】 由题意知变量X与Y没有关系的概率为0.01,即认为变量X与Y有关系的概率为99%.
【答案】 D
8.(2012·郑州高二检测)收集一只棉铃虫的产卵数y与温度x的几组数据后发现两个变量有相关关系,并按不同的曲线来拟合y与x之间的回归方程,并算出了对应相关指数R2如下表:
拟合曲线
直线
指数曲线
抛物线
二次曲线
y与x回归方程
=19.8x-463.7
=e0.27x-3.84
=0.367x2-202
=
相关指数R2
0.746
0.996
0.902
0.002
则这组数据模型的回归方程的最好选择应是( )
A.=19.8x-463.7 B.=e0.27x-3.84
C.=0.367x2-202 D.=
【解析】 用相关指数R2来刻画回归效果,R2的值越大,说明模型的拟合效果越好.
【答案】 B
9.某地财政收入x与支出y满足线性回归方程=bx+a+e(单位:亿元),其中b=0.8,a=2,|e|<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( )
A.10亿 B.9亿
C.10.5亿 D.9.5亿
【解析】 代入数据得y=10+e,∵|e|<0.5,
∴|y|<10.5,故不会超过10.5亿.
【答案】 C
10.某化工厂为预测某产品的回收率y,需要研究它和原料的有效成分含量x之间的相关关系.现取了8对观测值,经计算得:i=52,i=228,=478,iyi=1 849,则y与x的回归方程为( )
A.=2.62x+11.47
B.=2.62x-11.47
C.=11.47x+2.62
D.=-2.62x+11.47
【解析】 =×52=6.5,=28.5,∵回归直线过(,),经验证可知答案应为A.
【答案】 A
二、填空题(本大题共4小题,每小题5分,共20分,将答案填在题中的横线上)
11.已知回归直线斜率的估计值是1.23,样本点的中心为(4,5),则回归直线方程为________.
【解析】 设回归直线方程为=1.23x+,又方程过样本中心,∴5=1.23×4+,∴=0.08.
【答案】 =1.23x+0.08
12.若一组观测值(x1,y1),(x2,y2)…(xn,yn)之间满足yi=bxi+a+ei(i=1,2,…,n),若ei恒为0,则R2为________.
【解析】 ei恒为0,说明随机误差总为0,于是yi=,故R2=1.
【答案】 1
13.下列是关于出生男婴与女婴调查的列联表
晚上
白天
总计
男婴
45
A
B
女婴
E
35
C
总计
98
D
180
那么A=________,B=________,C________,D=________,E=________.
【解析】 ∵45+E=98,∴E=53,
∵E+35=C,∴C=88,
∵98+D=180,∴D=82,
∵A+35=D,∴A=47,
∵45+A=B,∴B=92.
【答案】 47 92 88 82 53
14.根据下表,计算K2的观测值k≈________.(保留两位小数)
又发病
未发病
作移植手术
39
157
未作移植手术
29
167
【解析】 k=≈1.78.
【答案】 1.78
三、解答题(本大题共4小题,共50分.解答应写出文字说明,证明过程或演算步骤)
15.(本小题满分12分)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表,由表中数据得线性回归方程=x+,其中=-2.现预测当气温为-4℃时,用电量的度数约为多少?
用电量y(度)
24
34
38
64
气温x(℃)
18
13
10
-1
【解】 由题意可知
=(18+13+10-1)=10,
=(24+34+38+64)=40,
=-2.
又回归方程=-2x+过点(10,40),
故=60.
所以当x=-4时,=-2×(-4)+60=68.
故当气温为-4 ℃时,用电量的度数约为68度.
16.(本小题满分12分)已知10只狗的血球体积x(单位:mm3)及红血球数y(单位:百万)的测量值如下:
x
45
42
46
48
42
35
58
40
39
50
y
6.53
6.30
9.25
7.50
6.99
5.90
9.49
6.20
6.55
7.72
(1)画出散点图;
(2)求出y对x的回归线性方程;
(3)若血球体积为49 mm3,预测红血球数大约是多少?
【解】 (1)散点图如图
(2)设线性回归方程为=x+,由表中数据代入公式,
得=≈0.16,
=- ≈0.12.
所以所求线性回归方程为=0.16x+0.12.
(3)把x=49代入线性回归方程得:
=0.16×49+0.12≈7.96(百万),计算结果表明,当血球体积为49 mm3时,红血球数大约为7.96百万.
17.(本小题满分12分)对某校小学生进行心理障碍测试得如下列联表:(其中焦虑、说谎、懒惰都是心理障碍)
焦虑
说谎
懒惰
总计
女生
5
10
15
30
男生
20
10
50
80
总计
25
20
65
110
试说明在这三种心理障碍中哪一种与性别关系最大?
【解】 利用已知条件来判断两个分类变量是否具有关系,可以先假设两个变量之间有关系,再计算K2的值,如果K2的值越大说明两个变量之间有关系的可能性也就越大,再参考临界值,从而判断两个变量有关系的可信程度.
对于上述三种心理障碍分别构造三个随机变量K,K,K,由表中数据可得
K=≈0.863,
K=≈6.366,
K=≈1.410.
因为K的值最大,所以说谎与性别关系最大.
18.(本小题满分14分)(2013·福建高考)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60)、[60,70)、[70,80)、[80,90)、[90,100]分别加以统计,得到如图2所示的频率分布直方图.
25周岁以上组
25周岁以下组
图2
(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;
(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
附:χ2=
P(χ2≥k)
0.100
0.050
0.010
0.001
k
2.706
3.841
6.635
10.828
(注:此公式也可以写成
K2=)
【解】 (1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名,所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60
×0.05=3(人),记为A1,A2,A3;25周岁以下组工人有40×0.05=2(人),记为B1,B2.
从中随机抽取2名工人,所有的可能结果共有10种,它们是:(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).
其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是:(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).故所求的概率P=.
(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手60×0.25=15(人),“25周岁以下组”中的生产能手40×0.375=15(人),据此可得2×2列联表如下:
生产能手
非生产能手
合计
25 周岁以上组
15
45
60
25周岁以下组
15
25
40
合计
30
70
100
所以得K2=
==≈1.79.
因为1.79<2.706,
所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.
一、选择题
1.能表示n个点与相应直线在整体上的接近程度的是( )
A.(yi-i) B.(i-yi)
C.(yi-i)2 D.(yi-)2
【解析】 接近程度与残差平方和有关,故选C.
【答案】 C
2.(2013·临沂高二检测)某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel软件计算得=0.577x-0.448(x为人的年龄,y为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是( )
A.年龄为37岁的人体内脂肪含量都为20.90%
B.年龄为37岁的人体内脂肪含量为21.01%
C.年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%
D.年龄为37岁的大部分的人体内脂肪含量为31.5%
【解析】 x=37时,y=0.577×37-0.448=20.90,因为回归方程得到的值只是近似的,故选C.
【答案】 C
3.两个变量y与x的回归模型中,分别选择了4个不同的模型,它们的相关指数R2如下,其中拟合效果最好的模型是( )
A.模型1的相关指数R2为0.98
B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50
D.模型4的相关指数R2为0.25
【解析】 相关指数越大,拟合效果越好.
【答案】 A
4.(2013·厦门高二检测)观察两个相关变量的如下数据:
x
-1
-2
-3
-4
-5
y
-0.9
-2
-3.1
-3.9
-5.1
x
5
4
3
2
1
y
5
4.1
2.9
2.1
0.9
则两个变量间的回归直线方程为( )
A.=0.5x-1 B.=x
C.=2x+0.3 D.=x+1
【解析】 =(-1-2…-5+5+4+…+2+1)=0,
=(-0.9-2-…-5.1+5+…0.9)=0.
由回归直线方程过样本中心点(,)知B正确.
【答案】 B
5.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y与x的回归直线的斜率为b,纵截距为a,则必有( )
A.b与r的符号相同 B.a与r的符号相同
C.b与r的符号相反 D.a与r的符号相反
【解析】 线性回归方程为=bx+a,b>0时,x与y正相关,b<0时,x与y负相关.因此b与r的符号相同.
【答案】 A
二、填空题
6.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性进行分析,并用回归分析的方法分别求得相关指数R2与残差平方和Q(,)如下表:
甲
乙
丙
丁
R2
0.67
0.61
0.48
0.72
Q(,)
106
115
124
103
则能体现A,B两个变量有更强的线性相关性的为________.
【解析】 丁同学所求得的相关指数R2最大,残差平方和Q(,)最小.此时A,B两变量线性相关性更强.
【答案】 丁
7.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万年,年饮食支出平均增加________万元.
【解析】 由题意知[0.254(x+1)+0.321]-[0.254x+0.321]=0.254.
【答案】 0.254
8.在对两个变量进行回归分析时,甲、乙分别给出两个不同的回归方程,并对回归方程进行检验.对这两个回归方程进行检验时,与实际数据(个数)对比结果如下:
与实际相符数据个数
与实际不符合数据个数
合计
甲回归方程
32
8
40
乙回归方程
40
20
60
合计
72
28
100
则从表中数据分析,________回归方程更好(即与实际数据更贴近).
【解析】 可以根据表中数据分析,两个回归方程对数据预测的正确率进行判断,甲回归方程的数据准确率为=,而乙回归方程的数据准确率为=.显然甲的准确率高些,因此甲回归方程好些.
【答案】 甲
三、解答题
9.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:
推销员编号
1
2
3
4
5
工作年限x/年
3
5
6
7
9
推销金额y/万元
2
3
3
4
5
(1)求年推销金额y关于工作年限x的线性回归方程;
(2)若第6名推销员的工作年限为11年,试估计他的年推销金额.
【解】 (1)设所求的线性回归方程为=x+,
则===0.5,
=-=0.4.
所以年推销金额y关于工作年限x的线性回归方程为=0.5x+0.4.
(2)当x=11时,=0.5x+0.4=0.5×11+0.4
=5.9(万元).
所以可以估计第6名推销员的年推销金额为5.9万元.
10.(2013·珠江高二检测)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测技改后生产100吨甲产品的生产能耗比技改前降低多少吨标准煤.
(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
【解】 (1)由题设所给数据,可得散点图,如图:
(2)由数据,计算得:=86,
==4.5,
==3.5,
=-=3.5-0.7×4.5=0.35,
因此,所求的线性回归方程为=0.7x+0.35.
(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为90-(0.7×100+0.35)=19.65(吨标准煤).
11.假设关于某设备的使用年限x和支出的维修费用y(万元),有如下表的统计资料:
使用年限x
2
3
4
5
6
维修费用y
2.2
3.8
5.5
6.5
7.0
若由资料知y对x呈线性相关关系,试求:
(1)线性回归方程=x+.
(2)估计使用年限为10年时,维修费用是多少.
(3)计算总偏差平方和、残差平方和及回归平方和.
(4)求R2并说明模型的拟合效果.
【解】 (1)将已知条件制成下表:
i
1
2
3
4
5
合计
xi
2
3
4
5
6
20
yi
2.2
3.8
5.5
6.5
7.0
25
xiyi
4.4
11.4
22.0
32.5
42.0
112.3
x
4
9
16
25
36
90
=4;=5;=90;iyi=112.3
于是有===1.23,
=- =5-1.23×4=0.08,
回归直线方程是=1.23x+0.08.
(2)当x=10时,y=1.23×10+0.08=12.38(万元),即估计使用10年时维修费用是12.38万元.
(3)总偏差平方和:(yi-)2=15.78,
残差平方和:=2.46+0.08=2.54,=3.77,=5,=6.23,=7.46,(yi-i)2=0.651,
回归平方和:15.78-0.651=15.129.
(4)R2=1-
=1-≈0.958 7,
模型的拟合效果较好,使用年限解释了95.87%的维修费用支出.
一、选择题
1.对于独立性检验,下列说法正确的是( )
A.X2>3.841时,有95%的把握说事件A与B无关
B.X2>6.635时,有99%的把握说事件A与B有关
C.X2≤3.841时,有95%的把握说事件A与B有关
D.X2>6.635时,有99%的把握说事件A与B无关
【解析】 由独立性检验的知识知:X2>3.841时,有95%的把握认为“变量X与Y有关系”;X2>6.635时,有99%的把握认为“变量X与Y有关系”.故选项B正确.
【答案】 B
2.想要检验是否喜欢参加体育活动是不是与性别有关,应该检验( )
A.H0:男性喜欢参加体育活动
B.H0:女性不喜欢参加体育活动
C.H0:喜欢参加体育活动与性别有关
D.H0:喜欢参加体育活动与性别无关
【解析】 独立性检验假设有反证法的意味,应假设两类变量(而非变量的属性)无关,这时的K2应该很小,如果K2很大,则可以否定假设,如果K2很小,则不能够肯定或者否定假设.
【答案】 D
3.在列联表中,下列哪两个比值相差越大,两个分类变量有关系的可能性就越大( )
A.与 B.与
C.与 D.与
【解析】 由等高条形图可知与的值相差越大,|ad-bc|就越大,相关性就越强.
【答案】 C
4.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是( )
A.k越大,“X与Y有关系”的可信程度越小
B.k越小,“X与Y有关系”的可信程度越小
C.k越接近于0,“X与Y没有关系”的可信程度越小
D.k越大,“X与Y没有关系”的可信程度越大
【解析】 K2的观测值k越大,“X与Y有关系”的可信程度越大.因此,A、C、D都不正确.
【答案】 B
5.(2012·三明高二检测)为了考察中学生的性别与是否喜欢数学课程之间的关系,在某校学生中随机抽取了50名学生,得到如下列联表:
喜欢数学
不喜欢数学
合计
男
13
10
23
女
7
20
27
合计
20
30
50
根据表中数据,得到k=≈4.844>3.841,你认为性别与是否喜欢数学课程之间有关系,这种判断犯错误的概率不超过( )
A.0 B.0.05
C.0.01 D.1
【解析】 ∵4.844>3.841,根据临界值表可知,认为性别与是否喜欢数学有关系,这种判断犯错误的概率不超过0.05.
【答案】 B
二、填空题
6.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:
文艺节目
新闻节目
总计
20至40岁
40
18
58
大于40岁
15
27
42
总计
55
45
100
由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).
【解析】 因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即=,=,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.
【答案】 是
7.如果根据性别与是否爱好运动的列联表得到K2≈3.852>3.841,则判断性别与是否爱好运动有关,那么这种判断犯错的可能性不超过________.
【解析】 ∵P(k2≥3.841)≈0.05.
∴判断性别与是否爱好运动有关,出错的可能不超过5%.
【答案】 5%
8.若两个分类变量X与Y的列联表为:
y1
y2
总计
x1
10
15
25
x2
40
16
56
总计
50
31
81
则“X与Y之间有关系”这个结论出错的概率为________.
【解析】 由列联表的数据,可求得随机变量K2的观测值k=≈7.227>6.635.
因为P(K2≥6.635)≈0.01,所以“X与Y之间有关系”出错的概率仅为0.01.
【答案】 0.01
三、解答题
9.打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据.试问:每晚都打鼾与患心脏病有关吗?用图表分析.
患心脏病
未患心脏病
合计
每晚都打鼾
30
224
254
不打鼾
24
1 355
1 379
合计
54
1 579
1 633
【解】 由列联表中的信息知打鼾人群中未患心脏病的比例为0.88,即患有心脏病的比例为0.12;同理不打鼾人群中未患心脏病的比例为0.98,即患有心脏病的比例为0.02.作出等高条形图(如下图).
从该图中可以看出:打鼾样本中患心脏病的比例明显多于不打鼾样本中患心脏病的比例.因此可以认为“打鼾与患心脏病有关”.
10.为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人进行了调查,结果是:患胃病者生活不规律的共60人,患胃病者生活规律的共20人,未患胃病者生活不规律的共260人,未患胃病者生活规律的共200人.
(1)根据以上数据列出2×2列联表;
(2)在犯错误的概率不超过0.01的前提下认为40岁以上的人患胃病与否和生活规律有关系吗?为什么?
【解】 (1)由已知可列2×2列联表:
患胃病
未患胃病
总计
生活规律
20
200
220
生活不规律
60
260
320
总计
80
460
540
(2)根据列联表中的数据,由计算公式得K2的观测值
k=≈9.638.
∵9.638>6.635,
因此,在犯错误的概率不超过0.01的前提下认为40岁以上的人患胃病与否和生活规律有关.
11.有两个分类变量x与y,其一组观测值如下面的2×2列联表所示:
y1
y2
x1
a
20-a
x2
15-a
30+a
其中a,15-a均为大于5的整数,则a取何值时,在犯错误的概率不超过0.1的前提下认为x与y之间有关系?
【解】 查表可知,要使在犯错误的概率不超过0.1的前提下认为x与y之间有关系,则k≥2.706,而
k=
==.
由k≥2.706得a≥7.19或a≤2.04.
又a>5且15-a>5,a∈Z,即a=8或9.
故a为8或9时,在犯错误的概率不超过0.1的前提下认为x与y之间有关系.