回归分析的基本思想及其初步应用
[A组 学业达标]
1.关于回归分析,下列说法错误的是( )
A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定
B.线性相关系数可以是正的也可以是负的
C.在回归分析中,如果r2=1或r=±1,说明x与y之间完全线性相关
D.样本相关系数r∈(-1,1)
解析:样本的相关系数应满足-1≤r≤1.
答案:D
2.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )
解析:用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.
答案:A
3.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如表:
甲
乙
丙
丁
R2
0.98
0.78
0.50
0.85
建立的回归模型拟合效果最好的同学是( )
A.甲
B.乙
C.丙
D.丁
解析:相关指数R2越大,表示回归模型的效果越好.
答案:A
4.某产品的广告费用x与销售额y的统计数据如表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元
B.65.5万元
C.67.7万元
D.72.0万元
解析:样本点的中心是(3.5,42),则=-=42-9.4×3.5=9.1,所以回归直线方程是=9.4x+9.1,把x=6代入得=65.5.
答案:B
5.如果散点图中的所有的点都在一条斜率不为0的直线上,则残差为________,相关指数R2=________.
解析:由题意知yi=i
∴相应的残差i=yi-i=0.
相关指数R2=1-=1.
答案:0 1
6.在研究气温和热茶销售杯数的关系时,若求得相关指数R2≈0.85,则表明气温解释了________的热茶销售杯数变化,而随机误差贡献了剩余的________,所以气温对热茶销售杯数的效应比随机误差的效应大得多.
解析:由相关指数R2的意义可知,R2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%.
答案:85% 15%
7.某医院用光电比色计检验尿汞时,得尿汞含量(mg/L)与消光系数计数的结果如下:
尿汞含量x
2
4
6
8
10
消光系数y
64
138
205
285
360
若y与x具有线性相关关系,则回归直线方程是________.
解析:由已知表格中的数据,利用科学计算器进行计算得=6,=210.4,=220,
iyi=7
790,
所以==36.95,
=-=-11.3.
所以回归直线方程为=-11.3+36.95x.
答案:=-11.3+36.95x
8.已知x,y之间的一组数据如下表:
x
0
1
2
3
y
1
3
5
7
(1)分别计算:,,x1y1+x2y2+x3y3+x4y4,x+x+x+x;
(2)已知变量x与y线性相关,求出回归方程.
解析:(1)==1.5,==4,
x1y1+x2y2+x3y3+x4y4=0×1+1×3+2×5+3×7=34,
x+x+x+x=02+12+22+32=14.
(2)==2,
=-=4-2×1.5=1,
故=2x+1.
9.已知某商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:
x
14
16
18
20
22
y
12
10
7
5
3
(1)画出y关于x的散点图;
(2)求出回归直线方程;
(3)计算R2的值,并说明回归模型拟合程度的好坏.(参考数据:=18,=7.4,=1
660,=327,iyi=620,(yi-i)2=0.3,(yi-)2=53.2)
解析:(1)散点图如图所示:
(2)因为=18,=7.4,=1
660,=327,
iyi=620,所以==-1.15,
=-=28.1.
即所求回归直线方程为:=-1.15x+28.1.
(3)(yi-i)2=0.3,(yi-)2=53.2,
R2=1-≈0.994.
故回归模型的拟合效果较好.
[B组 能力提升]
1.已知x与y之间的一组数据如下表:
x
0
1
2
3
y
m
3
5.5
7
已求得y关于x的线性回归方程为=2.1x+0.85,则m的值为( )
A.1
B.0.85
C.0.7
D.0.5
解析:∵==,
==,
∴这组数据的样本中心点是.
∵y关于x的线性回归方程为=2.1x+0.85,
∴=2.1×+0.85,解得m=0.5.
∴m的值为0.5.
答案:D
2.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为=x+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y′=b′x+a′,则以下结论正确的是( )
A.>b′,>a′
B.>b′,
C.a′
D.解析:过(1,0)和(2,2)的直线方程为y′=2x-2,
画出六点的散点图,回归直线的大概位置如图所示:
显然,b′>,>a′,故选C.
答案:C
3.今年一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y(件)与月平均气温x(℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表:
月平均气温x(℃)
17
13
8
2
月销售量y(件)
24
33
40
55
由表中数据算出线性回归方程=x+中的≈-2.气象部门预测下个月的平均气温约为6
℃,据此估计,该商场下个月该品牌羽绒服的销售量的件数约为________.
解析:由表格得(,)为(10,38),又(,)在回归直线=x+上,且≈-2,
∴38=-2×10+,=58,所以=-2x+58,当x=6时,=-2×6+58=46.
答案:46
4.已知方程=0.85x-82.71是根据女大学生的身高预报她的体重的回归方程,其中x的单位是cm,的单位是kg,那么针对某个体(160,53)的残差是________.
解析:把x=160代入=0.85x-82.71,得=0.85×160-82.71=53.29,所以残差=y-=53-53.29=-0.29.
答案:-0.29
5.有一个测量水流量的实验装置,测得试验数据如下表:
i
1
2
3
4
5
6
7
水高h
(厘米)
0.7
1.1
2.5
4.9
8.1
10.2
13.5
流量Q
(升/分钟)
0.082
0.25
1.8
11.2
37.5
66.5
134
根据表中数据,建立Q与h之间的回归方程.
解析:由表中测得的数据可以作出散点图,如图:
观察散点图中样本点的分布规律,可以判断样本点分布在某一条曲线附近,表示该曲线的函数模型是Q=m·hn(m,n是正的常数).两边取常用对数.
则lg
Q=lg
m+n·lg
h,
令y=lg
Q,x=lg
h,那么y=nx+lg
m,
即为线性函数模型y=bx+a的形式(其中b=n,a=lg
m).
由下面的数据表,用最小二乘法可求得≈2.509
7,=-0.707
7,所以n≈2.51,m≈0.196.
i
hi
Qi
xi=lg
hi
yi=lg
Qi
x
xiyi
1
0.7
0.082
-0.154
9
-1.086
2
0.024
0.168
3
2
1.1
0.25
0.041
4
-0.602
1
0.001
7
-0.024
9
3
2.5
1.8
0.397
9
0.255
3
0.158
3
0.101
6
4
4.9
11.2
0.690
2
1.049
2
0.476
4
0.724
2
5
8.1
37.5
0.908
5
1.574
0
0.825
4
1.430
0
6
10.2
66.5
1.008
6
1.822
8
1.017
3
1.838
5
7
13.5
134
1.130
3
2.127
1
1.277
6
2.404
3
∑
4.022
5.140
1
3.780
7
6.642
于是所求得的回归方程为Q=0.196·h2.51.
PAGE独立性检验的基本思想及其初步应用
[A组 学业达标]
1.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )
A.平均数与方差
B.回归分析
C.独立性检验
D.概率
解析:判断两个分类变量是否有关的最有效方法是进行独立性检验,故选C.
答案:C
2.如表是2×2列联表:
y1
y2
总计
x1
a
21
73
x2
2
25
27
总计
b
46
则表中a,b处的值分别为( )
A.94,96
B.52,50
C.52,54
D.54,52
解析:由得
答案:C
3.如图是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图可以看出( )
A.性别与喜欢理科无关
B.女生中喜欢理科的比例为80%
C.男生比女生喜欢理科的可能性大些
D.男生不喜欢理科的比例为60%
解析:由等高条形图知:女生喜欢理科的比例为20%,男生不喜欢理科的比例为40%,因此B、D不正确.从图形中,男生比女生喜欢理科的可能性大些.
答案:C
4.分类变量X和Y的列联表如下:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
则下列说法正确的是( )
A.ad-bc越小,说明X与Y关系越弱
B.ad-bc越大,说明X与Y关系越强
C.(ad-bc)2越大,说明X与Y关系越强
D.(ad-bc)2越接近于0,说明X与Y关系越强
解析:|ad-bc|越小,说明X与Y关系越弱,|ad-bc|越大,说明X与Y关系越强.
答案:C
5.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法中正确的是( )
A.100个心脏病患者中至少有99人打鼾
B.1个人患心脏病,则这个人有99%的概率打鼾
C.100个心脏病患者中一定有打鼾的人
D.100个心脏病患者中可能一个打鼾的人都没有
解析:这是独立性检验,在犯错误的概率不超过0.01的前提下认为“打鼾与患心脏病有关”.这只是一个概率,即打鼾与患心脏病有关的可能性为99%.根据概率的意义可知答案应选D.
答案:D
6.有2×2列联表:
B
总计
A
54
40
94
32
63
95
总计
86
103
189
由上表可计算K2的观测值k≈________.
解析:k=≈10.76.
答案:10.76
7.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:
文艺节目
新闻节目
总计
20至40岁
40
18
58
大于40岁
15
27
42
总计
55
45
100
由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).
解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即=,=,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.
答案:是
8.对某校小学生进行心理障碍测试得到如下列联表:
有心理障碍
没有心理障碍
总计
女生
10
30
男生
70
80
总计
20
110
将表格填写完整,试说明心理障碍与性别是否有关?
附:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解析:将列联表补充完整如下:
有心理障碍
没有心理障碍
总计
女生
10
20
30
男生
10
70
80
总计
20
90
110
k=≈6.366>5.024,
所以有97.5%的把握认为心理障碍与性别有关.
9.随着生活水平的提高,人们患肝病的越来越多,为了解中年人患肝病与经常饮酒是否有关,现对30名中年人进行了问卷调查得到如下列联表:
常饮酒
不常饮酒
合计
患肝病
2
不患肝病
18
合计
30
已知在全部30人中随机抽取1人,抽到肝病患者的概率为.
(1)请将上面的列联表补充完整,并判断是否有99.5%的把握认为患肝病与常饮酒有关.说明你的理由;
(2)现从常饮酒且患肝病的中年人(恰有2名女性)中,抽取2人参加电视节目,则正好抽到一男一女的概率是多少?
参考数据:
P(K2≥k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解析:(1)设患肝病中常饮酒的人有x人,=,x=6.
常饮酒
不常饮酒
合计
患肝病
6
2
8
不患肝病
4
18
22
合计
10
20
30
由已知数据可求得K2=≈8.523>7.879,因此有99.5%的把握认为患肝病与常饮酒有关.
(2)设常饮酒且患肝病的男性为A,B,C,D,女性为E,F,则任取两人有AB,AC,AD,AE,AF,BC,BD,BE,BF,CD,CE,CF,DE,DF,EF,共15种.其中一男一女有AE,AF,BE,BF,CE,CF,DE,DF,共8种.
故抽出一男一女的概率是P=.
[B组 能力提升]
1.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由K2=算得,观测值k=≈7.8.
附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
参照附表,得到的正确结论是( )
A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
解析:由k≈7.8及P(K2≥6.635)=0.010可知,在犯错误的概率不超过1%的前提下认为“爱好该项运动与性别有关”,也就是有99%以上的把握认为“爱好该项运动与性别有关”.
答案:A
2.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到列联表:
做不到“光盘”
能做到“光盘”
男
45
10
女
30
15
由此列联表得到的正确结论是( )
A.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”
D.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别无关”
解析:列出列联表:
做不到“光盘”
能做到“光盘”
总计
男
45
10
55
女
30
15
45
总计
75
25
100
∴K2的观测值k=≈3.030,
又3.030>2.706,且P(K2≥2.706)=0.10,
∴在犯错误的概率不超过0.1的前提下,认为该市居民能否做到“光盘”与性别有关.
答案:C
3.在吸烟与患肺病是否相关的判断中,有下面的说法:
①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
②从独立性检验可知,在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;
③从独立性检验可知,在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.
其中说法正确的是________(填序号).
解析:K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确.
答案:③
4.下列关于K2的说法中,正确的有________(填序号).
①K2的值越大,两个分类变量的相关性越大;
②K2的计算公式是
K2=;
③若求出K2=4>3.841,则有95%的把握认为两个分类变量有关系,即有5%的可能性使得“两个分类变量有关系”的推断出现错误;
④独立性检验就是选取一个假设H0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H0的推断.
解析:对于①,K2的值越大,只能说明我们有更大的把握认为二者有关系,却不能判断相关性大小,故①错;对于②,(ad-bc)应为(ad-bc)2,故②错;③④对.
答案:③④
5.国家规定,疫苗在上市前必须经过严格的检测,并通过临床试验获得相关数据,以保证疫苗使用的安全和有效.某生物制品研究所将某一型号疫苗用在动物小白鼠身上进行科研和临床试验,得到统计数据如下:
未感染病毒
感染病毒
总计
未注射疫苗
40
p
x
注射疫苗
60
q
y
总计
100
100
200
现从未注射疫苗的小白鼠中任取1只,取到“感染病毒”的小白鼠的概率为.
(1)求2×2列联表中的数据p,q,x,y的值;
(2)能否有99.9%把握认为注射此种疫苗有效?
(3)在感染病毒的小白鼠中,按未注射疫苗和注射疫苗的比例抽取5只进行病例分析,然后从这五只小白鼠中随机抽取3只对注射疫苗情况进行核实,求至少抽到2只为未注射疫苗的小白鼠的概率.
附:K2=,n=a+b+c+d.
P(K2≥k0)
0.05
0.01
0.005
0.001
k0
3.841
6.635
7.879
10.828
解析:(1)p=60,q=40,x=100,y=100.
(2)由K2=,
得K2==8<10.828,
所以没有99.9%把握认为注射此种疫苗有效.
(3)由于在感染病毒的小白鼠中,按未注射疫苗和注射疫苗的比例为3∶2,故抽取的5只小白鼠中3只未注射疫苗,用a,b,c表示,2只已注射疫苗,用D,E表示,从这五只小白鼠中随机抽取3只,可能的情况共有以下10种:
(a,b,c),(a,b,D),(a,b,E),(a,c,D),(a,c,E),(a,D,E),(b,c,D),(b,c,E),(b,D,E),(c,D,E).
其中至少抽到2只为未注射疫苗的小白鼠的情况有以下7种:(a,b,c),(a,b,D),(a,b,E),(a,c,D),(a,c,E),(b,c,D),(b,c,E)
所以至少抽到2只为未注射疫苗的小白鼠的概率为.
PAGE