回归分析的基本思想及其初步应用
[A组 学业达标]
1.下列两个变量之间的关系不是函数关系的是( )
A.角度和它的余弦值
B.正方形的边长和面积
C.正n边形的边数和内角度数和
D.人的年龄和身高
解析:函数关系就是一种变量之间的确定性的关系.A,B,C三项中的两个变量之间都是函数关系,可以写出相应的函数表达式,分别为f(θ)=cos
θ,g(a)=a2,h(n)=nπ-2π.D选项中的两个变量之间不是函数关系,对于年龄确定的人群,仍可以有不同的身高.故选D.
答案:D
2.设一个线性回归方程为=2-1.5x,则变量x增加一个单位时( )
A.平均增加1.5个单位
B.平均增加2个单位
C.平均减少1.5个单位
D.平均减少2个单位
解析:由线性回归方程=2-1.5x中x的系数为-1.5,知C项正确.
答案:C
3.有下列数据:
x
1
2
3
y
3
5.99
12.01
下列四个函数中,模拟效果最好的为( )
A.y=3×2x-1
B.y=log2x
C.y=3x
D.y=x2
解析:当x=1,2,3时,分别代入求y值,离y最近的值模拟效果最好,可知A模拟效果最好.
答案:A
4.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且=-2.756x+7.325.
②y与x负相关且=3.476x+5.648
③y与x正相关且=-1.226x-6.578
④y与x正相关且=8.967x+8.163
其中一定不正确的结论的序号是( )
A.①②
B.②③
C.③④
D.①④
解析:根据题意,依次分析4个结论:
对于①,y与x负相关且=-2.756x+7.325,此结论正确,线性回归方程符合负相关的特征;
对于②,y与x负相关且=3.476x+5.648,此结论错误,由线性回归方程知,此两变量的关系是正相关;
对于③,y与x正相关且=-1.226x-6.578,此结论错误,由线性回归方程知,此两变量的关系是负相关;
对于④,y与x正相关且=8.967x+8.163,此结论正确,线性回归方程符合正相关的特征;故②③一定错误.
答案:B
5.对具有线性相关关系的变量x,y,测得一组数据如下表:
x
2
4
5
6
8
y
20
40
60
70
80
根据上表,利用最小二乘法得它们的回归直线方程为=10.5x+,据此模型来预测当x=20时,y的估计值为________.
解析:由已知得=5,=54,则(5,54)满足回归直线方程=10.5x+,解得=1.5,因此=10.5x+1.5,当x=20时=10.5×20+1.5=211.5.
答案:211.5
6.如图是x和y的一组样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关指数最大.
解析:去掉D(3,10)这一组数据后,其他4组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强,此时相关指数最大.
答案:D(3,10)
7.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=ebx+a的周围,令z=ln
y,求得回归直线方程为=0.25x-2.58,则该模型的回归方程为____________________.
解析:由z=ln
y,=0.25x-2.58,
得ln
=0.25x-2.58,∴=e0.25x-2.58.
故该模型的回归方程为=e0.25x-2.58.
答案:=e0.25x-2.58
8.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x/万元
8.2
8.6
10.0
11.3
11.9
支出y/万元
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程=x+,其中=0.76,=-
.据此估计,求社区一户年收入为15万元的家庭的年支出.
解析:由题意可得=×(8.2+8.6+10.0+11.3+11.9)=10,
=×(6.2+7.5+8.0+8.5+9.8)=8,
可得=8-0.76×10=0.4.
∴回归直线方程为=0.76x+0.4.
把x=15代入可得=0.76×15+0.4=11.8.
故社区一户年收入为15万元的家庭的年支出为11.8万元.
9.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
8
8.2
8.4
8.6
8.8
9
销量y(件)
90
84
83
80
75
68
(1)求线性回归方程=x+,其中=-20,=-
;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
解析:(1)==8.5,
=(90+84+83+80+75+68)=80,
∵=-20,=-
,
∴=80+20×8.5=250,
∴线性回归方程=-20x+250;
(2)设工厂获得的利润为L元,则L=x(-20x+250)-4(-20x+250)=-202+361.25,
∴该产品的单价应定为8.25元,工厂获得的利润最大.
[B组 能力提升]
10.对于给定的样本点所建立的模型A和模型B,它们的残差平方和分别是a1,a2,R2的值分别为b1,b2,下列说法正确的是( )
A.若a1<a2,则b1<b2,A的拟合效果更好
B.若a1<a2,则b1<b2,B的拟合效果更好
C.若a1<a2,则b1>b2,A的拟合效果更好
D.若a1<a2,则b1>b2,B的拟合效果更好
解析:由残差平方和以及R2的定义式可得若a1<a2,则b1>b2,A的拟合效果更好.
答案:C
11.近10年来,某市社会商品零售总额与职工工资总额(单位:亿元)数据如下:
工资总额x/亿元
23.8
27.6
31.6
32.4
33.7
34.9
43.2
52.8
63.8
73.4
社会商品零售总额y/亿元
41.4
51.8
61.7
67.9
68.7
77.5
95.9
137.4
155.0
175.0
建立社会商品零售总额y与职工工资总额x的线性回归方程是( )
A.=2.799
1x-27.248
552
B.=2.799
1x-23.548
452
C.=2.699
2x-23.749
352
D.=2.899
2x-23.749
452
解析:=41.72,=93.23,代入验证可知B选项正确.
答案:B
12.已知方程=0.85x-82.71是根据女大学生的身高预报她的体重的回归方程,其中x的单位是cm,的单位是kg,那么针对某个体(160,53)的残差是________.
解析:将x=160代入=0.85x-82.71,得=0.85×160-82.71=53.29,
所以残差=y-=53-53.29=-0.29.
答案:-0.29
13.已知一个线性回归方程为=1.5x+45,x∈{1,5,7,13,19},则=________.
解析:∵==9,
且=1.5x+45,
∴=1.5×9+45=58.5.
答案:58.5
14.假设关于某种设备的使用年限x(年)与所支出的维修费用y(万元)有如表统计资料:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
已知=90,iyi=112.3.
==,a=-
.
(1)求,.
(2)x与y具有线性相关关系,求出线性回归方程.
(3)估计使用年限为10年时,维修费用约是多少?
解析:(1)=4,=5.
(2)==1.23,=-
=5-1.23×4=0.08.所以线性回归方程为=1.23x+0.08.
(3)当x=10时,=1.23×10+0.08=12.38(万元),
即估计使用年限为10年时,维修费用约为12.38万元.
15.菜农定期使用低害杀虫农药对蔬菜进行喷洒,以防止害虫的危害,但采集上市时蔬菜仍存有少量的残留农药,食用时需要用清水清洗干净,下表是用清水x(单位:千克)清洗该蔬菜1千克后,蔬菜上残留的农药y(单位:微克)的统计表:
x
1
2
3
4
5
y
58
54
39
29
10
(1)令w=x2,利用给出的参考数据求出y关于w的回归方程=w+.(,精确到0.1)
参考数据:i=55,(wi-)(yi-)=-751,(wi-)2=374,其中wi=x,=i.
(2)对于某种残留在蔬菜上的农药,当它的残留量不高于20微克时对人体无害,为了放心食用该蔬菜,请估计至少需要用多少千克的清水清洗1千克蔬菜?(精确到0.1,参考数据≈2.24)
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为
=,=-
.
解析:(1)由题意得,=11,=38.
==-≈-2.0,
=-=60.0,所以=-2.0w+60.0.
(2)由(1)得,=-2.0w+60.0,
所以=-2.0x2+60.0,
当≤20时,即-2.0x2+60.0≤20,解得x≥2≈4.5,
所以为了放心食用该蔬菜,估计需要用4.5千克的清水清洗1千克蔬菜.
PAGE独立性检验的基本思想及其初步应用
[A组 学业达标]
1.在某次飞行航程中遭遇恶劣气候,55名男乘客中有24名晕机,34名女乘客中有8名晕机,在检验这些乘客晕机是否与性别有关时,采用的数据分析方法应是( )
A.频率分布直方图
B.回归分析
C.独立性检验
D.用样本估计总体
解析:根据题意,结合题目中的数据,列出2×2列联表,求出K2观测值,对照数表可得出概率结论,这种分析数据的方法是独立性检验.
答案:C
2.观察下列各图,其中两个分类变量x,y之间关系最强的是( )
解析:观察等高条形图发现和相差越大,就判断两个分类变量之间关系越强.
答案:D
3.如表是一个2×2列联表:则表中a,b的值分别为( )
y1
y2
总计
x1
a
21
73
x2
22
25
47
总计
b
46
120
A.94,72
B.52,50
C.52,74
D.74,52
解析:a=73-21=52,b=a+22=74,故选C.
答案:C
4.利用独立性检验来考虑两个分类变量X与Y是否有关系时,通过查阅下表来确定“X和Y有关系”的可信度.如果K2的观测值k>5.024,那么在犯错误的概率不超过________的前提下认为“X与Y有关系”( )
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
A.0.25
B.0.05
C.0.1
D.0.025
解析:因为K2的观测值k>5.024,而在临界值表中对应于5.024的是0.025,所以可以在犯错误的概率不超过0.025的前提下认为“X和Y有关系”.
答案:D
5.分类变量X和Y的列表如下,则下列说法判断正确的是( )
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
A.ad-bc越小,说明X与Y的关系越弱
B.ad-bc越大,说明X与Y的关系越强
C.(ad-bc)2越大,说明X与Y的关系越强
D.(ad-bc)2越接近于0,说明X与Y的关系越强
解析:列联表可以较为准确地判断两个变量之间的相关关系程度,
由K2=,
当(ad-bc)2越大,K2越大,表明X与Y的关系越强.
(ad-bc)2越接近0,说明两个分类变量X和Y无关的可能性越大.
即所给说法判断正确的是C.
答案:C
6.某部门通过随机调查89名工作人员的休闲方式,了解读书和健身的人数,得到的数据如表:
读书
健身
总计
女
24
31
55
男
8
26
34
总计
32
57
89
在犯错误的概率不超过________的前提下认为性别与休闲方式有关系.
解析:由列联表中的数据,得K2的观测值为k=≈3.689>2.706,因此,在犯错误的概率不超过0.10的前提下认为性别与休闲方式有关系.
答案:0.10
7.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠.在照射后14天的结果如下表所示:
死亡
存活
总计
第一种剂量
14
11
25
第二种剂量
6
19
25
总计
20
30
50
进行统计分析的统计假设是________,K2=________,说明两种电离辐射剂量对小白鼠的致死作用________.(填“相同”或“不相同”)
参考公式:K2=
解析:统计假设是“小白鼠的死亡与使用的电离辐射剂量无关”,由列联表中数据得K2=5.33>3.841,所以在犯错误的概率不超过0.05的前提下认为小白鼠的死亡与使用的电离辐射剂量有关.所以两种电离辐射剂量对小白鼠的致死作用不相同.
答案:小白鼠的死亡与使用的电离辐射剂量无关 5.33 不相同
8.下表是关于男婴与女婴出生时间调查的列联表:
晚上
白天
总计
男婴
45
A
B
女婴
E
35
C
总计
98
D
180
那么,A=________,B=________,C=________,D=________,E=________.
解析:由列联表知识
得解得
答案:47 92 88 82 53
9.网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1
000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?
解析:根据题目所给的数据得到如下2×2列联表:
经常上网
不经常上网
总计
不及格
80
120
200
及格
120
680
800
总计
200
800
1
000
得出等高条形图如图所示:
比较图中阴影部分的高可以发现经常上网不及格的频率明显高于经常上网及格的频率,因此可以认为经常上网与学习成绩有关.
10.随着生活水平的提高,人们的休闲方式也发生了变化.某机构随机调查了n个人,其中男性占调查人数的.已知男性中有一半的人的休闲方式是运动,而女性中只有的人的休闲方式是运动.
(1)完成下列2×2列联表:
运动
非运动
总计
男性
女性
总计
n
(2)若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么本次被调查的人数至少有多少?
(3)根据(2)的结论,本次被调查的人中,至少有多少人的休闲方式是运动?
解析:(1)补全2×2列联表如下:
运动
非运动
总计
男性
n
n
n
女性
n
n
n
总计
n
n
n
(2)若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,则P(K2≥k0)=3.841.
由于K2的观测值
k==,
故≥3.841,即n≥138.276.
又由n∈Z,故n≥140.
故若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么本次被调查的至少有140人.
(3)根据(2)的结论,本次被调查的人中,至少有×140=56(人)的休闲方式是运动.
[B组 能力提升]
11.某卫生机构对366人进行健康体检,其中某项检测指标阳性家族史者糖尿病发病的有16人,不发病的有93人;阴性家族史者糖尿病发病的有17人,不发病的有240人,故在犯错误的概率不超过________的前提下认为糖尿病患者与遗传有关系.( )
A.0.001
B.0.005
C.0.01
D.0.025
解析:可以先作出如下列联表(单位:人):
糖尿病患者与遗传列联表
糖尿病发病
糖尿病不发病
总计
阳性家族史
16
93
109
阴性家族史
17
240
257
总计
33
333
366
根据列联表中的数据,得到K2的观测值为
k=≈6.067>5.024.
故在犯错误的概率不超过0.025的前提下认为糖尿病患者与遗传有关系.
答案:D
12.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是________(填序号).
①若K2的观测值k=6.635,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;
②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;
③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误.
解析:K2的观测值是支持确定有多大把握认为“两个分类变量吃零食与性别有关系”的随机变量值,所以由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误,故填③.
答案:③
13.根据下表计算:
不看电视
看电视
男
37
85
女
35
143
K2的观测值k≈________(保留3位小数).
解析:k=≈4.514.
答案:4.514
14.某学校为了解该校高三年级学生在市一练考试的数学成绩情况,随机从该校高三文科与理科各抽取50名学生的数学成绩,作出频率分布直方图如图,规定考试成绩在[120,150]内为优秀.
(1)由以上频率分布直方图填写下列2×2列联表.若按是否优秀来判断,是否有99%的把握认为该校的文理科数学成绩有差异.
文科
理科
总计
优秀
非优秀
总计
50
50
100
(2)某高校派出2名教授对该校随机抽取的学生成绩中一练数学成绩在140分以上的学生进行自主招生面试,每位教授至少面试一人,每位学生只能被一位教授面试.若甲教授面试的学生人数为ξ,求ξ的分布列和均值.
解析:(1)由频率分布直方图知,该校文科学生中数学成绩优秀的人数为(0.010+0.004+0.002)×10×50=8,故非优秀人数为50-8=42.该校理科学生中数学成绩优秀的人数为(0.020+0.014+0.006)×10×50=20,故非优秀人数为50-20=30.
则2×2列联表如下:
文科
理科
总计
优秀
8
20
28
非优秀
42
30
72
总计
50
50
100
∴K2的观测值k=≈7.143>6.635,故有99%的把握认为该校文理科数学成绩有差异.
(2)由(1)知,该校随机抽取的学生成绩中一练数学成绩在140分以上的学生为4人,ξ的可能取值为1,2,3.
将4人分给两名教授每名教授至少1名学生的不同分法种数为A=14,则
P(ξ=1)==,P(ξ=2)==,
P(ξ=3)==.
∴ξ的分布列为:
ξ
1
2
3
P
∴E(ξ)=1×+2×+3×=2.
15.某校为了了解学生对消防知识的了解情况,从高一年级和高二年级各选取100名同学进行消防知识竞赛.图(1)和图(2)分别是对高一年级和高二年级参加竞赛的学生成绩按[40,50),[50,60),[60,70),[70,80]分组,得到的频率分布直方图.
(1)请计算高一年级和高二年级成绩小于60分的人数.
(2)完成2×2列联表,并回答:在犯错误的概率不超过多少的前提下认为“学生所在的年级与消防常识的了解存在相关性”?
成绩小于60分人数
成绩不小于60分人数
总计
高一
高二
总计
附:临界值表及参考公式:
K2=,n=a+b+c+d.
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解析:(1)高一年级成绩低于60分的人数为:(0.03+0.04)×10×100=70;
高二年级成绩低于60分的人数为:
(0.035+0.015)×10×100=50.
(2)2×2列联表如下:
成绩小于60分人数
成绩不小于60分人数
总计
高一
70
30
100
高二
50
50
100
总计
120
80
200
由于K2的观测值k=≈8.333>7.879,所以在犯错误的概率不超过0.005的前提下认为“学生所在的年级与消防知识的了解存在相关性”.
PAGE