考点一
线性回归方程
在散点图中样本点大致分布在一条直线附近,则利用线性回归模型进行研究,可近似地利用回归直线方程=x+来预报,利用公式求出回归系数,,即可写出回归直线方程,并用回归直线方程进行预测说明.
[典例1] 以下是某地收集到的新房屋的销售价格y和房屋的面积x的数据:
房屋面积x/m2
115
110
80
135
105
销售价格y/万元
24.8
21.6
18.4
29.2
22
(1)画出数据对应的散点图;
(2)若线性相关,求线性回归方程;
(3)根据(2)的结果估计当房屋面积为150 m2时的销售价格.
解:(1)数据对应的散点图如图所示.
(2)由散点图知y与x具有线性相关关系.
由表中数据知=i=109,
=i=23.2,=60 975,iyi=12 952.
设所求回归直线方程为=x+,
则=≈0.196 2,=-≈1.814 2,
故所求回归直线方程为=0.196 2x+1.814 2.
(3)根据(2),当x=150时,销售价格的估计值为=0.1962×150+1.814 2=31.244 2(万元).
[对点训练]
1.某公司为了解广告投入对销售收益的影响,在若干地区共投入4万元广告费用,并将各地的销售收益绘制成频率分布直方图(如图所示).由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.
(1)根据频率分布直方图计算图中各小矩形的宽度;
(2)试估计该公司投入4万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值);
(3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:
广告投入x/万元
1
2
3
4
5
销售收益y/万元
2
3
2
7
由表中的数据显示,x与y之间存在着线性相关关系,请将(2)的结果填入空白栏,并求出y关于x的回归直线方程.
解:(1)设各小矩形的宽度为m,由频率分布直方图中各小矩形的面积和为1,可知(0.08+0.10+0.14+0.12+0.04+0.02)·m=1,
解得m=2,
故图中各小矩形的宽度为2.
(2)由(1)知各分组依次是[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],它们的中点的横坐标分别为1,3,5,7,9,11,
各组对应的频率分别为0.16,0.20,0.28,0.24,0.08,0.04,
故可估计销售收益的平均值为1×0.16+3×0.20+5×0.28+7×0.24+9×0.08+11×0.04=5.
(3)由(2)可知空白栏中填5.
由题意可知,==3,==3.8,
iyi=1×2+2×3+3×2+4×5+5×7=69,
=12+22+32+42+52=55,
所以==1.2,=3.8-1.2×3=0.2,
故所求的回归直线方程为=1.2x+0.2.
考点二
回归模型分析
对于建立的回归模型,我们必须对模型的拟合效果进行分析,也就是对利用回归模型解决实际问题的效果进行评价.一方面可以对比残差或残差平方和的大小,同时观察残差图,进行残差分析;另一方面也可以研究数据的R2(相关系数r).对模型拟合效果的分析能够帮助我们利用最优化的模型来解决实际问题.
[典例2] 在研究弹簧伸长长度y(cm)与拉力x(N)的关系时,对不同拉力的6根弹簧进行测量,测得如下表中的数据:
x/N
5
10
15
20
25
30
y/cm
7.25
8.12
8.95
9.90
10.9
11.8
若依据散点图及最小二乘法求出的回归直线方程为=0.18x+6.34,求R2,并结合残差说明拟合效果.
解:列表求值如下:
xi
5
10
15
20
25
30
yi
7.25
8.12
8.95
9.90
10.9
11.8
xiyi
36.25
81.2
134.25
198
272.5
354
x
25
100
225
400
625
900
yi-i
0.01
-0.02
-0.09
-0.04
0.06
0.06
yi-
-2.24
-1.37
-0.54
0.41
1.41
2.31
=17.5,≈9.49,iyi=1 076.2,=2 275,(yi-i)2=0.017 4,(yi-)2=14.678 4.
∴R2=1-≈0.998 81,回归模型拟合效果较好.由表中数据可以看出残差比较均匀地落在宽度不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高.
[对点训练]
2.在一次抽样调查中测得样本的6组数据,得到一个变量y关于x的回归方程模型,其对应的数值如下表:
x
2
3
4
5
6
7
y
3.00
2.48
2.08
1.86
1.48
1.10
(1)请用相关系数r说明y与x之间存在线性相关关系(当|r|>0.81时,说明y与x之间具有线性相关关系);
(2)根据(1)的判断结果,建立y关于x的回归方程并预测当x=9时,对应的值为多少(精确到0.01).
附参考公式:回归方程=x+中和的最小二乘估计公式分别为=,=-,相关系数r的公式为r=.
参考数据:iyi=47.64,=139,(xi-)(yi-)=-6.36, ≈4.18,
≈1.53.
解:(1)由题意,得=×(2+3+4+5+6+7)=4.5,
=×(3.00+2.48+2.08+1.86+1.48+1.10)=2,
又(xi-)(yi-)=-6.36, ≈4.18,≈1.53,
所以r=≈=
-≈-0.99.
因为|r|>0.81,所以y与x之间存在线性相关关系.
(2)因为===-≈-0.36,
=-=2+0.36×4.5=3.62,
所以y关于x的线性回归方程为=-0.36x+3.62.
将x=9代入回归方程得
=-0.36×9+3.62=0.38.
考点三
独立性检验
独立性检验就是根据采集的样本数据,利用公式求出随机变量K2的观测值k,通过比较k与临界值k0的大小来确定两个分类变量是否有关系的方法.
[典例3] 户外运动已经成为一种时尚运动,某单位为了了解员工喜欢户外运动是否与性别有关,决定从本单位全体650人中采用分层抽样的办法抽取50人进行问卷调查,得到了如下列联表:
喜欢户外运动
不喜欢户外运动
总计
男性5
女性
10
总计50
已知在这50人中随机抽取1人抽到喜欢户外运动的员工的概率是.
(1)请将上面的列联表补充完整;
(2)求该公司男、女员工各多少人;
(3)在犯错误的概率不超过0.005的前提下能否认为喜欢户外运动与性别有关?并说明你的理由.
下面的临界值表仅供参考:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
参考公式:K2=,其中n=a+b+c+d
解:(1)因为在全部50人中随机抽取1人抽到喜欢户外运动的员工的概率是,所以喜欢户外运动的男女员工共30人,其中男员工20人,列联表补充如下:
喜欢户外运动
不喜欢户外运动
总计
男性
20
5
25
女性
10
15
25
总计
30
20
50
(2)该公司男员工人数为25÷50×650=325(人),则女员工有325人.
(3)K2的观测值k=≈8.333>7.879,所以在犯错误的概率不超过0.005的前提下认为喜欢户外运动与性别有关.
[对点训练]
3.吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不利影响,影响学生的健康成长.下表是性别与吃零食的列联表:
男
女
总计
喜欢吃零食
5
12
17
不喜欢吃零食
40
28
68
总计
45
40
85
请问喜欢吃零食与性别是否有关?
解:k=,
把相关数据代入公式,得
k=
≈4.722>3.841.
因此,在犯错误的概率不超过0.05的前提下,可以认为“喜欢吃零食与性别有关”.
阶段质量检测(一)
一、选择题(本大题共12小题,每小题5分,共60分,在每小题给出的四个选项中,只有一项是符合题目要求的)
1.下列变量之间的关系是函数关系的是( )
A.已知二次函数y=ax2+bx+c,其中a,c是已知常数,取b为自变量,因变量是这个函数对应方程的判别式Δ
B.光照时间和果树亩产量
C.降雪量和交通事故的发生率
D.每亩施用肥料量和粮食亩产量
解析:选A 由函数关系和相关关系的定义可知,A中Δ=b2-4ac,因为a,c是已知常数,b为自变量,所以给定一个b的值,就有唯一确定的Δ与之对应,所以Δ与b之间是一种确定的关系,是函数关系.B,C,D中两个变量之间的关系都是随机的、不确定的,所以不是函数关系.
2.设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是( )
A.直线l过点(,)
B.x和y的相关系数为直线l的斜率
C.x和y的相关系数在0到1之间
D.当n为偶数时,分布在l两侧的样本点的个数一定相同
解析:选A 所有线性回归直线必过样本中心点(,),所以A正确.
3.两个变量y与x的回归模型中,分别选择了4个不同模型,对于样本点(x1,y1),(x2,y2),…,(xn,yn),可以用R2=1-来刻画回归的效果.已知模型1中R2=0.95,模型2中R2=0.81,模型3中R2=0.65,模型4中R2=0.52,其中拟合效果最好的模型是( )
A.模型1 B.模型2
C.模型3 D.模型4
解析:选A R2的值越大,模型的拟合效果越好,故选A.
4.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的截距是a,那么必有( )
A.b与r的符号相同 B.a与r的符号相同
C.b与r的符号相反 D.a与r的符号相反
解析:选A 因为b>0时,两变量正相关,此时r>0;b<0时,两变量负相关,此时r<0.
5.下表显示出样本中变量y随变量x变化的一组数据,由此判断它最可能是( )
x
4
5
6
7
8
9
10
y
14
18
19
20
23
25
28
A.线性函数模型 B.二次函数模型
C.指数函数模型 D.对数函数模型
解析:选A 画出散点图(图略)可以得到这些样本点在某一条直线上或该直线附近,故最可能是线性函数模型.
6.已知变量x与y的取值如下表所示,且2.5x
2
3
4
5
y
6.5
m
n
2.5
A.=0.8x+2.3 B.=2x+0.4
C.=-1.5x+8 D.=-1.6x+10
解析:选D 由2.57.在研究吸烟与患肺癌的关系中,通过收集数据并整理、分析,得到“吸烟与患肺癌有关”的结论,并且有99%的把握认为这个结论成立.下列说法正确的个数是( )
①在100个吸烟者中至少有99个人患肺癌;②如果一个人吸烟,那么这个人有99%的概率患肺癌;③在100个吸烟者中一定有患肺癌的人;④在100个吸烟者中可能一个患肺癌的人也没有.
A.4 B.3 C.2 D.1
解析:选D 有99%的把握认为“吸烟与患肺癌有关”,指的是“吸烟与患肺癌有关”这个结论成立的可能性或者可信程度有99%,并不表明在100个吸烟者中至少有99个人患肺癌,也不能说如果一个人吸烟,那么这个人就有99%的概率患肺癌;更不能说在100个吸烟者中一定有患肺癌的人,反而有可能在100个吸烟者中,一个患肺癌的人也没有.故正确的说法仅有④,选D.
8.如图,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是( )
A.相关系数r变大
B.残差平方和变大
C.相关指数R2变大
D.解释变量x与预报变量y的相关性变强
解析:选B 由散点图知,去掉D后,x与y的相关性变强,且为正相关,所以r变大,R2变大,残差平方和变小.
9.根据一位母亲记录儿子3~9岁的身高数据,建立儿子身高(单位:cm)对年龄(单位:岁)的线性回归方程为=7.19x+73.93,若用此方程预测儿子10岁时的身高,有关叙述正确的是( )
A.身高一定为145.83 cm
B.身高大于145.83 cm
C.身高小于145.83 cm
D.身高在145.83 cm左右
解析:选D 用线性回归方程预测的不是精确值,而是估计值.当x=10时,y=145.83,只能说身高在145.83 cm左右.
10.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.
非一线城市
一线城市
总计
愿生
45
20
65
不愿生
13
22
35
总计
58
42
100
附表:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
由K2=算得,K2=≈9.616,参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”
C.有99%以上的把握认为“生育意愿与城市级别有关”
D.有99%以上的把握认为“生育意愿与城市级别无关”
解析:选C ∵K2=≈9.616>6.635,
∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.
11.某产品的广告费用x(万元)与销售额y(万元)的统计数据如下表所示,根据表中数据可得回归方程=x+中的=10.6.据此模型预测广告费用为10万元时的销售额为( )
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
58
A.112.1万元 B.113.1万元
C.111.9万元 D.113.9万元
解析:选C 由题表中数据得=3.5,=43.由于回归直线=x+过点(,),且=10.6,解得=5.9,
所以线性回归方程为=10.6x+5.9,于是当x=10时,=111.9.
12.两个分类变量X和Y,值域分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若X与Y有关系的可信程度不小于97.5%,则c等于( )
A.3 B.4
C.5 D.6
解析:选A 列2×2列联表如下:
x1
x2
总计
y1
10
21
31
y2
c
d
35
总计
10+c
21+d
66
故K2的观测值k=≥5.024.
把选项A,B,C,D代入验证可知选A.
二、填空题(本大题共4小题,每小题5分,共20分,把答案填在题中横线上)
13.下面是一个2×2列联表:
y1
y2
总计
x1
a
21
73
x2
8
25
33
总计
b
46
则表中b-a=________.
解析:b-a=8.
答案:8
14.已知样本容量为11,计算得i=510,i=214,回归方程为=0.3x+,则≈________,≈________.(精确到0.01)
解析:由题意得=i=≈46.36,=i=,因为=0.3+,
所以=0.3×+,可得≈5.55.
答案:46.36 5.55
15.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表,由表中数据得线性回归方程=x+,其中=-2.现预测当气温为-4℃时,用电量的度数约为________.
气温x(℃)
18
13
10
-1
用电量y(度)
24
34
38
64
解析:由题意可知=(18+13+10-1)=10,
=(24+34+38+64)=40,=-2.
又回归直线=-2x+过点(10,40),故=60,
所以当x=-4时,=-2×(-4)+60=68.
答案:68
16.某部门通过随机调查89名工作人员的休闲方式是读书还是健身,得到的数据如下表:
读书
健身
总计
女
24
31
55
男
8
26
34
总计
32
57
89
在犯错误的概率不超过________的前提下性别与休闲方式有关系.
解析:由列联表中的数据,得K2的观测值为
k=≈3.689>2.706,
因此,在犯错误的概率不超过0.10的前提下认为性别与休闲方式有关系.
答案:0.10
三、解答题(本大题共6小题,共70分,解答时应写出必要的文字说明、证明过程或演算步骤)
17.(本小题10分)某医疗科研项目组对5只实验小白鼠体内的A,B两项指标数据进行收集和分析,得到的数据如下表:
指标
1号
小白鼠
2号
小白鼠
3号
小白鼠
4号
小白鼠
5号
小白鼠
A
5
7
6
9
8
B
2
2
3
4
4
若通过数据分析,得知A项指标数据与B项指标数据具有线性相关关系.试根据上表,求B项指标数据y关于A项指标数据x的线性回归方程=x+.
参考公式:==,=-.
解:(1)由题意,可得=7,=3,
iyi=110,=255,==.
∵=-,∴=-.
∴所求线性回归方程为=x-.
18.(本小题12分)有两个分类变量x与y,其一组观测值如下面的2×2列联表所示:
y1
y2
x1
a
20-a
x2
15-a
30+a
其中a,15-a均为大于5的整数,则a取何值时,在犯错误的概率不超过0.1的前提下认为x与y之间有关系?
解:查表可知,要使在犯错误的概率不超过0.1的前提下认为x与y之间有关系,则k≥2.706,而
k=
==.
由k≥2.706得a≥7.19或a≤2.04.
又a>5且15-a>5,a∈Z,解得a=8或9,
故a为8或9时,在犯错误的概率不超过0.1的前提下认为x与y之间有关系.
19.(本小题 12分)某市春节期间7家超市广告费支出 xi(万元)和销售额yi(万元)数据如下表:
超市
A
B
C
D
E
F
G
广告费支出xi
1
2
4
6
11
13
19
销售额yi
19
32
40
44
52
53
54
(1)若用线性回归模型拟合y与x的关系,求y与x的线性回归方程;
(2)若用二次函数回归模型拟合y与x的关系,可得回归方程:=-0.17x2+5x+20,经计算,二次函数回归模型和线性回归模型的R2分别约为0.93和0.75,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出3万元时的销售额.
参考数据:=8,=42,iyi=2 794,=708.
解:(1)===1.7,
∴=-=28.4,
故y关于x的线性回归方程是=1.7x+28.4.
(2)∵0.75<0.93,∴二次函数回归模型更合适.
当x=3时,=33.47.
故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3万元时的销售额为33.47万元.
20.(本小题12分)某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制的频率分布直方图如图所示.规定80分以上者晋级成功,否则晋级失败(满分为100分).
(1)求图中a的值;
(2)估计该次考试的平均分(同一组中的数据用该组的区间中点值代表);
(3)根据已知条件完成下面2×2列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.
晋级成功
晋级失败
合计
男
16
女
50
合计
参考公式:K2=,其中n=a+b+c+d
P(K2≥k)
0.40
0.25
0.15
0.10
0.05
0.025
k
0.780
1.323
2.072
2.706
3.841
5.024
解:(1)由频率分布直方图中各小长方形面积总和为1,得(2a+0.020+0.030+0.040)×10=1,解得a=0.005.
(2)由频率分布直方图知各小组的中点值依次是55,65,75,85,95,
对应的频率分别为0.05,0.30,0.40,0.20,0.05,
则估计该次考试的平均分为=55×0.05+65×0.3+75×0.4+85×0.2+95×0.05=74(分).
(3)由频率分布直方图知,晋级成功的频率为0.2+0.05=0.25,
故晋级成功的人数为100×0.25=25,
填写2×2列联表如下:
晋级成功
晋级失败
合计
男
16
34
50
女
9
41
50
合计
25
75
100
K2==
≈2.613>2.072,
所以有85%的把握认为“晋级成功”与性别有关.
21.(本小题12分)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分为5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.
(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;
(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
P(K2≥k)
0.100
0.050
0.010
0.001
k
2.706
3.841
6.635
10.828
解:(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.
所以,样本中日平均生产件数不足60件的工人中,
25周岁以上组工人有60×0.05=3(人),
记为A1,A2,A3;
25周岁以下组工人有40×0.05=2(人),
记为B1,B2.
从中随机抽取2名工人,所有的可能结果共有10种,
它们是(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).
其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).故所求的概率P=.
(2)由频率分布直方图可知,在抽取的100名工人中,
“25周岁以上组”中的生产能手有60×0.25=15(人),
“25周岁以下组”中的生产能手有40×0.375=15(人),
据此可得2×2列联表如下:
生产能手
非生产能手
合计
25周岁以上组
15
45
60
25周岁以下组
15
25
40
合计
30
70
100
所以得K2=
=
=≈1.79.
因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.
22.(本小题12分)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:
(1)试问这3年的前7个月中哪个月的月平均利润较高?
(2)通过计算判断这3年的前7个月的总利润的发展趋势;
(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.
月份
1
2
3
4
利润y(单位:百万元)
4
4
6
6
参考公式:==,=-.
解:(1)由折线图可知5月和6月的平均利润最高.
(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元),
第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元),
第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元),
所以这3年的前7个月的总利润呈上升趋势.
(3)∵=2.5,=5,12+22+32+42=30,1×4+2×4+3×6+4×6=54,
∴==0.8,
∴=5-2.5×0.8=3,
∴=0.8x+3,
当x=8时,=0.8×8+3=9.4.
∴估计第3年8月份的利润为9.4百万元.
课件28张PPT。考点一线性回归方程 考点二回归模型分析 考点三独立性检验 谢谢!阶段质量检测(一)
一、选择题(本大题共12小题,每小题5分,共60分,在每小题给出的四个选项中,只有一项是符合题目要求的)
1.下列变量之间的关系是函数关系的是( )
A.已知二次函数y=ax2+bx+c,其中a,c是已知常数,取b为自变量,因变量是这个函数对应方程的判别式Δ
B.光照时间和果树亩产量
C.降雪量和交通事故的发生率
D.每亩施用肥料量和粮食亩产量
解析:选A 由函数关系和相关关系的定义可知,A中Δ=b2-4ac,因为a,c是已知常数,b为自变量,所以给定一个b的值,就有唯一确定的Δ与之对应,所以Δ与b之间是一种确定的关系,是函数关系.B,C,D中两个变量之间的关系都是随机的、不确定的,所以不是函数关系.
2.设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是( )
A.直线l过点(,)
B.x和y的相关系数为直线l的斜率
C.x和y的相关系数在0到1之间
D.当n为偶数时,分布在l两侧的样本点的个数一定相同
解析:选A 所有线性回归直线必过样本中心点(,),所以A正确.
3.两个变量y与x的回归模型中,分别选择了4个不同模型,对于样本点(x1,y1),(x2,y2),…,(xn,yn),可以用R2=1-来刻画回归的效果.已知模型1中R2=0.95,模型2中R2=0.81,模型3中R2=0.65,模型4中R2=0.52,其中拟合效果最好的模型是( )
A.模型1 B.模型2
C.模型3 D.模型4
解析:选A R2的值越大,模型的拟合效果越好,故选A.
4.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的截距是a,那么必有( )
A.b与r的符号相同 B.a与r的符号相同
C.b与r的符号相反 D.a与r的符号相反
解析:选A 因为b>0时,两变量正相关,此时r>0;b<0时,两变量负相关,此时r<0.
5.下表显示出样本中变量y随变量x变化的一组数据,由此判断它最可能是( )
x
4
5
6
7
8
9
10
y
14
18
19
20
23
25
28
A.线性函数模型 B.二次函数模型
C.指数函数模型 D.对数函数模型
解析:选A 画出散点图(图略)可以得到这些样本点在某一条直线上或该直线附近,故最可能是线性函数模型.
6.已知变量x与y的取值如下表所示,且2.5x
2
3
4
5
y
6.5
m
n
2.5
A.=0.8x+2.3 B.=2x+0.4
C.=-1.5x+8 D.=-1.6x+10
解析:选D 由2.57.在研究吸烟与患肺癌的关系中,通过收集数据并整理、分析,得到“吸烟与患肺癌有关”的结论,并且有99%的把握认为这个结论成立.下列说法正确的个数是( )
①在100个吸烟者中至少有99个人患肺癌;②如果一个人吸烟,那么这个人有99%的概率患肺癌;③在100个吸烟者中一定有患肺癌的人;④在100个吸烟者中可能一个患肺癌的人也没有.
A.4 B.3 C.2 D.1
解析:选D 有99%的把握认为“吸烟与患肺癌有关”,指的是“吸烟与患肺癌有关”这个结论成立的可能性或者可信程度有99%,并不表明在100个吸烟者中至少有99个人患肺癌,也不能说如果一个人吸烟,那么这个人就有99%的概率患肺癌;更不能说在100个吸烟者中一定有患肺癌的人,反而有可能在100个吸烟者中,一个患肺癌的人也没有.故正确的说法仅有④,选D.
8.如图,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是( )
A.相关系数r变大
B.残差平方和变大
C.相关指数R2变大
D.解释变量x与预报变量y的相关性变强
解析:选B 由散点图知,去掉D后,x与y的相关性变强,且为正相关,所以r变大,R2变大,残差平方和变小.
9.根据一位母亲记录儿子3~9岁的身高数据,建立儿子身高(单位:cm)对年龄(单位:岁)的线性回归方程为=7.19x+73.93,若用此方程预测儿子10岁时的身高,有关叙述正确的是( )
A.身高一定为145.83 cm
B.身高大于145.83 cm
C.身高小于145.83 cm
D.身高在145.83 cm左右
解析:选D 用线性回归方程预测的不是精确值,而是估计值.当x=10时,y=145.83,只能说身高在145.83 cm左右.
10.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.
非一线城市
一线城市
总计
愿生
45
20
65
不愿生
13
22
35
总计
58
42
100
附表:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
由K2=算得,K2=≈9.616,参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”
C.有99%以上的把握认为“生育意愿与城市级别有关”
D.有99%以上的把握认为“生育意愿与城市级别无关”
解析:选C ∵K2=≈9.616>6.635,
∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.
11.某产品的广告费用x(万元)与销售额y(万元)的统计数据如下表所示,根据表中数据可得回归方程=x+中的=10.6.据此模型预测广告费用为10万元时的销售额为( )
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
58
A.112.1万元 B.113.1万元
C.111.9万元 D.113.9万元
解析:选C 由题表中数据得=3.5,=43.由于回归直线=x+过点(,),且=10.6,解得=5.9,
所以线性回归方程为=10.6x+5.9,于是当x=10时,=111.9.
12.两个分类变量X和Y,值域分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若X与Y有关系的可信程度不小于97.5%,则c等于( )
A.3 B.4
C.5 D.6
解析:选A 列2×2列联表如下:
x1
x2
总计
y1
10
21
31
y2
c
d
35
总计
10+c
21+d
66
故K2的观测值k=≥5.024.
把选项A,B,C,D代入验证可知选A.
二、填空题(本大题共4小题,每小题5分,共20分,把答案填在题中横线上)
13.下面是一个2×2列联表:
y1
y2
总计
x1
a
21
73
x2
8
25
33
总计
b
46
则表中b-a=________.
解析:b-a=8.
答案:8
14.已知样本容量为11,计算得i=510,i=214,回归方程为=0.3x+,则≈________,≈________.(精确到0.01)
解析:由题意得=i=≈46.36,=i=,因为=0.3+,
所以=0.3×+,可得≈5.55.
答案:46.36 5.55
15.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表,由表中数据得线性回归方程=x+,其中=-2.现预测当气温为-4℃时,用电量的度数约为________.
气温x(℃)
18
13
10
-1
用电量y(度)
24
34
38
64
解析:由题意可知=(18+13+10-1)=10,
=(24+34+38+64)=40,=-2.
又回归直线=-2x+过点(10,40),故=60,
所以当x=-4时,=-2×(-4)+60=68.
答案:68
16.某部门通过随机调查89名工作人员的休闲方式是读书还是健身,得到的数据如下表:
读书
健身
总计
女
24
31
55
男
8
26
34
总计
32
57
89
在犯错误的概率不超过________的前提下性别与休闲方式有关系.
解析:由列联表中的数据,得K2的观测值为
k=≈3.689>2.706,
因此,在犯错误的概率不超过0.10的前提下认为性别与休闲方式有关系.
答案:0.10
三、解答题(本大题共6小题,共70分,解答时应写出必要的文字说明、证明过程或演算步骤)
17.(本小题10分)某医疗科研项目组对5只实验小白鼠体内的A,B两项指标数据进行收集和分析,得到的数据如下表:
指标
1号
小白鼠
2号
小白鼠
3号
小白鼠
4号
小白鼠
5号
小白鼠
A
5
7
6
9
8
B
2
2
3
4
4
若通过数据分析,得知A项指标数据与B项指标数据具有线性相关关系.试根据上表,求B项指标数据y关于A项指标数据x的线性回归方程=x+.
参考公式:==,=-.
解:(1)由题意,可得=7,=3,
iyi=110,=255,==.
∵=-,∴=-.
∴所求线性回归方程为=x-.
18.(本小题12分)有两个分类变量x与y,其一组观测值如下面的2×2列联表所示:
y1
y2
x1
a
20-a
x2
15-a
30+a
其中a,15-a均为大于5的整数,则a取何值时,在犯错误的概率不超过0.1的前提下认为x与y之间有关系?
解:查表可知,要使在犯错误的概率不超过0.1的前提下认为x与y之间有关系,则k≥2.706,而
k=
==.
由k≥2.706得a≥7.19或a≤2.04.
又a>5且15-a>5,a∈Z,解得a=8或9,
故a为8或9时,在犯错误的概率不超过0.1的前提下认为x与y之间有关系.
19.(本小题 12分)某市春节期间7家超市广告费支出 xi(万元)和销售额yi(万元)数据如下表:
超市
A
B
C
D
E
F
G
广告费支出xi
1
2
4
6
11
13
19
销售额yi
19
32
40
44
52
53
54
(1)若用线性回归模型拟合y与x的关系,求y与x的线性回归方程;
(2)若用二次函数回归模型拟合y与x的关系,可得回归方程:=-0.17x2+5x+20,经计算,二次函数回归模型和线性回归模型的R2分别约为0.93和0.75,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出3万元时的销售额.
参考数据:=8,=42,iyi=2 794,=708.
解:(1)===1.7,
∴=-=28.4,
故y关于x的线性回归方程是=1.7x+28.4.
(2)∵0.75<0.93,∴二次函数回归模型更合适.
当x=3时,=33.47.
故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3万元时的销售额为33.47万元.
20.(本小题12分)某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制的频率分布直方图如图所示.规定80分以上者晋级成功,否则晋级失败(满分为100分).
(1)求图中a的值;
(2)估计该次考试的平均分(同一组中的数据用该组的区间中点值代表);
(3)根据已知条件完成下面2×2列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.
晋级成功
晋级失败
合计
男
16
女
50
合计
参考公式:K2=,其中n=a+b+c+d
P(K2≥k)
0.40
0.25
0.15
0.10
0.05
0.025
k
0.780
1.323
2.072
2.706
3.841
5.024
解:(1)由频率分布直方图中各小长方形面积总和为1,得(2a+0.020+0.030+0.040)×10=1,解得a=0.005.
(2)由频率分布直方图知各小组的中点值依次是55,65,75,85,95,
对应的频率分别为0.05,0.30,0.40,0.20,0.05,
则估计该次考试的平均分为=55×0.05+65×0.3+75×0.4+85×0.2+95×0.05=74(分).
(3)由频率分布直方图知,晋级成功的频率为0.2+0.05=0.25,
故晋级成功的人数为100×0.25=25,
填写2×2列联表如下:
晋级成功
晋级失败
合计
男
16
34
50
女
9
41
50
合计
25
75
100
K2==
≈2.613>2.072,
所以有85%的把握认为“晋级成功”与性别有关.
21.(本小题12分)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分为5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.
(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;
(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
P(K2≥k)
0.100
0.050
0.010
0.001
k
2.706
3.841
6.635
10.828
解:(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.
所以,样本中日平均生产件数不足60件的工人中,
25周岁以上组工人有60×0.05=3(人),
记为A1,A2,A3;
25周岁以下组工人有40×0.05=2(人),
记为B1,B2.
从中随机抽取2名工人,所有的可能结果共有10种,
它们是(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).
其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).故所求的概率P=.
(2)由频率分布直方图可知,在抽取的100名工人中,
“25周岁以上组”中的生产能手有60×0.25=15(人),
“25周岁以下组”中的生产能手有40×0.375=15(人),
据此可得2×2列联表如下:
生产能手
非生产能手
合计
25周岁以上组
15
45
60
25周岁以下组
15
25
40
合计
30
70
100
所以得K2=
=
=≈1.79.
因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.
22.(本小题12分)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:
(1)试问这3年的前7个月中哪个月的月平均利润较高?
(2)通过计算判断这3年的前7个月的总利润的发展趋势;
(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.
月份
1
2
3
4
利润y(单位:百万元)
4
4
6
6
参考公式:==,=-.
解:(1)由折线图可知5月和6月的平均利润最高.
(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元),
第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元),
第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元),
所以这3年的前7个月的总利润呈上升趋势.
(3)∵=2.5,=5,12+22+32+42=30,1×4+2×4+3×6+4×6=54,
∴==0.8,∴=5-2.5×0.8=3,
∴=0.8x+3,当x=8时,=0.8×8+3=9.4.
∴估计第3年8月份的利润为9.4百万元.