课件31张PPT。第一章 统计案例线性回归分析非线性回归分析独立性检验本部分内容讲解结束按ESC键退出全屏播放章末综合检测(一)
(时间:120分钟,满分:150分)
一、选择题:本题共12小题,每小题5分,在每小题给出的四个选项中,只有一项是符合题目要求的.
1.在下列各图中,两个变量具有较强正相关关系的散点图是( )
解析:选B.因为两变量x,y成正相关,所以其在坐标系中的散点分布应在左下角到右上角的区域,故选B.
2.商品销售量y(单位:件)与销售价格x(单位:元/件)负相关,则其回归方程可能是( )
A.=-10x+200 B.=10x+200
C.=-10x-200 D.=10x-200
解析:选A.由x与y负相关,可排除B,D两项,而C项中的=-10x-200<0不符合题意,故选A.
3.设产品产量与产品质量之间的线性相关系数为-0.87,这说明二者存在着( )
A.高度相关 B.中度相关
C.弱度相关 D.极弱相关
解析:选A.因为|-0.87|=0.87,与1接近,二者存在高度相关.
4.某市政府调查市民收入增减与旅游愿望的关系时,采用独立性检验法抽查了3 000人,计算发现K2=6.023,则根据这一数据查阅下表,市政府断言市民收入增减与旅游愿望有关系的可信程度是( )
P(K2≥k0)
…
0.25
0.15
0.10
0.025
0.010
0.005
…
k0
…
1.323
2.072
2.706
5.024
6.635
7.879
…
A.90% B.95%
C.97.5% D.99.5%
解析:选C.因为K2=6.023>5.024,故其可信程度为97.5%.
5.下表是某厂1~4月份用水量(单位:百吨)的一组数据:
月份x
1
2
3
4
用水量y
4.5
4
3
2.5
由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归方程是=-0.7x+,则=( )
A.10.5 B.5.15
C.5.2 D.5.25
解析:选D.样本点的中心为(2.5,3.5),将其代入线性回归方程可解得=5.25.
6.与变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);与变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )
A.r2<r1<0 B.0<r2<r1
C.r2<0<r1 D.r2=r1
解析:选C.对于变量Y与X而言,Y随X的增大而增大,故Y与X成正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U成负相关,即r2<0,所以有r2<0<r1.
7.某考察团对全国10大城市进行职工人均工资水平x(单位:千元)与居民人均消费水平y(单位:千元)统计调查发现,y与x具有相关关系,回归方程为=0.66x+1.562.若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为( )
A.83% B.72%
C.67% D.66%
解析:选A.因为当=7.675时,x≈9.262,所以≈0.829≈83%.
8.如图所示的等高条形图可以说明的问题是( )
A.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的
B.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同
C.此等高条形图看不出两种手术有什么不同的地方
D.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握
解析:选D.由等高条形图可知选项D正确.
9.下列说法:
①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程=3-5x,变量x增加一个单位时,y平均增加5个单位;③在线性回归分析中,判断所求得的两个相关变量,的回归方程拟合效果时,采用相关指数R2进行定量分析,R2越大(越接近1)说明模型拟合效果越好;④在一个2×2列联表中,由计算得K2的观测值为13.079,则有99%的把握确认这两个变量间有关系.其中错误的个数是( )
A.0 B.1
C.2 D.3
解析:选C.①方差反映一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变,故①正确;
②设有一个回归方程=3-5x,变量x增加一个单位时,y平均减少5个单位,故②不正确;
③判断模型拟合效果的重要量化指标为相关指数R2,R2越大意味着残差平方和就越小,拟合效果就越好.故③正确;
④由计算得K2的观测值为13.079,对照临界值,可得其两个变量间有关系的可能性是99.9%,故④错误,综上知,错误的个数是2.
10.有人收集了春节期间平均气温x与某取暖商品销售额y的有关数据如表:
平均气温(℃)
-2
-3
-5
-6
销售额(万元)
20
23
27
30
根据以上数据,用线性回归的方法,求得销售额y与平均气温x之间的线性回归方程=x+的系数=-2.4.则预测平均气温为-8 ℃时该商品的销售额为( )
A.34.6万元 B.35.6万元
C.36.6万元 D.37.6万元
解析:选A. ==-4,
==25,
所以25=(-2.4)×(-4)+.
所以=15.4.
所以回归直线方程为=-2.4x+15.4.
当x=-8时,y=34.6,
即预测平均气温为-8 ℃时,该商品的销售额为34.6万元.
11.(2018·莆田模拟)某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列联表:
月收入2 000元及以下
月收入2 000元以上
总计
高中文化以上
50
40
90
高中文化及以下
10
20
30
总计
60
60
120
请根据下表,估计有多大把握认为文化程度与月收入有关系( )
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
A.1% B.99%
C.5% D.95%
解析:选D.根据列联表得出K2的观测值k=≈4.444>3.841,则有95%以上的把握认为文化程度与月收入有关系.故选D.
12.(2018·石家庄模拟)对甲、乙两个班级学生的数学考试成绩按照优秀和不优秀统计人数后,得到如下列联表:
优秀
不优秀
总计
甲班
10
b
10+b
乙班
c
30
30+c
总计
10+c
30+b
40+b+c
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.有97.5%以上的把握认为成绩与班级有关系
D.没有97.5%以上的把握认为成绩与班级有关系
解析:选C.由题意,知成绩优秀的学生人数是105×=30,成绩不优秀的学生人数是105-30=75,所以c=20,b=45,选项A,B错误.因为K2的观测值k=≈6.109>5.024,因此有97.5%以上的把握认为成绩与班级有关系.
二、填空题:本题共4小题,每小题5分.
13.给出下列实际问题:
①一种药物对某种病的治愈率;
②两种药物治疗同一种病是否有关系;
③吸烟者得肺病的概率;
④吸烟人群是否与性别有关系;
⑤上网与青少年的犯罪率是否有关系.
其中,用独立性检验可以解决的问题有________.
解析:独立性检验主要是对两个分类变量是否有关系进行检验,主要涉及两种变量对同一种事情的影响,或者是两种变量在同一问题上体现的区别等.
答案:②④⑤
14.以下三个命题:
①若两个变量的线性相关性越强,则它们的相关系数的值越接近于1;
②在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高;
③对分类变量Χ与Y的随机变量K2的观测值k来说,k越小,判断“Χ与Y有关系”的把握越大.
其中假命题的序号为________.
解析:①线性相关系数r的绝对值越接近于1,两变量的线性相关性越强,但两个变量的线性相关性越强它们的相关系数的值不一定越接近1,也有可能接近-1,故命题错误;②在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高;③显然错误.
答案:①③
15.在某年春节期间,某市物价部门,对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的价格x元和销售量y件之间的一组数据如下表所示:
价格x
9
9.5
10
10.5
11
销售量y
11
10
8
6
5
通过分析,发现销售量y对商品的价格x具有线性相关关系,则销售量y对商品的价格x的回归直线方程为________.
解析:xi yi =392, =10, =8, (xi-)2=2.5,代入公式,得=-3.2,所以,=-=40,故回归直线方程为=-3.2x+40.
答案:=-3.2x+40
16.(2018·洛阳检测)某中学为了解喜欢看世界杯足球赛是否与性别有关,随机调查了部分学生,在被调查的中学生中,男生人数是女生人数的2倍,男生喜欢看世界杯足球赛的人数占男生人数的,女生喜欢看世界杯足球赛的人数占女生人数的.若被调查的男生人数为n,且有95%以上的把握认为是否喜欢看世界杯足球赛与性别有关,则男生的人数至少为________.
解析:由题意得到如下列联表:
喜欢看世界杯足球赛
不喜欢看世界杯足球赛
总计
男生
n
女生
总计
n
所以K2的观测值k==.
因为有95%以上的把握认为是否喜欢看世界杯足球赛与性别有关,所以k>3.841,即>3.841,n>10.243.
又,,为整数,所以n的最小值为12,即男生的人数至少为12.
答案:12
三、解答题:解答应写出文字说明、证明过程或演算步骤.
17.(本小题满分10分)为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:
父母吸烟
父母不吸烟
总计
子女吸烟
237
83
320
子女不吸烟
678
522
1 200
总计
915
605
1 520
试用图形方法判断父母吸烟对子女吸烟是否有影响.
解:等高条形图如图所示:
由图形观察可以看出父母吸烟者中子女吸烟的比例要比父母不吸烟者中子女吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关”.
18.(本小题满分12分)媒体为调查喜欢看娱乐节目A是否与性格有关,随机抽取了500名性格外向的和500名性格内向的居民,抽查结果用等高条形图表示如图:
(1)作出2×2列联表;
(2)试问:是否有99.9%以上的把握认为喜欢看娱乐节目A与性格有关?
解:(1)由等高条形图,知性格外向的人中喜欢看娱乐节目A的有500×0.8=400(人),性格内向的人中喜欢看娱乐节目A的有500×0.5=250(人),
作2×2列联表如下:
喜欢看娱乐节目A
不喜欢看娱乐节目A
总计
性格外向
400
100
500
性格内向
250
250
500
总计
650
350
1 000
(2)K2的观测值k=≈98.901,
因为98.901>10.828,
所以有99.9%以上的把握认为喜欢看娱乐节目A与性格有关.
19.(本小题满分12分)(2018·唐山期末)一机器可以按各种不同的速度运转,其生产物件有一些会有缺点,每小时生产有缺点物件的个数随机器运转速度的变化而变化,用x表示转速(单位:转/秒),用y表示每小时生产的有缺点物件的个数,现观测得到(x,y)的4组观测的值为(8,5),(12,8),(14,9),(16,11).
(1)假定y与x之间有线性相关关系,求y关于x的线性回归方程;
(2)若实际生产中所容许的每小时生产的有缺点物件不超过10个,则机器的运转速度不得超过多少转/秒(精确到1转/秒)?
解:(1)因为=12.5,=8.25,x=660,xiyi=438,
所以===,
=-=8.25-×12.5=-,
所以所求线性回归方程为=x-.
(2)由=x-≤10,
得x≤≈15,
即机器的运转速度不得超过15转/秒.
20.(本小题满分12分)下图是我国2010年至2016年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1-7分别对应年份2010-2016.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2018年我国生活垃圾无害化处理量.
附注:
参考数据:yi=9.32,tiyi=40.17, =0.55,≈2.646.
参考公式:相关系数r
回归方程=+t中斜率和截距的最小二乘估计公式分别为:
=,=-.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
所以,y关于t的回归方程为=0.92+0.10t.
将2018年对应的t=9代入回归方程得=0.92+0.10×9=1.82.所以预测2018年我国生活垃圾无害化处理量约为1.82亿吨.
21.(本小题满分12分)以下资料是一位销售经理收集到的每年销售额y(千元)和销售经验x(年)的关系:
销售经验x/年
1
3
4
4
6
8
10
10
11
13
年销售额y/千元
80
97
92
102
103
111
119
123
117
136
(1)依据这些数据画出散点图并作直线=78+4.2x,计算 (yi-i)2;
(2)依据这些数据求回归直线方程并据此计算 (yi-i)2;
(3)比较(1)(2)中的残差平方和 (yi-i)2的大小.
解:(1)散点图与直线=78+4.2x的图形如图,
对x=1,3,…,13,有
i=82.2,90.6,94.8,94.8,103.2,111.6,120,120,124.2,132.6, (yi-i)2=179.28.
(2) =xi=7, (xi-)2=142,
=yi=108,
(xi-)(yi-)=568,
所以==4,
=-=108-7×4=80,
故=80+4x,对x=1,3,…,13,有
i=84,92,96,96,104,112,120,120,124,132,
(yi-i)2=170.
(3)比较可知,第二问中求出的 (yi-i)2较小.
22.(本小题满分12分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg), 其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
解:(1)旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2的观测值k=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
1.对变量x,y进行回归分析时,依据得到的4个不同的回归模型作出残差图,则模型拟合精度最高的是( )
解析:选A.用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,带状区域的宽度越窄,说明模型拟合精度越高,由此可知A选项对应的模型拟合精度最高.故选A.
2.若一函数模型为y=ax2+bx+c(a≠0),为将y转化为t的线性回归方程,需要进行变换,即令t=( )
A.x2 B.(x+a)2
C. D.ax+b
解析:选C.由题意,知y=a+.令t=,则y=at+,满足题意,故选C.
3.如图,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是( )
A.相关系数r变大
B.残差平方和变大
C.R2变大
D.解释变量x与预报变量y的相关性变强
解析:选B.由散点图,知去掉D后,x与y的相关性变强,且为正相关,所以r变大,R2变大,残差平方和变小.
4.某化妆品公司为了增加其商品的销售利润,调查了该商品投入的广告费用x与销售利润y的统计数据如下表:
广告费用x(万元)
2
3
5
6
销售利润y(万元)
5
7
9
11
由表中数据,得线性回归方程l:=x+(=,=-),则下列结论正确的是( )
A.<0
B.<0
C.直线l过点(4,8)
D.直线l过点(2,5)
解析:选C.因为=1.4>0,=-=8-1.4×4=2.4>0,所以排除A、B;因为=1.4x+2.4,所以1.4×2+2.4=5.2≠5,所以点(2,5)不在直线l上,所以排除D;因为=4,=8,所以回归直线l过样本点的中心(4,8),故选C.
5.为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5).根据收集到的数据可知x1+x2+x3+x4+x5=150,由最小二乘法求得回归直线方程为=0.67x+54.9,则y1+y2+y3+y4+y5的值为_________________________________.
解析:由题意,得=(x1+x2+x3+x4+x5)=30,且回归直线=0.67x+54.9 恒过点(,),则=0.67×30+54.9=75,所以y1+y2+y3+y4+y5=5=375.
答案:375
6.为了研究司机血液中含有酒精与对事故负有责任是否有关系,从遭遇汽车碰撞事故的司机中随机调查了2 000名司机,得到如下列联表:
有责任
无责任
总计
血液中含有酒精
650
150
800
血液中无酒精
700
500
1 200
总计
1 350
650
2 000
画出列联表对应的等高条形图,并通过图形分析司机血液中含有酒精与对事故负有责任是否有关系.能否在犯错误的概率不超过0.001的前提下认为二者有关系?
解:相应的等高条形图如图所示:
图中两个深色条的高分别表示司机血液中含有酒精和无酒精的两个样本中对事故负有责任的频率.从图中可以看出,司机血液中含有酒精的样本中对事故负有责任的频率明显高于司机血液中无酒精的样本中对事故负有责任的频率.
由此可以认为司机血液中含有酒精与对事故负有责任有关系.
由列联表中的数据,得K2的观测值
k=≈114.910>10.828.
因此,在犯错误的概率不超过0.001的前提下,认为司机血液中含有酒精与对事故负有责任有关系.