第1章 统计案例章末复习学案

文档属性

名称 第1章 统计案例章末复习学案
格式 zip
文件大小 258.6KB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2019-11-17 23:09:17

图片预览

文档简介

章末复习
学习目标 1.会求线性回归方程,并用回归直线进行预报.2.理解独立性检验的基本思想及实施步骤.
1.最小二乘法
对于一组数据(xi,yi),i=1,2,…,n,如果它们线性相关,则线性回归方程为=x+,其中==,=-.
2.2×2列联表
B

总计
A
a
b
a+b

c
d
c+d
总计
a+c
b+d
n
其中n=a+b+c+d为样本容量.
3.独立性检验
常用随机变量
K2=来检验两个变量是否有关系.
1.选用的模型不当是产生随机误差的原因之一.( √ )
2.相关系数r=-0.85,说明两个变量相关性较弱.( × )
3.在散点图大致呈线性时,求得回归方程才有意义.( √ )
4.等高条形图能展示列联表数据的占比.( √ )
5.利用随机变量K2进行独立性检验时,其值越小,犯错误的概率越小.( × )
6.独立性检验若得出结论有99%的可信度,则意味着这个结论一定是正确的.( × )
类型一 线性回归分析
例1 为了估计山上积雪融化后对下游灌溉的影响,在山下建立了一个观测站,测量了最大积雪深度x(尺)与当年灌溉面积y(千亩),得到连续10年的数据如下表:
年序
最大积雪深度x/尺
灌溉面积y/千亩
1
15.2
28.6
2
10.4
19.3
3
21.2
40.5
4
18.6
35.6
5
26.4
48.9
6
23.4
45.0
7
13.5
29.2
8
16.7
34.1
9
24.0
46.7
10
19.1
37.4
试求线性回归方程.
考点 线性回归方程
题点 求线性回归方程
解 为了研究这些数据中所蕴含的规律,我们把各年最大积雪深度作为横坐标,相应的灌溉面积作为纵坐标,作散点图如图所示.
从图中看到,数据点大致落在一条直线附近,这告诉我们变量x与y之间的关系大致可看作是线性关系;
从图中还看到,这些点又不都在一条直线上,这表明x与y的关系并没有确切到给定x就可以唯一确定y的程度.
事实上,还有许多其他因素对y产生影响,如当年的平均气温、当年的降雨量等,这些都是影响y取值的随机因素.
如果我们研究x与y的关系,利用公式,得:
=×(15.2+10.4+…+19.1)=18.85,
=×(28.6+19.3+…+37.4)=36.53,
(xi-)2=227.845,
(xi-)(yi-)=413.065,
(yi-)2=764.961.
于是=≈1.813,
≈36.53-1.813×18.85≈2.355.
从而线性回归方程为=1.813x+2.355.
反思与感悟 解决回归分析问题的一般步骤
(1)画散点图.根据已知数据画出散点图.
(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.
(3)回归分析.画残差图或计算R2,进行残差分析.
(4)实际应用.依据求得的回归方程解决实际问题.
跟踪训练1 菜农定期使用低害杀虫农药对蔬菜进行喷洒,以防止害虫的危害,但采集上市时蔬菜仍存有少量的残留农药,食用时需要用清水清洗干净,下表是用清水x(单位:千克)清洗该蔬菜1千克后,蔬菜上残留的农药y(单位:微克)的统计表:
x
1
2
3
4
5
y
58
54
39
29
10
(1)在坐标系中描出散点图,并判断变量x与y的相关性;
(2)若用解析式=cx2+d作为蔬菜农药残量与用水量x的回归方程,
令ω=x2,计算平均值和,完成以下表格(填在答题卡中),求出与x的回归方程.(c,d精确到0.1)
ω
1
4
9
16
25
y
58
54
39
29
10
ωi-
yi-
(3)对于某种残留在蔬菜上的农药,当它的残留量低于20微克时对人体无害,为了放心食用该蔬菜,请估计需要用多少千克的清水清洗一千克蔬菜?(精确到0.1,参考数据≈2.236)
考点 线性回归方程
题点 求线性回归方程
解 (1)作图(略),负相关.
(2)=11,=38,
ω
1
4
9
16
25
y
58
54
39
29
10
ωi-
-10
-7
-2
5
14
yi-
20
16
1
-9
-28
c=
==-2.008≈-2.0,
d=-c=38+2.0×11=60.0,
∴=-2.0ω+60.0=-2.0x2+60.0.
(3)当<20时,-2.0x2+60.0<20,x>2≈4.5,
∴为了放心食用该蔬菜,估计需要用4.5千克的清水清洗一千克蔬菜.
类型二 独立性检验
例2 某学生对其亲属30人的饮食习惯进行了一次调查,并用如图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)
(1)根据以上数据完成下面的2×2列联表:
主食蔬菜
主食肉类
总计
50岁以下
50岁以上
总计
(2)能否在犯错误的概率不超过0.010的前提下可以认为“其亲属的饮食习惯与年龄有关”?并写出简要分析.
参考公式:K2=
P(K2≥k0)
0.25
0.15
0.10
0.05
0.025
0.010
k0
1.323
2.072
2.706
3.841
5.024
6.635
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 (1)2×2列联表如下:
主食蔬菜
主食肉类
总计
50岁以下
4
8
12
50岁以上
16
2
18
总计
20
10
30
(2)因为K2的观测值k==10>6.635,
所以在犯错误的概率不超过0.010的前提下认为“其亲属的饮食习惯与年龄有关”.
反思与感悟 解决一般的独立性检验问题的步骤
(1)通过列联表确定a,b,c,d,n的值,根据实际问题需要的可信程度确定临界值k0.
(2)利用K2=求出K2的观测值k.
(3)如果k≥k0,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过α.
跟踪训练2 为了响应“文化强国建设”号召,某市把社区图书阅览室建设增列为重要的民生工程.为了解市民阅读需求,随机抽取市民200人做调查,统计显示,男士喜欢阅读古典文学的有64人,不喜欢的有56人;女士喜欢阅读古典文学的有36人,不喜欢的有44人.能否在犯错误的概率不超过0.25的前提下认为喜欢阅读古典文学与性别有关系?
附:K2=,其中n=a+b+c+d.
参考数据:
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
0.05
k0
0.455
0.708
1.323
2.072
2.706
3.841
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 根据所给条件,制作列联表如下:


总计
喜欢阅读古典文学
64
36
100
不喜欢阅读古典文学
56
44
100
总计
120
80
200
所以K2的观测值k===,
因为K2的观测值k=>1.323,
由所给临界值表可知,在犯错误的概率不超过0.25的前提下可以认为喜欢阅读古典文学与性别有关.
1.已知线性回归方程=2+2.5x,若变量x每增加1个单位,则(  )
A.y平均增加2.5个单位 B.y平均增加1个单位
C.y平均减少2.5个单位 D.y平均减少2个单位
考点 线性回归直线
题点 回归直线的应用
答案 A
解析 因为由=2+2.5x,得b=2.5>0,若变量x每增加1个单位,则y平均增加2.5个单位,故选A.
2.在对两个变量x,y进行回归分析时有以下操作:
①求回归方程;
②收集数据(xi,yi),i=1,2,…,n;
③对所求出的回归方程作出解释;
④根据所收集的数据绘制散点图.
则下列操作顺序正确的是(  )
A.③②④① B.①②④③
C.②①③④ D.②④①③
考点 回归分析
题点 回归分析的概念和意义
答案 D
解析 根据回归分析的思想,可知对两个变量x,y进行回归分析时,应先收集数据(xi,yi),然后绘制散点图,再求回归方程,最后对所求的回归方程作出解释,正确操作的顺序为②④①③,故选D.
3.某机构调查中学生的近视情况,了解到某校150名男生中有80名近视,140名女生中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力(  )
A.平均数 B.方差
C.回归分析 D.独立性检验
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 D
4.对于线性回归方程=x+,当x=3时,对应的y的估计值是17,当x=8时,对应的y的估计值是22,那么,该线性回归方程是________,根据线性回归方程判断当x=________时,y的估计值是38.
考点 线性回归分析
题点 回归直线的应用
答案 =x+14 24
解析 首先把两组值代入线性回归方程,得
解得
所以线性回归方程是=x+14.
令x+14=38,可得x=24,即当x=24时,y的估计值是38.
1.建立回归模型的基本步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)画出散点图,观察它们之间的关系;
(3)由经验确定回归方程的类型;
(4)按照一定的规则估计回归方程中的参数;
(5)得出结果后分析残差图是否有异常.
2.独立性检验是对两个分类变量间是否存在相关关系的一种案例分析方法.常用的直观方法为等高条形图,等高条形图由于是等高的,因此它能直观地反映两个分类变量之间的差异的大小,而利用假设的思想方法,计算出某一个随机变量K2的值来判断更精确些.
一、选择题
1.下列有关线性回归的说法不正确的是(  )
A.变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系叫做相关关系
B.在平面直角坐标系中用描点的方法得到的表示具有相关生活费的两个变量的一组数据的图形叫做散点图
C.线性回归方程最能代表观测值x,y之间的线性相关关系
D.任何一组观测值都能得到具有代表意义的线性回归方程
考点 回归分析
题点 回归分析的概念及意义
答案 D
解析 并不是任何一组观测值都能得到具有代表意义的线性回归方程.
2.若回归方程为=3-5x,则当变量x增加1个单位时(  )
A.y平均增加3个单位 B.y平均减少5个单位
C.y平均增加5个单位 D.y平均减少3个单位
考点 线性回归方程
题点 回归直线的应用
答案 B
解析 斜率的估计值是-5,说明x每增加1个单位,y平均减少5个单位.
3.某数学老师身高为176cm,他爷爷、父亲和儿子的身高分别是173cm,170cm和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为(  )
A.183.5cm B.180.5cm
C.173cm D.183cm
考点 线性回归分析
题点 线性回归方程的应用
答案 A
解析 记从爷爷起向下各代依次为1,2,3,4,5用变量x表示,其中5代表孙子.各代人的身高为变量y,则有
x
1
2
3
4
y
173
170
176
182
计算知=2.5,=175.25.由回归系数公式得=3.3,
=-=175.25-3.3×2.5=167,∴线性回归方程为=3.3x+167,当x=5时,y=3.3×5+167=183.5,故预测其孙子的身高为183.5 cm.
4.如图所示,四个散点图中,不适合用线性回归模型拟合其中两个变量的是(  )
考点 回归分析
题点 回归分析的概念和意义
答案 A
解析 图A中的点不成线性排列,故两个变量不适合用线性回归模型拟合.
5.某化妆品公司为了增加其商品的销售利润,调查了该商品投入的广告费用x与销售利润y的统计数据如表:
广告费用x(万元)
2
3
5
6
销售利润y(万元)
5
7
9
11
由表中数据,得线性回归方程l:=x+,则下列结论正确的是(  )
A.<0 B.<0
C.直线l过点(4,8) D.直线l过点(2,5)
考点 线性回归方程
题点 样本点中心的应用
答案 C
解析 因为=1.4>0,=-=8-1.4×4=2.4>0,所以排除A,B;因为=1.4x+2.4,所以1.4×2+2.4=5.2≠5,所以点(2,5)不在直线l上,所以排除D;因为=4,=8,所以回归直线l过样本点的中心(4,8),故选C.
6.如图所示,5组数据(x,y)中去掉D(3,10)后,下列说法错误的是(  )
A.相关系数r变大
B.残差平方和变大
C.相关指数R2变大
D.解释变量x与预报变量y的相关性变强
考点 残差分析与相关指数
题点 残差及相关指数的应用
答案 B
解析 由题中散点图知,去掉D后,x与y的相关性变强,且为正相关,所以r变大,R2变大,残差平方和变小.
7.分类变量X和Y的2×2列联表如下:
Y
X
y1
y2
总计
x1
a
10
a+10
x2
c
30
c+30
总计
60
40
100
对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为(  )
A.a=45,c=15 B.a=40,c=20
C.a=35,c=25 D.a=30,c=30
考点 分类变量与列联表
题点 求列联表中的数据
答案 A
解析 由题意可得,当与相差越大时,X与Y有关系的可能性越大,分析四组选项,A中的a,c的值最符合题意,故选A.
二、填空题
8.从某中学的2014届高三学生中随机选取5名男生,其身高和体重的数据如下表所示:
身高x(cm)
160
165
170
175
180
体重y(kg)
63
66
70
72
74
根据上表可得线性回归方程=0.56x+,据此模型预测身高为172cm的男生的体重约为________kg.
考点 线性回归方程
题点 回归直线的应用
答案 70.12
解析 由题意可知,==170,
==69.
∵回归直线过点(,),
∴将点(170,69)代入线性回归方程,得=-26.2,
∴=0.56x-26.2,
当x=172时,=70.12(kg).
9.某中学为了调研学生的数学成绩和物理成绩是否有关系,随机抽取了189名学生进行调查,调查结果如下:在数学成绩较好的94名学生中,有54名学生的物理成绩较好,有40名学生的物理成绩较差;在成绩较差的95名学生中,有32名学生的物理成绩较好,有63名学生的物理成绩较差.根据以上的调查结果,利用独立性检验的方法可知,约有________的把握认为“学生的数学成绩和物理成绩有关系”.
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 99.5%
解析 根据题目中所给的数据可得到2×2列联表(略),
再由公式得k=≈10.76.
因为10.76>7.879,
所以约有99.5%的把握认为“学生的数学成绩和物理成绩有关系”.
10.给出下列五个命题:
①将A,B,C三种个体按3∶1∶2的比例分层抽样调查,若抽取的A种个体有9个,则样本容量为30;
②一组数据1,2,3,3,4,5的平均数、众数、中位数都相同;
③甲组数据的方差为5,乙组数据为5,6,9,10,5,那么这两组数据中比较稳定的是甲;
④已知具有相关关系的两个变量满足的线性回归方程为=1-2x,则x每增加1个单位,y平均减少2个单位;
⑤统计的10个样本数据为125,120,122,105,130,114,116,95,120,134,则样本数据落在[114.5,124.5)内的频率为0.4.
其中是真命题的为________.
考点 线性回归方程
题点 回归直线的应用
答案 ②④⑤
解析 ①样本容量为9÷=18,①是假命题;②数据1,2,3,3,4,5的平均数为×(1+2+3+3+4+5)=3,中位数为3,众数为3,都相同,②是真命题;③乙==7,s=×[(5-7)2+(6-7)2+(9-7)2+(10-7)2+(5-7)2]=×(4+1+4+9+4)=4.4,∴s>s,∴乙稳定,③是假命题;④是真命题;⑤数据落在[114.5,124.5)内的有120,122,116,120,共4个,故其频率为0.4,⑤是真命题.
三、解答题
11.某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如表资料:
日期
1月10日
2月10日
3月10日
4月10日
5月10日
6月10日
昼夜温差x(℃)
10
11
13
12
8
6
就诊人数y(个)
22
25
29
26
16
12
该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据恰好是相邻两个月的概率;
(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y关于x的线性回归方程y=bx+a;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问(2)中所得线性回归方程是否理想?
参考公式:b==,a=-b.
考点 线性回归分析
题点 回归直线的应用
解 (1)设抽到相邻两个月的数据为事件A.
因为从6组数据中选取2组数据共有15种情况,每种情况都是等可能出现的,其中抽到相邻两个月份的数据的情况有5种,所以P(A)==.
(2)由数据求得=11,=24,由公式求得b=,
再由a=-b=-.
所以y关于x的线性回归方程为=x-.
(3)当x=10时,=,<2;
同样,当x=6时,=,<2,
所以该小组所得线性回归方程是理想的.
12.为考察高中生的性别与是否喜欢数学课程之间的关系,在我市某普通中学高中生中随机抽取200名学生,得到如下2×2列联表:
喜欢数学课
不喜欢数学课
总计

30
60
90

20
90
110
总计
50
150
200
(1)根据独立性检验的基本思想,约有多大的把握认为“性别与喜欢数学课之间有关系”?
(2)若采用分层抽样的方法从喜欢数学课的学生中随机抽取5人,则男生和女生抽取的人数分别是多少?
考点 独立性检验及其基本思想
题点 独立性检验的思想
解 (1)∵K2=≈6.061>5.024,
∴约有97.5%以上的把握认为“性别与喜欢数学课之间有关系”.
(2)男生抽取的人数有:×5=3(人),
女生抽取的人数有:×5=2(人).
13.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.
(1)根据以上数据建立一个2×2列联表;
(2)判断性别与休闲方式是否有关系.
K2=(其中n=a+b+c+d)
P(K2≥k0)
0.05
0.025
0.010
k0
3.841
5.024
6.635
考点 分类变量与列联表
题点 求观测值
解 (1)2×2列联表:
休闲方式
性别    
看电视
运动
总计

43
27
70

21
33
54
总计
64
60
124
(2)假设“休闲方式与性别无关”
K2=≈6.201,
因为K2≥5.024,
所以有97.5%的把握认为“休闲方式与性别有关”.
四、探究与拓展
14.若某地财政收入x与支出y满足线性回归方程=bx+a+e(单位:亿元),其中b=0.8,a=2,|e|≤0.5,如果今年该地区财政收入为10亿元,则今年支出预计不会超过(  )
A.10亿元 B.9亿元
C.10.5亿元 D.9.5亿元
考点 线性回归分析
题点 回归直线的应用
答案 C
解析 代入数据得=10+e,因为|e|≤0.5,
得到||≤10.5,故支出不会超过10.5亿元.
15.为了响应厦门市政府“低碳生活,绿色出行”的号召,思明区委文明办率先全市发起“少开一天车,呵护厦门蓝”绿色出行活动.“从今天开始,从我做起,力争每周至少一天不开车,上下班或公务活动带头选择步行、骑车或乘坐公交车,鼓励拼车……”铿锵有力的话语,传递了绿色出行、低碳生活的理念.某机构随机调查了本市部分成年市民某月骑车次数,统计如下:
次数
人数
年龄
[0,10)
[10,20)
[20,30)
[30,40)
[40,50)
[50,60]
18岁至31岁
8
12
20
60
140
150
32岁至44岁
12
28
20
140
60
150
45岁至59岁
25
50
80
100
225
450
60岁及以上
25
10
10
18
5
2
联合国世界卫生组织于2013年确定新的年龄分段:44岁及以下为青年人,45岁至59岁为中年人,60岁及以上为老年人.用样本估计总体的思想,解决如下问题:
(1)估计本市一个18岁以上青年人每月骑车的平均次数;
(2)若月骑车次数不少于30次者称为“骑行爱好者”,根据这些数据,能否在犯错误的概率不超过0.001的前提下认为“骑行爱好者”与“青年人”有关?
考点 独立性检验及其基本思想
题点 独立性检验的思想
解 (1)
==42.75.
(2)根据题意,得出如下2×2列联表
骑行爱好者
非骑行爱好者
总计
青年人
700
100
800
非青年人
800
200
1000
总计
1500
300
1800
K2==18>10.828.
根据这些数据,能在犯错误的概率不超过0.001的前提下认为“骑行爱好者”与“青年人”有关.