1.2独立性检验的基本思想及其初步应用
(教师用书独具)
●三维目标
1.知识与技能
了解独立性检验的基本思想、方法及初步应用.会从列联表(只要求2×2列联表)、柱形图、条形图直观分析两个分类变量是否有关.会用K2公式判断两个分类变量在某种可信程度上的相关性.
2.过程与方法
运用数形结合的方法,借助对典型案例的探究,来了解独立性检验的基本思想,总结独立性检验的基本步骤.
3.情感、态度与价值观
(1)通过本节课的学习,让学生感受数学与现实生活的联系,休会独立性检验的基本思想在解决日常生活问题中的作用.(2)培养学生运用所学知识,依据独立性检验的思想作出合理推断的实事求是的好习惯.
●重点难点
重点:理解独立性检验的基本思想及实施步骤.
难点:了解独立性检验的基本思想、了解随机变量K2的含义.
分别利用2×2列联表、等高条形图、K2公式分析两变量之间的关系,探究解题方法和规律,充分理解观测值k的意义,能熟练正确地对问题作出判断,达到化难为易的目的.
(教师用书独具)
●教学建议
通过对典型案例“吸烟是否对患肺癌有影响?”的提出,联系生活,引起共鸣,激发学生的学习兴趣.从生活的实例出发,让学生充分体会数学与实际生活的联系,从而使得本节知识的形成更自然、更生动.要注重学生的主体参与,努力创设教师引导下的学生自主探究、合作交流的学习方式.建议在教学过程中,教师点拨、学生探讨,共同完成例题的解答.要注重数学的思想性,采用反证法做类比,帮助学生理解独立性检验的思想,通过课堂练习,检验学生能否熟练掌握用独立性检验思想解决实际问题的方法.
●教学流程
通过典型案例“吸烟是否与患肺癌有关系”的研究,介绍了独立性检验的基本思想、方法和初步应用.创设问题情境引出列联表、等高条形图和K2公式等基础知识.?利用填一填的形式,使学生自主学习本节基础知识,并反馈了解,对理解有困难的概念加以讲解.?引导学生在学习基础知识的基础上分析解决例题1的问题,并总结规律方法,完成变式训练.?引导学生分析例题2,根据图中的数据计算出各类变量对应的频率,作出等宽且高度均为1的条形图.并通过图形作出判断,完成变式训练.
?
完成当堂双基达标,巩固所学知识及应用方法,并进行反馈矫正.?归纳整理,进行课堂小结,整体认识本节所学知识,强调重点内容和规律方法.?要求学生借鉴例题3的解法完成变式训练.给出易错辨析题目及错解,让学生讨论错因,并给出正确解答.?引导学生探究例题3的解法,(1)直接由表中数据代入公式,作出判断.(2)列出列联表,由公式计算观测值,作出判断.解后让学生总结规律方法.
课标解读
1.了解独立性检验的基本思想、方法及其简单应用.(重点)
2.通过收集数据,并依据独立性检验的原理作出合理推断,培养学生良好的思维习惯.(难点)
分类变量与列联表
【问题导思】
吸烟变量有几种类别?国籍变量呢?
【提示】 吸烟变量有吸烟与不吸烟两种类别,而国籍变量则有多种类别,如中国、美国、法国…….
1.分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
2.列联表
(1)定义:列出的两个分类变量的频数表,称为列联表.
(2)2×2列联表:一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
等高条形图
【问题导思】
表格和图形哪一个更能直观地反映出两个分类变量间是否相互影响?
【提示】 图形.
(1)定义:将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高条形图.
(2)特征:等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
(3)用法:观察等高条形图发现和相差很大,就判断两个分类变量之间有关系.
独立性检验
(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)公式:K2=,其中n=a+b+c+d为样本容量.
用2×2列联表分析两变量间的关系
在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用与判断二者是否有关系.
【思路探究】 对变量进行分类→求出分类变量的不同取值→作出2×2列联表→计算与的值作出判断
【自主解答】 2×2列联表如下:
年龄在六
十岁以上
年龄在六
十岁以下
总计
饮食以蔬菜为主
43
21
64
饮食以肉类为主
27
33
60
总计
70
54
124
将表中数据代入公式得
==0.671 875.
==0.45.
显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.
1.作2×2列联表时,注意应该是4行4列,计算时要准确无误.
2.作2×2列联表时,关键是对涉及的变量分清类别.
题中条件不变,尝试用|ad-bc|的大小判断饮食习惯与年龄是否有关.
【解】 将本例2×2列联表中的数据代入可得
|ad-bc|=|43×33-21×27|=852.
相差较大,可在某种程度上认为饮食习惯与年龄有关系.
用等高条形图分析两变量间的关系
某学校对高三学生作了一项调查,发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
【思路探究】 作出2×2列联表―→根据列联表数据
作等高条形图―→对比乘积的差距判断两
个分类变量是否有关
【自主解答】 作列联表如下:
性格内向
性格外向
总计
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
总计
426
594
1 020
相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例.从图中可以看出,考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.
1.利用列联表中数据计算出各类变量取值对应频率,作出等宽度且高度均为1的等高条形图.
2.利用数形结合的思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法之一.一般地,在等高条形图中,与相差越大,两个分类变量有关系的可能性就越大.作等高条形图时可以用列联表来寻找相关数据,作图要精确,且易于观察,使对结论的判断不出现偏差.
某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用图形判断监督员甲在不在生产现场对产品质量好坏有无影响.
【解】 根据题目所给数据得如下2×2列联表:
合格品数
次品数
总计
甲在生产现场
982
8
990
甲不在生产现场
493
17
510
总计
1 475
25
1 500
相应的等高条形图如图所示.
图中两个深色条的高分别表示甲在生产现场和甲不在生产现场样本中次品数的频率.从图中可以看出,甲不在生产现场样本中次品数的频率明显高于甲在生产现场样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.
独立性检验
下表是某地区的一种传染病与饮用水的调查表:
得病
不得病
总计
干净水
52
466
518
不干净水
94
218
312
总计
146
684
830
(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;
(2)若饮用干净水得病的有5人,不得病的有50人,饮用不干净水得病的有9人,不得病的有22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.
【思路探究】 求出k2的值―→与临界值作比较―→作出判断.
【自主解答】 (1)假设H0:传染病与饮用水无关.把表中数据代入公式得:
K2的观测值k=≈54.21.
在H0成立的情况下,P(K2>10.828)≈0.001,是小概率事件,
所以拒绝H0.
因此我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.
(2)依题意得2×2列联表:
得病
不得病
总计
干净水
5
50
55
不干净水
9
22
31
总计
14
72
86
此时,K2的观测值k=≈5.785.
因为5.785>5.024,P(K2>5.024)≈0.025,
所以我们有97.5%的把握认为该种疾病与饮用不干净水有关.
两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有97.5%的把握肯定.
解决一般的独立性检验问题的步骤:
(1)通过列联表确定a、b、c、d、n的值,根据实际问题需要的可信程度确定临界值k0;
(2)利用K2=求出K2的观测值k;
(3)如果k≥k0,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过α;否则就认为在犯错误的概率不超过α的前提下不能推断“两个分类变量有关系”.
某社区医疗服务部门为了考察人的高血压病是否与食盐摄入量有关,对该社区的1 633人进行了跟踪测查,得出以下数据:
患高血压
未患高血压
合计
喜欢较咸食物
34
220
254
喜欢清淡食物
26
1 353
1 379
合计
60
1 573
1 633
问能否判断在犯错误的概率不超过0.001的前提下,认为患高血压与食盐摄入量有关?
【解】 提出假设H0:该社区患有高血压病与食盐的摄入量无关.
由公式计算K2的观测值为
k=≈80.155.
因为80.155>10.828,
因此在犯错误的概率不超过0.001的前提下,我们认为该社区患有高血压病与食盐的摄入量有关.
因未理解P(K2≥k0)的含义而致误
某小学在对232名小学生调查中发现:180名男生中有98名有多动症,另外82名没有多动症,52名女生中有2名有多动症,另外50名没有多动症,用独立性检验方法判断多动症与性别是否有关系?
【错解】 由题目数据列出如下列联表:
多动症
无多动症
总计
男生
98
82
180
女生
2
50
52
总计
100
132
232
k=≈42.117>10.828.
所以有0.1%的把握认为多动症与性别有关系.
【错因分析】 应该是有(1-P(K2≥10.828))×100%=(1-0.001)×100%的把握,而不是P(K2≥10.828)×100%=0.001×100%的把握.
【防范措施】 本题的错误之处在于不能正确理解独立性检验步骤的含义,当计算的K2的观测值k大于临界值k0时,就可推断在犯错误的概率不超过α的前提下说两分类变量有关系.这一点需牢记,才能避免类似错误.
【正解】 由题目数据列出如下列联表:
多动症
无多动症
总计
男生
98
82
180
女生
2
50
52
总计
100
132
232
由表中数据可得到:
k=≈42.117>10.828.
所以有99.9%的把握认为多动症与性别有关系.
1.列联表与等高条形图
列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.
2.对独立性检验思想的理解
独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.
1.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的,下列说法中正确的是( )
A.100个吸烟者中至少有99人患有肺癌
B.1个人吸烟,那么这个人有99%的概率患有肺癌
C.在100个吸烟者中一定有患肺癌的人
D.在100个吸烟者中可能一个患肺癌的人也没有
【解析】 独立性检验的结果与实际问题有差异,即独立性检验的结论是一个数学统计量,它与实际问题中的确定性存在差异.
【答案】 D
2.(2013·威海高二检测)分类变量X和Y的列联表如下,则( )
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
A.ad-bc越小,说明X与Y的关系越弱
B.ad-bc越大,说明X与Y的关系越强
C.(ad-bc)2越大,说明X与Y的关系越强
D.(ad-bc)2越接近于0,说明X与Y的关系越强
【解析】 由K2的计算公式可知,(ad-bc)2越大,则K2越大,故相关关系越强.
【答案】 C
3.观察下列各图,其中两个分类变量x、y之间关系最强的是( )
【解析】 在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强.
【答案】 D
4.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:
患慢性气管炎
未患慢性气管炎
合计
吸烟
43
162
205
不吸烟
13
121
134
合计
56
283
339
【解】 从题目的2×2列联表中可知:a=43,b=162,c=13,d=121,a+b=205,c+d=134,a+c=56,b+d=283,n=a+b+c+d=339,代入公式:
K2=,
得k=≈7.469.
因为7.469>6.635,所以我们有99%的把握认为50岁以上的人患慢性气管炎与吸烟习惯有关系.
一、选择题
1.有两个分类变量X与Y的一组数据,由其列联表计算得k≈4.523,则认为“X与Y有关系”犯错误的概率为( )
A.95% B.90% C.5% D.10%
【解析】 P(K2≥3.841)≈0.05,而k≈4.523>3.841.这表明认为“X与Y有关系”是错误的可能性约为0.05,即认为“X与Y有关系”犯错误的概率为5%.
【答案】 C
2.(2013·大连高二检测)在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )
A.平均数与方差 B.回归分析
C.独立性检验 D.概率
【解析】 判断两个分类变量是否有关的最有效方法是进行独立性检验,故选C.
【答案】 C
3.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定推断“X与Y有关系”的可信度,如果k>5.024,那么就推断“X和Y有关系”,这种推断犯错误的概率不超过( )
A.0.25 B.0.75
C.0.025 D.0.975
【解析】 ∵P(k>5.024)=0.025,故在犯错误的概率不超过0.025的条件下,认为“X和Y有关系”.
【答案】 C
4.下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出( )
图1-2-1
A.性别与喜欢理科无关
B.女生中喜欢理科的比为80%
C.男生比女生喜欢理科的可能性大些
D.男生不喜欢理科的比为60%
【解析】 本题考查学生的识图能力,从图中可以分析,男生喜欢理科的可能性比女生大一些.
【答案】 C
5.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲.下列说法正确的是( )
A.男、女患色盲的频率分别为0.038,0.006
B.男、女患色盲的概率分别为,
C.男人中患色盲的比例比女人中患色盲的比例大,患色盲与性别是有关的
D.调查人数太少,不能说明色盲与性别有关
【解析】 男人中患色盲的比例为,要比女人中患色盲的比例大,其差值为|-|≈0.0 676,差值较大.
【答案】 C
二、填空题
6.某班主任对全班50名学生作了一次调查,所得数据如表:
认为作业多
认为作业不多
总计
喜欢玩电脑游戏
18
9
27
不喜欢玩电脑游戏
8
15
23
总计
26
24
50
由表中数据计算得到K2的观测值k≈5.059,于是________(填“能”或“不能”)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.
【解析】 查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值k0=6.635.本题中,k≈5.059<6.635,所以不能在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.
【答案】 不能
7.独立性检验所采用的思路是:要研究A,B两类型变量彼此相关,首先假设这两类变量彼此________.在此假设下构造随机变量K2,如果K2的观测值较大,那么在一定程度上说明假设________.
【答案】 无关 不成立
8.某高校《统计初步》课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:
专业
性别
非统计专业
统计专业
男生
13
10
女生
7
20
为了检验主修统计专业是否与性别有关系,根据表中的数据得到随机变量K2的观测值为k=≈4.844.因为k>3.841,所以确认“主修统计专业与性别有关系”,这种判断出现错误的可能性为________.
【解析】 因为随机变量K2的观测值k>3.841,所以在犯错误的概率不超过0.05的前提下认为“主修统计专业与性别有关系”.故这种判断出现错误的可能性为5%.
【答案】 5%
三、解答题
9.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关?
【解】 列出2×2列联表
理
文
总计
有兴趣
138
73
211
无兴趣
98
52
150
总计
236
125
361
代入公式得K2的观测值
k=≈1.871×10-4.
∵1.871×10-4<2.706,
∴可以认为学生选报文、理科与对外语的兴趣无关.
10.某校对学生课外活动进行调查,结果整理成下表:运用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?
体育
文娱
合计
男生
21
23
44
女生
6
29
35
合计
27
52
79
【解】 其等高条形图如图所示.
由图可以直观地看出喜欢体育还是喜欢文娱与性别在某种程度上有关系,但只能作粗略判断,具体判断方法如下:
假设“喜欢体育还是喜欢文娱与性别没有关系”,
∵a=21,b=23,c=6,d=29,n=79,
∴K2的观测值为
k=≈8.106.
且P(K2≥7.879)≈0.005,即我们得到的K2的观测值k≈8.106超过7.879,这就意味着:“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005,即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关”.
11.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:
甲厂:
分组
[29.86,
29.90)
[29.90,
29.94)
[29.94,
29.98)
[29.98,
30.02)
[30.02,
30.06)
[30.06,
30.10)
[30.10,
30.14)
频数
12
63
86
182
92
61
4
乙厂:
分组
[29.86,
29.90)
[29.90,
29.94)
[29.94,
29.98)
[29.98,
30.02)
[30.02,
30.06)
[30.06,
30.10)
[30.10,
30.14)
频数
29
71
85
159
76
62
18
(1)试分别估计两个分厂生产零件的优质品率;
(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.
甲厂
乙厂
合计
优质品
非优质品
合计
附:K2=
P(K2≥k)
0.05
0.01
k
3.841
6.635
【解】 (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为=72%;
乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为=64%.
(2)
甲厂
乙厂
合计
优质品
360
320
680
非优质品
140
180
320
合计
500
500
1 000
k=
≈7.353>6.635,
因此,在犯错误的概率不超过0.01的前提下,即有99%的把握认为“两个分厂生产的零件的质量有差异”.
(教师用书独具)
在对人们休闲方式的调查中,已知男性占总调查人数的,其中有一半的休闲方式是运动,而女性只有的休闲方式是运动.经过调查员计算,在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么被调查的人中最少有多少人的休闲方式是运动?
【思路探究】 (1)设总共调查了n人,则其中男性有多少人?其中休闲方式为运动的有多少人?非运动的呢?
(2)被调查的女性有多少人?休闲方式是运动的有多少人?非运动的呢?
(3)根据题意,K2的临界值为多少?K2的观测值为多少?二者之间有什么关系?
【自主解答】 设总共调查n人,则被调查的男性人数应为n,其中有人的休闲方式是运动;被调查的女性人数应为,其中有人的休闲方式是运动,列出2×2列联表如下:
运动
非运动
总计
男性
n
女性
n
总计
n
n
由表中数据,得k==.
要使调查员在犯错误的概率不超过0.05的前提下认为“休闲方式与性别有关”,则k≥3.841.所以≥3.841.解得n≥138.276.又∈N*,所以n≥140.
所以被调查的人中,以运动为休闲方式的最少有140×=56(人).
本题属于逆向探求型问题,目的在于训练K2公式的熟练应用.解题的关键在于根据犯错误概率的上界α确定临界值k0,然后设出未知数利用K2≥k0列出不等式进行解决.这里运用了方程思想和化归思想.
有两个分类变量X与Y,其一组观测值如下面的2×2列联表所示:
y1
y2
合计
x1
a
20-a
20
x2
15-a
30+a
45
合计
15
50
65
其中a,15-a均为大于5的整数,则a取何值时,在犯错误的概率不超过0.10的前提下认为“X和Y有关系”?
【解】 查表可知:要使犯错误的概率不超过0.1,则K2≥2.706,
而K2=
==,
因为K2≥2.706,
所以≥2.706.
即(13a-60)2≥1 124,
所以13a-60≥33.5或13a-60≤-33.5,
解得a≥7.2或a≤2.
又
所以5
所以a=6,7,8,9,
又因为a≥7.2或a≤2,所以a=8或a=9.
新课标 数 学 选修1-2
1.1回归分析的基本思想及其初步应用
(教师用书独具)
●三维目标
1.知识与技能
通过典型案例的探究,了解回归分析的基本思想,会对两个变量进行回归分析,明确解决回归模型的基本步骤,并对具体问题进行回归分析以解决实际应用问题.了解最小二乘法的推导,解释残差变量的含义,了解偏差平方和分解的思想,了解判断刻画模型拟合效果的方法——相关指数和残差分析.掌握利用计算器求线性回归直线方程参数及相关系数的方法.
2.过程与方法
通过收集数据作散点图,分析散点图,求回归直线方程,分析回归效果,利用方程进行预报.
3.情感、态度与价值观
培养学生利用整体的观点和互相联系的观点来分析问题, 进一步加强数学的应用意识,培养学生学好数学、用好数学的信心,加强与现实生活的联系,以科学的态度评价两个变量的相互关系.
●重点难点
重点:回归分析的基本方法、随机误差e的认识、残差图的概念、用残差及R2来刻画线性回归模型的拟合效果.
难点:回归分析的基本方法、残差概念的理解及拟合效果的判定、非线性回归向线性回归的转化.
教学时要以残差分析为重点,突出残差表和R2的计算,通过举例说明相关关系与确定性关系的区别,说明回归分析的必要性及其方法.借助例题使学生掌握作散点图、求回归直线方程的方法,通过作残差图、计算R2让学生掌握拟合效果的判断方法.对于非线性回归问题重点在如何转换,引导学生分析总结转化方法和技巧,从而化解难点.
(教师用书独具)
●教学建议
本节课建议教师采取探究式教学,把“关注知识”转向“关注学生”,在教学过程中,把“给出知识”的过程转变为“引起活动,让学生探究知识的过程”,把“完成教学任务”转向“促进学生发展”,让学生成为课堂上的真正主人.在教学中,知识点可由学生通过探索“发现”,让学生充分经历探索与发现的过程,并引导学生积极解决探索过程中发现的问题.教学中不要以练习为主,而是定位在知识形成过程的探索,例题的解答也要由学生探讨、教师点拨,共同完成.要注重数学的思想性,如统计思想、随机观念、函数思想、数形结合的思想方法等,引导学生体验数学中的理性精神,加强数学形式下的思考和推理能力.
●教学流程
创设问题情境,引出问题,引导学生探讨,从而引出回归分析、线性回归模型、刻画回归效果的有关概念及解决方法.?利用填一填的形式,使学生自主学习本节基础知识,并反馈了解,对理解有困难的概念加以讲解.?引导学生在学习基础知识的基础上分析回答例题1的问题,并总结规律方法,完成变式训练.?引导学生分析例题2,根据图中的数据计算系数,求出回归方程,列出残差表,求出R2并判断拟合效果,完成变式训练.
?
完成当堂双基达标,巩固所学知识及应用方法,并进行反馈矫正.?归纳整理,进行课堂小结,整体认识本节所学知识,强调重点内容和规律方法.?通过老师启发引导,完成例题3,并要求学生借鉴例题3的解法完成变式训练.?引导学生分析例题3,让学生作出散点图,观察相关性,引出问题,即如何使问题转化为相关关系并用线性回归分析二者关系.
课标解读
1.会用散点图分析两个变量是否存在相关关系.(重点)
2.会求回归方程,掌握建立回归模型的步骤,会选择回归模型.(重点、难点)
线性回归模型
【问题导思】
一台机器由于使用时间较长,生产的零件有一些会有缺陷.按不同转速生产出有缺陷的零件的统计数据如下:
转速x(转/秒)
16
14
12
8
每小时生产有缺
陷的零件数y(件)
11
9
8
5
1.在平面直角坐标系中作出散点图.
【提示】
2.从散点图中判断x和y之间是否具有相关关系?
【提示】 有.
3.若转速为10转/秒,能否预测机器每小时生产缺陷的零件件数?
【提示】 可以.根据散点图作出一条直线,求出直线方程后可预测.
(1)回归直线方程: =x+,其中:
=,=-,=i,
=i.
(2)变量样本点中心:(,),回归直线过样本点的中心.
(3)线性回归模型:y=bx+a+e,其中e称为随机误差,a和b是模型的未知参数,自变量x称为解释变量,因变量y称为预报变量.
刻画回归效果的方式
残差
对于样本点(xi,yi)(i=1,2,…,n)的随机误差的估计值i=yi-i,称为相应于点(xi,yi)的残差
残差图
利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图
残差
图法
残差点比较均匀地落在水平的带状区域内,说明选用的模型比较适合,这样的带状区域的宽度越窄,说明模型拟合精度越高
残差平
方和
残差平方和为(yi-i)2,残差平方和越小,模型拟合效果越好
相关指
数R2
R2=1-,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归的效果越好
回归分析的有关概念
有下列说法:
①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归方程=x+,可以估计和观测变量的取值和变化趋势;④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.
其中正确命题的个数是( )
A.1 B.2 C.3 D.4
【思路探究】 可借助于线性相关概念及性质逐一作出判断.
【自主解答】 ①反映的正是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③解释的是回归方程=x+的作用,故也正确.④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系.
【答案】 C
1.解答例1中④时,必须明确具有线性相关关系的两个变量间才能求得一个线性回归方程,否则求得的方程无实际意义.因此必须先进行线性相关性判断,后求线性回归方程.
2.回归分析的过程:
(1)随机抽取样本,确定数据,形成样本点;
(2)由样本点形成散点图,判断是否具有线性相关关系;
(3)由最小二乘法确定线性回归方程;
(4)由回归方程观察变量的取值及变化趋势.
关于变量y与x之间的回归直线方程叙述正确的是( )
A.表示y与x之间的一种确定性关系
B.表示y与x之间的相关关系
C.表示y与x之间的最真实的关系
D.表示y与x之间真实关系的一种效果最好的拟合
【解析】 回归直线方程能最大可能地反映y与x之间的真实关系,故选项D正确.
【答案】 D
线性回归分析
已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:
x
14
16
18
20
22
y
12
10
7
5
3
求y关于x的回归直线方程,并说明回归模型拟合效果的好坏.
【思路探究】 回归模型拟合效果的好坏可以通过计算R2来判断,其值越大,说明模型的拟合效果越好.
【自主解答】 =(14+16+18+20+22)=18,
=(12+10+7+5+3)=7.4,
=142+162+182+202+222=1 660,
iyi=14×12+16×10+18×7+20×5+22×3=620,
所以===-1.15,
=7.4+1.15×18=28.1,
所以所求回归直线方程是=-1.15x+28.1.列出残差表:
yi-i
0
0.3
-0.4
-0.1
0.2
yi-
4.6
2.6
-0.4
-2.4
-4.4
所以(yi-i)2=0.3,(yi-)2=53.2,
R2=1-≈0.994,
所以回归模型的拟合效果很好.
1.回归直线方程能定量地描述两个变量的关系,系数,刻画了两个变量之间的变化趋势,其中表示x变化一个单位时,y的平均变化量.利用回归直线可以对问题进行预测,由一个变量的变化去推测另一个变量的变化.
2.线性回归分析中:
(1)残差平方和越小,预报精确度越高.
(2)相关指数R2取值越大,说明模型的拟合效果越好.
某运动员训练次数与运动成绩之间的数据关系如下:
次数(x)
30
33
35
37
39
44
46
50
成绩(y)
30
34
37
39
42
46
48
51
(1)作出散点图;
(2)求出线性回归方程;
(3)作出残差图,并说明模型的拟合效果;
(4)计算R2,并说明其含义.
【解】 (1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图所示.
(2)可求得=39.25,=40.875,=12 656,
=13 731,iyi=13 180,
∴=
=≈1.041 5,
=-=-0.003 875,
∴线性回归方程为=1.041 5x-0.003 875.
(3)作残差图如图所示,
由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.
(4)相关指数R2=0.985 5.说明了该运动员的成绩的差异有98.55%的可能性是由训练次数引起的.
非线性回归分析
下表为收集到的一组数据:
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
(1)作出x与y的散点图,并猜测x与y之间的关系;
(2)建立x与y的关系,预报回归模型并计算残差;
(3)利用所得模型,预报x=40时y的值.
【思路探究】 (1)画出散点图或进行相关性检验,确定两变量x、y是否线性相关.由散点图得x、y之间的回归模型.
(2)进行拟合,预报回归模型,求回归方程.
【自主解答】 (1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线y=c1ec2x的周围,其中c1、c2为待定的参数.
(2)对两边取对数把指数关系变为线性关系,令z=ln y,则有变换后的样本点应分布在直线z=bx+a,a=ln c1,b=c2的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为:
x
21
23
25
27
29
32
35
z
1.946
2.398
3.045
3.178
4.190
4.745
5.784
求得回归直线方程为=0.272x-3.849,
∴=e0.272x-3.849.
残差如下表:
yi
7
11
21
24
66
115
325
i
6.443
11.101
19.125
32.950
56.770
128.381
290.325
i
0.557
-0.101
1.875
-8.950
9.23
-13.381
34.675
(3)当x=40时,y=e0.272x-3.849≈1 131.
两个变量不具有线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y=c1ec2x,我们可以通过对数变换把指数关系变为线性关系,令z=ln y,则变换后样本点应该分布在直线z=bx+a(a=ln c1,b=c2)的周围.
有一个测量水流量的实验装置,测得试验数据如下表:
i
1
2
3
4
5
6
7
水高h(厘米)
0.7
1.1
2.5
4.9
8.1
10.2
13.5
流量
Q(升/分钟)
0.082
0.25
1.8
11.2
37.5
66.5
134
根据表中数据,建立Q与h之间的回归方程.
【解】 由表中测得的数据可以作出散点图,如图.
观察散点图中样本点的分布规律,可以判断样本点分布在某一条曲线附近,表示该曲线的函数模型是Q=m·hn(m,n是正的常数).两边取常用对数,
则lg Q=lg m+n·lg h.
令y=lg Q,x=lg h,那么y=nx+lg m,
即为线性函数模型y=bx+a的形式(其中b=n,a=lg m).
由下面的数据表,用最小二乘法可求得≈2.509 7,=-0.707 7,所以n≈2.51,m≈0.196.
i
hi
Qi
xi=lg hi
yi=lg Qi
x
xiyi
1
0.7
0.082
-0.154 9
-1.086 2
0.024
0.168 3
2
1.1
0.25
0.041 4
-0.602 1
0.001 7
-0.024 9
3
2.5
1.8
0.397 9
0.255 3
0.158 3
0.101 6
4
4.9
11.2
0.690 2
1.049 2
0.476 4
0.724 2
5
8.1
37.5
0.908 5
1.574 0
0.825 4
1.430 0
6
10.2
66.5
1.008 6
1.822 8
1.017 3
1.838 5
7
13.5
134
1.130 3
2.127 1
1.277 6
2.404 3
∑
4.022
5.140 1
3.780 7
6.642
于是所求得的回归方程为Q=0.196·h2.51.
没有理解相关指数R2的意义而致误
关于x与y有如下数据:
x
2
4
5
6
8
y
30
40
60
50
70
为了对x、y两个变量进行统计分析,现有以下两种线性模型:甲模型=6.5x+17.5,乙模型=7x+17,试比较哪一个模型拟合的效果更好.
【错解】 ∵R=1-=1-=0.845.
R=1-=1-=0.82.
又∵84.5%>82%,∴乙选用的模型拟合的效果更好.
【错因分析】 没有理解R2的意义是致错的根源,用相关指数R2来比较模型的拟合效果,R2越大,模型的拟合效果越好,并不是R2越小拟合效果更好.
【防范措施】 R2=1-,R2越大,残差平方和越小,从而回归模型的拟合效果越好.在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近1,表示回归的效果越好(因为R2越接近1,表示解释变量和预报变量的线性相关性越强).从根本上理解R2的意义和作用,就可防止此类错误的出现.
【正解】 R=1-=1-=0.845,
R=1-=1-=0.82,
84.5%>82%,所以甲模型拟合效果更好.
1.在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差1,2,…,n来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.
2.我们还可以用相关指数R2来反映回归的效果,其计算公式是:R2=1-.
显然,R2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率.
1.已知x和y之间的一组数据
x
0
1
2
3
y
1
3
5
7
则y与x的线性回归方程=x+必过点( )
A.(2,2) B.(,0)
C.(1,2) D.(,4)
【解析】 ∵=(0+1+2+3)=,=(1+3+5+7)=4,
∴回归方程=x+必过点(,4).
【答案】 D
2.(2013·青岛高二检测)在下列各组量中:①正方体的体积与棱长;②一块农田的水稻产量与施肥量;③人的身高与年龄;④家庭的支出与收入;⑤某户家庭的用电量与电价.其中量与量之间的关系是相关关系的是( )
A.①② B.②④ C.③④ D.②③④
【解析】 ①是函数关系V=a3;⑤电价是统一规定的,与用电量有一定的关系,但这种关系是确定的关系.②③④中的两个量之间的关系都是相关关系,因为水稻的产量与施肥量在一定范围内是正比、反比或其他关系,并不确定;人的身高一开始随着年龄的增加而增大,之后则不变化或降低,在身高增大时,也不是均匀增大的;家庭的支出与收入有一定的关系,在一开始,会随着收入的增加而支出也增加,而当收入增大到一定的值后,家庭支出趋向于一个常数值,也不是确定关系.
【答案】 D
3.下列命题正确的有________.
①在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个可观测的量;
②残差平方和越小的模型,拟合的效果越好;
③用R2来刻画回归方程,R2越小,拟合的效果越好;
④在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,若带状区域宽度越窄,说明拟合精度越高,回归方程的预报精度越高.
【解析】 对于①随机误差e是一个不可观测的量,③R2越趋于1,拟合效果越好,故①③错误.对于②残差平方和越小,拟合效果越好,同理当残差点比较均匀地落在水平的带状区域时,拟合效果越好,故②④正确.
【答案】 ②④
4.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测技改后生产100吨甲产品比技改前少消耗多少吨标准煤.
(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
【解】 (1)如下图.
(2)iyi=3×2.5+4×3+5×4+6×4.5=66.5,
==4.5,==3.5,
=32+42+52+62=86.
===0.7,
=-=3.5-0.7×4.5=0.35,
因此,所求的线性回归方程为=0.7x+0.35.
(3)根据回归方程预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35(吨),故耗能减少了90-70.35=19.65(吨标准煤).
一、选择题
1.在画两个变量的散点图时,下面叙述正确的是( )
A.预报变量在x轴上,解释变量在y轴上
B.解释变量在x轴上,预报变量在y轴上
C.可以选择两个变量中任意一个变量在x轴上
D.可以选择两个变量中任意一个变量在y轴上
【解析】 结合线性回归模型y=bx+a+e可知,解释变量在x轴上,预报变量在y轴上,故选B.
【答案】 B
2.(2013·泰安高二检测)在回归分析中,相关指数R2的值越大,说明残差平方和( )
A.越大 B.越小
C.可能大也可能小 D.以上均错
【解析】 ∵R2=1-,∴当R2越大时,
(yi-i)2越小,即残差平方和越小.
【答案】 B
3.设变量y对x的线性回归方程为=2-2.5x,则变量x每增加一个单位时,y平均( )
A.增加2.5个单位 B.增加2个单位
C.减少2.5个单位 D.减少2个单位
【解析】 回归直线的斜率=-2.5,表示x每增加一个单位,y平均减少2.5个单位.
【答案】 C
4.(2012·湖南高考)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
【解析】 由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本中心点(,),因此B正确.由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确.当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,因此D不正确.
【答案】 D
5.在判断两个变量y与x是否相关时,选择了4个不同的模型,它们的相关指数R2分别为:模型1的相关指数R2为0.98,模型2的相关指数R2为0.80,模型3的相关指数R2为0.50,模型4的相关指数R2为0.25.其中拟合效果最好的模型是( )
A.模型1 B.模型2
C.模型3 D.模型4
【解析】 相关指数R2能够刻画用回归模型拟合数据的效果,相关指数R2的值越接近于1,说明回归模型拟合数据的效果越好.
【答案】 A
二、填空题
6.在研究身高和体重的关系时,求得相关指数R2≈________,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.
【解析】 结合相关指数的计算公式R2=1-可知,当R2=0.64时,身高解释了64%的体重变化.
【答案】 0.64
7.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
【解析】 以x+1代x,得=0.254(x+1)+0.321,与=0.254x+0.321相减可得,年饮食支出平均增加0.254万元.
【答案】 0.254
8.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程是________.
【解析】 由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得-5=1.23(x-4),
即=1.23x+0.08.
【答案】 =1.23x+0.08
三、解答题
9.某省2013年的阅卷现场有一位质检老师随机抽取5名学生的总成绩和数学成绩(单位:分)如下表所示:
学生
A
B
C
D
E
总成绩(x)
482
383
421
364
362
数学成绩(y)
78
65
71
64
61
(1)作出散点图;
(2)对x与y作回归分析;
(3)求数学成绩y对总成绩x的回归直线方程;
(4)如果一个学生的总成绩为500分,试预测这个学生的数学成绩.
【解】 (1)散点图如图所示:
(2)=,=,x=819 794,
y=23 167,xiyi=137 760.
∴r= ·)=≈0.989.
因此可以认为y与x有很强的线性相关关系.
(3)回归系数==0.132 452,
=-=14.501 315.
∴回归方程为=0.132 452x+14.501 315.
(4)当x=500时,≈81.即当一个学生的总成绩为500分时,他的数学成绩约为81分.
10.(2012·福建高考)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
8
8.2
8.4
8.6
8.8
9
销量y(件)
90
84
83
80
75
68
(1)求回归直线方程=bx+a,其中b=-20,a=-b;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
【解】 (1)由于=(8+8.2+8.4+8.6+8.8+9)=8.5,
=(90+84+83+80+75+68)=80,又b=-20,
所以a=-b=80+20×8.5=250,从而回归直线方程为=-20x+250.
(2)设工厂获得的利润为L元,依题意得
L=x(-20x+250)-4(-20x+250)
=-20x2+330x-1 000
=-20(x-8.25)2+361.25.
当且仅当x=8.25时,L取得最大值.
故当单价定为8.25元时,工厂可获得最大利润.
11.在关于人的脂肪含量(百分比)和年龄的关系的研究中,研究人员获得了一组数据如下表:
年龄x
23
27
39
41
45
49
50
53
54
56
57
58
60
61
脂肪
含量y
9.5
17.8
21.2
25.9
27.5
26.3
28.2
29.6
30.2
31.4
30.8
33.5
35.2
34.6
(1)作出散点图,并判断y与x是否线性相关.若线性相关,求线性回归方程;
(2)求相关指数R2,并说明其含义;
(3)给出37岁时人的脂肪含量的预测值.
【解】 (1)散点图如图所示.由散点图可知样本点呈条状分布,脂肪含量与年龄有比较好的线性相关关系,因此可以用线性回归方程来刻画它们之间的关系.
设线性回归方程为=x+,
则由计算器算得≈0.576,≈=-0.448,
所以线性回归方程为=0.576x-0.448.
(2)残差平方和: =(yi-i)2≈37.78.
总偏差平方和:(yi-)2≈644.99.
R2=1-≈0.941.
R2≈0.941,表明年龄解释了94.1%的脂肪含量变化.
(3)当x=37时,=0.576×37-0.448≈20.9,故37岁时人的脂肪含量约为20.9%.
(教师用书独具)
为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:
x
5
10
15
20
25
30
y
7.25
8.12
8.95
9.90
10.9
11.8
(1)作出散点图并求回归方程;
(2)求出R2;
(3)进行残差分析.
【思路探究】 (1)由表作出散点图,求出系数值,即可写出回归方程.
(2)列出残差表,计算R2,由R2的值判断拟合效果.
(3)由(2)中残差表中数值,进行回归分析.
【自主解答】 (1)散点图如图.
=(5+10+15+20+25+30)=17.5,
=(7.25+8.12+8.95+9.90+10.9+11.8)
≈9.487,
=2 275,iyi=1 076.2.
计算得,≈0.183,≈6.285,
所求线性回归方程为=6.285+0.183x.
(2)列表如下:
yi-i
0.05
0.005
-0.08
-0.045
0.04
0.025
yi-
-2.24
-1.37
-0.54
0.41
1.41
2.31
所以(yi-i)2≈0.013 18,(yi-)2=14.678 4.
所以,R2=1-≈0.999 1,回归模型的拟合效果较好.
(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.
建立回归模型的基本步骤:
(1)确定解释变量和预报变量;
(2)画散点图,观察是否存在线性相关关系;
(3)确定回归方程的类型,如y=bx+a;
(4)按最小二乘法估计回归方程中的参数;
(5)得结果后分析残差图是否异常,若存在异常,则检查数据是否有误,或模型是否合适.
假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有关的统计资料如下表所示.
使用年限x
2
3
4
5
6
维修费用y
2.2
3.8
5.5
6.5
7.0
若由资料知y对x呈线性相关关系.试求:
(1)线性回归方程=x+的回归系数、;
(2)求相关指数R2;
(3)估计使用年限为10年时,维修费用是多少?
【解】 (1)由已知数据制成下表.
i
1
2
3
4
5
合计
xi
2
3
4
5
6
20
yi
2.2
3.8
5.5
6.5
7.0
25
由此可得=4,=5,
==1.23,
=-=5-1.23×4=0.08,
∴=1.23x+0.08.
(2)R2=1-
=1-≈0.958 7.
(3)回归直线方程为=1.23x+0.08,当x=10(年)时,=1.23×10+0.08=12.38(万元),
即估计使用10年时维修费用是12.38万元.
回归分析问题
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤是:
其中第三步“选择函数模型去拟合样本点”是该部分知识的难点,限于难度及现阶段学习的需要,在学习时,我们重点把握线性回归模型的思想方法便可.
以下是某地搜集到的新房屋的销售价格y和房屋面积x的数据:
房屋面积x(m2)
115
110
80
135
105
销售价格y(万元)
248
216
184
292
220
(1)画出数据对应的散点图;
(2)求线性回归方程,并在散点图中画出回归直线;
(3)据(2)的结果估计当房屋面积为150 m2时的销售价格.
【思路点拨】 画散点图―→求参数值―→写出回归方程―→画出回归直线―→估计销售价格.
【规范解答】 (1)数据对应的散点图如图所示:
(2)=i=109,
lxx=(xi-)2=1 570,
=232,lxy=(xi-)(yi-)=3 080.
设所求回归直线方程为=x+,
则==≈1.962,
=-=232-109×≈18.166,
故所求线性回归方程为=1.962x+18.166.
回归直线如图所示.
(3)据(2),当x=150 m2时,销售价格的估计值为
=1.962×150+18.166=312.466(万元).
假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:
x
15.0
25.8
30.0
36.6
44.4
y
39.4
42.9
42.9
43.1
49.2
(1)以x为解释变量,y为预报变量,作出散点图;
(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗;
(3)计算各组残差,并计算残差平方和;
(4)求相关指数R2,并说明残差变量对有效穗的影响占百分之几?
【解】 (1)散点图如下.
(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用回归方程刻画它们之间的关系.
设回归方程为=x+,=30.36,=43.5,
=5 101.56,=9 511.43.
=1 320.66,2=1 892.25,2=921.729 6,
iyi=6 746.76.
由=≈0.29,
=-=43.5-0.29×30.36≈34.70.
故所求的线性回归方程为=34.70+0.29x.
当x=56.7时,=34.70+0.29×56.7=51.143.
估计成熟期有效穗51.143.
(3)由于y=bx+a+e,
可以算得i=yi-i分别为1=0.35,
2=0.718,3=-0.5,4=-2.214,5=1.624,
残差平方和:≈8.43.
(4)可得:(yi-)2=50.18,∴R2=1-≈0.832.
所以解释变量小麦基本苗数对有效穗约贡献了83.2%.残差变量贡献了约1-83.2%=16.8%.
独立性检验
独立性检验是对两个分类变量间是否存在相关关系的一种案例分析方法.常用等高条形图来直观反映两个分类变量之间差异的大小;利用假设检验求随机变量K2的值能更精确地判断两个分类变量间的相关关系.
独立性检验的思想类似于数学上的反证法,在假设下构造的随机变量K2应该很小,如果由观测数据计算得到的K2很大,则在一定程度上说明假设不合理.
对该部分知识的考查,常与必修三中的统计知识相结合,综合考查学生分析问题和解决问题的能力.
在某校高三年级一次全年级的大型考试中数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大?
物理
化学
总分
数学优秀
228
225
267
数学非优秀
143
156
99
注:该年级此次考试中数学成绩优秀的有360人,非优秀的有880人.
【思路点拨】 分别列出数学与物理,数学与化学,数学与总分优秀的2×2列联表,求k的值.由观测值分析,得出结论.
【规范解答】 (1)列出数学与物理优秀的2×2列联表如下:
物理优秀
物理非优秀
合计
数学优秀
228
132
360
数学非优秀
143
737
880
合计
371
869
1 240
a=228,b=132,c=143,d=737,
a+b=360,c+d=880,a+c=371,b+d=869,n=1 240.
代入公式K2=
得k1=≈270.114 3.
(2)列出数学与化学优秀的2×2列联表如下:
化学优秀
化学非优秀
合计
数学优秀
225
135
360
数学非优秀
156
724
880
合计
381
859
1 240
a=225,b=135,c=156,d=724,
a+b=360,c+d=880,a+c=381,b+d=859,n=1 240.
代入公式,得k2=≈240.611 2.
(3)列出数学与总分优秀的2×2列联表如下:
总分优秀
总分非优秀
合计
数学优秀
267
93
360
数学非优秀
99
781
880
合计
366
874
1 240
a=267,b=93,c=99,d=781,
a+b=360,c+d=880,a+c=366,b+d=874,n=1 240.
代入公式,得k3=≈486.122 5.
由上面计算可知数学成绩优秀与物理、化学、总分优秀都有关系,由计算分别得到K2的观测值k1、k2、k3的值都大于10.828,由此说明有99.9%的把握认为数学优秀与物理、化学、总分优秀都有关系,但与总分优秀关系最大,与物理次之.
为了研究男子的年龄与吸烟的关系,抽查了100个男子,按年龄超过和不超过40岁,吸烟量每天多于和不多于20支进行分组,数据如表,试问吸烟量与年龄是否有关?
年龄
不超过40岁
超过40岁
合计
吸烟量不多于20支/天
50
15
65
吸烟量多于20支/天
10
25
35
合计
60
40
100
【解】 由以上数据,得K2的观测值为
k=
=≈22.16>10.828.
所以我们有99.9%的把握认为年龄与吸烟量有关系.
转化与化归思想在回归分析中的应用
回归分析是对抽取的样本进行分析,确定两个变量的相关关系,并用一个变量的变化去推测另一个变量的变化.如果两个变量非线性相关,我们可以通过对变量进行变换,转化为线性相关问题.
某种书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:
x
1
2
3
5
10
20
30
50
100
200
y
10.15
5.52
4.08
2.85
2.11
1.62
1.41
1.30
1.21
1.15
检验每册书的成本费y与印刷册数的倒数之间是否具有线性相关关系?如有,求出y对x的回归方程.
【思路点拨】 令z=,使问题转化为z与y的关系,然后用回归分析的方法,求z与y的回归方程,进而得出x与y的回归方程.
【规范解答】 把置换为z,则有z=,
从而z与y的数据为
z
1
0.5
0.333
0.2
0.1
0.05
0.033
0.02
0.01
0.005
y
10.15
5.52
4.08
2.85
2.11
1.62
1.41
1.30
1.21
1.15
可作出散点图,从图可看出,变换后的样本点分布在一条直线的附近,因此可以用线性回归方程来拟合.
=×(1+0.5+0.333+0.2+0.1+0.05+0.033+0.02+0.01+0.005)=0.225 1,
=×(10.15+5.52+4.08+…+1.15)=3.14,
=12+0.52+0.3332+…+0.012+0.0052≈1.415,
=10.152+5.522+…+1.212+1.152=171.803,
iyi=1×10.15+0.5×5.52+…+0.005×1.15
=15.221 02,
所以=≈8.976,
=-=3.14-8.976×0.225 1≈1.120,
所以所求的z与y的回归方程为=8.976z+1.120.
又因为z=,所以=+1.120.
在某化学实验中,测得如下表所示的6对数据,其中x(单位:min)表示化学反应进行的时间,y(单位:mg)表示未转化物质的质量.
x/min
1
2
3
4
5
6
y/mg
39.8
32.2
25.4
20.3
16.2
13.3
(1)设y与x之间具有关系y=cdx,试根据测量数据估计c和d的值(精确到0.001);
(2)估计化学反应进行到10 min时未转化物质的质量(精确到0.1).
【解】 (1)在y=cdx两边取自然对数,令ln y=z,ln c=a,ln d=b,则z=a+bx.由已知数据,得
x
1
2
3
4
5
6
y
39.8
32.2
25.4
20.3
16.2
13.3
z
3.684
3.472
3.235
3.011
2.785
2.588
由公式得≈3.905 5,≈-0.221 9,则线性回归方程为=3.905 5-0.221 9x.而ln c=3.905 5,ln d=-0.221 9,
故c≈49.675,d≈0.801,
所以c、d的估计值分别为49.675,0.801.
(2)当x=10时,由(1)所得公式可得y≈5.4(mg).综合检测(一)
(时间90分钟,满分120分)
一、选择题(本大题共10小题,每小题5分,共50分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其横断面直径与高度之间的关系,其中有相关关系的是( )
A.①②③ B.①② C.②③ D.①③④
【解析】 曲线上的点与该点的坐标之间是确定关系——函数关系,故②不正确.其余均为相关关系.
【答案】 D
2.(2013·深圳高二检测)在两个变量的回归分析中,作散点图是为了( )
A.直接求出回归直线方程
B.直接求出回归方程
C.根据经验选定回归方程的类型
D.估计回归方程的参数
【解析】 散点图的作用在于选择合适的函数模型.
【答案】 C
3.甲、乙、丙、丁4位同学各自对A、B两变量做回归分析,分别得到散点图与残差平方和(yi-i)2如下表:
甲
乙
丙
丁
散点图
残差
平方和
115
106
124
103
哪位同学的试验结果体现拟合A、B两变量关系的模型拟合精度高( )
A.甲 B.乙 C.丙 D.丁
【解析】 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R2表达式中(yi-)2为确定的数,则残差平方和越小,R2越接近于1),由回归分析建立的线性回归模型的拟合效果越好.由试验结果知丁要好些.故选D.
【答案】 D
4.下面是一个2×2列联表:
y1
y2
总计
x1
a
21
73
x2
8
25
33
总计
b
46
则表中a、b处的值分别为( )
A.94、96 B.52、50
C.52、60 D.54、52
【解析】 ∵a+21=73,∴a=52.
又b=a+8=52+8=60.
【答案】 C
5.(2013·济南高二检测)在线性回归模型y=bx+a+e中,下列说法正确的是( )
A.y=bx+a+e是一次函数
B.因变量y是由自变量x唯一确定的
C.因变量y除了受自变量x的影响外,可能还受到其它因素的影响,这些因素会导致随机误差e的产生
D.随机误差e是由于计算不准确造成的,可以通过精确计算避免随机误差e的产生
【解析】 线性回归模型y=bx+a+e,反映了变量x、y间的一种线性关系,预报变量y除受解释变量x影响外,还受其他因素的影响,用e来表示,故C正确.
【答案】 C
6.下列关于等高条形图的叙述正确的是( )
A.从等高条形图中可以精确地判断两个分类变量是否有关系
B.从等高条形图中可以看出两个变量频数的相对大小
C.从等高条形图中可以粗略地看出两个分类变量是否有关系
D.以上说法都不对
【解析】 在等高条形图中仅能粗略判断两个分类变量的关系,故A错,在等高条形图中仅能够找出频率,无法找出频数,故B错.
【答案】 C
7.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel软件计算得=0.577x-0.448(x为人的年龄,y为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是( )
A.年龄为37岁的人体内脂肪含量都为20.90%
B.年龄为37岁的人体内脂肪含量为21.01%
C.年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%
D.年龄为37岁的人群中的大部分人的体内脂肪含量为21.01%
【解析】 当x=37时,=20.90%,即对于年龄为37岁的人来说,大部分人的体内脂肪含量为20.90%.
【答案】 C
8.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是( )
A.=1.23x+4 B.=1.23x+5
C.=1.23x+0.08 D.=0.08x+1.23
【解析】 由题意可设回归直线方程为=1.23x+a,
又样本点的中心(4,5)在回归直线上,
故5=1.23×4+a,即a=0.08,
故回归直线的方程为=1.23x+0.08.
【答案】 C
9.(2013·福州高二检测)工人月工资y(元)随劳动生产率x(千元)变化的回归方程为=50+80x,下列判断错误的是( )
A.劳动生产率为1 000元时,工资约为130元
B.劳动生产率提高1 000元时,工资提高80元
C.劳动生产率提高1 000元时,工资提高130元
D.当月工资约为210元时,劳动生产率为2 000元
【解析】 此回归方程的实际意义是劳动生产率为x(千元)时,工人月工资约为y(元),其中x的系数80的代数意义是劳动生产率每提高1(千元)时,工人月工资约增加80(元),故应选C.
【答案】 C
10.(2013·开封高二检测)两个分类变量X和Y,值域分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35,若判断变量X和Y有关出错概率不超过25%,则c等于( )
A.3 B.4 C.5 D.6
【解析】 列2×2列联表如下:
x1
x2
总计
y1
a
b
31
y2
c
d
35
总计
10+c
21+d
66
故K2的观测值k=≥5.024.
故选项A、B、C、D代入验证可知选A.
【答案】 A
二、填空题(本大题共4小题,每小题5分,共20分.把答案填在题中横线上)
11.关于随机变量K2的判断中,有以下几种说法:
①K2在任何问题中都可以用来检验两个变量有关还是无关;
②K2的值越大,两个分类变量的相关性就越大;
③K2是用来判断两个分类变量是否有关系的随机变量,当K2的值很小时可以判定两个分类变量不相关.
其中说法正确的是________.
【解析】 K2只适用于2×2列联表问题,故①错误.K2只能判断两个分类变量相关,故②正确.可能性大小不能判断两个分类变量不相关的程度大小,故③错误.
【答案】 ②
12.若由一个2×2列联表中的数据计算得k=4.013,那么在犯错误的概率不超过________的前提下认为两个变量之间有关系.
【解析】 因随机变量k2的观测值k=4.013>3.841,因此,在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.
【答案】 0.05
13.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到k=≈4.844,则认为“选修文科与性别有关系”出错的可能性为________.
【解析】 k≈4.844>3.81,故判断出错的概率为0.05.
【答案】 0.05
14.(2012·广东高考)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系.
时间x
1
2
3
4
5
命中率y
0.4
0.5
0.6
0.6
0.4
小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.
【解析】 平均命中率=×(0.4+0.5+0.6+0.6+0.4)=0.5;而=3,(xi-)(yi-)=(-2)×(-0.1)+(-1)×0+0×0.1+1×0.1+2×(-0.1)=0.1,(xi-)2=(-2)2+(-1)2+02+12+22=10,于是=0.01,=- =0.47,∴=0.01x+0.47,令x=6,得=0.53.
【答案】 0.5 0.53
三、解答题(本大题共4小题,共50分.解答应写出文字说明,证明过程或演算步骤)
15.(本小题满分12分)(2013·清远高二检测)在2008年北京奥运会上,游泳项目的世界记录在水立方屡屡被打破,充满了神奇色彩.据有些媒体的报道,这可能与运动员身上的新式泳衣有关系.为此有人进行了调查统计,对某游泳队的96名运动员的成绩进行了调查,其中使用新式泳衣成绩提高的有12人,没有提高的有36人;没有使用新式泳衣成绩提高的有8人,没有提高的有40人.请根据该游泳队的成绩判断:成绩提高与使用新式泳衣是否有关系?
【解】 根据给出的数据可以列出下列2×2列联表:
成绩提高
成绩没有提高
总计
用新式泳衣
12
36
48
未用新式泳衣
8
40
48
总计
20
76
96
于是K2=≈1.011,由于1.011<3.841,所以我们没有理由认为成绩提高与使用新式泳衣有关系.
16.(本小题满分12分)某城市理论预测2000年到2004年人口总数与年份的关系如下表所示:
年份200x(年)
0
1
2
3
4
人口数y(十万)
5
7
8
11
19
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)据此估计2015年该城市人口总数.
(参考数值:0×5+1×7+2×8+3×11+4×19=132,02+12+22+32+42=30,公式=)
【解】 (1)
(2)=2,=10,0×5+1×7+2×8+3×11+4×19=132,02+12+22+32+42=30.
==3.2,=-=3.6.
故y关于x的线性回归方程为=3.2x+3.6.
(3)当x=15时,=3.2×15+3.6=51.6(十万).
据此估计2015年,该城市人口总数516万.
17.(本小题满分12分)为了研究某种细菌随时间x变化时,繁殖个数y的变化,收集数据如下:
天数x/天
1
2
3
4
5
6
繁殖个数y/个
6
12
25
49
95
190
(1)用天数x作解释变量,繁殖个数y作预报变量,作出这些数据的散点图;
(2)描述解释变量x与预报变量y之间的关系;
(3)计算相关指数.
【解】 (1)所作散点图如图所示.
(2)由散点图看出样本点分布在一条指数型函数y=c1ec2x的周围,于是令z=ln y,则
x
1
2
3
4
5
6
z
1.79
2.48
3.22
3.89
4.55
5.25
由计算得:=0.69x+1.115,则有=e0.69x+1.115.
(3)
6.08
12.12
24.17
48.18
96.06
191.52
y
6
12
25
49
95
190
=(yi-i)2=4.816 1,(yi-)2=24 642.8,
R2=1-≈0.999 8,
即解释变量“天数”对预报变量“繁殖细菌个数”解释了99.98%.
18.(本小题满分14分)为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2)
表1:注射药物A后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
频数
30
40
20
10
表2:注射药物B后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
[80,85)
频数
10
25
20
30
15
完成下面2×2列联表,能否在犯错误概率不超过0.001的前提下,认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”?
表3
疱疹面积小于
70 mm2
疱疹面积不小于
70 mm2
合计
注射药物A
a=
b=
注射药物B
c=
d=
合计
n=
【解】 列出2×2列联表
疱疹面积小于
70 mm2
疱疹面积不小于
70 mm2
合计
注射药物A
a=70
b=30
100
注射药物B
c=35
d=65
100
合计
105
95
n=200
K2的观测值k=≈24.56,
由于k>10.828,所以在犯错误概率不超过0.001的前提下,认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.
课件30张PPT。回归分析问题 独立性检验 转化与化归思想在回归分析中的应用 课件72张PPT。教师用书独具演示演示结束线性回归模型 随机误差 解释变量 预报变量 刻画回归效果的方式 残差 样本编号 身高数据 体重估计值 越小 解释 预报 回归分析的有关概念 线性回归分析 非线性回归分析 课时作业(一)课件62张PPT。教师用书独具演示演示结束分类变量与列联表 不同类别 分类变量 频数表 等高条形图 数据 数据 相互影响 频率特征 独立性检验 两个分类变量有关系 a+b+c+d 用2×2列联表分析两变量间的关系 用等高条形图分析两变量间的关系 独立性检验 课时作业(二)综合检测(一)
(时间90分钟,满分120分)
一、选择题(本大题共10小题,每小题5分,共50分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其横断面直径与高度之间的关系,其中有相关关系的是( )
A.①②③ B.①②
C.②③ D.①③④
【解析】 曲线上的点与该点的坐标之间是确定关系——函数关系,故②不正确.其余均为相关关系.
【答案】 D
2.(2013·深圳高二检测)在两个变量的回归分析中,作散点图是为了( )
A.直接求出回归直线方程
B.直接求出回归方程
C.根据经验选定回归方程的类型
D.估计回归方程的参数
【解析】 散点图的作用在于选择合适的函数模型.
【答案】 C
3.甲、乙、丙、丁4位同学各自对A、B两变量做回归分析,分别得到散点图与残差平方和(yi-i)2如下表:
甲
乙
丙
丁
散点图
残差平方和
115
106
124
103
哪位同学的试验结果体现拟合A、B两变量关系的模型拟合精度高( )
A.甲 B.乙
C.丙 D.丁
【解析】 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R2表达式中(yi-)2为确定的数,则残差平方和越小,R2越接近于1),由回归分析建立的线性回归模型的拟合效果越好.由试验结果知丁要好些.故选D.
【答案】 D
4.下面是一个2×2列联表:
y1
y2
总计
x1
a
21
73
x2
8
25
33
总计
b
46
则表中a、b处的值分别为( )
A.94、96 B.52、50
C.52、60 D.54、52
【解析】 ∵a+21=73,∴a=52.
又b=a+8=52+8=60.
【答案】 C
5.(2013·济南高二检测)在线性回归模型y=bx+a+e中,下列说法正确的是( )
A.y=bx+a+e是一次函数
B.因变量y是由自变量x唯一确定的
C.因变量y除了受自变量x的影响外,可能还受到其它因素的影响,这些因素会导致随机误差e的产生
D.随机误差e是由于计算不准确造成的,可以通过精确计算避免随机误差e的产生
【解析】 线性回归模型y=bx+a+e,反映了变量x、y间的一种线性关系,预报变量y除受解释变量x影响外,还受其他因素的影响,用e来表示,故C正确.
【答案】 C
6.下列关于等高条形图的叙述正确的是( )
A.从等高条形图中可以精确地判断两个分类变量是否有关系
B.从等高条形图中可以看出两个变量频数的相对大小
C.从等高条形图中可以粗略地看出两个分类变量是否有关系
D.以上说法都不对
【解析】 在等高条形图中仅能粗略判断两个分类变量的关系,故A错,在等高条形图中仅能够找出频率,无法找出频数,故B错.
【答案】 C
7.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel软件计算得=0.577x-0.448(x为人的年龄,y为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是( )
A.年龄为37岁的人体内脂肪含量都为20.90%
B.年龄为37岁的人体内脂肪含量为21.01%
C.年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%
D.年龄为37岁的人群中的大部分人的体内脂肪含量为21.01%
【解析】 当x=37时,=20.90%,即对于年龄为37岁的人来说,大部分人的体内脂肪含量为20.90%.
【答案】 C
8.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是( )
A.=1.23x+4 B.=1.23x+5
C.=1.23x+0.08 D.=0.08x+1.23
【解析】 由题意可设回归直线方程为=1.23x+a,
又样本点的中心(4,5)在回归直线上,
故5=1.23×4+a,即a=0.08,
故回归直线的方程为=1.23x+0.08.
【答案】 C
9.(2013·福州高二检测)工人月工资y(元)随劳动生产率x(千元)变化的回归方程为=50+80x,下列判断错误的是( )
A.劳动生产率为1 000元时,工资约为130元
B.劳动生产率提高1 000元时,工资提高80元
C.劳动生产率提高1 000元时,工资提高130元
D.当月工资约为210元时,劳动生产率为2 000元
【解析】 此回归方程的实际意义是劳动生产率为x(千元)时,工人月工资约为y(元),其中x的系数80的代数意义是劳动生产率每提高1(千元)时,工人月工资约增加80(元),故应选C.
【答案】 C
10.(2013·开封高二检测)两个分类变量X和Y,值域分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35,若判断变量X和Y有关出错概率不超过25%,则c等于( )
A.3 B.4
C.5 D.6
【解析】 列2×2列联表如下:
x1
x2
总计
y1
a
b
31
y2
c
d
35
总计
10+c
21+d
66
故K2的观测值k=≥5.024.
故选项A、B、C、D代入验证可知选A.
【答案】 A
二、填空题(本大题共4小题,每小题5分,共20分.把答案填在题中横线上)
11.关于随机变量K2的判断中,有以下几种说法:
①K2在任何问题中都可以用来检验两个变量有关还是无关;
②K2的值越大,两个分类变量的相关性就越大;
③K2是用来判断两个分类变量是否有关系的随机变量,当K2的值很小时可以判定两个分类变量不相关.
其中说法正确的是________.
【解析】 K2只适用于2×2列联表问题,故①错误.K2只能判断两个分类变量相关,故②正确.可能性大小不能判断两个分类变量不相关的程度大小,故③错误.
【答案】 ②
12.若由一个2×2列联表中的数据计算得k=4.013,那么在犯错误的概率不超过________的前提下认为两个变量之间有关系.
【解析】 因随机变量k2的观测值k=4.013>3.841,因此,在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.
【答案】 0.05
13.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到k=≈4.844,则认为“选修文科与性别有关系”出错的可能性为________.
【解析】 k≈4.844>3.81,故判断出错的概率为0.05.
【答案】 0.05
14.(2012·广东高考)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系.
时间x
1
2
3
4
5
命中率y
0.4
0.5
0.6
0.6
0.4
小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.
【解析】 平均命中率=×(0.4+0.5+0.6+0.6+0.4)=0.5;而=3,(xi-)(yi-)=(-2)×(-0.1)+(-1)×0+0×0.1+1×0.1+2×(-0.1)=0.1,(xi-)2=(-2)2+(-1)2+02+12+22=10,于是=0.01,=- =0.47,∴=0.01x+0.47,令x=6,得=0.53.
【答案】 0.5 0.53
三、解答题(本大题共4小题,共50分.解答应写出文字说明,证明过程或演算步骤)
15.(本小题满分12分)(2013·清远高二检测)在2008年北京奥运会上,游泳项目的世界记录在水立方屡屡被打破,充满了神奇色彩.据有些媒体的报道,这可能与运动员身上的新式泳衣有关系.为此有人进行了调查统计,对某游泳队的96名运动员的成绩进行了调查,其中使用新式泳衣成绩提高的有12人,没有提高的有36人;没有使用新式泳衣成绩提高的有8人,没有提高的有40人.请根据该游泳队的成绩判断:成绩提高与使用新式泳衣是否有关系?
【解】 根据给出的数据可以列出下列2×2列联表:
成绩提高
成绩没有提高
总计
用新式泳衣
12
36
48
未用新式泳衣
8
40
48
总计
20
76
96
于是K2=≈1.011,由于1.011<3.841,所以我们没有理由认为成绩提高与使用新式泳衣有关系.
16.(本小题满分12分)某城市理论预测2000年到2004年人口总数与年份的关系如下表所示:
年份200x(年)
0
1
2
3
4
人口数y(十万)
5
7
8
11
19
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)据此估计2015年该城市人口总数.
(参考数值:0×5+1×7+2×8+3×11+4×19=132,02+12+22+32+42=30,公式=)
【解】 (1)
(2)=2,=10,0×5+1×7+2×8+3×11+4×19=132,02+12+22+32+42=30.
==3.2,=-=3.6.
故y关于x的线性回归方程为=3.2x+3.6.
(3)当x=15时,=3.2×15+3.6=51.6(十万).
据此估计2015年,该城市人口总数516万.
17.(本小题满分12分)为了研究某种细菌随时间x变化时,繁殖个数y的变化,收集数据如下:
天数x/天
1
2
3
4
5
6
繁殖个数y/个
6
12
25
49
95
190
(1)用天数x作解释变量,繁殖个数y作预报变量,作出这些数据的散点图;
(2)描述解释变量x与预报变量y之间的关系;
(3)计算相关指数.
【解】 (1)所作散点图如图所示.
(2)由散点图看出样本点分布在一条指数型函数y=c1ec2x的周围,于是令z=ln y,则
x
1
2
3
4
5
6
z
1.79
2.48
3.22
3.89
4.55
5.25
由计算得:=0.69x+1.115,则有=e0.69x+1.115.
(3)
6.08
12.12
24.17
48.18
96.06
191.52
y
6
12
25
49
95
190
=(yi-i)2=4.816 1,(yi-)2=24 642.8,
R2=1-≈0.999 8,
即解释变量“天数”对预报变量“繁殖细菌个数”解释了99.98%.
18.(本小题满分14分)为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2)
表1:注射药物A后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
频数
30
40
20
10
表2:注射药物B后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
[80,85)
频数
10
25
20
30
15
完成下面2×2列联表,能否在犯错误概率不超过0.001的前提下,认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”?
表3
疱疹面积小于70 mm2
疱疹面积不小于70 mm2
合计
注射药物A
a=
b=
注射药物B
c=
d=
合计
n=
【解】 列出2×2列联表
疱疹面积小于70 mm2
疱疹面积不小于70 mm2
合计
注射药物A
a=70
b=30
100
注射药物B
c=35
d=65
100
合计
105
95
n=200
K2的观测值k=≈24.56,
由于k>10.828,所以在犯错误概率不超过0.001的前提下,认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.
一、选择题
1.在画两个变量的散点图时,下面叙述正确的是( )
A.预报变量在x轴上,解释变量在y轴上
B.解释变量在x轴上,预报变量在y轴上
C.可以选择两个变量中任意一个变量在x轴上
D.可以选择两个变量中任意一个变量在y轴上
【解析】 结合线性回归模型y=bx+a+e可知,解释变量在x轴上,预报变量在y轴上,故选B.
【答案】 B
2.(2013·泰安高二检测)在回归分析中,相关指数R2的值越大,说明残差平方和( )
A.越大 B.越小
C.可能大也可能小 D.以上均错
【解析】 ∵R2=1-,∴当R2越大时,
(yi-i)2越小,即残差平方和越小.
【答案】 B
3.设变量y对x的线性回归方程为=2-2.5x,则变量x每增加一个单位时,y平均( )
A.增加2.5个单位 B.增加2个单位
C.减少2.5个单位 D.减少2个单位
【解析】 回归直线的斜率=-2.5,表示x每增加一个单位,y平均减少2.5个单位.
【答案】 C
4.(2012·湖南高考)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
【解析】 由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本中心点(,),因此B正确.由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确.当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,因此D不正确.
【答案】 D
5.在判断两个变量y与x是否相关时,选择了4个不同的模型,它们的相关指数R2分别为:模型1的相关指数R2为0.98,模型2的相关指数R2为0.80,模型3的相关指数R2为0.50,模型4的相关指数R2为0.25.其中拟合效果最好的模型是
( )
A.模型1 B.模型2
C.模型3 D.模型4
【解析】 相关指数R2能够刻画用回归模型拟合数据的效果,相关指数R2的值越接近于1,说明回归模型拟合数据的效果越好.
【答案】 A
二、填空题
6.在研究身高和体重的关系时,求得相关指数R2≈________,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.
【解析】 结合相关指数的计算公式R2=1-可知,当R2=0.64时,身高解释了64%的体重变化.
【答案】 0.64
7.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
【解析】 以x+1代x,得=0.254(x+1)+0.321,与=0.254x+0.321相减可得,年饮食支出平均增加0.254万元.
【答案】 0.254
8.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程是________.
【解析】 由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得-5=1.23(x-4),
即=1.23x+0.08.
【答案】 =1.23x+0.08
三、解答题
9.某省2013年的阅卷现场有一位质检老师随机抽取5名学生的总成绩和数学成绩(单位:分)如下表所示:
学生
A
B
C
D
E
总成绩(x)
482
383
421
364
362
数学成绩(y)
78
65
71
64
61
(1)作出散点图;
(2)对x与y作回归分析;
(3)求数学成绩y对总成绩x的回归直线方程;
(4)如果一个学生的总成绩为500分,试预测这个学生的数学成绩.
【解】 (1)散点图如图所示:
(2)=,=,x=819 794,
y=23 167,xiyi=137 760.
(3)回归系数==0.132 452,
=-=14.501 315.
∴回归方程为=0.132 452x+14.501 315.
(4)当x=500时,≈81.即当一个学生的总成绩为500分时,他的数学成绩约为81分.
10.(2012·福建高考)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
8
8.2
8.4
8.6
8.8
9
销量y(件)
90
84
83
80
75
68
(1)求回归直线方程=bx+a,其中b=-20,a=-b;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
【解】 (1)由于=(8+8.2+8.4+8.6+8.8+9)=8.5,
=(90+84+83+80+75+68)=80,又b=-20,
所以a=-b=80+20×8.5=250,从而回归直线方程为=-20x+250.
(2)设工厂获得的利润为L元,依题意得
L=x(-20x+250)-4(-20x+250)
=-20x2+330x-1 000
=-20(x-8.25)2+361.25.
当且仅当x=8.25时,L取得最大值.
故当单价定为8.25元时,工厂可获得最大利润.
11.在关于人的脂肪含量(百分比)和年龄的关系的研究中,研究人员获得了一组数据如下表:
年龄x
23
27
39
41
45
49
50
53
54
56
57
58
60
61
脂肪
含量y
9.5
17.8
21.2
25.9
27.5
26.3
28.2
29.6
30.2
31.4
30.8
33.5
35.2
34.6
(1)作出散点图,并判断y与x是否线性相关.若线性相关,求线性回归方程;
(2)求相关指数R2,并说明其含义;
(3)给出37岁时人的脂肪含量的预测值.
【解】 (1)散点图如图所示.由散点图可知样本点呈条状分布,脂肪含量与年龄有比较好的线性相关关系,因此可以用线性回归方程来刻画它们之间的关系.
设线性回归方程为=x+,
则由计算器算得≈0.576,≈=-0.448,
所以线性回归方程为=0.576x-0.448.
(2)残差平方和: =(yi-i)2≈37.78.
总偏差平方和:(yi-)2≈644.99.
R2=1-≈0.941.
R2≈0.941,表明年龄解释了94.1%的脂肪含量变化.
(3)当x=37时,=0.576×37-0.448≈20.9,故37岁时人的脂肪含量约为20.9%.
一、选择题
1.有两个分类变量X与Y的一组数据,由其列联表计算得k≈4.523,则认为“X与Y有关系”犯错误的概率为( )
A.95% B.90%
C.5% D.10%
【解析】 P(K2≥3.841)≈0.05,而k≈4.523>3.841.这表明认为“X与Y有关系”是错误的可能性约为0.05,即认为“X与Y有关系”犯错误的概率为5%.
【答案】 C
2.(2013·大连高二检测)在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )
A.平均数与方差 B.回归分析
C.独立性检验 D.概率
【解析】 判断两个分类变量是否有关的最有效方法是进行独立性检验,故选C.
【答案】 C
3.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定推断“X与Y有关系”的可信度,如果k>5.024,那么就推断“X和Y有关系”,这种推断犯错误的概率不超过( )
A.0.25 B.0.75
C.0.025 D.0.975
【解析】 ∵P(k>5.024)=0.025,故在犯错误的概率不超过0.025的条件下,认为“X和Y有关系”.
【答案】 C
4.下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出( )
图1-2-1
A.性别与喜欢理科无关
B.女生中喜欢理科的比为80%
C.男生比女生喜欢理科的可能性大些
D.男生不喜欢理科的比为60%
【解析】 本题考查学生的识图能力,从图中可以分析,男生喜欢理科的可能性比女生大一些.
【答案】 C
5.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲.下列说法正确的是( )
A.男、女患色盲的频率分别为0.038,0.006
B.男、女患色盲的概率分别为,
C.男人中患色盲的比例比女人中患色盲的比例大,患色盲与性别是有关的
D.调查人数太少,不能说明色盲与性别有关
【解析】 男人中患色盲的比例为,要比女人中患色盲的比例大,其差值为|-|≈0.0 676,差值较大.
【答案】 C
二、填空题
6.某班主任对全班50名学生作了一次调查,所得数据如表:
认为作业多
认为作业不多
总计
喜欢玩电脑游戏
18
9
27
不喜欢玩电脑游戏
8
15
23
总计
26
24
50
由表中数据计算得到K2的观测值k≈5.059,于是________(填“能”或“不能”)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.
【解析】 查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值k0=6.635.本题中,k≈5.059<6.635,所以不能在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.
【答案】 不能
7.独立性检验所采用的思路是:要研究A,B两类型变量彼此相关,首先假设这两类变量彼此________.在此假设下构造随机变量K2,如果K2的观测值较大,那么在一定程度上说明假设________.
【答案】 无关 不成立
8.某高校《统计初步》课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:
专业
性别
非统计专业
统计专业
男生
13
10
女生
7
20
为了检验主修统计专业是否与性别有关系,根据表中的数据得到随机变量K2的观测值为k=≈4.844.因为k>3.841,所以确认“主修统计专业与性别有关系”,这种判断出现错误的可能性为________.
【解析】 因为随机变量K2的观测值k>3.841,所以在犯错误的概率不超过0.05的前提下认为“主修统计专业与性别有关系”.故这种判断出现错误的可能性为5%.
【答案】 5%
三、解答题
9.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关?
【解】 列出2×2列联表
理
文
总计
有兴趣
138
73
211
无兴趣
98
52
150
总计
236
125
361
代入公式得K2的观测值
k=≈1.871×10-4.
∵1.871×10-4<2.706,
∴可以认为学生选报文、理科与对外语的兴趣无关.
10.某校对学生课外活动进行调查,结果整理成下表:运用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?
体育
文娱
合计
男生
21
23
44
女生
6
29
35
合计
27
52
79
【解】 其等高条形图如图所示.
由图可以直观地看出喜欢体育还是喜欢文娱与性别在某种程度上有关系,但只能作粗略判断,具体判断方法如下:
假设“喜欢体育还是喜欢文娱与性别没有关系”,
∵a=21,b=23,c=6,d=29,n=79,
∴K2的观测值为
k=≈8.106.
且P(K2≥7.879)≈0.005,即我们得到的K2的观测值k≈8.106超过7.879,这就意味着:“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005,即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关”.
11.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:
甲厂:
(1)试分别估计两个分厂生产零件的优质品率;
(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.
甲厂
乙厂
合计
优质品
非优质品
合计
附:K2=
P(K2≥k)
0.05
0.01
k
3.841
6.635
【解】 (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为=72%;
乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为=64%.
(2)
甲厂
乙厂
合计
优质品
360
320
680
非优质品
140
180
320
合计
500
500
1 000
k=
≈7.353>6.635,
因此,在犯错误的概率不超过0.01的前提下,即有99%的把握认为“两个分厂生产的零件的质量有差异”.