3.2 独立性检验的基本思想及其初步应用
(共计3课时)
授课类型:新授课
一、教学内容与教学对象分析
通过典型案例,学习下列一些常用的统计方法,并能初步应用这些方法解决一些实际问题。
1 通过对典型案例(如“患肺癌与吸烟有关吗”等)的探究。了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用。
2 通过对典型案例(如“人的体重与身高的关系”等)的探究,了解回归的基本思想、 方法及其初步应用。
二. 学习目标
1、知识与技能
通过本节知识的学习,了解独立性检验的基本思想和初步应用,能对两个分类变量是否有关做出明确的判断。明确对两个分类变量的独立性检验的基本思想具体步骤,会对具体问题作出独立性检验。
2、过程与方法
在本节知识的学习中,应使学生从具体问题中认识进行独立性检验的作用及必要性,树立学好本节知识的信心,在此基础上学习三维柱形图和二维柱形图,并认识它们的基本作用和存在的不足,从而为学习下面作好铺垫,进而介绍K的平方的计算公式和K的平方的观测值R的求法,以及它们的实际意义。从中得出判断“X与Y有关系”的一般步骤及利用独立性检验来考察两个分类变量是否有关系,并能较准确地给出这种判断的可靠程度的具体做法和可信程度的大小。最后介绍了独立性检验思想的综合运用。
3、情感、态度与价值观
通过本节知识的学习,首先让学生了解对两个分类博变量进行独立性检验的必要性和作用,并引导学生注意比较与观测值之间的联系与区别,从而引导学生去探索新知识,培养学生全面的观点和辨证地分析问题,不为假想所迷惑,寻求问题的内在联系,培养学生学习数学、应用数学的良好的数学品质。加强与现实生活相联系,从对实际问题的分析中学会利用图形分析、解决问题及用具体的数量来衡量两个变量之间的联系,学习用图形、数据来正确描述两个变量的关系。明确数学在现实生活中的重要作用和实际价值。教学中,应多给学生提供自主学习、独立探究、合作交流的机会。养成严谨的学习态度及实事求是的分析问题、解决问题的科学世界观,并会用所学到的知识来解决实际问题。
三.教学重点、难点
教学重点:理解独立性检验的基本思想;独立性检验的步骤。
教学难点;1、理解独立性检验的基本思想;
2、了解随机变量K2的含义;
3、独立性检验的步骤。
四、教学策略
教学方法:诱思探究教学法
学习方法:自主探究、观察发现、合作交流、归纳总结。
教学手段:多媒体辅助教学
五、教学过程:
对于性别变量,其取值为男和女两种.这种变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.在现实生活中,分类变量是大量存在的,例如是否吸烟,宗教信仰,国籍,等等.在日常生活中,我们常常关心两个分类变量之间是否有关系.例如,吸烟与患肺癌是否有关系?性别对于是否喜欢数学课程有影响?等等.
为调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)
表3-7 吸烟与肺癌列联表
不患肺癌 患肺癌 总计
不吸烟 7775 42 7817
吸烟 2099 49 2148
总计 9874 91 9965
那么吸烟是否对患肺癌有影响吗?
像表3一7 这样列出的两个分类变量的频数表,称为列联表.由吸烟情况和患肺癌情况的列联表可以粗略估计出:在不吸烟者中,有0.54 %患有肺癌;在吸烟者中,有2.28%患有肺癌.因此,直观上可以得到结论:吸烟者和不吸烟者患肺癌的可能性存在差异.
与表格相比,三维柱形图和二维条形图能更直观地反映出相关数据的总体状况.图3. 2 一1 是列联表的三维柱形图,从中能清晰地看出各个频数的相对大小.
图3.2一2 是叠在一起的二维条形图,其中浅色条高表示不患肺癌的人数,深色条高表示患肺癌的人数.从图中可以看出,吸烟者中患肺癌的比例高于不吸烟者中患肺癌的比例.
为了更清晰地表达这个特征,我们还可用如下的等高条形图表示两种情况下患肺癌的比例.如图3.2一3 所示,在等高条形图中,浅色的条高表示不患肺癌的百分比;深色的条高表示患肺癌的百分比.
通过分析数据和图形,我们得到的直观印象是“吸烟和患肺癌有关”.那么我们是否能够以一定的把握认为“吸烟与患肺癌有关”呢?
为了回答上述问题,我们先假设
H0:吸烟与患肺癌没有关系.用A表示不吸烟, B表示不患肺癌,则“吸烟与患肺癌没有关系”独立”,即假设 H0等价于
PAB)=P(A)+P(B) .
把表3一7中的数字用字母代替,得到如下用字母表示的列联表:
表3-8 吸烟与肺癌列联表
不患肺癌 患肺癌 总计
不吸烟 a b a+b
吸烟 c d c+d
总计 a+c b+d a+b+c+d
在表3一8中,a恰好为事件AB发生的频数;a+b 和a+c恰好分别为事件A和B发生的频数.由于频率近似于概率,所以在H0成立的条件下应该有
,
其中为样本容量, (a+b+c+d)≈(a+b)(a+c) ,
即ad≈bc.
因此,|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;|ad -bc|越大,说明吸烟与患肺癌之间关系越强.
为了使不同样本容量的数据有统一的评判标准,基于上面的分析,我们构造一个随机变量
(1)
其中为样本容量.
若 H0 成立,即“吸烟与患肺癌没有关系”,则 K “应该很小.根据表3一7中的数据,利用公式(1)计算得到 K “的观测值为
,
这个值到底能告诉我们什么呢?
统计学家经过研究后发现,在 H0成立的情况下,
. (2)
(2)式说明,在H0成立的情况下,的观测值超过 6. 635 的概率非常小,近似为0 . 01,是一个小概率事件.现在的观测值≈56.632 ,远远大于6. 635,所以有理由断定H0不成立,即认为“吸烟与患肺癌有关系”.但这种判断会犯错误,犯错误的概率不会超过0.01,即我们有99%的把握认为“吸烟与患肺癌有关系” .
在上述过程中,实际上是借助于随机变量的观测值建立了一个判断H0是否成立的规则:
如果≥6. 635,就判断H0不成立,即认为吸烟与患肺癌有关系;否则,就判断H0成立,即认为吸烟与患肺癌没有关系.
在该规则下,把结论“H0 成立”错判成“H0 不成立”的概率不会超过
,
即有99%的把握认为从不成立.
上面解决问题的想法类似于反证法.要确认是否能以给定的可信程度认为“两个分类变量有关系”,首先假设该结论不成立,即
H0:“两个分类变量没有关系”
成立.在该假设下我们所构造的随机变量应该很小.如果由观测数据计算得到的的观测值k很大,则在一定可信程度上说明H0不成立,即在一定可信程度上认为“两个分类变量有关系”;如果k的值很小,则说明由样本观测数据没有发现反对H0 的充分证据.
怎样判断的观测值 k 是大还是小呢?这仅需确定一个正数,当时就认为 的观测值k大.此时相应于的判断规则为:
如果,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.
我们称这样的为一个判断规则的临界值.按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率为.
在实际应用中,我们把解释为有的把握认为“两个分类变量之间有关系”;把解释为不能以的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据.上面这种利用随机变量来确定是否能以一定把握认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验.
利用上面结论,你能从列表的三维柱形图中看出两个变量是否相关吗?
一般地,假设有两个分类变量X和Y,它们的可能取值分别为{}和{}, 其样本频数列联表(称为2×2列联表)为:
表3一 9 2×2列联表
总计
总计
若要推断的论述为
Hl:X与Y有关系,
可以按如下步骤判断结论Hl 成立的可能性:
1.通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.
① 在三维柱形图中,主对角线上两个柱形高度的乘积ad 与副对角线上的两个柱形高度的乘积bc相差越大,H1成立的可能性就越大.
② 在二维条形图中,可以估计满足条件X=的个体中具有Y=的个体所占的比例,也可以估计满足条件X=的个体中具有Y=,的个体所占的比例.“两个比例的值相差越大,Hl 成立的可能性就越大.
2.可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法是:
① 根据实际问题需要的可信程度确定临界值;
② 利用公式( 1 ) ,由观测数据计算得到随机变量的观测值;
③ 如果,就以的把握认为“X与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系”的充分证据.
在实际应用中,要在获取样本数据之前通过下表确定临界值:
表3一10
0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 1.323 2.706 3.841 5.024 6.635 10.828
(四)、举例:
例1.在某医院,因为患心脏病而住院的 665 名男性病人中,有 214 人秃顶,而另外 772 名不是因为患心脏病而住院的男性病人中有 175 人秃顶.
(1)利用图形判断秃顶与患心脏病是否有关系.
(2)能够以 99 %的把握认为秃顶与患心脏病有关系吗?为什么?
解:根据题目所给数据得到如下列联表:
(1)相应的三维柱形图如图3.2一4所示.比较来说,底面副对角线上两个柱体高度的乘积要大一些,可以在某种程度上认为“秃顶与患心脏病有关”.
(2)根据列联表3一11中的数据,得到
≈16.373>6 .
因此有 99 %的把握认为“秃顶与患心脏病有关” .
例2.为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:
表3一12 性别与喜欢数学课程列联表
喜欢数学课程 不喜欢数学课程 总计
男 37 85 122
女 35 143 178
总计 72 228 300
由表中数据计算得的观测值.能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?请详细阐明得出结论的依据.
解:可以有约95%以上的把握认为“性别与喜欢数学课之间有关系”.作出这种判断的依据是独立性检验的基本思想,具体过程如下:
分别用a , b , c , d 表示样本中喜欢数学课的男生人数、不喜欢数学课的男生人数、喜欢数学课的女生人数、不喜欢数学课的女生人数.如果性别与是否喜欢数学课有关系,则男生中喜欢数学课的比例与女生中喜欢数学课的人数比例应该相差很多,即
应很大.
将上式等号右边的式子乘以常数因子
,
然后平方得
,
其中.因此越大,“性别与喜欢数学课之间有关系”成立的可能性越大.
另一方面,在假设“性别与喜欢数学课之间没有关系”的前提下,事件A ={≥3. 841}的概率为P (≥3. 841) ≈0.05,
因此事件 A 是一个小概率事件.而由样本数据计算得的观测值k=4.514,即小概率事件 A发生.因此应该断定“性别与喜欢数学课之间有关系”成立,并且这种判断结果出错的可能性约为5 %.所以,约有95 %的把握认为“性别与喜欢数学课之间有关系”.
补充例题1:打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得的数据,试问:每一晚都打鼾与患心脏病有关吗?
患心脏病 未患心脏病 合计
每一晚都打鼾 30 224 254
不打鼾 24 1355 1379
合计 54 1579 1633
解:略。
补充例题2: 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
又发作过心脏病 未发作过心脏病 合计
心脏搭桥手术 39 157 196
血管清障手术 29 167 196
合计 68 324 392
试根据上述数据比较两种手术对病人又发作心脏病的影响有没有差别。
解略
(四) 课堂小结
1.知识梳理
2.规律小结
(1)三维柱形图与二维条形图
(2)独立性检验的基本思想
(3)独立性检验的一般方法
(五) 作业:
五 课后反思:
本节内容对独立性检验的探讨过程学生基本没什么困难,还有学生提出了新的探讨路径和思想,学生思维活泼!对独立性检验的作用,本节课也作了系统总结比较。
PAGE
7北京英才苑网站 http://www.ycy. ·版权所有·盗版必究·
普通高中课程标准实验教科书—数学选修2-3[苏教版]
§3.2 回归分析(1)
教学目标
(1)通过实例引入线性回归模型,感受产生随机误差的原因;
(2)通过对回归模型的合理性等问题的研究,渗透线性回归分析的思想和方法;
(3)能求出简单实际问题的线性回归方程.
教学重点,难点
线性回归模型的建立和线性回归系数的最佳估计值的探求方法.
教学过程
一.问题情境
1. 情境:对一作直线运动的质点的运动过程观测了次,得到如下表所示的数据,试估计当x=9时的位置y的值.
时刻/s
位置观测值/cm
根据《数学(必修)》中的有关内容,解决这个问题的方法是:
先作散点图,如下图所示:
从散点图中可以看出,样本点呈直线趋势,时间与位置观测值y之间有着较好的线性关系.因此可以用线性回归方程来刻画它们之间的关系.根据线性回归的系数公式,
可以得到线性回归方为,所以当时,由线性回归方程可以估计其位置值为
2.问题:在时刻时,质点的运动位置一定是吗?
二.学生活动
思考,讨论:这些点并不都在同一条直线上,上述直线并不能精确地反映与之间的关系,的值不能由完全确定,它们之间是统计相关关系,的实际值与估计值之间存在着误差.
三.建构数学
1.线性回归模型的定义:
我们将用于估计值的线性函数作为确定性函数;
的实际值与估计值之间的误差记为,称之为随机误差;
将称为线性回归模型.
说明:(1)产生随机误差的主要原因有:
①所用的确定性函数不恰当引起的误差;
②忽略了某些因素的影响;
③存在观测误差.
(2)对于线性回归模型,我们应该考虑下面两个问题:
①模型是否合理(这个问题在下一节课解决);
②在模型合理的情况下,如何估计,?
2.探求线性回归系数的最佳估计值:
对于问题②,设有对观测数据,根据线性回归模型,对于每一个,对应的随机误差项,我们希望总误差越小越好,即要使越小越好.所以,只要求出使取得最小值时的,值作为,的估计值,记为,.
注:这里的就是拟合直线上的点到点的距离.
用什么方法求,?
回忆《数学3(必修)》“2.4线性回归方程”P71“热茶问题”中求,的方法:最小二乘法.
利用最小二乘法可以得到,的计算公式为
,
其中,
由此得到的直线就称为这对数据的回归直线,此直线方程即为线性回归方程.其中,分别为,的估计值,称为回归截距,称为回归系数,称为回归值.
在前面质点运动的线性回归方程中,,.
3. 线性回归方程中,的意义是:以为基数,每增加1个单位,相应地平均增加个单位;
4. 化归思想(转化思想)
在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要我们根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.下面列举出一些常见的曲线方程,并给出相应的化为线性回归方程的换元公式.
(1),令,,则有.
(2),令,,,则有.
(3),令,,,则有.
(4),令,,,则有.
(5),令,,则有.
四.数学运用
1.例题:
例1.下表给出了我国从年至年人口数据资料,试根据表中数据估计我国年的人口数.
年份
人口数/百万
解:为了简化数据,先将年份减去,并将所得值用表示,对应人口数用表示,得到下面的数据表:
作出个点构成的散点图,
由图可知,这些点在一条直线附近,可以用线性回归模型来表示它们之间的关系.
根据公式(1)可得
这里的分别为的估
计值,因此线性回归方程
为
由于年对应的,代入线性回归方程可得(百万),即年的人口总数估计为13.23亿.
例2. 某地区对本地的企业进行了一次抽样调查,下表是这次抽查中所得到的各企业的人均资本(万元)与人均产出(万元)的数据:
人均资本/万元
人均产出/万元
(1)设与之间具有近似关系(为常数),试根据表中数据估计和的值;
(2)估计企业人均资本为万元时的人均产出(精确到).
分析:根据,所具有的关系可知,此问题不是线性回归问题,不能直接用线性回归方程处理.但由对数运算的性质可知,只要对的两边取对数,就能将其转化为线性关系.
解(1)在的两边取常用对数,可得,设,,,则.相关数据计算如图所示.
1 人均资本/万元 3 4 5.5 6.5 7 8 9 10.5 11.5 14
2 人均产出/万元 4.12 4.67 8.68 11.01 13.04 14.43 17.5 25.46 26.66 45.2
3 0.47712 0.60206 0.74036 0.81291 0.8451 0.90309 0.95424 1.02119 1.0607 1.14613
4 0.6149 0.66932 0.93852 1.04179 1.11528 1.15927 1.24304 1.40586 1.42586 1.65514
仿照问题情境可得,的估计值,分别为由可得,即,的估计值分别为和.
(2)由(1)知.样本数据及回归曲线的图形如图(见书本 页)
当时,(万元),故当企业人均资本为万元时,人均产值约为万元.
2.练习:练习第题.
五.回顾小结:
1. 线性回归模型与确定性函数相比,它表示与之间是统计相关关系(非确定性关系)其中的随机误差提供了选择模型的准则以及在模型合理的情况下探求最佳估计值,的工具;
2. 线性回归方程中,的意义是:以为基数,每增加1个单位,相应地平均增加个单位;
3.求线性回归方程的基本步骤.
六.课外作业:第题.
- 5 -北京英才苑网站 http://www.ycy. ·版权所有·盗版必究·
普通高中课程标准实验教科书—数学选修2-3[苏教版]
§3.1 独立性检验(2)
教学目标
通过对典型案例的探究,进一步巩固独立性检验的基本思想、方法,并能运用χ2统计量进行独立性检验.
教学重点,难点:独立性检验的基本方法是重点.基本思想的领会及方法应用是难点.
教学过程
一.学生活动
练习:
(1)某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集哪些数据? .
(2)某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:
非统计专业 统计专业
男 13 10
女 7 20
为了判断主修统计专业是否与性别有关系,根据表中的数据,得到
χ2,∵χ2,
所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为 .(答案:5%)
附:临界值表(部分):
(χ2) 0.10 0.05 0.025 0.010
2.706 3.841 5.024 6.635
二.数学运用
1.例题:
例1.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动。
(1)根据以上数据建立一个2× 2列联表;
(2)判断性别与休闲方式是否有关系。
解:(1)2× 2的列联表:
休闲方式性别 看电视 运动 总计
女 43 27 70
男 21 33 54
总计 64 60 124
(2)假设“休闲方式与性别无关”
χ2
因为χ2,所以有理由认为假设“休闲方式与性别无关”是不合理的,即有97.5%的把握认为“休闲方式与性别有关”。
例2.气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?
有效 无效 合计
复方江剪刀草 184 61 245
胆黄片 91 9 100
合计 275 70 345
分析:由列联表中的数据可知,服用复方江剪刀草的患者的有效率为,服用胆黄片的患者的有效率为,可见,服用复方江剪刀草的患者与服用胆黄片的患者的有 效率存在较大差异.下面用进行独立性检验,以确定能有多大把握作出这一推断.
解:提出假设:两种中草药的治疗效果没有差异,即病人使用这两种药物中的何种药物对疗效没有明显差异.
由列联表中的数据,求得
当成立时,的概率约为,而这里
所以我们有的把握认为:两种药物的疗效有差异.
例3.下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?
喝过酒 没喝过酒 合计
男生 77 404 481
女生 16 122 138
合计 93 526 619
解:提出假设:该周内中学生是否喝过酒与性别无关.
由列联表中的数据,求得 ,
当成立时,的概率约为,而这里,
所以,不能推断出喝酒与性别有关的结论.
三.回顾小结:
1.独立性检验的思想方法及一般步骤.
四.课外作业:补充。
别
性
专
业
- 3 -第三章、统计案例
3.1回归分析的基本思想及其初步应用
(共计4课时)
授课类型:新授课
一、教学内容与教学对象分析
学生将在必修课程学习统计的基础上,通过对典型案例的讨论,了解和使用一些常用的统计方法,进一步体会运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。
二、学习目标
1、知识与技能
通过本节的学习,了解回归分析的基本思想,会对两个变量进行回归分析,明确建立回归模型的基本步骤,并对具体问题进行回归分析,解决实际应用问题。
2、过程与方法
本节的学习,应该让学生通过实际问题去理解回归分析的必要性,明确回归分析的基本思想,从散点图中点的分布上我们发现直接求回归直线方程存在明显的不足,从中引导学生去发现解决问题的新思路—进行回归分析,进而介绍残差分析的方法和利用R的平方来表示解释变量对于预报变量变化的贡献率,从中选择较为合理的回归方程,最后是建立回归模型基本步骤。
3、情感、态度与价值观
通过本节课的学习,首先让显示了解回归分析的必要性和回归分析的基本思想,明确回归分析的基本方法和基本步骤,培养我们利用整体的观点和互相联系的观点,来分析问题,进一步加强数学的应用意识,培养学生学好数学、用好数学的信心。加强与现实生活的联系,以科学的态度评价两个变量的相关系。教学中适当地增加学生合作与交流的机会,多从实际生活中找出例子,使学生在学习的同时。体会与他人合作的重要性,理解处理问题的方法与结论的联系,形成实事求是的严谨的治学态度和锲而不舍的求学精神。培养学生运用所学知识,解决实际问题的能力。
三、教学重点、难点
教学重点:熟练掌握回归分析的步骤;各相关指数、建立回归模型的步骤;通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法。
教学难点:求回归系数 a , b ;相关指数的计算、残差分析;了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较。
四、教学策略:
教学方法:诱思探究教学法
学习方法:自主探究、观察发现、合作交流、归纳总结。
教学手段:多媒体辅助教学
五、教学过程:
(一)、复习引入:回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法。
(二)、新课:
探究:对于一组具有线性相关关系的数据:
() , () ,…, (),
我们知道其回归方程的截距和斜率的最小二乘估计公式分别为:
(1)
(2)
其中,()成为样本点的中心.
注:回归直线过样本中心.
你能推导出这两个计算公式吗?
从我们已经学过的知识知道,截距和斜率分别是使
取到最小值时的值.
由于
注意到
.
在上式中,后两项和无关,而前两项为非负数,因此要使Q取得最小值,当且仅当前两项的值均为0,即有
这正是我们所要推导的公式.
下面我们从另一个角度来推导的公式.
人教A版选修2-2P37习题1.4A组第4题:
用测量工具测量某物体的长度,由于工具的精度以及测量技术的原因,测得n个数据
.
证明:用这个数据的平均值
表示这个物体的长度,能使这n个数据的方差
最小.
思考:这个结果说明了什么?通过这个问题,你能说明最小二乘法的基本原理吗?
证明:由于,所以
,
令, 得。
可以得到, 是函数的极小值点,也是最小值点.
这个结果说明,用n个数据的平均值表示这个物体的长度是合理的,这就是最小二乘法的基本原理.
由最小二乘法的基本原理即得
定理 设,,则
(*)
当且仅当时取等号.
(*)式说明, 是任何一个实数与的差的平方的平均数中最小的数.从而说明了方差具有最小性,也即定义标准差的合理性.
下面借助(*)式求的最小值.
,
由(*)式知,
当且仅当,且时, 达到最小值
.
由此得到,其中是回归直线的斜率,是截距.
借助和配方法,我们给出了人教A版必修3的第二章统计第三节变量间的相关关系中回归直线方程的一个合理的解释.
1、回归分析的基本步骤:
(1) 画出两个变量的散点图.
(2) 求回归直线方程.
(3) 用回归直线方程进行预报.
下面我们通过案例,进一步学习回归分析的基本思想及其应用.
2、举例:
例1. 从某大学中随机选取 8 名女大学生,其身高和体重数据如表
编号 1 2 3 4 5 6 7 8
身高/cm 165 165 157 170 175 165 155 170
体重/kg 48 57 50 54 64 61 43 59
求根据女大学生的身高预报体重的回归方程,并预报一名身高为 172 cm 的女大学生的体重.
解:由于问题中要求根据身高预报体重,因此选取身高为自变量 x ,体重为因变量 y .
作散点图(图3 . 1 一 1)
从图3. 1一1 中可以看出,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用线性回归方程来近似刻画它们之间的关系.
根据探究中的公式(1)和(2 ) ,可以得到.
于是得到回归方程
.
因此,对于身高172 cm 的女大学生,由回归方程可以预报其体重为
( kg ) .
是斜率的估计值,说明身高 x 每增加1个单位时,体重y就增加0.849 位,这表明体重与身高具有正的线性相关关系.如何描述它们之间线性相关关系的强弱?
在必修 3 中,我们介绍了用相关系数;来衡量两个变量之间线性相关关系的方法.本相关系数的具体计算公式为
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值接近于0时,表明两个变量之间几乎不存在线性相关关系.通常,当r的绝对值大于0. 75 时认为两个变量有很强的线性相关关系.
在本例中,可以计算出r =0. 798.这表明体重与身高有很强的线性相关关系,从而也表明我们建立的回归模型是有意义的.
显然,身高172cm 的女大学生的体重不一定是60. 316 kg,但一般可以认为她的体重接近于60 . 316 kg .图3 . 1 一 2 中的样本点和回归直线的相互位置说明了这一点.
由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身高和体重的关系可用下面的线性回归模型来表示:
, ( 3 )
这里 a 和 b 为模型的未知参数,e是 y 与之间的误差.通常e为随机变量,称为随机误差,它的均值 E (e)=0,方差D(e)=>0 .这样线性回归模型的完整表达式为:
(4)
在线性回归模型(4)中,随机误差e的方差护越小,通过回归直线
(5)
预报真实值y的精度越高.随机误差是引起预报值与真实值 y 之间的误差的原因之一,大小取决于随机误差的方差.
另一方面,由于公式(1)和(2)中 和为截距和斜率的估计值,它们与真实值a和b之间也存在误差,这种误差是引起预报值与真实值y之间误差的另一个原因.
思考:产生随机误差项e的原因是什么
一个人的体重值除了受身高的影响外,还受许多其他因素的影响.例如饮食习惯、是否喜欢运动、度量误差等.事实上,我们无法知道身高和体重之间的确切关系是什么,这里只是利用线性回归方程来近似这种关系.这种近似以及上面提到的影响因素都是产生随机误差 e 的原因.
因为随机误差是随机变量,所以可以通过这个随机变量的数字特征来刻画它的一些总体特征.均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机误差的均值为0,因此可以用方差来衡量随机误差的大小.
为了衡量预报的精度,需要估计护的值.一个自然的想法是通过样本方差来估计总体方差.如何得到随机变量的样本呢?由于模型(3)或(4)中的隐含在预报变量 y 中,我们无法精确地把它从 y 中分离出来,因此也就无法得到随机变量的样本.
解决问题的途径是通过样本的估计值来估计.根据截距和斜率的估计公式(1)和(2 ) , 可以建立回归方程
,
因此是(5)中的估计量.由于随机误差,所以是的估计量.对于样本点() , () ,…, ()
而言,相应于它们的随机误差为
,
其估计值为
,
称为相应于点的残差(residual ).类比样本方差估计总体方差的思想,可以用
作为的估计量, 其中和由公式(1) (2)给出,Q( ,)称为残差平方和(residual sum of squares ).可以用衡量回归方程的预报精度.通常,越小,预报精度越高.
在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差
来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.表3一 2 列出了女大学生身高和体重的原始数据以及相应的残差数据.
编号 1 2 3 4 5 6 7 8
身高/cm 165 165 157 170 175 165 155 170
体重/kg 48 57 50 54 64 61 43 59
残差 -6.373 2.627 2.419 -4.618 1.137 6.627 -2.883 0.382
我们可以利用图形来分析残差特性作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.图 3 . 1 一 3 是以样本编号为横坐标的残差图.
从图3 . 1 一 3 中可以看出,第 1 个样本点和第 6 个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误.如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因.另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.另外,我们还可以用相关指数来刻画回归的效果,其计算公式是:
显然,取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,表示解释变量对于预报变量变化的贡献率. 越接近于1,表示回归的效果越好(因为越接近于1,表示解释变量和预报变量的线性相关性越强).如果对某组数据可能采取几种不同的回归方程进行回归分析,也可以通过比较几个,选择大的模型作为这组数据的模型.
在例 1 中,=0. 64 ,表明“女大学生的身高解释了64 %的体重变化”,或者说“女大学生的体重差异有 64 %是由身高引起的”.
用身高预报体重时,需要注意下列问题:
1.回归方程只适用于我们所研究的样本的总体.例如,不能用女大学生的身高和体重之间的回归方程,描述女运动员的身高和体重之间的关系.同样,不能用生长在南方多雨地区的树木的高与直径之间的回归方程,描述北方干旱地区的树木的高与直径之间的关系.
2.我们所建立的回归方程一般都有时间性.例如,不能用 20 世纪 80 年代的身高体重数据所建立的回归方程,描述现在的身高和体重之间的关系.
3.样本取值的范围会影响回归方程的适用范围.例如,我们的回归方程是由女大学生身高和体重数据建立的,那么用它来描述一个人幼儿时期的身高和体重之间的关系就不恰当(即在回归方程中,解释变量 x 的样本的取值范围为[155cm,170cm〕 ,而用这个方程计算 x-70cm 时的y值,显然不合适.)
4.不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.
一般地,建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等) ;
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程 y=bx+a ) ;
(4)按一定规则估计回归方程中的参数(如最小二乘法);
(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等.
例2.现收集了一只红铃虫的产卵数y和温度x之间的7组观测数据列于下表:
温度xoC 21 23 25 27 29 32 35
产卵数y/个 7 11 21 24 66 115 325
(1)试建立y与x之间的回归方程;并预测温度为28oC时产卵数目。
(2)你所建立的模型中温度在多大程度上解释了产卵数的变化?
探究:
方案1(学生实施):
(1)选择变量,画散点图。
(2)通过计算器求得线性回归方程:=19.87x-463.73
(3)进行回归分析和预测:
R2=r2≈0.8642=0.7464
预测当气温为28 时,产卵数为92个。这个线性回归模型中温度解释了74.64%产卵数的变化。
困惑:随着自变量的增加,因变量也随之增加,气温为28 时,估计产卵数应该低于66个,但是从推算的结果来看92个比66个却多了26个,是什么原因造成的呢?
方案2:
(1)找到变量t=x 2,将y=bx2+a转化成y=bt+a;
(2)利用计算器计算出y和t的线性回归方程:y=0.367t-202.54
(3)转换回y和x的模型:
(4)y=0.367x2 -202.54
(5)计算相关指数R2≈0.802这个回归模型中温度解释了80.2%产卵数的变化。
预测:当气温为28 时,产卵数为85个。
困惑:比66还多19个,是否还有更适合的模型呢?
方案3:
(1)作变换z=lgy,将转化成z=c2x+lgc1(线性模型)。
(2)利用计算器计算出z和x的线性回归方程: z=0.118x-1.672
(3)转换回y和x的模型:
(4)计算相关指数R2≈0.985这个回归模型中温度解释了98.5%产卵数的变化。
预测:当气温为28 时,产卵数为4 2个。
解:根据收集的数据作散点图(图3. 1一4 ) .
在散点图中,样本点并没有分布在某个带状区域内,因此两个变量不呈线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系.根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线的周围,其中和是待定参数.现在,问题变为如何估计待定参数和.我们可以通过对数变换把指数关系变为线性关系.令,则变换后样本点应该分布在直线的周围.这样,就可以利用线性回归模型来建立 y 和 x 之间的非线性回归方程了.
由表3一3 的数据可以得到变换后的样本数据表 3一4 ,图3.1一5 给出了表 3 一 4 中数据的散点图.从图3.1一5 中可以看出,变换后的样本点分布在一条直线的附近,因此可以用线性回归方程来拟合.
x 21 23 25 27 29 32 35
z 1.946 3.398 3.045 3.178 4.190 4.745 5.784
由表 3 一 4 中的数据得到线性回归方程
.
因此红铃虫的产卵数对温度的非线性回归方程为
. ( 6 )
另一方面,可以认为图3. 1一4 中样本点集中在某二次曲线的附近,其中和为待定参数.因此可以对温度变量做变换,即令,然后建立y与t之间的线性回归方程,从而得到y与x之间的非线性回归方程.表3一5 是红铃虫的产卵数和对应的温度的平方,图3 . 1一6 是相应的散点图.
t 441 529 625 729 841 1024 1225
x 7 11 21 24 66 115 325
从图3.1一6 中可以看出,y与t的散点图并不分布在一条直线的周围,因此不宜用线性回归方程来拟合它,即不宜用二次曲线来拟合 y 和 x 之间的关系.这个结论还可以通过残差分析得到,下面介绍具体方法.
为比较两个不同模型的残差,需要建立两个相应的回归方程.前面我们已经建立了y
关于x 的指数回归方程,下面建立y关于x的二次回归方程.用线性回归模型拟合表 3 一 5 中的数据,得到 y 关于 t 的线性回归方程
,
即 y 关于 x 的二次回归方程为
. ( 7 )
可以通过残差来比较两个回归方程( 6 )和( 7 )的拟合效果.用 xi表示表3一3 中第 1 行第 i 列的数据,则回归方程( 6 )和( 7 )的残差计算公式分别为
;
.
表3一6 给出了原始数据及相应的两个回归方程的残差.从表中的数据可以看出模型 ( 6 )的残差的绝对值显然比模型( 7 )的残差的绝对值小,因此模型( 6 )的拟合效果比模型( 7 ) 的拟合效果好.
x 21 23 25 27 29 32 35
y 7 11 21 24 66 115 325
0.557 -0.101 1.875 -8.950 9.230 -13.381 34.675
47.696 19.400 -5.832 -41.000 -40.1.4 -58.265 77.968
在一般情况下,比较两个模型的残差比较困难.原因是在某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反.这时可以通过比较两个模型的残差平方和的大小来判断模型的拟合效果.残差平方和越小的模型,拟合的效果越好.由表 3 一 6 容易算出模型( 6 )和( 7 )的残差平方和分别为
.
因此模型(6)的拟合效果远远优于模型(7).
类似地,还可以用尸来比较两个模型的拟合效果,R2越大,拟合的效果越好.由表 3 一 6 容易算出模型(6)和(7)的R2分别约为 0 . 98 和 0 . 80 ,因此模型( 6 )的效果好于模型(7) 的效果.
对于给定的样本点() , () ,…, (),两个含有未知参数的模型
和,
其中 a 和 b 都是未知参数.可以按如下的步骤来比较它们的拟合效果:
(1)分别建立对应于两个模型的回归方程与, ,其中和分别是参数a和b的估计值;
(2)分别计算两个回归方程的残差平方和与;
( s )若,则的效果比的好;反之,的效果不如的好.
例2:(提示后做练习、作业)研究某灌溉渠道水的流速y与水深x之间的关系,测得一组数据如下:
水深xm 1.40 1.50 1.60 1.70 1.80 1.90 2.00 2.10
流速ym/s 1.70 1.79 1.88 1.95 2.03 2.10 2.16 2.21
(1)求y对x的回归直线方程;
(2)预测水深为1。95m 时水的流速是多少?
解:依题意,把温度作为解释变量x ,产卵个数y作为预报变量 , 作散点图,由观察知两个变量不呈线性相关关系。但样本点分布在某一条指数函数 y=c1ec2 x 周围.
令 z=lny , a=lnc1 , b=c2 则 z=bx+a
此时可用线性回归来拟合 z=0.272x-3.843
因此红铃虫的产卵数对温度的非线性回归方程为
Y=e0.272x-3.843.
3、从上节课的例1提出的问题引入线性回归模型:
Y=bx+a+e
解释变量x
预报变量y
随机误差 e
4、(1) 相关指数: 相关系数 r (公式) , r>0 正相关. R<0 负相关
R绝对值接近于1相关性强接 r绝对值 近于0 相关性几乎无
5、回忆建立模型的基本步骤 ① 例2 问题背景分析 画散点图。 ② 观察散点图,分析解释变量与预报变量更可能是什么函数关系。 ③ 学生讨论后建立自己的模型 ④ 引导学生探究如果不是线性回归模型如何估计参数。能否利用回归模型
通过探究体会有些不是线性的模型通过变换可以转化为线性模型 ⑤ 对数据进行变换后,对数据(新)建立线性模型 ⑥ 转化为原来的变量模型,并通过计算相关指数比较几个不同模型的拟合效果 ⑦ 总结建模的思想。鼓励学生大胆创新。 ⑧ 布置课后作业: 习题1.1 1、
6、复习与巩固:练习1:某班5名学生的数学和化学成绩如下表所示,对x与y进行回归分析,并预报某学生数学成绩为75分时,他的化学成绩。
A B C D E
数学x 88 76 73 66 63
化学y 78 65 71 64 61
解略。
练习2:某医院用光电比色计检验尿汞时,得尿汞含量 (mg/l) 与消光系数的结果如下:
尿汞含量x 2 4 6 8 10
消光系数y 64 138 205 285 360
(1)求回归方程。(2)求相关指数R2。
解:略。
(三) 课堂小结
1.知识梳理:
2规律小结:(1)回归直线方程;(2)样本相关系数;(3)样本残差分析;(4)样本指数;
(5)建立回归模型的基本步骤。
(四) 作业:见〈〈一日一练〉〉
(五) 课后反思:
本节内容对回归分析的探讨过程很精彩,学生讨论很热烈,激发了学生的学习热情。但对残差分析学生只能欣赏它的过程,计算量太大,思维的跳跃性太强!北京英才苑网站 http://www.ycy.com.cn ·版权所有·盗版必究·
普通高中课程标准实验教科书—数学选修2-3[苏教版]
§3.1 独立性检验(1)
教学目标
(1)通过对典型案例的探究,了解独立性检验(只要求列联表)的基本思想、方法及初步应用;
(2)经历由实际问题建立数学模型的过程,体会其基本方法.
教学重点、难点:独立性检验的基本方法是重点.基本思想的领会及方法应用是难点.
教学过程
一.问题情境
5月31日是世界无烟日。有关医学研究表明,许多疾病,例如:心脏病、癌症、脑血管病、慢性阻塞性肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手。这些疾病与吸烟有关的结论是怎样得出的呢?我们看一下问题:
1. 某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病);不吸烟的295人中有21人患病,274人未患病.
问题:根据这些数据能否断定“患呼吸道疾病与吸烟有关”?
二.学生活动
为了研究这个问题,(1)引导学生将上述数据用下表来表示:
患病 未患病 合计
吸烟 37 183 220
不吸烟 21 274 295
合计 58 457 515
(2)估计吸烟者与不吸烟者患病的可能性差异:
在吸烟的人中,有的人患病,在不吸烟的人中,有的人患病.
问题:由上述结论能否得出患病与吸烟有关?把握有多大?
三.建构数学
1.独立性检验:
(1)假设:患病与吸烟没有关系.
若将表中“观测值”用字母表示,则得下表:
患病 未患病 合计
吸烟
不吸烟
合计
(近似的判断方法:设,如果成立,则在吸烟的人中患病的比例与
不吸烟的人中患病的比例应差不多,由此可得,即,因此,越小,患病与吸烟之间的关系越弱,否则,关系越强.)
设,
在假设成立的条件下,可以通过求 “吸烟且患病”、“吸烟但未患病”、“不吸烟但患病”、“不吸烟且未患病”的概率(观测频率),将各种人群的估计人数用表示出来.
例如:“吸烟且患病”的估计人数为;
“吸烟但未患病” 的估计人数为;
“不吸烟但患病”的估计人数为;
“不吸烟且未患病”的估计人数为.
如果实际观测值与假设求得的估计值相差不大,就可以认为所给数据(观测值)不能否定假设.否则,应认为假设不能接受,即可作出与假设相反的结论.
(2)卡方统计量:
为了消除样本对上式的影响,通常用卡方统计量(χ2)来进行估计.
卡方χ2统计量公式:
χ2
(其中)
由此若成立,即患病与吸烟没有关系,则χ2的值应该很小.把代入计算得χ2,统计学中有明确的结论,在成立的情况下,随机事件“”
发生的概率约为,即,也就是说,在成立的情况下,对统计量χ2进行多次观测,观测值超过的频率约为.由此,我们有99%的把握认为不成立,即有99%的把握认为“患病与吸烟有关系”.
象以上这种用统计量研究吸烟与患呼吸道疾病是否有关等问题的方法称为独立性检验.
说明:
(1)估计吸烟者与不吸烟者患病的可能性差异是用频率估计概率,利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,观测数据取值越大,效果越好.在实际应用中,当均不小于5,近似的效果才可接受.
(2)这里所说的“呼吸道疾病与吸烟有关系”是一种统计关系,这种关系是指“抽烟的人患呼吸道疾病的可能性(风险)更大”,而不是说“抽烟的人一定患呼吸道疾病”.
(3)在假设下统计量χ2应该很小,如果由观测数据计算得到χ2的观测值很大,则在一定程度上说明假设不合理(即统计量χ2越大,“两个分类变量有关系”的可能性就越大).
2.独立性检验的一般步骤:
一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值:类和类(如吸烟与不吸烟),Ⅱ也有两类取值:类和类(如患呼吸道疾病与不患呼吸道疾病),得到如下表所示:
Ⅱ
类 类 合计
Ⅰ 类
类
合计
推断“Ⅰ和Ⅱ有关系”的步骤为:
第一步,提出假设:两个分类变量Ⅰ和Ⅱ没有关系;
第二步,根据2×2列联表和公式计算χ2统计量;
第三步,查对课本中临界值表,作出判断.
3.独立性检验与反证法:
反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立;
独立性检验(假设检验)原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立.
四.数学运用
1.例题:
例1.在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:该种血清能否起到预防感冒的作用?
未感冒 感冒 合计
使用血清 258 242 500
未使用血清 216 284 500
合计 474 526 1000
分析:在使用该种血清的人中,有的人患过感冒;在没有使用该种血清的人中,有的人患过感冒,使用过血清的人与没有使用过血清的人的患病率相差较大.从直观上来看,使用过血清的人与没有使用过血清的人的患感冒的可能性存在差异.
解:提出假设:感冒与是否使用该种血清没有关系.由列联表中的数据,求得
∵当成立时,的概率约为,∴我们有99%的把握认为:该种血清能起到预防感冒的作用.
例2.为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?
有效 无效 合计
口服 58 40 98
注射 64 31 95
合计 122 71 193
分析:在口服的病人中,有的人有效;在注射的病人中,有的人有效.从直观上来看,口服与注射的病人的用药效果的有效率有一定的差异,能否认为用药效果与用药方式一定有关呢?下面用独立性检验的方法加以说明.
解:提出假设:药的效果与给药方式没有关系.由列联表中的数据,求得
当成立时,的概率大于,这个概率比较大,所以根据目前的调查数据,不能否定假设,即不能作出药的效果与给药方式有关的结论.
说明:如果观测值,那么就认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“成立”,即Ⅰ与Ⅱ没有关系.
2.练习:课本第91页 练习第1、2、3题.
五.回顾小结:
1.独立性检验的思想方法及一般步骤;
2.独立性检验与反证法的关系.
六.课外作业:
课本第93页 习题3.1 第1、2、3题.
- 5 -北京英才苑网站 http://www.ycy. ·版权所有·盗版必究·
普通高中课程标准实验教科书—数学选修2-3[苏教版]
§3.2 回归分析(2)
教学目标
(1)通过实例了解相关系数的概念和性质,感受相关性检验的作用;
(2)能对相关系数进行显著性检验,并解决简单的回归分析问题;
(3)进一步了解回归的基本思想、方法及初步应用.
教学重点,难点
相关系数的性质及其显著性检验的基本思想、操作步骤.
教学过程
一.问题情境
1.情境:下面是一组数据的散点图,若求出相应的线性回归方程,求出的线性回归方程可以用作预测和估计吗?
2.问题:思考、讨论:求得的线性回归方程是否有实际意义.
二.学生活动
对任意给定的样本数据,由计算公式都可以求出相应的线性回归方程,但求得的线性回归方程未必有实际意义.左图中的散点明显不在一条直线附近,不能进行线性拟合,求得的线性回归方程是没有实际意义的;右图中的散点基本上在一条直线附近,我们可以粗略地估计两个变量间有线性相关关系,但它们线性相关的程度如何,如何较为精确地刻画线性相关关系呢?
这就是上节课提到的问题①,即模型的合理性问题.为了回答这个问题,我们需要对变量与的线性相关性进行检验(简称相关性检验).
三.建构数学
1.相关系数的计算公式:
对于,随机取到的对数据,样本相关系数的计算公式为
.
2.相关系数的性质:
(1);
(2)越接近与1,,的线性相关程度越强;
(3)越接近与0,,的线性相关程度越弱.
可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关.
3.对相关系数进行显著性检验的步骤:
相关系数的绝对值与1接近到什么程度才表明利用线性回归模型比较合理呢?这需要对相关系数进行显著性检验.对此,在统计上有明确的检验方法,基本步骤是:
(1)提出统计假设:变量,不具有线性相关关系;
(2)如果以的把握作出推断,那么可以根据与(是样本容量)在附录(教材P111)中查出一个的临界值(其中称为检验水平);
(3)计算样本相关系数;
(4)作出统计推断:若,则否定,表明有的把握认为变量与之间具有线性相关关系;若,则没有理由拒绝,即就目前数据而言,没有充分理由认为变量与之间具有线性相关关系.
说明:1.对相关系数进行显著性检验,一般取检验水平,即可靠程度为.
2.这里的指的是线性相关系数,的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.
3.这里的是对抽样数据而言的.有时即使,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.
4.对于上节课的例1,可按下面的过程进行检验:
(1)作统计假设:与不具有线性相关关系;
(2)由检验水平与在附录中查得;
(3)根据公式得相关系数;
(4)因为,即,所以有﹪的把握认为与之间具有线性相关关系,线性回归方程为是有意义的.
四.数学运用
1.例题:
例1.下表是随机抽取的对母女的身高数据,试根据这些数据探讨与之间的关系.
母亲身高
女儿身高
解:所给数据的散点图如图所示:由图可以看出,这些点在一条直线附近,
因为,,
,
,
,
所以,
由检验水平及,在附录中查得,因为,所以可以认为与之间具有较强的线性相关关系.线性回归模型中的估计值分别为
,
故对的线性回归方程为.
例2.要分析学生高中入学的数学成绩对高一年级数学学习的影响,在高一年级学生中随机抽取名学生,分析他们入学的数学成绩和高一年级期末数学考试成绩如下表:
学生编号
入学成绩
高一期末成绩
(1)计算入学成绩与高一期末成绩的相关系数;
(2)如果与之间具有线性相关关系,求线性回归方程;
(3)若某学生入学数学成绩为分,试估计他高一期末数学考试成绩.
解:(1)因为,,
,,
.
因此求得相关系数为.
结果说明这两组数据的相关程度是比较高的;
小结解决这类问题的解题步骤:
(1)作出散点图,直观判断散点是否在一条直线附近;
(2)求相关系数;
(3)由检验水平和的值在附录中查出临界值,判断与是否具有较强的线性相关关系;
(4)计算,,写出线性回归方程.
2.练习:练习第题.
五.回顾小结:
1.相关系数的计算公式与回归系数计算公式的比较;
2.相关系数的性质;
3.探讨相关关系的基本步骤.
六.课外作业:习题3.2第题.
- 1 -