高中数学北师大版选修1-2课件+教案+参考资料 第一章 统计案例(19份)

文档属性

名称 高中数学北师大版选修1-2课件+教案+参考资料 第一章 统计案例(19份)
格式 zip
文件大小 1.4MB
资源类型 教案
版本资源 北师大版
科目 数学
更新时间 2014-12-10 08:50:50

文档简介

课件16张PPT。可线性化的回归分析复习回顾其中,复习回顾* 线性相关系数r及性质:,其中 。1、下表是随机抽取的8对母女的身高数据,试根据这些数据探讨y与x之间的关系.母亲身高女儿身高练习解:,
,, 所以: 所以可以认为x与y之间具有较强的线性相关关系.
线性回归模型y=a+bx中的a,b线性回归方程为.新课讲解 下表按年份给出了1981~2001年我国出口贸易
量(亿美元)的数据,根据此表你能预测2008年我
国的出口贸易量么? 从散点图中观察,数据与直线的拟合性不好,
若用直线来预测,误差将会很大。而图像近似指数函数,呈现出非线性相关性。分析: 考虑函数 来拟合数据的变化关系,将其转
化成线性函数,两边取对数: 即线性回归方程,记1981年为x=1,1982年为
x=2,‥变换后的数据如下表:设 ,则上式变为 ,对上表数据求线性回归方程得:
即:由此可得: ,曲线如图:这样一来,预测2008年的出口贸易量就容易多了。将下列常见的非线性回归模型转化为线性回归模型。作变换得线形函数 。 1.幂函数:2. 指数曲线:作变换得线形函数 。 3. 倒指数曲线:作怎样的变换,得到线形函数的方程如何?? 思考交流4. 对数曲线:作怎样的变换,得到线形函数的方程如何?? 下表是一组实验数据: 试分析 与 之间是否具有线性相关关系,
若有,求 与 之间的回归方程。动手做一做小结* 非线性回归方程: 对某些特殊的非线性关系,可以通过变换,将非
线性回归转化为线性回归,然后用线性回归的方法进
行研究,最后再转换为非线性回归方程。* 常见非线性回归模型:1.幂函数:2. 指数曲线:3. 倒指数曲线:4. 对数曲线:课件19张PPT。独立性检验问题: 数学家庞加莱每天都从一家面包店买一块1000g 的面包,并记录下买回的面包的实际质量。一年后,这位数学家发现,所记录数据的均值为950g。于是庞加莱推断这家面包店的面包分量不足。假设“面包分量足”,则一年购买面包的质量数据的平均值应该不少于1000g ;
“这个平均值不大于950g”是一个与假设“面包分量足”矛盾的小概率事件;
这个小概率事件的发生使庞加莱得出推断结果。一:假设检验问题的原理假设检验问题由两个互斥的假设构成,其中一个
叫做原假设,用H0表示;另一个叫做备择假设,用H1表示。例如,在前面的例子中, 原假设为: H0:面包分量足,
备择假设为 H1:面包分量不足。
这个假设检验问题可以表达为:
H0:面包分量足 ←→ H1:面包分量不足
二:求解假设检验问题考虑假设检验问题:
H0:面包分量足 ←→ H1:面包分量不足在H0成立的条件下,构造与H0矛盾的小概率事件;
如果样本使得这个小概率事件发生,就能以一定把握断言H1成立;否则,断言没有发现样本数据与H0相矛盾的证据。
求解思路:三:二个概念这种变量的不同取“值”表示个体所属的不同类别,这类变量称为分类变量1.分类变量 对于性别变量,取值为:男、女 分类变量在现实生活中是大量存在的,如是否吸烟,是否患肺癌,宗教信仰,国别,年龄,出生月份等等。利用随机变量K2来确定在多大程度上可以认为”两个分类变量有关系”的方法称为两个分类变量的独立性检验.(为假设检验的特例)问题:为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)列联表说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大0.54%2.28%1)通过图形直观判断两个分类变量是否相关:
三维柱状图2) 通过图形直观判断两个分类变量是否相关:
二维条形图3)通过图形直观判断两个分类变量是否相关:
患肺癌
比例不患肺癌
比例 独立性检验H0: 吸烟和患肺癌之间没有关系
←→ H1: 吸烟和患肺癌之间有关系通过数据和图表分析,得到结论是:吸烟与患肺癌有关结论的可靠程度如何? 用 A 表示“不吸烟”, B 表示“不患肺癌”则 H0: 吸烟和患肺癌之间没有关系 “吸烟”与“患肺癌”独立,即A与B独立等价于等价于 独立性检验引入一个随机变量作为检验在多大程度上可以认为“两个变量有关系”的标准 。设有两个分类变量X和Y它们的值域分别为{x1,x2}和{y1,y2}其样本频数列表(称为2×2列联表) 为 独立性检验通过公式计算 独立性检验已知在 成立的情况下,即在 成立的情况下,K2 大于6.635概率非常小,近似为0.01现在的K2=56.632的观测值远大于6.635分类变量之间关系条形图柱形图列联表独立性检验背景分析例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.分别利用图形和独立性检验方法判断是否有关?你所得的结论在什么范围内有效?例2.为考察高中生性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表: 性别与喜欢数学课程列联表由表中数据计算得 ,高中生的性别与是否喜欢数学课程之间是否有关系?为什么?acdb独立性检验基本的思想类似反证法(1)假设结论不成立,即“两个分类变量没有关系”.
(2)在此假设下随机变量 K2 应该很能小,如果由观测数据
计算得到K2的观测值k很大,则在一定程度上说明假设
不合理.
(3)根据随机变量K2的含义,可以通过
评价该假设不合理的程度,由实际计算出的,
说明假设合理的程度为99.9%,即“两个分类变量有关系”这一结论成立的可信度为约为99.9%.1.2独立性检验(1)
自学目标
(1)通过对典型案例的探究,了解独立性检验(只要求列联表)的基本思想、方法及初步应用;
(2)经历由实际问题建立数学模型的过程,体会其基本方法.
重点、难点:独立性检验的基本方法是重点.基本思想的领会及方法应用是难点.
自学过程
一.问题情境
5月31日是世界无烟日。有关医学研究表明,许多疾病,例如:心脏病、癌症、脑血管病、慢性阻塞性肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手。这些疾病与吸烟有关的结论是怎样得出的呢?我们看一下问题:
1. 某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病);不吸烟的295人中有21人患病,274人未患病.
问题:根据这些数据能否断定“患呼吸道疾病与吸烟有关”?
二.学生活动
为了研究这个问题,(1)引导学生将上述数据用下表来表示:
患病
未患病
合计
吸烟
37
183
220
不吸烟
21
274
295
合计
58
457
515
(2)估计吸烟者与不吸烟者患病的可能性差异:
在吸烟的人中,有的人患病,在不吸烟的人中,有的人患病.
问题:由上述结论能否得出患病与吸烟有关?把握有多大?
三.建构数学
1.独立性检验:
(1)假设:患病与吸烟没有关系.
若将表中“观测值”用字母表示,则得下表:
患病
未患病
合计
吸烟
不吸烟
合计
(近似的判断方法:设,如果成立,则在吸烟的人中患病的比例与不吸烟的人中患病的比例应差不多,由此可得,即,因此,越小,患病与吸烟之间的关系越弱,否则,关系越强.)
设,
在假设成立的条件下,可以通过求 “吸烟且患病”、“吸烟但未患病”、“不吸烟但患病”、“不吸烟且未患病”的概率(观测频率),将各种人群的估计人数用表示出来.
例如:“吸烟且患病”的估计人数为;
“吸烟但未患病” 的估计人数为;
“不吸烟但患病”的估计人数为;
“不吸烟且未患病”的估计人数为.
如果实际观测值与假设求得的估计值相差不大,就可以认为所给数据(观测值)不能否定假设.否则,应认为假设不能接受,即可作出与假设相反的结论.
(2)卡方统计量:
为了消除样本对上式的影响,通常用卡方统计量(χ2)来进行估计.
卡方χ2统计量公式:
χ2
(其中)
由此若成立,即患病与吸烟没有关系,则χ2的值应该很小.把代入计算得χ2,统计学中有明确的结论,在成立的情况下,随机事件“”
发生的概率约为,即,也就是说,在成立的情况下,对统计量χ2进行多次观测,观测值超过的频率约为.由此,我们有99%的把握认为不成立,即有99%的把握认为“患病与吸烟有关系”.
象以上这种用统计量研究吸烟与患呼吸道疾病是否有关等问题的方法称为独立性检验.
说明:
(1)估计吸烟者与不吸烟者患病的可能性差异是用频率估计概率,利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,观测数据取值越大,效果越好.在实际应用中,当均不小于5,近似的效果才可接受.
(2)这里所说的“呼吸道疾病与吸烟有关系”是一种统计关系,这种关系是指“抽烟的人患呼吸道疾病的可能性(风险)更大”,而不是说“抽烟的人一定患呼吸道疾病”.
(3)在假设下统计量χ2应该很小,如果由观测数据计算得到χ2的观测值很大,则在一定程度上说明假设不合理(即统计量χ2越大,“两个分类变量有关系”的可能性就越大).
2.独立性检验的一般步骤:
一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值:类和类(如吸烟与不吸烟),Ⅱ也有两类取值:类和类(如患呼吸道疾病与不患呼吸道疾病),得到如下表所示:



合计



合计
推断“Ⅰ和Ⅱ有关系”的步骤为:
第一步,提出假设:两个分类变量Ⅰ和Ⅱ没有关系;
第二步,根据2×2列联表和公式计算χ2统计量;
第三步,查对课本中临界值表,作出判断.
3.独立性检验与反证法:
反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立;
独立性检验(假设检验)原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立.
四.数学运用
1.例题:
例1.在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:该种血清能否起到预防感冒的作用?
未感冒
感冒
合计
使用血清
258
242
500
未使用血清
216
284
500
合计
474
526
1000
分析:在使用该种血清的人中,有的人患过感冒;在没有使用该种血清的人中,有的人患过感冒,使用过血清的人与没有使用过血清的人的患病率相差较大.从直观上来看,使用过血清的人与没有使用过血清的人的患感冒的可能性存在差异.
解:提出假设:感冒与是否使用该种血清没有关系.由列联表中的数据,求得
∵当成立时,的概率约为,∴我们有99%的把握认为:该种血清能起到预防感冒的作用.
例2.为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?
有效
无效
合计
口服
58
40
98
注射
64
31
95
合计
122
71
193
分析:在口服的病人中,有的人有效;在注射的病人中,有的人有效.从直观上来看,口服与注射的病人的用药效果的有效率有一定的差异,能否认为用药效果与用药方式一定有关呢?下面用独立性检验的方法加以说明.
解:提出假设:药的效果与给药方式没有关系.由列联表中的数据,求得
当成立时,的概率大于,这个概率比较大,所以根据目前的调查数据,不能否定假设,即不能作出药的效果与给药方式有关的结论.
说明:如果观测值,那么就认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“成立”,即Ⅰ与Ⅱ没有关系.
2.练习:
1.2独立性检验(2)
自学目标
通过对典型案例的探究,进一步巩固独立性检验的基本思想、方法,并能运用χ2统计量进行独立性检验.
重点,难点:独立性检验的基本方法是重点.基本思想的领会及方法应用是难点.
学习过程
一.学生活动
练习:
(1)某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集哪些数据? .
(2)某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:
非统计专业
统计专业

13
10

7
20
为了判断主修统计专业是否与性别有关系,根据表中的数据,得到
χ2,∵χ2,
所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为 .(答案:5%)
附:临界值表(部分):
(χ2)
0.10
0.05
0.025
0.010
2.706
3.841
5.024
6.635
二.数学运用
1.例题:
例1.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动。
(1)根据以上数据建立一个2× 2列联表;
(2)判断性别与休闲方式是否有关系。
解:(1)2× 2的列联表:
休闲方式
性别
看电视
运动
总计

43
27
70

21
33
54
总计
64
60
124
(2)假设“休闲方式与性别无关”
χ2
因为χ2,所以有理由认为假设“休闲方式与性别无关”是不合理的,即有97.5%的把握认为“休闲方式与性别有关”。
例2.气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?
有效
无效
合计
复方江剪刀草
184
61
245
胆黄片
91
9
100
合计
275
70
345
分析:由列联表中的数据可知,服用复方江剪刀草的患者的有效率为,服用胆黄片的患者的有效率为,可见,服用复方江剪刀草的患者与服用胆黄片的患者的有 效率存在较大差异.下面用进行独立性检验,以确定能有多大把握作出这一推断.
解:提出假设:两种中草药的治疗效果没有差异,即病人使用这两种药物中的何种药物对疗效没有明显差异.
由列联表中的数据,求得
当成立时,的概率约为,而这里
所以我们有的把握认为:两种药物的疗效有差异.
例3.下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?
喝过酒
没喝过酒
合计
男生
77
404
481
女生
16
122
138
合计
93
526
619
解:提出假设:该周内中学生是否喝过酒与性别无关.
由列联表中的数据,求得 ,
当成立时,的概率约为,而这里,
所以,不能推断出喝酒与性别有关的结论.
课件7张PPT。1.2
相关系数给定n个样本点(x1,y1),(x2,y2),…(xn,yn),如果图像上面显示它们具有线性相关关系的话,就可以通过下面的公式计算出a,b的值,代入 y=a+bx 即可得线性回归方程。若b>0则正相关;若b<0则负相关 但是在样本点非常多的情况下,散点图不好做,那么我们如何来刻画他们之间是否具有线性相关关系呢?误差相关系数取值及其意义r2.计算下表中两变量的线性相关系数r:经计算后得 r=0。通常,|r|越大,线性关系越强,用直线拟合的效果就越好。一般来说 :1.试计算课本P9中变量的线性相关系数r。r∈[-1,-0.75]或[0.75,1],线性关系很强;r∈[-0.75,0.75],线性关系很弱。一道回归分析题的思维拓展与延伸
一、回归分析的基本步骤:
(1) 画出两个变量的散点图.
(2) 求回归直线方程.
(3) 用回归直线方程进行预报.
下面我们通过案例,进一步学习、拓展与延伸回归分析的基本思想及其应用.
二、举例:
例1. 从某大学中随机选取 8 名女大学生,其身高和体重数据如表
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
求根据女大学生的身高预报体重的回归方程,并预报一名身高为 172 cm 的女大学生的体重.
解:由于问题中要求根据身高预报体重,因此选取身高为自变量 x ,体重为因变量 y .
作散点图,如下图
从图中可以看出,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用线性回归方程来近似刻画它们之间的关系.
根据公式:
(1)
(2)
其中,()成为样本点的中心.
可以得到.
于是得到回归方程.
因此,对于身高172 cm 的女大学生,由回归方程可以预报其体重为
( kg ) .
是斜率的估计值,说明身高 x 每增加1个单位时,体重y就增加0.849 位,这表明体重与身高具有正的线性相关关系.
三.思维拓展与延伸
1.如何描述它们之间线性相关关系的强弱?
在必修 3 中,我们介绍了用相关系数;来衡量两个变量之间线性相关关系的方法.本相关系数的具体计算公式为.
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值接近于0时,表明两个变量之间几乎不存在线性相关关系.通常,当r的绝对值大于0. 75 时认为两个变量有很强的线性相关关系.
在本例中,可以计算出r =0. 798.这表明体重与身高有很强的线性相关关系,从而也表明我们建立的回归模型是有意义的.
2.如何理解与间的误差
显然,身高172cm 的女大学生的体重不一定是60. 316 kg,但一般可以认为她的体重接近于60 . 316 kg .如下图中的样本点和回归直线的相互位置说明了这一点.
由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身高和体重的关系可用下面的线性回归模型来表示:
这里a和b为模型的未知参数,e是y与之间的误差.通常e为随机变量,称为随机误差,它的均值 E(e)=0,方差D(e)=>0 .这样线性回归模型的完整表达式为: (3)
在线性回归模型(3)中,随机误差e的方差护越小,通过回归直线
预报真实值y的精度越高.随机误差是引起预报值与真实值 y 之间的误差的原因之一,大小取决于随机误差的方差.
另一方面,由于公式(1)和(2)中 和为截距和斜率的估计值,它们与真实值a和b之间也存在误差,这种误差是引起预报值与真实值y之间误差的另一个原因.
3. 产生随机误差项e的原因是什么?
一个人的体重值除了受身高的影响外,还受许多其他因素的影响.例如饮食习惯、是否喜欢运动、度量误差等.事实上,我们无法知道身高和体重之间的确切关系是什么,这里只是利用线性回归方程来近似这种关系.这种近似以及上面提到的影响因素都是产生随机误差 e的原因.
因为随机误差是随机变量,所以可以通过这个随机变量的数字特征来刻画它的一些总体特征.均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机误差的均值为0,因此可以用方差来衡量随机误差的大小.
4. 用身高预报体重时,需要注意哪些问题?
需要注意下列问题:
(1).回归方程只适用于我们所研究的样本的总体.例如,不能用女大学生的身高和体重之间的回归方程,描述女运动员的身高和体重之间的关系.同样,不能用生长在南方多雨地区的树木的高与直径之间的回归方程,描述北方干旱地区的树木的高与直径之间的关系.
(2).我们所建立的回归方程一般都有时间性.例如,不能用 20 世纪 80 年代的身高体重数据所建立的回归方程,描述现在的身高和体重之间的关系.
(3).样本取值的范围会影响回归方程的适用范围.例如,我们的回归方程是由女大学生身高和体重数据建立的,那么用它来描述一个人幼儿时期的身高和体重之间的关系就不恰当(即在回归方程中,解释变量 x 的样本的取值范围为[155cm,170cm〕 ,而用这个方程计算 x-70cm 时的y值,显然不合适.)
(4).不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.
例析回归分析思想
1、相关性检验
相关性检验是统计中的假设检验,根据公式计算r 的值。
当|r|越接近于1,相关程度越强;当|r|越接近于0,相关程度越弱,具体步骤:
(1)假设x与y不具有线性相关关系。
(2)根据小频率0.05查表得出r的一个临界值。
(3)根据公式计算出样本相关系数r的值。
(4)统计推断,若|r|>,具有线性相关关系;若|r|≤,不具有线性相关关系。
2、线性回归分析
一般情况下,在尚未断定两个变量之间是否具有线性相关关系的情况下,应先进行相关性检验,在确认具有线性相关关系后,再求回归直线方程。回归分析的一般步骤为:
(1)从一组数据出发,求出两个变量的相关系数r ,确定二者之间是否具有线性相关关系。
(2)如果具有线性相关关系,求出回归方程,其中是常数项,是回归系数。
(3)根据回归方程,由一个变量的值,预测或控制另一个变量的值。
下面通过例题加以分析:
例1、在10年期间,一城市居民的年收入与某种商品的销售额之间的关系有如下数据:
第几年
1
2
3
4
5
城市居民年收入x(亿元)
32.2
31.1
32.9
35.8
37.1
某商品销售额y (万元)
25.0
30.0
34.0
37.0
39.0
第几年
6
7
8
9
10
城市居民年收入x(亿元)
38.0
39.0
43.0
44.6
46.0
某商品销售额y (万元)
41.0
42.0
44.0
48.0
51.0
(1)画出散点图;
(2)如果散点图中的各点大致分布在一条直线的附近,求y与x之间的回归直线方程。
解:(1)散点图如图所示:
(2)
i
1
2
3
4
5
6
7
8
9
10
32.2
31.1
32.9
35.8
37.1
38.0
39.0
43.0
44.6
46.0
y
25.0
30.0
34.0
37.0
39.0
41.0
42.0
44.0
48.0
51.0
xy
805
933
1118.6
1324.6
1446.9
1558
1638
1892
2140.8
2346
=14663.67,=15857,=15202.9
=。
查得,因r>,说明该城市居民的年收入与该商品的销售额之间存在着显著的线性相关关系。

=39.1-1.447×37.97-15.843,
因此所求的回归直线方程是=1.447x-15.843。
评注:在我们解答具体问题时要进行相关性检验,通过检验确认两个变量具有线性相关关系后,再求其线性回归方程。
例2、测得10对父子身高(单位:英寸)如下:
父亲身高(x) 
60
62
64
65
66
67
68
70
72
74
儿子身高(y)
63.6
65.2
66
65.5
66.9
67.1
67.4
68.3
70.1
70
(1)对变量y与x进行相关性检验;
(2)如果y与x之间具有线性相关关系,求回归直线方程;
(3)如果父亲的身高为73英寸,估计儿子的身高。
解:(1)=66.8,=67.01,=44794,=44941.93,4476.27,=4462.24,
≈4490.34, =44842.4。
所以,

又查表得=0.632。
因为r>,所以y 与x之间具有线性相关关系。
(2)设回归直线方程为。
由,
≈67.01-0.4645×66.8≈35.98。
故所求的回归直线方程为y=0.4645x+35.98。
(3)当x=73时地,y=0.4645×73+35.98≈69.9,所以当父亲身高为73英寸时,估计儿子的身高约为69.9英寸。
评注:求回归直线方程,一般先要考查y与x是否具有线性相关关系,若具有这种关系,则这的回归曲线为直线。
例谈回归分析的应用
  在解许多实际应用问题时,运用回归分析的基本思想,通过构建回归模型去刻画解释变量与预报变量的关系,并利用模型,对解释变量的某个值去预测相应预报变量的某个值,从而使问题得到解决.
  建立回归模型解实际问题的步骤是:
  (1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
  (2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系;
  (3)由经验确定回归方程的类型,即拟合直线或拟合曲线;
  (4)按一定规则估计回归方程中的参数,从而求出拟合直线或拟合曲线的函数关系式;
  (5)利用函数关系式,根据条件对所给问题进行预测和控制,以便为决策提供依据.
  下面举例说明.
  例1 某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价元与日销售量台之间有如下关系:
35
40
45
50
56
41
28
11
  (1)与是否具有线性相关关系?如果具有线性相关关系,求出回归直线方程;
  (2)设经营此商品的日销售利润为元,根据(1)写出关于的函数关系式并预测当销售单价为多少元时,才能获得最大日销售利润.
  解析:(1)散点图如右图所示,并从图中可以看出,
这些点大致分布在一条直线附近,因此两个变量线性相关.
  设回归直线为,则由公式求
得,.
  ∴;
  (2)依题意有,
  ∴当时,有最大值约为.
  即预测销售单价为元时,才能获得最大日销售利润.
  点评:本题主要考查构建线性回归模型在解决实际问题中的应用.
  例2 某国从1790年至1950年人口数据资料:
时间
1790
1800
1810
1820
1830
1840
1850
1860
1870
1880
1890
1900
1910
1920
1930
1940
1950
人口
(百万)
3.929
5.308
7.24
9.368
12.866
17.069
23.182
31.433
38.558
50.156
62.948
75.995
91.972
105.711
122.775
131.669
150.697
  试利用上述资料预测该国1980年的人口数(假设该国政治、社会、经济环境稳定,且人口数相对于时间是连续的).
  分析:以轴代表年度,轴代表人口数,建立直角坐标系,画出散点图(略),并观察散点图可以发现,从1890年以后散点近似分布在一条直线上;而从散点图的整体趋势来看,也可以认为散点近似分布在一条抛物线上,故可采用线性回归模型拟合,或采用二次函数模型拟合.
  解法一:由散点图可以看出,1890年以后散点大致分布在一条直线上,设线性回归直线方程为,由公式求得,
即.
  ∴当时,,即1980年该国人口预测为194.859百万人.
  解法二:从散点的整体趋势看,散点近似分布在一条以直线为对称轴,以点(1790,3.929)为顶点的抛物线上,再任意选一点(1890,62.948)确定抛物线方程为.
  ∴当时,,即该国人口预测为216.919百万人.
  点评:本题主要考查重视对信息、图表的分析,提取,加工和处理能力.两种解法,由于考虑问题和观察角度不同,所得到结论和答案也不相同,线性回归模型是在依据部分已知数据的基础上作出的,因此精确度比较差;而二次函数模型是根据全部已知数据的分布趋势拟合的,因而有较高的精确度.当然,同学们可以进一步利用回归分析的方法,通过利用相关指数来比较两个模型的拟合效果.
回归分析注意问题两例
一、相关性判断问题
例1 炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系。如果已测得炉料融化完毕时钢水的含碳量x与冶炼时间y(从炉料融化完毕到出钢的时间)的一列数据,如下表所示:
x(0.01%)
104
180
190
177
147
134
150
191
204
121
Y/min
100
200
210
185
155
135
170
205
235
125
(1)y与x是否具有线性相关关系?
(2)如果y与x具有线性相关关系,求回归直线方程;
(3)预测当钢水含碳量为160个0.01%时,应冶炼多少分钟?
分析:判断两变量之间是否具有线性相关关系,要计算出相关系数r,比较r与临界值的大小,依据线性回归直线方程,对冶炼时间进行预报。
解析:(1)由已知数据列成下表:
i
1
2
3
4
5
6
7
8
9
10
104
180
190
177
147
134
150
191
204
121
100
200
210
185
155
135
170
205
235
125
10400
36000
39900
32745
22785
18090
25500
39155
47940
15125

于是,
又,知y与x具有线性相关关系。
(2)设所求的回归直线方程,则
,即所求的回归直线方程为
(3)当时,,即大约冶炼。
导评:已知x与y呈线性相关关系,就无需进行相关性检验,否则要进行相关性检验。如果两个变量不具备相关关系,或者相关关系不显著,即使求出回归方程也是毫无意义的,用其估计和预测也是不可信的。
二、非线性问题
例2 在试验中得到变量y与x的数据如下:
x
0.0667
0.0338
0.0333
0.0273
0.0225
y
39.4
42.9
41.0
43.1
49.2
由经验知,y与之间具有线性相关关系,试求y与x之间的回归曲线方程;当时,预测的值。
分析:通过换元转化为线性回归问题。
解析:令,由题目所给数据可得下表所示的数据‘
序号
1
15.0
39.4
225
1552.36
591
2
25.8
42.9
665.64
1840.41
1106.82
3
30.0
41.0
900
1681
1230
4
36.6
43.1
1339.56
1857.61
1577.46
5
44.4
49.2
1971.36
2420.64
2184.48
合计
151.8
215.6
5101.56
9352.02
6689.76
计算得,∴
故所求回归曲线方程为,当时,。
导评:非线性问题有时并不给出经验公式,此时我们可以由已知的数据画出散点图,并把散点图与已经学习过的各种函数,如幂函数、指数函数、对数函数、二次函数等作比较,挑选出跟这些散点拟合最好的函数,然后再采用变量的置换,把问题转化为线性回归分析问题,使问题得以解决。
回归模型的残差分析
判断回归模型的拟合效果是回归分析的重要内容,在回归分析中,通常用残差分析来判断回归模型的拟合效果。下面具体分析残差分析的途径及具体例子。
残差分析的两种方法
1、差分析的基本方法是由回归方程作出残差图,通过观测残差图,以分析和发现观测数据中可能出现的错误以及所选用的回归模型是否恰当;在残差图中,残差点比较均匀地落在水平区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型的拟合精度越高,回归方程的预报精度越高。
2、可以进一步通过相关指数来衡量回归模型的拟合效果,一般规律是越大,残差平方和就越小,从而回归模型的拟合效果越好。
典例分析:
例1、某运动员训练次数与运动成绩之间的数据关系如下:
次数/x
30
33
35
37
39
44
46
50
成绩/y
30
34
37
39
42
46
48
51
试预测该运动员训练47次以及55次的成绩。
解答:(1)作出该运动员训练次数x与成绩y之间的散点图,如图1所示,由散点图可知,它们之间具有线性相关关系。
(2)列表计算:
次数
成绩
30
30
900
900
900
33
34
1089
1156
1122
35
37
1225
1369
1295
37
39
1369
1521
1443
39
42
1521
1764
1638
44
46
1936
2116
2024
46
48
2116
2304
2208
50
51
2500
2601
2550
由上表可求得,,,
,所以
,所以回归直线方程为
(3)计算相关系数
将上述数据代入得,查表可知
,而,故y与x之间存在显著的相关关系。
(4)残差分析:
作残差图如图2,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适。
计算残差的方差得,说明预报的精度较高。
(5)计算相关指数
计算相关指数=0.9855.说明该运动员的成绩的差异有98.55%是由训练次数引起的。
(6)做出预报
由上述分析可知,我们可用回归方程作为该运动员成绩的预报值。
将x=47和x=55分别代入该方程可得y=49和y=57,
故预测运动员训练47次和55次的成绩分别为49和57.
点评:一般地,建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a);
(4)按一定规则估计回归方程中的参数(如最小二乘法);
(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等。
例2、某城区为研究城镇居民月家庭人均生活费支出和月人均收入的相关关系,随机抽取10户进行调查,其结果如下:
月人均收入x/元
月人均生活费y/元
300
255
390
324
420
335
520
360
570
450
700
520
760
580
800
600
850
630
1080
750
试预测人均月收入为1100元和人均月收入为1200元的两个家庭的月人均生活费。
解答:作出散点分布图如图,由图可知,月人均生活费与人均收入之间具有线性相关关系。
通过计算可知,,,
,所以
,所以回归直线方程为
计算相关系数得,而查表知,故月人均收入与月人均生活费之间具有显著相关关系。
作残差图如图,由图可知,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适。
计算相关指数得=0.9863,说明城镇居民的月人均生活费的差异有98.63%是由月人均收入引起的。
由以上分析可知,我们可以利用回归方程来作为月生活费的预报值。
将x=1100代入回归方程得y=784.59元;将x=1200代入回归方程得y=850.58元。
故预测月人均收入分别为1100元和1200元的两家庭的月人均生活费分别为784.59元和850.58元。
数理统计学的产生和发展
统计学起源于收集数据的活动,小至个人的事情,大至治理一个国家,都有必要收集种种有关的数据,如在我国古代典籍中,就有不少关于户口、钱粮、兵役、地震、水灾和旱灾等等的记载.现今各国都设有统计局或相当的机构.当然,单是收集、记录数据这种活动本身并不能等同于统计学这门学科的建立,需要对收集来的数据进行排比、整理,用精炼和醒目的形式表达,在这个基础上对所研究的事物进行定量或定性估计、描述和解释,并预测其在未来可能的发展状况.例如根据人口普查或抽样调查的资料对我国人口状况进行描述,根据适当的抽样调查结果,对受教育年限与收入的关系,对某种生活习惯与嗜好(如吸烟与健康)的关系作定量的评估.根据以往一段时间某项或某些经济指标的变化情况,预测其在未来一段时间内的走向等等,做这些事情的理论与方法,才能构成一门学问———数理统计学.
  数理统计学的另一个重要源头来自天文和测地学中的误差分析问题.早期,测量工具的精度不高,人们希望通过多次测量获取更多的数据,以便得到对测量对象的精度更高的估计值.测量误差有随机性,适合于用概率论即统计的方法处理,伽利略就做过这方面的工作,他对测量误差的状态作了一般性的描述,法国大数学家拉普拉斯曾对这个问题进行了长时间的研究,现今概率论中著名的“拉普拉斯分布”,即是他在这项研究中的一个产物,这方面最著名且影响深远的研究成果有二:一是法国数学家兼天文学家勒让德19世纪初(1805)在慧星轨道计算时发明的“最小二乘法”,他在估计巴黎的子午线长这一工作中,曾使用这个方法.现今著作中把这一方法的发明归功于德国大学者高斯,但高斯使用这一方法最早见诸文字是1809年,比勒让德晚.另外一个重要成果是高斯1809年在研究行星绕日运动时,提出用正态分布刻画测量误差的分布.正态分布也常称为高斯分布,其曲线是钟形,极像颐和园中玉带桥那样的形状,故有时又称为“钟形曲线”,它反映了这样一种极普通的情况:天下形形色色的事物中,“两头小,中间大”的居多.
  到20世纪初,数理统计学已积累了很丰富的成果,如抽样调查的理论和方法方面的进展,但是直到这时为止,我们还不能说现代意义下的数理统计学已经建立起来,其主要标志之一就是这门学问还缺乏一个统一的理论框架,这个任务在20世纪上半叶得以完成,狭义一点说可界定在1921~1938年,起主要作用的是几位大师级的人物,特别是英国的费歇尔·K·皮尔逊,发展统计假设检验理论的奈曼与E·皮尔逊和提出统计决策函数理论的瓦尔德等.我国已故著名统计学家许宝(1910~1970)在这项工作中也卓有建树.自二战结束迄今,数理统计学有了迅猛的发展,主要有以下三方面的原因:一是数理统计学理论框架的建立以及概率论和数学工具的进展,为统计理论向纵深的发展打开了门径和提供了手段;二是实用上的需要,不断提出了复杂的问题与模型,吸引了学者们的研究兴趣;三是电子计算机的发明与普及应用,为统计方法的实施提供了必要的计算工具.以往涉及大量数据的处理与运算,用人力无法在合理的时间内完成,所以在早年,一些统计方法人们虽然知道,但很少付诸实用,就因为是人力所难及.计算机的出现解决了这个问题,从而赋予统计方法以现实的生命力.同时,计算机对促进统计理论研究也大有裨益,统计模拟是其表现之一.在承认上述成就的同时,不少统计学家也指出这一时期发展中出现的一些问题或偏向,其中主要的一点是,数理统计学理论研究中的“数学化”气味愈来愈重,相当一部分研究工作停留在数学的层面,早期那种理论研究与现实问题密切结合的优良传统有所淡化,一些学者还提出了补救的建议,对未来统计学发展的方向进行探讨.同时,现实问题愈来愈涉及到大量的,结构复杂的数据,按现行的数理统计学规范去处理,显得力所不及,需要一些带有根本性创新的思路,使统计学的发展登上一个新的台阶,以适应应用上的需要.考虑这一背景,有的统计学家乐观地认为数理统计学正面临一个新的突破.
独立性检验
  统计学的一种检验方式。与适合性检验同属于X2检验,它是根据次数资料判断两类因子彼此相关或相互独立的假设检验。
  假设有两个分类变量X和Y,它们的值域分另为{x1, x2}和{y1, y2},其样本频数列联表为:
  
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
 若要推断的论述为H1:“X与Y有关系”,可以利用独立性检验来考察两个变量是否有关系,并且能较精确地给出这种判断的可靠程度。具体的做法是,由表中的数据算出随机变量K︿2的值(即K的平方)
  K︿2 = n (ad - bc) ︿ 2 / [(a+b)(c+d)(a+c)(b+d)] 其中n=a+b+c+d为样本容量
  K︿2的值越大,说明“X与Y有关系”成立的可能性越大。
  当表中数据a,b,c,d都不小于5时,可以查阅下表来确定结论“X与Y有关系”的可信程度:   
P(K︿2≥k)
0.50
0.40
0.25
0.15
0.10
k
0.455
0.708
1.323
2.072
2.706
P(K︿2≥k)
0.05
0.025
0.010
0.005
0.001
k
3.841
5.024
6.635
7.879
10.828
 例如,当“X与Y有关系”的K︿2变量的值为6.109,根据表格,因为5.024≤6.109<6.635,所以“X与Y有关系”成立的概率为1-0.025=0.975,即97.5%。
独立性检验两种基本思想的解读与对比
一、利用三维柱形图或二维条形图粗略地判断
运用三维柱形图和二维条形图可以粗略地判断两个分类变量X与Y是否有关系,利用图形的直观性可以较好地向非专业人士解释所得到的统计分析结果.但需要注意的是:①运用两种图形法判断两个分类变量是否有关系时,作图一定要规范;②由于这两种方法无法精确地给出所得结论的可靠程度,因而只做粗略统计,而不做具体运算.
  例1.为考查某种药物预防疾病的效果,进行动物试验,得到如下的列联表:
未患病
患病
总计
服用药
45
10
55
没有服用药
30
20
50
总计
75
30
105
  试用三维柱形图分析服用药和患病之间是否有关系?
解:根据列联表所给的数据作出三维柱形图,如图1所示.比较说来,底面
主对角线上两个柱体高度的乘积要大的多,可以在很大程度上认为“患病与是否服用药有关”.
  例2.在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,试用二维条形图判断色盲与性别是否有关系?
  解:根据题中已知数据作出如下的列联表:
色盲
未患色盲
总计

38
442
480

6
514
520
总计
44
956
1000
  根据列联表作出相应的二维条形图,如图2所示.
从二维条形图来看,在男人中患色盲的比例,要比在女人中患色盲的比
例大,因而我们可以在很大程度上认为患色盲与性别是有关的.
二、独立性检验
独立性检验是用来考查两个分类变量是否具有相关关系,并且能较精确地给出这种判断的可靠程度的一种统计方法,利用这一方法,可以直接用的值解决实际问题.这里需特别说明的是:与k的关系并不是,是一个随机变量,它在取不同的值时,可能不同;而k是的观测值,是取定一组数a、b、c、d后的一个确定的值.
  例3.运动员参加比赛前往往做热身运动,下表是一体育运动的研究机构对160位专业运动员追踪而得的数据,试问:由此数据,你认为运动员受伤与不做热身运动有关吗?
受伤
不受伤
合计
做热身
19
76
95
不做热身
45
20
65
合计
64
96
160
  解:由.
  因为38.974>7.879,所以有99.5%的把握说,运动员受伤与不做热身运动有关.
针对训练
1.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的22名,否定的38名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用图形和独立性检验的方法判断.
  解析:根据题目所给数据建立如下列联表:
性别与态度的关系列联表
肯定
否定
总计
男生
22
88
110
女生
22
38
60
总计
44
126
170
相应的三维柱形图如图所示,比较来说,底面副对角线上两个柱体高度的乘积要大一些,因此可以在某种程度上认为“性别与态度有关”.
  
根据列联表中的数据得到.
所以有97.5%的把握认为“性别与态度有关”.
  2.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.
 (1)根据以上数据建立一个2×2的列联表;
 (2)判断性别与休闲方式是否有关系?
  解析:(1)依据题意“性别与休闲方式”2×2列联表为:
看电视
运动
总计

43
27
70

21
33
54
总计
64
60
124
(2)假设“休闲方式与性别无关”,计算.
所以有理由认为假设“休闲方式与性别无关”是不合理的,即有97.5%的把握认为“休闲方式与性别有关”.
 
独立性检验在生物学中的应用
独立性检验的思想应用广泛,学习统计案例贵在体会其思想并且会利用这种思想解决实际问题,而独立性检验在生物中的应用广泛,下面通过具体例子进行说明。
一、报文科、理科与外语兴趣相关吗?
1、为了探究学生文、理分科是否与外语兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的138人,无兴趣的98人,文科对外语有兴趣的73人,无兴趣的52人。
试分析学生报考文、理科与外语兴趣是否有关?
分析:此题就是要在文理科与对外语有无兴趣之间有无关系作出结论,于是我们可以运用独立性检验的方法进行判断。
解:根据题目所给的数据得到如下列联表:
理科
文科
总计
有兴趣
138
73
211
无兴趣
98
52
150
总计
236
125
361
假设学生报考文、理科与对外语有无兴趣无关,由公式计算:根据列联表中数据得到
,因为,所以不能认为学生报考文、理科与对外语有无兴趣有关。
点评:解决本题的步骤是,要先根据已知数据绘制列联表,然后由表格中的数据利用公式求出的值,再由给定的数表来确定两者有关的可靠程度。
二、患桑毛虫皮炎病与采桑相关吗?
例2:调查某桑场采桑员和辅助工桑毛虫皮炎发病情况,结果如下表:
采桑
不采桑
合计
患者人数
18
12
30
健康人数
4
78
82
合计
22
96
112
利用列联表的独立性检验估计,“患桑毛虫皮炎病与采桑”是否有关?认为两者有关系犯错误的概率是多少?(
解:
所以有99.9%的把握认为“患桑毛虫皮炎病与采桑”有关。犯错的概率是0.1%.
点评:独立性检验的步骤是:检验2×2列联表中的数据是否符合要求,再利用公式计算出k的值;将k与临界值进行比较,进而作出统计推理。
三、药物对感冒有作用吗?
例3:在600个人身上试验某种新药预防感冒的作用,把一年中的纪录与另外600个未用新药的人作比较,结果如下:

未感冒
感冒
总计
试验
292
308
600
未用过
284
316
600
总计
576
624
1200
问该种新药起到预防感冒的作用的可能性有( )
A、99% B、90% C、99.9% D、小于90%
解:认为该种新药起到预防感冒的作用的把握小于90%.
例3、某推销商为某保健药品做广告,在广告中宣传:“在服用该药品的105人中有100人未患A疾病”,经调查发现,在不使用该药品的418人中仅有18人患A疾病,请用所学知识分析该药品对患A疾病是否有效?
解:将问题中的数据写成2×2列联表:
患病
不患病
合计
使用
5
100
105
不使用
18
400
418
合计
23
500
523
将上述数据代入公式中,计算可得,而查表可知,,故没有充分理由认为该保健药品对预防A疾病有效。
点评:利用独立性假设可以帮助我们定量地分析两个分类变量之间是否有关系,因此利用它可以帮助我们理性地看待广告中的某些数字,从而不被某些虚假广告所蒙骗。
独立性检验的基本思想及初步应用
    一.基础概念的梳理与理解
1.分类变量的描述性说明:对于宗教信仰来说,其取值为信宗教信仰与不信宗教信仰两种.象这样的变量的不同值表示个体所属的不同类别的变量称为分类变量.例如性别变量其取值为男女两种,吸烟变量其取值为吸烟与不吸烟两种;
2.两个分类变量:是否吸烟与患肺癌于否,性别男和女与是否喜欢数学课程等等,这是我们所要关心的;
3.列联表:列出的两个分类变量和,它们的取值分别为和的样本频数表称为列联表1
分类
1
2
总计
1
2
总计
     二.两个分类变量是否有关的粗略估计
       
1.三维柱形图:如果列联表1的三维柱形图如下图
   由各小柱形表示的频数可见,对角线上的
频数的积的差的绝对值较大,说明两
分类变量和是有关的,否则的话是无关的.

重点:一方面考察对角线频数之差,更重要的一方面是提供了构造随机变量进行独立性检验的思路方法。
 2.二维条形图(相应于上面的三维柱形图而画)
   由深、浅染色的高可见两种情况下所占比例,由数据可知要比小得多,由于差距较大,因此,说明两分类变量和有关系的可能性较大,两个比值相差越大两分类变量和有关的可能性也越的.否则是无关系的.
      
重点:通过图形以及所占比例直观地粗略地观察是否有关,更重要的一方面是提供了构造随机变量进行独立性检验的思想方法。
3.等高条形图(相应于上面的条形图而画)
 由深、浅染色的高可见两种情况下的百分比;另一方面,数据
要比小得多,因此,说明两分类变量和有关系的可能性较大,
否则是无关系的.
重点:直观地看出在两类分类变量频数相等的情况下,各部分所占的比例情况,是在图2的基础上换一个角度来理解。
 三.独立性检验的基本思想
 上面通过分析数据与图形,,得出这个估计是粗略的,因为我们说的“大得多”、“小得多”,到底是有多大的差距?也就是说得到的结论是直观上的印象,其实与是否有关还是有较大的差距的.但是上面的分析给了我们一种重要的思想方法.
下面从理论上说明两类分类变量是否有关,请同学们从中体会其思想方法
  1.基本思想与图形的联系 
假设两类分类变量是无关的,由上面的条形图2可知如下的比应差不多。
    (这里可以结合三位柱形图的对角线再加以理解)
    构造随机变量(其中)
    (此公式如何记住,其特点是什么?结合列联表1理解)
    显然所构造的随机变量与大小具有一致性.
2.独立性检验的思想方法
如果的观察值较大,说明其发生(无关系)的概率很小,此时不接受假设,也就是两分类变量是有关系的(称小概率事件发生);如果的观察值较小,此时接受假设,说明两分类变量是无关系的.其思想方法类似于数学上的反证法。
3.得到的观察值常与以下几个临界值加以比较:
   如果 ,就有的把握因为两分类变量和是有关系;
如果  就有的把握因为两分类变量和是有关系;
如果  就有的把握因为两分类变量和是有关系;
如果低于,就认为没有充分的证据说明变量和是有关系.
象这样利用随机变量来确定在多大程度上可以因为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
   例题:在一次恶劣气候的飞行航行中调查男女乘客在机上晕机的情况如下表所示,据此资料你是否因为在恶劣气候飞行中男性比女性更容易晕机?
分类
晕机
不晕机
合计
男性
23
32
55
女性
9
25
34
合计
32
57
89
  
  
 
解答;由公式
  因为2.1492.706,我们没有理由说晕机与否跟男女性别有关.
  解答评注:尽管这次航班中男性晕机的比例()比女性晕机的比例()高,但是我们不能因为在恶劣气候飞行中男性比女性更容易晕机.
  可见,这里只有的观察值才能准确地分析和解释两分类变量是否有关系,图形及比例一方面给出了随机变量构造的可行性及思路,另一方面,可以供我们对是否有关仅供参考.
  教材中此节的内容前后联系性较强,体现了推理的逻辑性以及思想方法,寓意深刻,请同学们感悟其知识的形成.
    (注:3841为妇女节与愚人节,6635为与少1,上面的数就不难记了)
 
独立性检验的步骤及应用
独立性检验的思想及步骤
独立性检验的基本思想类似于数学上的“反证法”。要确认“两个分类变量有关系”这一结论成立的可信程度。首先假设结论不成立,即“这两个分类变量几乎没有关系”(“几乎独立”)成立,则, 此时,我们所构造的随机变量应该很小。如果由观测数据计算得到的k不是很小,则在一定程度上说明假设不合理。而且观测值k越大,说明假设(“几乎无关或独立”)不成立的可能性就越大,即两者有关的可能性越大,这样我们就可以由的观测值k并结合已往估算经验值表定出我们有多大程度等等把握可以认为“两个分类变量有关系”。
这个经验值表如下(有必要记住):
与的观测值k相应的参考值:
在假设“X与Y无关”的前提下出现=k概率:
P(=k)
考查结果=k与假设矛盾的可能性,即可以认为“X与Y有关”的把握程度:
1-P(=k)
=10.828
0.001
99.9%(“有关”程度较高。“独立性”较弱)
=7.789
0.005
99.5%
=6.635
0.01
99%
=5.024
0.025
97.5%
=3.841
0.05
95%
=2.706
0.10
90%
超过0.15
85%以下(无明显理由认为“有关”,“独立性”较强)
典例分析
例1、某校对学生课外活动内容进行调查,结果整理成2×2列联表如下:
体育
文娱
合计
男生
21
23
44
女生
6
29
35
合计
27
52
79
试分析“喜欢体育还是喜欢文娱”与“性别”之间三多大程度上有关?
解:将a=21,b=23,c=6,d=29,n=79代入,
得 即的观察值
假设喜欢体育还是喜欢文娱与性别没有关系,则的观察值k应该很小,且由经验值表知,即在此假设成立的前提下出现的可能性只有0.005左右,而不出现的可能性约为99.5%,但在本调查中却得出的观察值
,超过了7.789,所以我们有99.5%的把握可以认为此假设不成立,即有99.5%的把握可以认为喜欢体育还是喜欢文娱与性别有关。
例2、调查在2~3级风时的海上航行中男女乘客的晕船情况,共调查了71人,其中女性34人,男性37人。女性中有10人晕船,另外24人不晕船;男性中有12人晕船,另外25人不晕船。
根据以上数据建立有关2×2的列联表;
判断晕船是否与性别有关系。
解:(1)2×2的列联表:
晕船情况
性别
晕船
不晕船
总计

10
24
34

12
25
37
总计
22
49
71
(2)计算
因为k<2.706,所以我们没有理由说“晕船与性别有关”。
例3、为了考查某种药物预防疾病的效果,进行动物实验,得到如下的列联表:
患病
未患病
总计
服用药
10
45
55
没服用药
20
30
50
总计
30
75
105
请问有多大把握认为药物有效?
分析:本题考查回归的基本思想、方法及初步应用,会用残差分析判断回归模型的拟合效果。
解:,
因为,从而有97.5%的把握认为药物有效。
生活中的独立性检验
独立性检验在实际生活中有广泛的应用,解决该类问题的关键是熟记公式,准确的运算。独立性检验的基本步骤为:
(1)找相关数据,作列联表;
(2)求x2的值;
(3)判断可能性.随机变量x2的值越大,说明“X与Y有关系”成立的可能性越大.
例1某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机抽取189名员工进行调查,所得数据如下表所示:
对于人力资源部的研究项目,根据上述数据能得出什么结论?
解:由题目中表的数据可知:a=64,b=40,c=32,d=63,a+b=94,c+d=95,a+c=86,b+d=103,n=189.代入公式得x2=10.759,因为10.759>7.879,所以有99.5%的把握说:员工“工作积极性”和“积极支持企业改革”是有关的,可以认为企业的全体员工对待企业改革态度和工作积极性是有关的。
点评:首先由已知条件确定a、b、c、d、n的数值,再利用公式求出K2的观测值,最后与6.635比较再下结论。
例2 考察黄烟经过培养液处理与否跟发生青花病的关系,调查了457株黄烟,得到下表中的数据,请根据数据作统计分析。
培养液处理
未处理
合计
青花病
25
210
235
无青花病
80
142
222
合计
105
352
457
解析:根据公式得
由于,说明黄烟经过培养液处理与否跟发生青花病是有关系的。
点评:计算x2的值与临界值的大小进行比较即可。
例3.为了研究色盲与性别的关系,调查了1000人,调查结果如下表所示:


正常
442
514
色盲
38
6
根据上述数据,试问色盲与性别是否是相互独立的?
解析:由已知条件可得下表


合计
正常
442
514
956
色盲
38
6
44
合计
480
520
1000
依据公式得。
由于,∴有的把握认为色盲与性别是有关的,从而拒绝原假设,可以认为色盲与性别不是相互独立的。
点评:根据假设检验的思想,比较计算出的x2与临界值的大小,选择接受假设还是拒绝假设。
变量间的相关关系、回归分析及独立性检验
【知识精讲】
1.会作两个相关变量的数据的散点图,会利用散点图认识变量的相关关系.
2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.
3.掌握独立检验(只要求2×2列联表)的基本思想、方法简单应用.
4. 掌握假设检验和聚类分析的基本思想、方法简单应用.
【基础梳理】
1.相关关系的量:当自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系.
2.回归分析:对具有相关关系的两个变量进行统计分析的方法叫做回归分析.
3.散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图.
4.正相关与负相关概念:如果散点图中的点散布在从左下角到右上角的区域内,称为正相关.如果散点图中的点散布在从左上角到右下角的区域内,称为负相关.
相关系数:r=叫做变量y与x之间的样本相关系数,简称相关系数,用它来衡量两个变量之间的线性相关程度.
7.相关系数的性质:|r|≤1,且|r|越接近1,相关程度越大;且|r|越接近0,相关程度越小.
8.独立性检验:一般地,假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
2×2列联表

若要推断的论述为H1:X与Y有关系,可以按如下步骤判断结论H1成立的可能性:
(1)通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.
①在三维柱形图中,主对角线上两个柱形高度的乘积ad与副对角线上的两个柱形高度的乘积bc相差越大,H1成立的可能性就越大.
②在二维条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例 ,也可以估计满足条件X=x2的个体中具有Y=y2的个体所占的比例.“两个比例的值相差越大,H1成立的可能性就越大.”
(2)可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法是:
①根据实际问题需要的可信程度确定临界值k0;
②利用公式K2= ,由观测数据计算得到随机变量K2的观测值k;
③如果k>k0,就以(1-P(K2≥k0))×100%的把握认为“X与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系”的充分证据.
【要点解读】
要点七 相关关系的判断
【例7】山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:kg).
(1)画出散点图;
(2)判断是否具有相关关系.
【命题立意】考查相关关系的分析方法.
【标准解析】用施化肥量x作为横轴,产量y为纵轴可作出散点图,由散点图即可分析是否具有线性相关关系.
【误区警示】正确选择坐标描点,并准确观察散点的实际分布判断两变量的正相关和负相关是常用方法.
【答案】(1)散点图如右图所示,
(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x与产量y具有线性相关关系.
【变式训练】(2009·宁夏、海南)对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u、v有观测数据(ui,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断(  )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
【标准解析】由图(1)可知,各点整体呈递减趋势,x与y负相关,由图(2)可知,各点整体呈递增趋势,u与v正相关.
【技巧点拨】注意正负相关的判断标准.
【答案】C
要点八 线性回归分析
【例8】一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:
(1)对变量y与x进行相关性检验;
(2)如果y与x有线性相关关系,求回归直线方程;
(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内?
【命题立意】考查线性回归分析方法。
【标准解析】利用相关系数r进行线性相关检验(也可利用散点图).如果线性相关,再求回归直线方程并加以判断.
【答案】
【变式训练】假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计资料:
(1)y与x间是否有线性相关关系?若有,求出线性回归方程;
(2)估计使用年限为10年时的维修费用.
【标准解析】先作出散点图,然后检验相关性,再求其回归直线.
【技巧点拨】对具有相关关系的两个变量进行统计分析时,首先要作出散点图,然后进行相关性检验,在确认具有线性相关关系后,再求其回归直线.。
【答案】
要点九 独立性检验
【例9】(2009·辽宁)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:
甲厂:
乙厂:
(1)试分别估计两个分厂生产的零件的优质品率;
(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.
【命题立意】考查由采集样本的数据检验独立性.
【标准解析】利用公式计算K2的值,比较它与临界值的大小关系,来判断事件X与Y是否有关的问题.
【误区警示】图表数据及利用计算数据判断独立性的步骤必须正确理解.
【答案】(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为=72%;
乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为=64%.
(2) 所以有99%的把握认为“两个分厂生产的零件的质量有差异”
【变式训练】在对人们休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.
(1)根据以上数据建立一个2×2列联表;
(2)画出二维条形图;
(3)检验休闲方式是否与性别有关,可靠性有多大.
【标准解析】独立性检验的考查。
【技巧点拨】先由已知条件转化联表及条形图,然后由公式计算k2与临界值的关系。
【答案】(1)2×2列联表如图: (2)二维条形图如图:
(3)假设休闲方式与性别无关,则
K2=≈6.201>5.024,
所以有理由认为休闲方式与性别无关是不合理的,即我们有97.5%的把握认为休闲方式与性别有关.
【原创题探讨】
【原创精典1】 某企业三月中旬生产A、B、C三种产品共3 000件,根据分层抽样的结果,企业统计员制作了如下的统计表:
产品类别
A
B
C
产品数量(件)
1 300
样本容量
130
由于不小心,表格中A、C产品的有关数据已被污染看不清楚了,统计员只记得A产品的样本容量比C产品的样本容量多10,根据以上信息,可得C产品的数量是________件.
【解析】设样本的总容量为x,则×1 300=130,∴x=300.
∴A产品和C产品在样本中共有300-130=170(件).
设C产品的样本容量为y,则y+y+10=170,∴y=80.∴C产品的数量为×80=800.
【答案】800
【原创精典2】如右图是某电视台综艺节目举办的挑战主持人大赛上,七位评委为某选手打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为(  )
  A.84,4.84 B.84,1.6 C.85,4 D.85,1.6
【解析】由茎叶图可知评委打出的最低分为79,最高分为93,其余得分为84,84,86,84,87,故平均分为=85,方差为[3×(84-85)2+(86-85)2+(87-85)2]=1.6.
【答案】D
【原创精典3】近年来,由于乱砍滥伐,掠夺性使用森林资源,我国长江、黄河流域植被遭到破坏,土地沙化严重,洪涝灾害时有发生.沿黄某地区为积极响应和支持“保护母亲河”的倡议,建造了长100千米,宽0.5千米的防护林.有关部门为掌握这一防护林共约有多少棵树,从中选出10块(每块长1千米,宽0.5千米)进行统计,每块树木数量如下(单位:棵)
65 100 63 200 64 600 64 700 67 300
63 300 65 100 66 600 62 800 65 500
请你根据以上数据计算这一防护林共约有多少棵树(结果保留3个有效数字).
【解析】要求学生有用样本估计总体的思想方法,另一方面要求学生有应用数学的意识,这是今后中考命题发展的趋势.
【答案】先计算出=(65 100+63 200+64 600+64 700+67 300+63 300
+65 100+66 600+62 800+65 500)=64 820.
于是,可以估计这一防护林平均每块约有64820株树.又64 820×100=6 482 000≈6.48×106(株),于是可以估计这一防护林大约共有6.48×106株树.
新动向前瞻
【样题1】已知总体的各个体的值由小到大依次为2,3,3,7,a,b,12,13.7,18.3,20,且总体的中位数为10.5,若要使该总体的方差最小,则a、b的取值分别是________.
【解析】∵中位数为10.5,∴=10.5,a+b=21,
∵x==10,
∴s2=[(10-2)2+(10-3)2+(10-3)2+(10-7)2+(10-a)2+(10-b)2+(10-12)2+(10-13.7)2+(10-18.3)2+(10-20)2].
令y=(10-a)2+(10-b)2=2a2-42a+221=22+,
当a=10.5时,y取最小值,方差s2也取最小值.∴a=10.5,b=10.5.
【答案】10.5 10.5
【样题2】某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查对临界值表知P(K2≥3.841)≈0.05.
p:有95%的把握认为“这种血清能起到预防感冒的作用”;
q:若某人未使用该血清,那么他在一年中有95%的可能性得感冒;
r:这种血清预防感冒的有效率为95%;
s:这种血清预防感冒的有效率为5%.
则下列结论中,正确结论的序号是________.(把你认为正确的命题序号都填上)
①p∧q;②綈p∧q;③(綈p∧綈q)∧(r∨s);④(p∨綈r)∧(綈q∨s).
【解析】由题意,得K2≈3.918,P(K2≥3.841)≈0.05,所以只有p正确,即有95%的把握认为“这种血清能起到预防感冒的作用”,由真值表知①、④为真命题.
【答案】①④
【样题3】①合情推理是由特殊到一般的推理,得到的结论不一定正确,演绎推理是由一般到特殊的推理,得到的结论一定正确;
②一般地,当r的绝对值大于0.75时,认为两个变量之间有很强的线性相关关系,如果变量y与x之间的相关系数r=-0.956 8,则变量y与x之间具有线性关系;
③用独立性检验(2×2列联表法)来考察两个分类变量是否有关系时,算出的随机变量K2的值越大,说明“x与y有关系”成立的可能性越大;
④命题p:?x∈R使得x2+x+1<0,则綈p:?x∈R均有x2+x+1≥0.
其中结论正确的序号为________.(写出你认为正确的所有结论的序号)
【解析】②通过统计假设,查表得结论正确;③参考两个分类变量x和y有关系的可信度表:k2的值越大,说明“x与y有关系”成立的可能性越大;④正确,命题p:?x∈R使得p(x),则綈p:?x∈R均有綈p(x).
【答案】②③④
【样题4】出下列四个命题:
①?x∈R,cos x=sin+sin一定不成立;②今年初某医疗研究所为了检验“达菲(药物)”对甲型H1N1流感病毒是否有抑制作用,把墨西哥的患者数据库中的500名使用达菲的人与另外500名未用达菲的人一段时间内患甲型H1N1流感的疗效记录作比较,提出假设H0:“达菲不能起到抑制甲型H1N1流感病毒的作用”,利用2×2列联表计算得K2≈3.918,经查对临界值表知P(K2≥3.841)≈0.05,说明达菲抑制甲型H1N1流感病毒的有效率为95%;③|a·b|=|a||b|是|λa+μb|=|λ||a|+|μ||b|成立的充要条件;④如右图的茎叶图是某班在一次测验时的成绩:可断定:女生成绩比较集中,整体水平稍高于男生.
其中真命题的序号是________.(填上所有真命题的序号)
【解析】对于①,等式展开后可化简为asin x+bcos x=0的形式,可知一定有解;对于②,正确解释是:有95%的把握认为“达菲对甲型H1N1流感病毒有抑制作用”;对于③,由向量模的性质知不正确.
【答案】④
【样题5】某种产品的广告费支出x与销售额y(单位:百万元)之间有如下对应数据:
x
2
4
5
6
8
y
30
40
60
50
70
(1)画出散点图;
(2)求回归直线方程;
(3)试预测广告费支出为10百万元时,销售额多大?
【解析】线性回归问题的综合考查。
【答案】(1)根据表中所列数据可得散点图如下:
(2)列出下表,并用科学计算器进行有关计算.
i
1
2
3
4
5
xi
2
4
5
6
8
yi
30
40
60
50
70
xiyi
60
160
300
300
560
因此,x==5,y==50,=145,=13 500,iyi=1 380.
于是可得b==6.5;
a=y-bx=50-6.5×5=17.5,因此,所求回归直线方程是=6.5x+17.5.
(3)据上面求得的回归直线方程,当广告费支出为10百万元时,
=6.5×10+17.5=82.5(百万元),
即这种产品的销售收入大约为82.5百万元.
如何运用线性回归思想做出预测
一、已知两个变量间呈线性相关关系如何做出预测
当两个变量间呈线性相关关系时,两个变量间就可以确定相应的线性回归直线方程。而线性回归方程毕竟不同于确定的直线方程,由线性回归方程所得到值只能是一个估计值。正是通过这种方式,对许多实际应用问题,我们都可以先去论证两个变量间呈线性相关关系,然后获得相应的线性回归直线方程,最后,把代入线性回归方程得到估计值。
例1、关于某设备的使用年限和所支出的维修费用(万元),有如
下的统计资料:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
如由资料可知对呈线性相关关系. 试求:
(1)线性回归方程;(2)估计使用年限为10年时,维修费用是多少?
解:(1)
于是.
所以线性回归方程为:
(2)当时,
即估计使用10年是维修费用是12.38万元.
点评:已知呈线性相关关系,就无须进行相关性检验.否则,应先进行相关性检验,若两个变量不具备相关关系,或者说,它们之间相关关系不显著,即使求出回归方程也是毫无意义的,而且用其估计和预测的量也是不可信的.
二、不确定两个变量间是否呈线性相关关系如何做出预测
在没有确定两个变量间是否呈线性相关关系时,就需要先论证两个变量间呈线性相关关系,这就是相关性检验。
检验如下:
(1)作统计假设:与不具有线性相关关系。
(2)根据小概率0.05与在相关性检验的临界值表中查出(相关系数)的一个临界值。
(3)根据样本相关系数计算公式计算出的值。
(4)作统计推断。如果,表明有95%的把握认为与之间具有线性相关关系。
(5)如果,我们没有理由拒绝原来的假设。这时寻找线性回归直线方程是毫无意义的。
例2、一个车间为了规定工时定额,须要确定加工零件所花费的时间,为此进行了10次实验,测得的数据如下:
零件个数x(个)
10
20
30
40
50
60
70
80
90
100
加工时间y(分)
62
68
75
81
89
95
102
108
115
122
(1)与是否具有线性相关关系?
(2)如果与具有线性相关关系,求回归直线方程。并据此估计加工200个零件所用的时间为多少?
解:(1)
.
于是:
又查得相应于显著性水平0.05和的相关系数临界值
,由知,与具有线性相关关系。
(2)设所求的回归直线方程为,同时,利用上表可得

.
即所求的回归直线方程为.
(3)当时,的估计值
.故加工200个零件时所用的工时约为189个.
点评:作相关性检验有时也用画散点图,观察所给的数据列成的点是否在一条直线的附近,这样做既直观又方便,因而对解相关性检验问题常用,但在许多实际问题中,有时很难说这些点是不是分布在一条直线的附近,这时就很难判断两个变量之间是否有相关关系,这时就应该利用样本的相关系数对其进行相关性检验;这种方法虽然较为繁琐,但却非常准确.在计算中应该特别注意要细心,不可出现计算的错误,也可借助于计算器等进行有关计算.
同课章节目录