1.1 独立性检验
1.了解独立性检验的概念,会判断独立性检验事件.
2.能列出2×2列联表,会求χ2(卡方统计量的值).
3.能够利用临界值,作出正确的判断.(重点)
4.应用独立性检验分析实际问题.(难点)
[基础·初探]
教材整理1 2×2列联表的意义
阅读教材P5~P7“例1”以上部分完成下列问题
一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值类A和类B(如吸烟与不吸烟),Ⅱ也有两类取值类1和类2(如患呼吸道疾病和未患呼吸道疾病),我们得到如下表所示的抽样数据:
Ⅱ
类1
类2
合计
Ⅰ
类A
a
b
a+b
类B
c
d
c+d
合计
a+c
b+d
a+b+c+d
形如上表的表格称为2×2列联表,2×2列联表经常用来判断Ⅰ和Ⅱ之间是否有关系.
下面是一个2×2列联表:
y1
y2
总计
x1
a
21
73
x2
8
25
33
总计
b
46
则表中a,b处的值分别为________.
【导学号:97220000】
【解析】 ∵a+21=73,∴a=52.
又b=a+8=52+8=60.
【答案】 52,60
教材整理2 独立性检验
阅读教材P5~P7“例1”以上部分完成下列各题.
1.独立性检验
2×2列联表中的数据是样本数据,它只是总体的代表,具有随机性,结果并不唯一.因此,由某个样本得到的推断有可能正确,也有可能错误.为了使不同样本量的数据有统一的评判标准,统计学中引入下面的量(称为卡方统计量):
χ2=(
),
其中n=a+b+c+d为样本量.
用χ2统计量研究这类问题的方法称为独立性检验(test
of
independence).
2.独立性检验的基本步骤
要推断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:
(1)提出假设H0:Ⅰ与Ⅱ没有关系;
(2)根据2×2列联表公式(
)计算χ2的值;
(3)查对临界值(如下表),作出判断.
P(χ2≥x0)
0.50
0.40
0.25
0.15
0.10
x0
0.455
0.708
1.323
2.072
2.706
P(χ2≥x0)
0.05
0.025
0.010
0.005
0.001
x0
3.841
5.024
6.635
7.879
10.828
1.关于分类变量x与y的随机变量χ2的观测值k,下列说法正确的是________.(填序号)
(1)χ2的值越大,“X和Y有关系”可信程度越小;
(2)χ2的值越小,“X和Y有关系”可信程度越小;
(3)χ2的值越接近于0,“X和Y无关”程度越小;
(4)χ2的值越大,“X和Y无关”程度越大.
【解析】 χ2的值越大,X和Y有关系的可能性就越大,也就意味着X和Y无关系的可能性就越小.
【答案】 (2)
2.式子|ad-bc|越大,χ2的值就越________.(填大或小)
【解析】 由χ2的表达式知|ad-bc|越大,(ad-bc)2就越大,χ2就越大.
【答案】 大
[质疑·手记]
预习完成后,请将你的疑问记录,并与“小伙伴们”探讨交流:
疑问1:
解惑:
疑问2:
解惑:
疑问3:
解惑:
[小组合作型]
绘制2×2列联表
在一项有关医疗保健的社会调查中,调查的男性为530人,女性为670人,发现其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为492人,请作出性别与喜欢吃甜食的列联表.
【精彩点拨】 分成两类,找出不同类情况下的两个数据再列表.
【自主解答】 作2×2列联表如下:
喜欢甜食
不喜欢甜食
合计
男
117
413
530
女
492
178
670
合计
609
591
1
200
1.分清类别是作列联表的关键;
2.表中排成两行两列的数据是调查得来的结果;
3.选取数据时,要求表中的四个数据a,b,c,d都要不小于5,以保证检验结果的可信度.
[再练一题]
1.某电视公司为了研究体育迷是否与性别有关,在调查的100人中,体育迷75人,其中女生30人,非体育迷25人,其中男生15人,请作出性别与体育迷的列联表.
【解】
体育迷
非体育迷
合计
男
45
15
60
女
30
10
40
合计
75
25
100
利用χ2值进行独立性检验
某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:
阳性例数
阴性例数
合计
新防护服
5
70
75
旧防护服
10
18
28
合计
15
88
103
问这种新防护服对预防工人患职业性皮肤炎是否有效?并说明你的理由.
【精彩点拨】 通过有关数据的计算,作出相应的判断.
【自主解答】 提出假设H0:新防护服对预防皮肤炎没有明显效果.
根据列联表中的数据可求得
χ2=≈13.826.
因为H0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈13.826>10.828,所以我们有99.9%的把握说新防护服比旧防护服对预防工人患职业性皮肤炎有效.
根据2×2列联表,利用公式χ2=计算χ2的值,再与临界值比较,作出判断.
[再练一题]
2.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中,有175人秃顶.根据以上数据判断男性病人的秃顶与患心脏病是否有关系?
【解】 提出假设H0:男性病人的秃顶与患心脏病没有关系.
根据题中所给数据得到如下2×2列联表:
患心脏病
未患心脏病
合计
秃顶
214
175
389
不秃顶
451
597
1
048
合计
665
772
1
437
根据列联表中的数据可以求得
χ2=≈16.373.
因为当H0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈16.373>10.828,所以有99.9%的把握认为,男性病人的秃顶与患心脏病有关系.
[探究共研型]
独立性检验的综合应用
探究1 利用χ2进行独立性检验,估计值的准确度与样本容量有关吗?
【提示】 利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确,如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.
探究2 在χ2运算后,得到χ2的值为29.78,在判断变量相关时,P(χ2≥6.635)≈0.01和P(χ2≥7.879)≈0.005,哪种说法是正确的?
【提示】 两种说法均正确.P(χ2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P(χ2≥7.879)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关.
为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:甲在生产现场时,990件产品中有合格品982件,次品8件;甲不在生产现场时,510件产品中有合格品493件,次品17件.试分别用列联表、独立性检验的方法分析监督员甲对产品质量好坏有无影响.能否在犯错误的概率不超过0.001的前提下,认为质量监督员甲是否在生产现场与产品质量有关?
【精彩点拨】 解答本题可先列出2×2列联表,然后具体分析.
【自主解答】 (1)2×2列联表如下:
合格品数
次品数
总计
甲在生产现场
982
8
990
甲不在生产现场
493
17
510
合计
1
475
25
1
500
由列联表可得|ad-bc|=|982×17-493×8|=12
750,相差较大,可在某种程度上认为“质量监督员甲是否在生产现场与产品质量有关系”.
(2)由2×2列联表中数据,计算得到χ2的观测值为
χ2=≈13.097>10.828,
因此在犯错误的概率不超过0.001的前提下,认为质量监督员甲是否在生产现场与产品质量有关.
判断两个变量是否有关的三种方法
[再练一题]
3.(2016·山东潍坊第二次模拟)为使政府部门与群众的沟通日常化,某城市社区组织“网络在线问政”活动.2015年,该社区每月通过问卷形式进行一次网上问政.2016年初,社区随机抽取了60名居民,对居民上网参政议政意愿进行调查.已知上网参与问政次数与参与人数的频数分布表如下:
参与调查问卷次数
[0,2)
[2,4)
[4,6)
[6,8)
[8,10)
[10,12]
参与调查问卷人数
8
14
8
14
10
6
附:χ2=,
P(χ2≥k)
0.100
0.50
0.010
k
2.706
3.841
6.635
若将参与调查问卷不低于4次的居民称为“积极上网参政居民”,请你根据频数分布表,完成2×2列联表,据此调查是否有99%的把握认为在此社区内“上网参政议政与性别有关”:
男
女
合计
积极上网参政居民
8
不积极上网参政居民
合计
40
【解析】 由题意知,积极上网参政的有8+14+10+6=38人,不积极上网参政的有8+14=22人,
2×2列联表为:
男
女
合计
积极上网参政居民
30
8
38
不积极上网参政居民
10
12
22
合计
40
20
60
∴χ2=≈7.03,
∵7.03>6.635,
∴有99%的把握认为“上网参政议政与性别有关”.
[构建·体系]
1.在2×2列联表中,若每个数据变为原来的2倍,则χ2的值变为原来的________倍.
【解析】 由公式χ2=中所有值变为原来的2倍,
得(χ2)′==2χ2,
故χ2也变为原来的2倍.
【答案】 2
2.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的序号是__________.
【导学号:97220001】
①若χ2的观测值为6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
②从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能性患有肺病;
③若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误;
④以上三种说法均不正确
【解析】 若有95%的把握认为两个变量有关系,则说明判断出错的可能性是5%.
【答案】 ③
3.下列说法正确的是________.(填序号)
①对事件A与B的检验无关,即两个事件互不影响;②事件A与B关系越密切,χ2就越大;③χ2的大小是判断事件A与B是否相关的唯一数据;④若判定两事件A与B有关,则A发生B一定发生.
【解析】 对于①,事件A与B的检验无关,只是说两事件的相关性较小,并不一定两事件互不影响,故①错.②是正确的.对于③,判断A与B是否相关的方式很多,可以用列联表,也可以借助于概率运算,故③错.对于④,两事件A与B有关,说明两者同时发生的可能性相对来说较大,但并不是A发生B一定发生,故④错.
【答案】 ②
4.在2×2列联表中,两个比值与________相差越大,两个分类变量有关系的可能性越大.
【解析】 根据2×2列联表可知,比值与相差越大,则|ad-bc|就越大,那么两个分类变量有关系的可能性就越大.
【答案】
5.(2014·辽宁高考节选)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
喜欢甜品
不喜欢甜品
合计
南方学生
60
20
80
北方学生
10
10
20
合计
70
30
100
根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
【解】 将2×2列联表中的数据代入公式计算,得
χ2=
==≈4.762.
因为4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
我还有这些不足:
(1)
(2)
我的课下提升方案:
(1)
(2)1.2 回归分析
1.会作出两个有关联变量的散点图,并利用散点图认识变量间的相关关系.
2.了解线性回归模型,能根据给出的线性回归方程系数公式建立线性回归方程. 重点、难点
3.了解回归分析的基本思想、方法及简单应用.
[基础·初探]
教材整理1 线性回归模型
阅读教材P13~P14,完成下列问题
1.线性回归模型的概念:将y=a+bx+ε称为线性回归模型,其中a+bx是确定性函数,ε称为随机误差.
2.线性回归方程:直线=+x称为线性回归方程,其中称为回归截距,称为回归系数,称为回归值,其中
其中=xi,=yi.
设某大学生的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中正确的是________(填序号).
【导学号:97220003】
(1)y与x具有正的线性相关关系
(2)回归直线过样本点的中心(,)
(3)若该大学某女生身高增加1
cm,则其体重约增加0.85
kg
(4)若该大学某女生身高为170
cm,则可断定其体重必为58.79
kg
【解析】 回归方程中x的系数为0.85>0,因此y与x具有正的线性相关关系,(1)正确;
由回归方程系数的意义可知回归直线过样本点的中心(,),(2)正确;
∵回归方程=0.85x-85.71,∴该大学某女生身高增加1
cm,则其体重约增加0.85
kg,(3)正确;用回归方程对总体进行估计不能得到肯定结论,故(4)不正确.
【答案】 (1)(2)(3)
教材整理2 相关关系
阅读教材P16~P17“例2”以上部分完成下列问题
1.相关系数是精确刻画线性相关关系的量.
2.相关系数r=
=.
3.相关系数r具有的性质:
(1)|r|≤1;
(2)|r|越接近于1,x,y的线性相关程度越强;
(3)|r|越接近于0,x,y的线性相关程度越弱.
4.相关性检验的步骤:
(1)提出统计假设H0:变量x,y不具有线性相关关系;
(2)如果以95%的把握作出推断,那么可以根据1-0.95=0.05与n-2在附录1中查出一个r的临界值r0.05(其中1-0.95=0.05称为检验水平).
(3)计算样本相关系数r;
(4)作统计推断:若|r|>r0.05,则否定H0,表明有95%的把握认为x与y之间具有线性相关关系;若|r|≤r0.05,则没有理由拒绝原来的假设H0,即就目前数据而言,没有充分理由认为y与x之间有线性相关关系.
判断正误:
(1)求回归直线方程前必须进行相关性检验.( )
(2)两个变量的相关系数越大,它们的相关程度越强.( )
(3)若相关系数r=0,则两变量x,y之间没有关系.( )
【答案】 (1)√ (2)× (3)√
[质疑·手记]
预习完成后,请将你的疑问记录,并与“小伙伴们”探讨交流:
疑问1:
解惑:
疑问2:
解惑:
疑问3:
解惑:
[小组合作型]
回归分析的有关概念
(1)有下列说法:
①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;
②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;
③通过回归方程=x+,可以估计和观测变量的取值和变化趋势;
④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.
其中正确命题是__________(填序号).
(2)如果某地的财政收入x与支出y满足线性回归方程=x++e(单位:亿元),其中=0.8,=2,|e|≤0.5,如果今年该地区财政收入10亿元,则今年支出预计不会超过________亿.
【自主解答】 (1)①反映的正是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③解释的是回归方程=x+的作用,故也正确.④在求回归方程之前必须进行相关性检验,以体现两变量的关系,故不正确.
(2)由题意可得:=0.8x+2+e,当x=10时,=0.8×10+2+e=10+e,又|e|≤0.5,∴9.5≤≤10.5.
故今年支出预计不会超过10.5亿.
【答案】 (1)①②③ (2)10.5
1.在分析两个变量的相关关系时,可根据样本数据散点图确定两个变量之间是否存在相关关系,然后利用最小二乘法求出回归直线方程.
2.由线性回归方程给出的是一个预报值而非精确值.
3.随机误差的主要来源
(1)线性回归模型与真实情况引起的误差;
(2)省略了一些因素的影响产生的误差;
(3)观测与计算产生的误差.
4.残差分析是回归分析的一种方法.
[再练一题]
1.下列有关线性回归的说法,不正确的是________(填序号).
①自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;
②在平面直角坐标系中用描点的方法得到表示具有相关关系的两个量的一组数据的图形叫做散点图;
③线性回归方程最能代表观测值x,y之间的关系;
④任何一组观测值都能得到具有代表意义的回归直线方程.
【解析】 只有具有线性相关的两个观测值才能得到具有代表意义的回归直线方程.
【答案】 ④
求线性回归方程
某班5名学生的数学和物理成绩如下表:
学生学科成绩
A
B
C
D
E
数学成绩(x)
88
76
73
66
63
物理成绩(y)
78
65
71
64
61
(1)画出散点图;
(2)求物理成绩y对数学成绩x的回归直线方程;
(3)一名学生的数学成绩是96,试预测他的物理成绩.
【精彩点拨】 先画散点图,分析物理与数学成绩是否有线性相关关系,若相关,再利用线性回归模型求解.
【自主解答】 (1)散点图如图所示.
(2)由散点图可知y与x之间具有线性相关关系.
因为=×(88+76+73+66+63)=73.2,
=×(78+65+71+64+61)=67.8,
xiyi=88×78+76×65+73×71+66×64+63×61=25
054,
x=882+762+732+662+632=27
174.
所以==≈0.625,
=-≈67.8-0.625×73.2=22.05.
所以y对x的回归直线方程是=0.625x+22.05.
(3)当x=96时,=0.625×96+22.05≈82,即可以预测他的物理成绩是82.
1.求线性回归方程的基本步骤:
2.需特别注意的是,只有在散点图大致呈直线时,求出的线性回归方程才有实际意义,否则求出的回归方程毫无意义.
[再练一题]
2.某商场经营一批进价是30元/台的小商品,在市场调查中发现,此商品的销售单价x(x取整数)元与日销售量y台之间有如下关系:
x
35
40
45
50
y
56
41
28
11
(1)y与x是否具有线性相关关系?如果具有线性相关关系,求出回归直线方程.(方程的回归系数保留一位有效数字)
(2)设经营此商品的日销售利润为P元,根据(1)写出P关于x的函数关系式,并预测当销售单价x为多少元时,才能获得最大日销售利润.
【解】 (1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.
设回归直线为=x+,由题知=42.5,=34,
则求得==≈-3.
=-=34-(-3)×42.5=161.5.
∴=-3x+161.5.
(2)依题意有P=(-3x+161.5)(x-30)=-3x2+251.5x-4
845=-32+-4
845.
∴当x=≈42时,P有最大值,约为426.
即预测销售单价为42元时,能获得最大日销售利润.
[探究共研型]
线性回归分析
探究1 作散点图的目的是什么?
【提示】 直观分析数据是否存在线性相关关系.
探究2 下表显示出变量y随变量x变化的一组数据,由此判断表示y与x之间的关系最可能的是________.(填序号)
x
4
5
6
7
8
9
10
y
14
18
19
20
23
25
28
①线性函数模型;②二次函数模型;③指数函数模型;④对数函数模型.
【解析】 画出散点图(图略),可以得到这些样本点在一条直线附近,故最可能是线性函数模型.
【答案】 ①
10名同学在高一和高二的数学成绩如下表:
x
74
71
72
68
76
73
67
70
65
74
y
76
75
71
70
76
79
65
77
62
72
其中x为高一数学成绩,y为高二数学成绩.
(1)y与x是否具有相关关系?
(2)如果y与x具有线性相关关系,求回归直线方程.
【精彩点拨】 可先计算线性相关系数r的值,然后与r0.05比较,进而对x与y的相关性做出判断.
【自主解答】 (1)由已知表格中的数据,求得=71,=72.3,
r=≈0.78.
由检验水平0.05及n-2=8,在课本附录1中查得r0.05=0.632,因为0.78>0.632,
所以y与x之间具有很强的线性相关关系.
(2)y与x具有线性相关关系,设回归直线方程为
=+x,则有=≈1.22,
=-=72.3-1.22×71=-14.32.
所以y关于x的回归直线方程为=1.22x-14.32.
1.线性回归分析必须进行相关性检验;若忽略,则所求回归方程没有实际意义.
2.|r|越接近于1,两变量相关性越强,|r|越接近于0,两变量相关性越弱.
[再练一题]
3.关于两个变量x和y的7组数据如下表所示:
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
试判断x与y之间是否有线性相关关系.
【解】 =×(21+23+25+27+29+32+35)≈27.4,
=×(7+11+21+24+66+115+325)≈81.3,
x=212+232+252+272+292+322+352=5
414,
xiyi=21×7+23×11+25×21+27×24+29×66+32×115+35×325=18
542,
y=72+112+212+242+662+1152+3252=124
393,
∴r=
=
≈0.837
5.
∵0.837
5>0.755,
∴x与y之间具有线性相关关系.
[构建·体系]
1.在下列各量之间,存在相关关系的是:①正方体的体积与棱长之间的关系;②一块农田的水稻产量与施肥量之间的关系;③人的身高与年龄之间的关系;④家庭的支出与收入之间的关系;⑤某户家庭用电量与电价之间的关系.
【答案】 ②③④
2.根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为=bx+,则下列说法正确的是__________.(填序号)
①a>0,b>0
②a>0,b<0
③a<0,b>0
④a<0,b<0
【解析】 由表中数据画出散点图,如图,
由散点图可知b<0,a>0,故②正确.
【答案】 ②
3.设有一个回归方程为=2-2.5x,则变量x每增加一个单位时,y=__________.
【导学号:97220004】
【解析】 由回归系数的意义可知当变量x增加一个单位时,的平均改变量为,由题目回归方程=2-2.5x,
可得当变量x增加一个单位时,平均减少2.5个单位.
【答案】 平均减少2.5个单位
4.对具有线性相关关系的变量x和y,由测得的一组数据求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________.
【解析】 由题意知=2,=3,=6.5,所以=-=3-6.5×2=-10,即回归直线的方程为=-10+6.5x.
【答案】 =-10+6.5x
5.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
8
8.2
8.4
8.6
8.8
9
销量y(件)
90
84
83
80
75
68
(1)求回归直线方程=x+,其中=-20,=-;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
【解】 (1)=(8+8.2+8.4+8.6+8.8+9)=8.5,
=(90+84+83+80+75+68)=80,
∵=-20,=-,
∴=80+20×8.5=250,
∴回归直线方程为=-20x+250.
(2)设工厂获得的利润为L元,则L=x(-20x+250)-4(-20x+250)=-202+361.25,
∴该产品的单价应定为元时,工厂获得的利润最大.
我还有这些不足:
(1)
(2)
我的课下提升方案:
(1)
(2)