4.3 统计模型
4.3.1 一元线性回归模型
[课标解读] 1.成对数据的统计相关性:①结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系.②结合实例,会通过相关系数比较多组成对数据的相关性.2.一元线性回归模型:①结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件.②针对实际问题,会用一元线性回归模型进行预测.
【教材要点】
知识点一 相关关系
1.两个变量的关系
分类 函数关系 相关关系
特征 两变量关系具有________ 两变量关系具有________
2.散点图:将样本中n对数据(xi,yi)(i=1,2,…,n)描在________________中得到的图形.
3.两个变量之间有一定的关系,但没有达到可以相互决定的程度,他们之间的关系具有一定的随机性,统计学上称为相关关系.
4.线性相关:如果变量x与变量y之间的关系可以近似地用一次函数来刻画,则称x与y线性相关.
5.如果一个变量增大,另一个变量大体上也增大,则称这两个变量正相关.如果一个变量增大,另一个变量大体上减少,则称这两个变量负相关.
知识点二 回归直线方程
知识点三 回归直线方程的性质
1.回归直线过样本点的中心(,);
2.一次函数=x+的单调性由的符号决定,函数递增的充要条件是>0.这说明x与y正相关的充要条件是>0;x与y负相关的充要条件是<0.
3.回归方程中的实际意义是,当x增大一个单位时,大约增大 个单位.
知识点四 相关系数
计算 r==
性质 范围 |r|≤1且x与y正相关的充要条件是r>0 x与y负相关的充要条件是r<0
线性相关程度 |r|越接近1,线性相关性越强 |r|越接近0,线性相关性越弱 |r|=1的充要条件是成对数据构成的点都在回归直线上
知识点五 非线性回归
两个变量x与y的关系,不再是线性相关关系,成为非线性相关关系,所得到的方程称为非线性回归方程(也简称回归方程),一般地,非线性回归方程的曲线类型可以通过做出散点图进行猜测,而回归方程有时可以通过变量替换后,借助求回归直线的过程确定.当然,确定了非线性回归方程之后,也可以利用它进行预测.
【基础自测】
1.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中正确的是________.(填序号)
①y与x具有正的线性相关关系;
②回归直线过样本点的中心(,);
③若该大学某女生身高增加1 cm,则其体重约增加0.85 kg;
④若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg.
2.下列判断正确的是____________.
(1)求回归直线方程前必须进行相关性检验;
(2)两个变量的相关系数越大,它们的相关程度越强;
(3)若相关系数r=0,则两变量x,y之间没有关系.
3.下列结论正确的是( )
①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
A.①② B.①②③
C.①②④ D.①②③④
4.下表是x和y之间的一组数据,则y关于x的回归直线方程必过点( )
x 1 2 3 4
y 1 3 5 7
A.(2,3) B.(1.5,4)
C.(2.5,4) D.(2.5,5)
题型1 相关关系与线性相关关系的判断(数据分析)
例1 (1)(多选)下列关系中,属于相关关系的是( )
A.正方形的边长与面积之间的关系
B.生活习惯与健康状况的关系
C.人的身高与年龄之间的关系
D.降雪量与交通事故的发生率之间的关系
状元随笔 紧扣相关关系的概念加以判断.
(2)某市天然气消耗量y(单位:百万立方米)与使用天然气户数x(单位:万户)的历史记录的资料如表所示:
第i年 1 2 3 4 5
户数x/万户 1 1.2 1.6 1.8 2
天然气消耗量y/百万立方米 6 7 9.8 12 12.1
第i年 6 7 8 9 10
户数x/万户 2.5 3.2 4 4.2 4.5
天然气消耗量y/百万立方米 14.5 20 24 25.4 27.5
判断变量x,y之间是否具有线性相关关系.
状元随笔 根据散点图判断.
方法归纳
1.函数关系与相关关系
函数关系是一种确定的关系,而相关关系是一种不确定的关系.函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.两个变量是否相关的两种判断方法
(1)实际经验法:借助积累的经验进行分析判断;
(2)散点图法:绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
跟踪训练1 (1)下列两个变量间的关系不是函数关系的是( )
A.圆的半径与周长
B.角的度数与它的正切值
C.粮食亩产量为常数时,土地面积与粮食总产量
D.日照时间与水稻的单位产量
(2)下列说法正确的是( )
A.相关关系是函数关系
B.函数关系是相关关系
C.线性相关关系是一次函数关系
D.相关关系有两种,分别是线性相关关系和非线性相关关系
(3)试从各散点图中点的分布状况,直观上判断两个变量之间有线性相关关系的是( )
题型2 回归直线方程及其应用(数据分析、数学运算)
角度1 求回归直线方程并预测
例2 某种产品的广告费用支出x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应数据:
x/百万元 2 4 5 6 8
y/百万元 30 40 60 50 70
(1)画出散点图;
(2)求回归直线方程;
(3)试预测广告费用支出为10百万元时,销售额多大?
参考公式:=
=-
状元随笔 (1)按表中的数据在平面直角坐标系中描点即得散点图;
(2)由公式求出,,写出回归直线方程;
(3)利用回归方程分析.
角度2 线性相关性强弱的判断
例3 某厂的生产原料耗费x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应关系:
x/百万元 2 4 6 8
y/百万元 30 40 50 70
x与y之间是否具有线性相关关系?若有,判断相关性的强弱,并求其回归直线方程.
参考公式:r=
=
状元随笔 利用散点图判断是否线性相关,利用相关系数判断相关性的强弱.
方法归纳
1.线性回归分析的步骤
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出);
(2)作出散点图,确定x,y具有线性相关关系;
(3)计算,,,iyi;
(4)代入公式计算相关系数,确定相关性的强弱;
(5)代入公式计算,,写出回归直线方程=x+;
(6)利用回归直线方程进行预测.
2.(1)点(,)在回归直线上,点(,)的坐标满足回归直线方程.
(2)回归系数的几何意义是回归直线的斜率,>0时,x与y正相关;<0时,x与y负相关.
(3)回归系数的实际意义是x每增加一个单位时,增加的单位.
跟踪训练2 (1)某企业的某种产品产量与单位成本数据如表:
产量x(千件) 2 3 4 3 4 5
单位成本Y(元/千件) 73 72 71 73 69 68
①试确定回归直线方程;
②指出产量每增加1千件时,单位成本下降多少?
③产量为6千件时,单位成本是多少?
(2)随着经济水平的提高,智能家居已成为生活中的热点,应用于寻常百姓家中的比例逐年上升.智能家居与传统家居的最大区别在于用电器的开关控制,由过去的人工控制变成智能终端控制.某生活家居馆新推出一套智能家居产品,为了占领市场,举行为期六周的“感恩有你,钜惠给你”低价风暴活动,到第五周末该生活家居馆对前五周销售情况进行统计,得到统计表格如表(y表示第x周确定订购的数量),且通过散点图发现y与x具有线性相关关系.
x 1 2 3 4 5
y 5 9 12 16 23
①请用最小二乘法求出y关于x的回归直线方程=x+;
②预测第六周订购智能家居产品的数量能否超过28.
参考公式:=,=-.
题型3 非线性回归分析
【思考探究】
1.如何解答非线性回归问题?
[提示] 非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:
2.已知x和y之间的一组数据,则下列四个函数中,哪一个作为回归模型最好?
x 1 2 3
y 3 5.99 12.01
①y=3×2x-1;②y=log2x;③y=4x;④y=x2.
[提示] 观察散点图中样本点的分布规律可判断样本点分布在曲线y=3×2x-1附近.①作为回归模型最好.
例4 某地区不同身高的未成年男性的体重平均值如下表:
身高x(cm) 60 70 80 90 100 110
体重y(kg) 6.13 7.90 9.99 12.15 15.02 17.50
身高x(cm) 120 130 140 150 160 170
体重y(kg) 20.92 26.86 31.11 38.85 47.25 55.05
(1)试建立y与x之间的回归直线方程;
(2)如果一名在校男生身高为168 cm,预测他的体重约为多少?
参考数据:z=ln y,
参考公式:=,
=-.
状元随笔 先由散点图确定相应的函数模型,再通过对数变换将非线性相关转化为线性相关的两个变量来求解.
方法归纳
两个变量不具有线性关系,不能直接利用回归直线方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y=c1,我们可以通过对数变换把指数关系变为线性关系,令z=ln y,则变换后样本点应该分布在直线z=bx+a(a=ln c1,b=c2)的周围.
跟踪训练3 有一个测量水流量的实验装置,测得试验数据如下表:
i 1 2 3 4 5 6 7
水深h(厘米) 0.7 1.1 2.5 4.9 8.1 10.2 13.5
流量Q(升/分钟) 0.082 0.25 1.8 11.2 37.5 66.5 134
根据表中数据,建立Q与h之间的回归方程.
参考数据:z=lg y,
参考公式:=,
=-.
教材反思
4.3 统计模型
4.3.1 一元线性回归模型
新知初探·自主学习
[教材要点]
知识点一
1.确定性 随机性 2.平面直角坐标系
知识点二
i i -
[基础自测]
1.解析:回归方程中x的系数为0.85>0,因此y与x具有正的线性相关关系,①正确;
由回归方程系数的意义可知回归直线过样本点的中心(,),②正确;
依据回归方程中的含义可知,x每变化1个单位,相应变化约0.85个单位,③正确;
用回归方程对总体进行估计不能得到肯定结论,故④不正确.
答案:①②③
2.解析:(1)正确,相关性检验是了解成对数据的变化规律的,所以求回归方程前必须进行相关性检验.
(2)错误,相关系数|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱.
(3)错误,若r=0是指x,y之间的相关关系弱,但并不能说没有关系.
答案:(1)
3.解析:函数关系和相关关系的区别是前者是确定性关系,后者是非确定性关系,故①②正确;回归分析是对具有相关关系的两个变量进行统计分析的一种方法,故③错误,④正确.
答案:C
4.解析:回归直线方程必过样本点的中心(,),即(2.5,4),故选C.
答案:C
课堂探究·素养提升
例1 解析:(1)在A中,正方形的边长与面积之间的关系是函数关系;在B中,生活习惯与健康状况不具有严格的函数关系,但具有相关关系;在C中,人的身高与年龄之间的关系既不是函数关系,也不是相关关系,因为人的年龄达到一定时期身高就不发生明显变化了,因而它们不具有相关关系;在D中,降雪量与交通事故的发生率之间具有相关关系.
(2)画出散点图如图所示,
由散点图可知,各点分布在一条直线附近,故天然气消耗量y(百万立方米)与使用天然气户数x(万户)具有线性相关关系.
答案:(1)BD (2)见解析
跟踪训练1 解析:(1)函数关系与相关关系都是指两个变量之间的关系,但是这两种关系是不同的,函数关系是指当自变量一定时,函数值是确定的,是一种确定性的关系.因为A项C=2πr,B项y=tan α,C项y=ax(a>0,且a为常数),所以这三项均是函数关系;D项是相关关系.
(2)函数关系和相关关系互不包含,所以A,B,C三项不正确;根据定义,相关关系有两种,分别是线性相关关系和非线性相关关系.
(3)在A中,点的分布毫无规律,横轴、纵轴表示的两个量之间的相关程度很小.在B中,所有的点严格地分布在一条直线上,横轴、纵轴表示的两个变量之间有确定的关系——函数关系.在C中,点的分布基本上集中在一个带状区域内,横轴、纵轴表示的两个变量之间有线性相关关系.在D中,点的分布基本上集中在由某条曲线两侧组成的带状区域内,因此横轴、纵轴表示的两个变量也有相关关系,只是它是非线性相关关系.
答案:(1)D (2)D (3)C
例2 解析:(1)散点图如图所示:
(2)列出下表,并用科学计算器进行有关计算:
i 1 2 3 4 5 合计
xi 2 4 5 6 8 25
yi 30 40 60 50 70 250
xiyi 60 160 300 300 560 1 380
4 16 25 36 64 145
所以==5,==50,=145,iyi=1 380.
于是可得===6.5,=-=50-6.5×5=17.5
所以所求的回归直线方程为=6.5x+17.5.
(3)根据(2)求得的回归直线方程,当广告费用支出为10百万元时,=6.5×10+17.5=82.5(百万元),
即广告费用支出为10百万元时,销售额大约为82.5百万元.
例3 解析:散点图如图所示,由图可知x,y有线性相关关系.
=5,=47.5,=120,=9 900,
iyi=1 080,r==≈0.982 7.
故x与y之间具有很强的线性相关关系.
由公式得回归系数
===6.5,
=-=47.5-6.5×5=15.
故y对x的回归直线方程为=6.5x+15.
跟踪训练2 解析:(1)①i=21,i=426,=79,=30 268,iyi=1 481,=3.5,=71,
===≈-1.818,=-≈71+1.818×3.5=77.363,
所以回归直线方程为=77.363-1.818x.
②产量每增加1千件时,单位成本下降1.818元.
③当x=6千件时,=66.455元/千件,
所以当产量为6千件时单位成本大约为66.455元/千件.
(2)①依题意:=×(1+2+3+4+5)=3,
= (5+9+12+16+23)=13,
所以==
===4.3,
则=13-4.3×3=0.1,
故所求回归直线方程为=4.3x+0.1.
②将x=6,代入=4.3x+0.1中,得=4.3×6+0.1=25.9≈26,
故预测第六周订购智能家居产品的数量为26,不会超过28.
例4 解析:(1)根据表中的数据画出散点图,如下:
由图看出,这些点分布在某条指数型函数曲线y=c1ec2x的周围,于是令z=ln y,列表如下:
x 60 70 80 90 100 110
z 1.81 2.07 2.30 2.50 2.71 2.86
x 120 130 140 150 160 170
z 3.04 3.29 3.44 3.66 3.86 4.01
作出散点图,如下:
由表中数据可求得z与x之间的回归直线方程为=0.693+0.020x,则有=e0.693+0.020x.
(2)由(1)知,当x=168时,=e0.693+0.020×168≈57.57,所以在校男生身高为168 cm,预测他的体重约为57.57 kg.
跟踪训练3 解析:由表中测得的数据可以作出散点图,如图.
观察散点图中样本点的分布规律,可以判断样本点分布在某一条曲线附近,表示该曲线的函数模型是Q=m·hn(m,n是正的常数).两边取常用对数,
则lg Q=lg m+n·lg h,
令y=lg Q,x=lg h,那么y=nx+lg m,
即为线性函数模型=x+的形式(其中b=n,a=lg m).
由下面的数据表,用最小二乘法可求得≈2.509 7,=-0.707 7,所以n≈2.51,m≈0.196.
i hi Qi xi=lg hi yi=lg Qi xiyi
1 0.7 0.082 -0.154 9 -1.086 2 0.024 0.168 3
2 1.1 0.25 0.041 4 -0.602 1 0.001 7 -0.024 9
3 2.5 1.8 0.397 9 0.255 3 0.158 3 0.101 6
4 4.9 11.2 0.690 2 1.049 2 0.476 4 0.724 2
5 8.1 37.5 0.908 5 1.574 0 0.825 4 1.430 0
6 10.2 66.5 1.008 6 1.822 8 1.017 3 1.838 5
7 13.5 134 1.130 3 2.127 1 1.277 6 2.404 3
∑ 41 251.332 4.022 5.140 1 3.780 7 6.642
于是所求得的回归方程为Q=0.196·h2.51.4.3.2 独立性检验
[课标解读] 1.①通过实例,理解2×2列联表的统计意义.②通过实例,了解2×2列联表独立性检验及其应用.2.掌握运用2×2列联表的方法,解决独立性检验的简单实际问题.
【教材要点】
知识点一 2×2列联表及随机事件的概率
(1)2×2列联表:如果随机事件A与B的样本数据如下表格形式
A 总计
B a b a+b
c d c+d
总计 a+c b+d a+b+c+d
在这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列联表.
(2)2×2列联表中随机事件的概率:
如上表,记n=a+b+c+d,则
事件A发生的概率可估计为________;
事件B发生的概率可估计为________;
事件AB发生的概率可估计为________.
事件,A发生的概率估计值分别是多少?
提示:P()=,P(A)=.
知识点二 独立性检验
(1)定义:在2×2列联表中,定义随机变量
χ2=,任意给定一个α(称为显著性水平),可以找到满足条件P(χ2≥k)=α的数k(称为显著性水平α对应的分位数),
①若χ2≥k成立,就称在犯错误的概率________的前提下,可以认为A与B不独立(也称A与B有关),或说有________的把握认为A与B有关;
②若χ2这一过程通常称为独立性检验.
(2)统计学中,常用的显著性水平α以及对应的分位数k如表所示
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
若χ2提示:不对,若χ2【基础自测】
1.下列选项中,哪一个χ2的值可以有95%以上的把握认为“A与B有关系”( )
A.χ2=2.700 B.χ2=2.710
C.χ2=3.765 D.χ2=5.014
2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
男 女 合计
爱好 40 20 60
不爱好 20 30 50
合计 60 50 110
经计算得
χ2=≈7.8.
则正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
3.考察棉花种子是否经过处理与是否生病之间的关系,得到下表中的数据:
种子处理 种子未处理 合计
得病 32 101 133
不得病 61 213 274
合计 93 314 407
根据以上数据可得出( )
A.种子是否经过处理与是否生病有关
B.种子是否经过处理与是否生病无关
C.种子是否经过处理决定是否生病
D.有90%的把握认为种子经过处理与生病有关
4.下面2×2列联表的χ2的值为________.
B 总计
A 8 4 12
2 16 18
总计 10 20 30
题型1 用2×2列联表分析两事件之间的关系
例1 在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人的饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用与判断二者是否有关系.
方法归纳
1.作2×2列联表时,注意应该是4行4列,计算时要准确无误.
2.作2×2列联表时,关键是对涉及的变量分清类别.
跟踪训练1 上例中条件不变,尝试用|ad-bc|的大小判断饮食习惯与年龄是否有关.
题型2 由χ2进行独立性检验
角度1 两个变量的独立性检验
例2 在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:能否在犯错误的概率不超过1%的前提下认为该种血清能起到预防感冒的作用.
未感冒 感冒 合计
使用血清 258 242 500
未使用血清 216 284 500
合计 474 526 1 000
附:χ2=
α=P(χ2>k) 0.05 0.01 0.001
k 3.841 6.635 10.828
状元随笔 独立性检验可以通过2×2列联表计算χ2的值,然后和临界值对照作出判断.
角度2 独立性检验的实际应用
例3 某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意 不满意
男顾客 40 10
女顾客 30 20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:χ2=.
α=P(χ2≥k) 0.05 0.01 0.001
k 3.841 6.635 10.828
状元随笔 (1)用频率估计概率;(2)计算χ2的数值并说明.
方法归纳
1.独立性检验的关注点
在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.
2.独立性检验的具体做法
(1)根据实际问题的需要确定允许推断“事件A与B有关系”犯错误的概率的上界α,然后查表确定临界值k.
(2)利用公式χ2=计算随机变量χ2.
(3)如果χ2≥k,推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
跟踪训练2 为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人的调查结果如下:
患胃病 未患胃病 合计
生活不规律 60 260 320
生活有规律 20 200 220
合计 80 460 540
根据以上数据判断40岁以上的人患胃病与生活规律有关吗?
附:χ2=.
题型3 独立性检验的综合问题(数据分析、逻辑推理、数学运算)
【思考探究】
1.利用χ2进行独立性检验,估计值的准确度与样本容量有关吗?
[提示] 利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确,如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.
2.在χ2运算后,得到χ2的值为29.78,在判断变量相关时,P(χ2≥6.635)≈0.01和P(χ2≥7.879)≈0.005,哪种说法是正确的?
[提示] 两种说法均正确.P(χ2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P(χ2≥7.879)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关.
例4 为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
SO2 PM2.5 [0,50] (50,150] (150,475]
[0,35] 32 18 4
(35,75] 6 8 12
(75,115] 3 7 10
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
SO2 PM2.5 [0,150] (150,475]
[0,75]
(75,115]
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?
附:χ2=.
α=P(χ2≥k) 0.05 0.01 0.001
k 3.841 6.635 10.828
方法归纳
独立性检验综合应用的方法策略
1.独立性检验在实际中有着广泛的应用,是对实际生活中数据进行分析的一种方法,通过这种分析得出的结论对实际生活或者生产都有一定的指导作用.
2.近几年高考中较少单独考查独立性检验,经常与统计、概率等知识综合.频率分布表、频率分布直方图与独立性检验融合在一起是常见的考查形式,一般需要根据条件列出2×2列联表,计算χ2值,从而解决问题.
跟踪训练3 某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次 空气质量等级 [0,200] (200,400] (400,600]
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
人次≤400 人次>400
空气质量好
空气质量不好
附:χ2=.
α=P(χ2≥k) 0.05 0.01 0.001
k 3.841 6.635 10.828
教材反思
4.3.2 独立性检验
新知初探·自主学习
[教材要点]
知识点一
(2)P(A)= P(B)= P(AB)=
知识点二
(1)不超过α 1-α
[基础自测]
1.解析:∵5.014>3.841,故D正确.
答案:D
2.解析:根据独立性检验的思想方法,正确选项为C.
答案:C
3.解析:χ2=≈0.164<3.841,
即没有充足的理由认为种子是否经过处理跟生病有关.
答案:B
4.解析:χ2==10.
答案:10
课堂探究·素养提升
例1 解析:饮食习惯与年龄2×2列联表如下:
年龄在六十岁以上 年龄在六十岁以下 合计
饮食以蔬菜为主 43 21 64
饮食以肉类为主 27 33 60
合计 70 54 124
将表中数据代入公式得
=≈0.67,
==0.45.
显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.
跟踪训练1 解析:将本例2×2列联表中的数据代入可得
|ad-bc|=|43×33-21×27|=852.
相差较大,可在某种程度上认为饮食习惯与年龄有关系.
例2 解析:假设感冒与是否使用该种血清没有关系.
由列联表中的数据,求得
χ2=≈7.075.
χ2=7.075>6.635,
P(χ2≥6.635)=0.01,
故我们在犯错误的概率不超过1%的前提下,即有99%的把握认为该种血清能起到预防感冒的作用.
例3 解析:(1)由调查数据得,男顾客中对该商场服务满意的比率为=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.
女顾客中对该商场服务满意的比率为=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.
(2)χ2=≈4.762.
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
跟踪训练2 解析:由公式得χ2=≈9.638.
∵9.638>6.635,
∴有99%的把握说40岁以上的人患胃病与生活是否有规律有关,即生活不规律的人易患胃病.
例4 解析:(1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为=0.64.
(2)根据抽查数据,可得2×2列联表:
SO2 PM2.5 [0,150] (150,475]
[0,75] 64 16
(75,115] 10 10
(3)根据(2)的列联表得
χ2=≈7.484.
由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
跟踪训练3 解析:(1)由频数分布表可知,该市一天的空气质量等级为1的概率为=0.43,
等级为2的概率为=0.27,
等级为3的概率为=0.21,
等级为4的概率为=0.09.
由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:
空气质量等级 1 2 3 4
概率的估计值 0.43 0.27 0.21 0.09
(2)一天中到该公园锻炼的平均人次的估计值为×(100×20+300×35+500×45)=350.
(3)根据所给数据,可得2×2列联表:
人次≤400 人次>400
空气质量好 33 37
空气质量不好 22 8
根据列联表得χ2=≈5.820.
由于5.820>3.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.