人教A版(2019)高中数学 选择性必修第三册 第八章 成对数据的统计分析章末复习课课件+学案含练习

文档属性

名称 人教A版(2019)高中数学 选择性必修第三册 第八章 成对数据的统计分析章末复习课课件+学案含练习
格式 zip
文件大小 2.7MB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2020-12-18 10:33:25

文档简介

章末复习课
[网络构建]
[核心归纳]
一、两个基本思想
1.回归分析的基本思想
回归分析包括线性回归分析和非线性回归分析两种,而非线性回归分析往往可以通过变量代换转化为线性回归分析,因此,回归分析的思想主要是指线性回归分析的思想.
注意理解以下几点:
(1)确定线性相关关系
线性相关关系有两层含义:一是具有相关关系,如广告费用与销售量的关系等在一定条件下具有相关关系,而气球的体积与半径的关系是函数关系,而不是相关关系;二是具有线性相关关系.
判断是否线性相关的依据是观察样本点的散点图.
(2)引起预报误差的因素
对于线性回归模型=x++e,引起响应变量的误差的因素有两个:一个是解释变量x,另一个是随机误差e.
(3)回归方程的预报精度
判断回归方程的预报精度是通过计算残差平方和来进行的,残差平方和越小,方程的预报精度越高.
简单来说,线性回归分析就是通过建立回归直线方程对变量进行预报,用回归方程预报时,需对函数值明确理解,它表示当x取值时,真实值在函数值附近或平均值在函数值附近,不能认为就是真实值.
(4)回归模型的拟合效果
判断回归模型的拟合效果的过程也叫残差分析,残差分析的方法有两种,一是通过残差图直观判断,二是通过计算决定系数R2的大小判断.
2.独立性检验的基本思想
独立性检验的基本思想类似于反证法.要确认两个分类变量有关系的可信程度,先假设两个分类变量没有关系,再计算随机变量χ2的值,最后由χ2的值很大在一定程度上说明两个分类变量有关系.
进行独立性检验要注意理解以下三个问题:
(1)独立性检验适用于两个分类变量.
(2)两个分类变量是否有关系的直观判断:
一是根据2×2列联表计算|ad-bc|,值越大关系越强;
二是观察等高堆积条形图,两个深色条的高度相差越大关系越强;
(3)独立性检验是对两个分类变量有关系的可信程度的判断,而不是对其是否有关系的判断.独立性检验的结论只能是有多大的把握确认两个分类变量有关系,而不能是两个分类变量一定有关系或没有关系.
二、两个重要参数
1.决定系数R2
决定系数R2是用来刻画回归模型的回归效果的,其值越大,残差平方和越小,模型的拟合效果越好.
2.随机变量χ2
随机变量χ2是用来判断两个分类变量在多大程度上相关的变量.独立性检验即计算χ2的值,并与教材中所给表格中的数值进行比较,从而得到两个分类变量在多大程度上相关.
三、两种重要图形
1.散点图
散点图是进行线性回归分析的主要手段,其作用如下:
一是判断两个变量是否具有线性相关关系,如果样本点呈条状分布,则可以断定两个变量有较好的线性相关关系;
二是判断样本中是否存在异常.
2.残差图
残差图可以用来判断模型的拟合效果,其作用如下:
一是判断模型的精度,残差点所分布的带状区域越窄,说明模型的拟合精度越高,回归方程的预报精度越高.
二是确认样本点在采集中是否有人为的错误.
要点一 独立性检验
独立性检验研究的问题是有多大把握认为两个分类变量之间有关系.为此需先列出2×2列联表,从表格中可以直观地得到两个分类变量是否有关系.另外等高条形图能更直观地反映两个分类变量之间的情况.独立性检验的思想是:可以先假设二者无关系,求随机变量χ2的值,若χ2大于临界值,则拒绝假设,否则,接受假设.
【例1】 考察小麦种子灭菌与否跟发生黑穗病的关系,经试验观察,得到数据如下表:
种子灭菌
种子未灭菌
合计
黑穗病
26
184
210
无黑穗病
50
200
250
合计
76
384
460
试分析种子灭菌与小麦发生黑穗病是否有关?
解 零假设为H0:
认为种子灭菌与否与小麦发生黑穗病无关系.
由列联表的数据可求得
χ2=≈4.804.
而4.804>3.841=x0.05,
根据小概率值α=0.05的χ2独立性检验,我们推断H0不成立,即认为种子是否灭菌与小麦发生黑穗病有关系,此推断犯错误的概率不超过0.05.
【训练1】 在研究某种新措施对猪白痢的防治效果问题时,得到以下数据:
存活数
死亡数
合计
对照
114
36
150
新措施
132
18
150
合计
246
54
300
试问新措施对防治猪白痢是否有效?
解 零假设为H0:新措施对防治猪白痢无效,
由列联表可求得
χ2=≈7.317>6.635=x0.01,
根据小概率值α=0.01的χ2独立性检验,我们推断H0不成立,即认为新措施对防治猪白痢有效,此推断犯错误的概率不超过0.01.
要点二 回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.其基本步骤为:通过散点图和经验选择回归方程的类型,然后通过一定的规则确定出相应的回归方程,通过一定的方法进行检验,最后应用于实际或对预报变量进行预测.
【例2】 某地搜集到的新房屋的销售价格y(单位:万元)和房屋面积x(单位:m2)的数据如下表:
房屋面积x/m2
115
110
80
135
105
销售价格y/万元
24.8
21.6
18.4
29.2
22
(1)画出数据对应的散点图;
(2)求回归直线方程;
(3)根据(2)的结果,估计当房屋面积为150
m2时的销售价格.
解 (1)设x轴表示房屋的面积,y轴表示销售价格,数据对应的散点图如图.
(2)由(1)知y与x具有线性相关关系,可设其回归方程为=x+,依据题中的数据,应用科学计算器,可得出
=xi=109,
(xi-)2=1
570,
=yi=23.2,
(xi-)(yi-)=308,
∴==≈0.196
2,
=-
≈23.2-0.196
2×109=1.814
2.
故所求的回归直线方程为=0.196
2x+1.814
2.
(3)由(2)知当x=150时,销售价格的估计值为=0.196
2×150+1.814
2=31.244
2(万元).
故当房屋面积为150
m2时,估计销售价格是31.244
2万元.
【训练2】 在一段时间内,分5次测得某种商品的价格x(万元)和需求量y(t)之间的一组数据为
1
2
3
4
5
价格x
1.4
1.6
1.8
2
2.2
需求量y
12
10
7
5
3
已知xiyi=62,x=16.6.
(1)画出散点图;
(2)求出y关于x的线性回归方程;
(3)如果价格定为1.9万元,预测需求量大约是多少?
解 (1)散点图如下图所示:
样本点分布在一条直线附近,y与x具有线性相关关系.
(2)因为=×9=1.8,=×37=7.4,
xiyi=62,x=16.6,
所以=eq
\f(\o(∑,\s\up6(5),\s\do4(i=1))xiyi-5\o(x,\s\up6(-))
\o(y,\s\up6(-)),\o(∑,\s\up6(5),\s\do4(i=1))x-5\o(x,\s\up6(-))2)==-11.5,
=-=7.4+11.5×1.8=28.1,
故y关于x的线性回归方程为=28.1-11.5x.
(3)=28.1-11.5×1.9=6.25(t).
故价格定为1.9万元,预测需求量大约为6.25
t.
要点三 数形结合思想
数形结合思想就是在解决与几何图形有关的问题时,将图形信息转换成代数信息,利用数量特征,将其转化为代数问题;在解决与数量有关的问题时,根据数量的结构特征,构造出相应的几何图形,即化为几何问题,从而利用数形的辩证统一和各自的优势尽快得到解决途径,这对提高分析和解决问题的能力有极大的帮助.数形结合的主要途径:
(1)形转化为数,即用代数方法研究几何问题,这是解决几何问题的基本方法;
(2)数转化为形,即根据给出的“数”的结构特点,构造出与之相应的几何图形,用几何方法解决代数问题;
(3)数形结合,即用形研究数,用数研究形,相互结合,使问题变得直观、简捷.
在进行回归分析时,常利用散点图、残差图等说明线性相关情况或模型的拟合效果.
在独立性检验中,我们常用等高堆积条形图直观地反映数据的情况,从而可以粗略地判断两个分类变量是否有关系.
【例3】 电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.如图所示的是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图.将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的2×2列联表,据此资料你是否认为“体育迷”与性别有关?
非体育迷
体育迷
合计


10
55
合计
(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列,期望E(X)和方差D(X).
附:χ2=
α
0.05
0.01

3.841
6.635
解 (1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:
非体育迷
体育迷
合计

30
15
45

45
10
55
合计
75
25
100
将2×2列联表中的数据代入公式计算,得:
χ2=
==≈3.030.
因为3.030<3.841=x0.05,所以没有理由认为“体育迷”与性别有关.
(2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为.由题意知X~B,从而X的分布列为:
X
0
1
2
3
P
E(X)=3×=,
D(X)=3××=.
【训练3】 PM2.5(细颗粒物)是指空气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒物).为了探究车流量与PM2.5的质量分数是否相关,现采集到某城市周一至周五某一时间段车流量与PM2.5的数据如下表:
时间
周一
周二
周三
周四
周五
车流量x/万辆
50
51
54
57
58
PM2.5的质量分数y/(微克/立方米)
69
70
74
78
79
(1)根据上表数据,请在下面坐标系(如图)中画出散点图;
(2)根据上表数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)若周六同一时间段车流量是25万辆,试根据(2)中求出的线性回归方程预测此时PM2.5的质量分数(保留整数).
解 (1)散点图如图所示.
样本点分布在一条直线附近,y与x具有线性相关关系.
(2)计算得==54,
==74,
(xi-)(yi-)=(-4)×(-5)+(-3)×(-4)+0+3×4+4×5=64,
(xi-)2=(-4)2+(-3)2+0+32+42=50,
∴===1.28,
=-
=74-1.28×54=4.88.
故y关于x的线性回归方程是=1.28x+4.88.
(3)当x=25时,=1.28×25+4.88≈37,
∴可以预测此时PM2.5的质量分数约为37微克/立方米.章末检测卷(三)
(时间:120分钟 满分:150分)
一、单项选择题(本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.下表显示出样本中变量y随变量x变化的一组数据,由此判断它最可能是(  )
x
4
5
6
7
8
9
10
y
14
18
19
20
23
25
28
A.线性函数模型
B.二次函数模型
C.指数函数模型
D.对数函数模型
解析 画出散点图(图略)可以得到这些样本点在某一条直线上或该直线附近,故最可能是线性函数模型.
答案 A
2.已知具有线性相关关系的两个变量x,y之间的一组数据如下,且回归方程是=0.95x+,则当x=6时,y的预测值为(  )
x
0
1
2
3
4
y
2.2
4.3
4.5
4.8
6.7
A.8.4
B.8.3
C.8.2
D.8.1
解析 由已知可得==2,==4.5,
∴4.5=0.95×2+,∴=2.6,
∴回归方程是=0.95x+2.6,
当x=6时,y的预测值=0.95×6+2.6=8.3.
答案 B
3.在2×2列联表中,若每个数据变为原来的2倍,则χ2的值变为原来的倍数为(  )
A.8倍
B.4倍
C.2倍
D.不变
解析 由公式χ2=中所有值变为原来的2倍,
得(χ2)′==2χ2,
故χ2也变为原来的2倍.
答案 C
4.一唱片公司欲知唱片费用x(十万元)与唱片销售量y(千张)之间的关系,从其所发行的唱片中随机抽选了10张,得如下的资料:eq
\i\su(i=1xi=28,\o(∑,\s\up6(10),\s\do4(i=1))x=303.4,\o(∑,\s\up6(10),\s\do4(i=1))yi=75,\o(∑,\s\up6(10),\s\do4(i=1))y=598.5,∑10,i=1,10,x)iyi=237,则y与x的相关系数r的绝对值为(  )
A.0.6
B.0.5
C.0.4
D.0.3
解析
 
==0.3.
答案 D
5.为了评价某个电视栏目的改革效果,某机构在改革前后分别从居民点抽取了100位居民进行调查,经过计算χ2≈0.99,根据这一数据分析,下列说法正确的是(  )
A.有99%的人认为该电视栏目优秀
B.有99%的人认为该电视栏目是否优秀与改革有关系
C.有99%的把握认为该电视栏目是否优秀与改革有关系
D.没有理由认为该电视栏目是否优秀与改革有关系
解析 只有χ2≥6.635时才能有99%的把握认为该电视栏目是否优秀与改革有关系,而即使χ2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的推论,与是否有99%的人等无关.
答案 D
6.为预测某种产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,若已知y与x之间存在线性相关关系,现取了8组观察值,计算知xi=52,yi=288,x=478,xi
yi
=1849,则y关于x的线性回归方程是(  )
A.=11.47+2.62x
B.=-11.47+2.62x
C.=2.62+11.47x
D.=11.47-2.62x
解析 由=eq
\f(\o(∑,\s\up10(n),\s\do10(i=1))xiyi-n\a\vs4\al(\o(x,\s\up6(-))
)\a\vs4\al(\o(y,\s\up6(-))
),\o(∑,\s\up10(n),\s\do10(i=1))x-n\o(x,\s\up6(-))2),=-

直接计算得≈2.62,≈11.47,
所以所求线性回归方程为=2.62x+11.47.
答案 A
7.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn全不相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为(  )
A.-1
B.0
C.
D.1
解析 所有点均在直线上,且直线的斜率大于0,则样本相关系数最大即为1,故选D.
答案 D
8.下表给出5组数据(x,y),为选出4组数据使其线性相关程度最大,且保留第1组数据(-5,-3),则应去掉(  )
i
1
2
3
4
5
xi
-5
-4
-3
-2
4
yi
-3
-2
4
-1
6
A.第2组
B.第3组
C.第4组
D.第5组
解析 通过散点图选择,画出散点图如图,应除去第三组,对应点的坐标是(-3,4).故选B.
答案 B
二、多项选择题(本题共4小题,每小题5分,共20分.在每小题给出的四个选项中,有多项符合题目要求,全部选对的得5分,部分选对的得3分,有选错的得0分)
9.下列说法中不正确的是(  )
A.相关关系是一种不确定的关系,回归分析是对相关关系的分析,因此没有实际意义
B.独立性检验对分类变量关系的研究没有100%的把握,所以独立性检验研究的结果在实际中也没有多大的实际意义
C.相关关系可以对变量的发展趋势进行预报,这种预报可能会是错误的
D.独立性检验如果得出的结论有99%的可信度,就意味着这个结论一定是正确的
解析 相关关系虽然是一种不确定关系,但是回归分析可以在某种程度上对变量的发展趋势进行预报,这种预报在尽量减小误差的条件下可以对生产与生活起到一定的指导作用;独立性检验对分类变量的检验也是不确定的,但是其结果也有一定的实际意义.故选ABD.
答案 ABD
10.对于回归直线方程=x+,下列说法中正确的是(  )
A.直线必经过点(,)
B.x增加1个单位时,y平均增加个单位
C.样本数据中x=0时,可能有y=
D.样本数据中x=0时,一定有y=
解析 回归直线方程是根据样本数据得到的一个近似曲线,故由它得到的值也是一个近似值.
答案 ABC
11.根据下面的列联表得到如下四个判断,正确的是(  )
嗜酒
不嗜酒
合计
患肝病
700
60
760
未患肝病
200
32
232
合计
900
92
992
A.至少有99.9%的把握认为“患肝病与嗜酒有关”
B.至少有99%的把握认为“患肝病与嗜酒有关”
C.在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒有关”
D.在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒无关”
解析 由列联表中数据可求得χ2=≈7.349>6.635=x0.01,所以在犯错误的概率不超过0.01的前提下,认为“患肝病与嗜酒有关系”,即至少有99%的把握认为“患肝病与嗜酒有关系”.因此BC正确.
答案 BC
12.下列说法中,正确的说法是(  )
A.将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变
B.对于回归方程=3-5x,变量x增加1个单位时,平均增加5个单位
C.残差图中,残差点所分布的带状区域越窄,说明模型的拟合程度越好
D.在一个2×2列联表中,若χ2=13.079,则有99.9%以上的把握认为这两个变量之间有关系
解析 数据的方差与加了什么样的常数无关,故A正确;对于回归方程=3-5x,变量x增加1个单位时,平均减少5个单位,故B错误;易知C正确;若χ2=13.079>10.828=x0.001,则有99.9%以上的把握认为这两个变量之间有关系,故D正确.
答案 ACD
三、填空题(本大题共4小题,每小题5分,共20分.把答案填在题中的横线上)
13.已知下表所示数据所求得的回归直线方程为=4x+242,则实数a=________.
X
2
3
4
5
6
Y
251
254
257
a
266
解析 由题意,得=4,=(1
028+a),代入=4x+242,可得(1
028+a)=4×4+242,解得a=262.
答案 262
14.某数学老师身高176
cm,他爷爷、父亲和儿子的身高分别是173
cm、170
cm和182
cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________
cm.
解析 由题意可得数学老师的爷爷、父亲、数学老师本人和他儿子的身高可组成三个坐标(173,170),(170,176),(176,182),
∴==173,
==176,
∴=eq
\f(\o(∑,\s\up10(3),\s\do10(i=1))xiyi-3\o(x,\s\up6(-))
\o(y,\s\up6(-)),\o(∑,\s\up10(3),\s\do10(i=1))x-3(\o(x,\s\up6(-)))2)=1,
∴=-×=176-173=3,
∴=x+3,
即数学老师的孙子的身高约为=182+3=185(cm).
答案 185
15.若两个分类变量X与Y的2×2列联表为:
y1
y2
合计
x1
10
15
25
x2
40
16
56
合计
50
31
81
则“X与Y之间有关系”这个结论出错的概率为________.
解析 由列联表数据,可求得
χ2=≈7.227>6.635=x0.01,
所以“x与y之间有关系”出错的概率为0.01.
答案 0.01
16.为了调查患慢性气管炎是否与吸烟有关,调查了100名50岁以下的人,调查结构如下表:
患慢性气管炎
未患慢性气管炎
合计
吸烟
20
m
40
不吸烟
n
55
60
合计
25
75
100
根据列联表数据,求得χ2=__________(保留3位有效数字),根据下表,在犯错误的概率不超过__________的前提下认为患慢性气管炎与吸烟有关.(本题第一空3分,第二空2分)
附:
α
0.050
0.010
0.001

3.841
6.635
10.828
χ2=.
解析 由20+m=40,得m=20.
由20+n=25,得n=5.
故χ2=
≈22.2>10.828=x0.001.
所以在犯错误的概率不超过0.001的前提下认为患慢性气管炎与吸烟有关.
答案 22.2 0.001
四、解答题(本题共6小题,共70分.解答应写出必要的文字说明、证明过程或演算步骤)
17.(本小题满分10分)为了调查某大学学生在某天上网的时间,随机对100名男生和100名女生进行了不记名的问卷调查,得到了如下的统计结果:
表1:男生上网时间与频数分布表
上网时间(分)
[30,40)
[40,50)
[50,60)
[60,70)
[70,80]
人数
5
25
30
25
15
表2:女生上网时间与频数分布表
上网时间(分)
[30,40)
[40,50)
[50,60)
[60,70)
[70,80]
人数
10
20
40
20
10
(1)若该大学共有女生750人,试估计其中上网时间不少于60分钟的人数;
(2)完成下面的2×2列联表,并回答能否有90%的把握认为“大学生上网时间与性别有关”.
上网时间少于60分钟
上网时间不少于60分钟
合计
男生
女生
合计
附:χ2=,其中n=a+b+c+d为样本容量.
α
0.50
0.40
0.25
0.15
0.10

0.455
0.708
1.323
2.072
2.706
α
0.05
0.025
0.010
0.005
0.001

3.841
5.024
6.635
7.879
10.828
解 (1)设上网时间不少于60分钟的女生人数为x,
依题意有=,
解得x=225,
所以估计女生中上网时间不少于60分钟的人数是225.
(2)填2×2列联表如下:
上网时间少于60分钟
上网时间不少于60分钟
合计
男生
60
40
100
女生
70
30
100
合计
130
70
200
由表中数据可得到χ2=≈2.20<2.706=x0.1,
故没有90%的把握认为“大学生上网时间与性别有关”.
18.(本小题满分12分)随着经济的发展某地居民收入逐年增长,下表是该地某银行连续五年的储蓄存款(年底余额):
年份x
2011
2012
2013
2014
2015
储蓄存款y
(千亿元)
5
6
7
8
10
为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2
010,z=y-5得到下表:
时间代号t
1
2
3
4
5
z
0
1
2
3
5
(1)求z关于t的线性回归方程;
(2)通过(1)中的方程,求出y关于x的线性回归方程;
(3)用所求线性回归方程预测到2020年年底,该银行储蓄存款可达多少?
(附:对于线性回归方程=x+,其中=eq
\f(\o(∑,\s\up10(n),\s\do10(i=1))xiyi-n\a\vs4\al(\o(x,\s\up6(-))
)\a\vs4\al(\o(y,\s\up6(-))
),\o(∑,\s\up10(n),\s\do10(i=1))x-n\o(x,\s\up6(-))2),=-)
解 (1)=3,=2.2,tizi=45,t=55,==1.2,=-
=2.2-1.2×3=-1.4,
∴=1.2t-1.4.
(2)将t=x-2
010,z=y-5代入=1.2t-1.4,
得y-5=1.2(x-2
010)-1.4,即=1.2x-2
408.4.
(3)∵x=2
020时,=1.2×2
020-2
408.4=15.6,
∴预测到2020年年底,该银行储蓄存款额可达15.6千亿元.
19.(本小题满分12分)要分析学生中考的数学成绩对高一年级数学学习有什么影响,在高一年级学生中随机抽选10名学生,分析他们入学的数学成绩和高一年级期末数学考试成绩,如下表:
x/分
63
67
45
88
81
71
52
99
58
76
y/分
65
78
52
82
92
89
73
98
56
75
表中x是学生入学成绩,y是高一年级期末考试数学成绩.
(1)画出散点图;
(2)求回归直线方程;
(3)若某学生的入学成绩为80分,试预测他在高一年级期末考试中的数学成绩.
解 (1)作出散点图如图,从散点图可以看出,这两个变量具有线性相关关系.
(2)列表如下:
x
63
67
45
88
81
71
52
99
58
76
y
65
78
52
82
92
89
73
98
56
75
x2
3
969
4
489
2
025
7
744
6
561
5
041
2
704
9
801
3
364
5
776
y2
4
225
6
084
2
704
6
724
8
464
7
921
5
329
9
604
3
136
5
625
xy
4
095
5
226
2
340
7
216
7
452
6
319
3
796
9
702
3
248
5
700
可求得=×(63+67+…+76)=70,
=×(65+78+…+75)=76,
x=51
474,xi
yi=55
094.
∴=≈0.765
56.
≈76-0.765
56×70≈22.41,
故所求的线性回归直线方程为=22.41+0.765
56x.
(3)若学生入学成绩为80分,代入上面线性回归直线方程=22.41+0.765
56x,可求得≈84(分).
故该同学高一期末数学成绩预测为84分.
20.(本小题满分12分)为了了解少年儿童的肥胖是否与常喝碳酸饮料有关,现对30名六年级的学生进行了问卷调查得到如下列联表.平均每天喝500
mL以上为常喝,体重超过50
kg为肥胖.
常喝
不常喝
合计
肥胖
2
不肥胖
18
合计
30
已知在30人中随机抽取1人,抽到肥胖的学生的概率为.
(1)请将上面的列联表补充完整;
(2)是否有99.5%的把握认为肥胖与常喝碳酸饮料有关?说明你的理由;
(3)现从常喝碳酸饮料且肥胖的学生中(其中有2名女生)抽取2人参加电视节目,则正好抽到1男1女的概率是多少?
解 (1)设常喝碳酸饮料且肥胖的学生有x人,则=,解得x=6.
列联表如下:
常喝
不常喝
合计
肥胖
6
2
8
不肥胖
4
18
22
合计
10
20
30
(2)由列联表中数据,得
χ2=≈
8.523>7.879=x0.005.
因此有99.5%的把握认为肥胖与常喝碳酸饮料有关.
(3)设常喝碳酸饮料的肥胖者男生为A,B,C,D,女生为E,F,则任取2人有AB,AC,AD,AE,AF,BC,BD,BE,BF,CD,CE,CF,DE,DF,EF共15种,其中1男1女有AE,AF,BE,BF,CE,CF,DE,DF共8种,故抽出1男1女的概率p=.
21.(本小题满分12分)某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:
日期
12月1日
12月2日
12月3日
12月4日
12月5日
温差x
(℃)
10
11
13
12
8
发芽数y(颗)
23
25
30
26
16
该农科所确定的研究方案是:先从这五组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验.
(1)求选取的2组数据恰好是不相邻2天数据的概率;
(2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程=x+;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?
解 (1)设事件A表示“选取的2组数据恰好是不相邻2天的数据”,则表示“选取的数据恰好是相邻2天的数据”.
基本事件总数为10,事件包含的基本事件数为4.
∴P()==,
∴P(A)=1-P()=.
(2)=12,=27,xi
yi=977,x=434,
∴=eq
\f(\o(∑,\s\up10(3),\s\do10(i=1))xiyi-3\a\vs4\al(\o(x,\s\up6(-))
)\a\vs4\al(\o(y,\s\up6(-))
),\o(∑,\s\up10(3),\s\do10(i=1))x-3\o(x,\s\up6(-))2)==2.5,
=-=27-2.5×12=-3,
∴=2.5x-3.
(3)由(2)知:当x=10时,=22,与检验数据的误差不超过2颗;
当x=8时,=17,与检验数据的误差不超过2颗.
故所求得的线性回归方程是可靠的.
22.(本小题满分12分)某食品厂为了检查甲、乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本,称出它们的质量(单位:克),质量值落在(495,510]的产品为合格品,否则为不合格品.下图是甲流水线样本的频率分布直方图:
乙流水线样本的频数分布表如下:
产品质量(克)
频数
[490,495]
6
(495,500]
8
(500,505]
14
(505,510]
8
(510,515]
4
(1)若以频率作为概率,试估计从甲流水线上任取5件产品,其中合格品的件数X的数学期望;
(2)从乙流水线样本的不合格品中任取2件,求其中超过合格品质量的件数Y的分布列;
(3)由以上统计数据完成下面的2×2列联表,并回答有多大的把握认为“产品的包装质量与两条自动包装流水线的选择有关”.
甲流水线
乙流水线
合计
合格品
a
b
不合格品
c
d
合计
n
参考公式:χ2=,其中n=a+b+c+d.
参考数据:
α
0.15
0.10
0.05
0.025
0.010

2.072
2.706
3.841
5.024
6.635
解 (1)由题图知甲样本中合格品数为(0.06+0.09+0.03)×5×40=36,故合格品的频率为=0.9,据此可估计从甲流水线上任取1件产品,该产品为合格品的概率p=0.9,则X~(5,0.9),E(X)=5×0.9=4.5.
(2)由题表知乙流水线样本中不合格品共10件,超过合格品质量的有4件,则Y的可能取值为0,1,2,且P(Y=k)=eq
\f(CC,C)(k=0,1,2),于是有P(Y=0)=,P(Y=1)=,P(Y=2)=.
所以Y的分布列为:
Y
0
1
2
P
(3)2×2列联表如下:
甲流水线
乙流水线
合计
合格品
36
30
66
不合格品
4
10
14
合计
40
40
80
χ2==≈3.117>2.706=x0.10,所以有90%的把握认为“产品的包装质量与两条自动包装流水线的选择有关”.(共33张PPT)
章末复习课
[网络构建]
[核心归纳]
一、两个基本思想
1.回归分析的基本思想
回归分析包括线性回归分析和非线性回归分析两种,而非线性回归分析往往可以通过变量代换转化为线性回归分析,因此,回归分析的思想主要是指线性回归分析的思想.
注意理解以下几点:
(1)确定线性相关关系
线性相关关系有两层含义:一是具有相关关系,如广告费用与销售量的关系等在一定条件下具有相关关系,而气球的体积与半径的关系是函数关系,而不是相关关系;二是具有线性相关关系.
(4)回归模型的拟合效果
判断回归模型的拟合效果的过程也叫残差分析,残差分析的方法有两种,一是通过残差图直观判断,二是通过计算决定系数R2的大小判断.
2.独立性检验的基本思想
独立性检验的基本思想类似于反证法.要确认两个分类变量有关系的可信程度,先假设两个分类变量没有关系,再计算随机变量χ2的值,最后由χ2的值很大在一定程度上说明两个分类变量有关系.
进行独立性检验要注意理解以下三个问题:
(1)独立性检验适用于两个分类变量.
(2)两个分类变量是否有关系的直观判断:
一是根据2×2列联表计算|ad-bc|,值越大关系越强;
二是观察等高堆积条形图,两个深色条的高度相差越大关系越强;
(3)独立性检验是对两个分类变量有关系的可信程度的判断,而不是对其是否有关系的判断.独立性检验的结论只能是有多大的把握确认两个分类变量有关系,而不能是两个分类变量一定有关系或没有关系.
二、两个重要参数
1.决定系数R2
决定系数R2是用来刻画回归模型的回归效果的,其值越大,残差平方和越小,模型的拟合效果越好.
2.随机变量χ2
随机变量χ2是用来判断两个分类变量在多大程度上相关的变量.独立性检验即计算χ2的值,并与教材中所给表格中的数值进行比较,从而得到两个分类变量在多大程度上相关.
三、两种重要图形
1.散点图
散点图是进行线性回归分析的主要手段,其作用如下:
一是判断两个变量是否具有线性相关关系,如果样本点呈条状分布,则可以断定两个变量有较好的线性相关关系;
二是判断样本中是否存在异常.
2.残差图
残差图可以用来判断模型的拟合效果,其作用如下:
一是判断模型的精度,残差点所分布的带状区域越窄,说明模型的拟合精度越高,回归方程的预报精度越高.
二是确认样本点在采集中是否有人为的错误.
要点一 独立性检验
独立性检验研究的问题是有多大把握认为两个分类变量之间有关系.为此需先列出2×2列联表,从表格中可以直观地得到两个分类变量是否有关系.另外等高条形图能更直观地反映两个分类变量之间的情况.独立性检验的思想是:可以先假设二者无关系,求随机变量χ2的值,若χ2大于临界值,则拒绝假设,否则,接受假设.
【例1】 考察小麦种子灭菌与否跟发生黑穗病的关系,经试验观察,得到数据如下表:
试分析种子灭菌与小麦发生黑穗病是否有关?
?
种子灭菌
种子未灭菌
合计
黑穗病
26
184
210
无黑穗病
50
200
250
合计
76
384
460
解 零假设为H0:
认为种子灭菌与否与小麦发生黑穗病无关系.
由列联表的数据可求得
而4.804>3.841=x0.05,
根据小概率值α=0.05的χ2独立性检验,我们推断H0不成立,即认为种子是否灭菌与小麦发生黑穗病有关系,此推断犯错误的概率不超过0.05.
【训练1】 在研究某种新措施对猪白痢的防治效果问题时,得到以下数据:
试问新措施对防治猪白痢是否有效?
?
存活数
死亡数
合计
对照
114
36
150
新措施
132
18
150
合计
246
54
300
解 零假设为H0:新措施对防治猪白痢无效,
由列联表可求得
根据小概率值α=0.01的χ2独立性检验,我们推断H0不成立,即认为新措施对防治猪白痢有效,此推断犯错误的概率不超过0.01.
要点二 回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.其基本步骤为:通过散点图和经验选择回归方程的类型,然后通过一定的规则确定出相应的回归方程,通过一定的方法进行检验,最后应用于实际或对预报变量进行预测.
【例2】 某地搜集到的新房屋的销售价格y(单位:万元)和房屋面积x(单位:m2)的数据如下表:
房屋面积x/m2
115
110
80
135
105
销售价格y/万元
24.8
21.6
18.4
29.2
22
(1)画出数据对应的散点图;
(2)求回归直线方程;
(3)根据(2)的结果,估计当房屋面积为150
m2时的销售价格.
解 (1)设x轴表示房屋的面积,y轴表示销售价格,数据对应的散点图如图.
故当房屋面积为150
m2时,估计销售价格是31.244
2万元.
【训练2】 在一段时间内,分5次测得某种商品的价格x(万元)和需求量y(t)之间的一组数据为
?
1
2
3
4
5
价格x
1.4
1.6
1.8
2
2.2
需求量y
12
10
7
5
3
解 (1)散点图如下图所示:
样本点分布在一条直线附近,y与x具有线性相关关系.
故价格定为1.9万元,预测需求量大约为6.25
t.
要点三 数形结合思想
数形结合思想就是在解决与几何图形有关的问题时,将图形信息转换成代数信息,利用数量特征,将其转化为代数问题;在解决与数量有关的问题时,根据数量的结构特征,构造出相应的几何图形,即化为几何问题,从而利用数形的辩证统一和各自的优势尽快得到解决途径,这对提高分析和解决问题的能力有极大的帮助.数形结合的主要途径:
(1)形转化为数,即用代数方法研究几何问题,这是解决几何问题的基本方法;
(2)数转化为形,即根据给出的“数”的结构特点,构造出与之相应的几何图形,用几何方法解决代数问题;
(3)数形结合,即用形研究数,用数研究形,相互结合,使问题变得直观、简捷.
在进行回归分析时,常利用散点图、残差图等说明线性相关情况或模型的拟合效果.
在独立性检验中,我们常用等高堆积条形图直观地反映数据的情况,从而可以粗略地判断两个分类变量是否有关系.
【例3】 电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.如图所示的是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图.将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的2×2列联表,据此资料你是否认为“体育迷”与性别有关?
?
非体育迷
体育迷
合计

?
?
?

?
10
55
合计
?
?
?
(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列,期望E(X)和方差D(X).
α
0.05
0.01

3.841
6.635
解 (1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:
?
非体育迷
体育迷
合计

30
15
45

45
10
55
合计
75
25
100
将2×2列联表中的数据代入公式计算,得:
因为3.030<3.841=x0.05,所以没有理由认为“体育迷”与性别有关.
【训练3】 PM2.5(细颗粒物)是指空气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒物).为了探究车流量与PM2.5的质量分数是否相关,现采集到某城市周一至周五某一时间段车流量与PM2.5的数据如下表:
时间
周一
周二
周三
周四
周五
车流量x/万辆
50
51
54
57
58
PM2.5的质量分数y/(微克/立方米)
69
70
74
78
79
(1)根据上表数据,请在下面坐标系(如图)中画出散点图;
解 (1)散点图如图所示.
样本点分布在一条直线附近,y与x具有线性相关关系.
∴可以预测此时PM2.5的质量分数约为37微克/立方米.