章末复习
学习目标 1.理解独立性检验的基本思想及实施步骤.2.会求回归直线方程,并用回归直线进行预报.
1.2×2列联表
2×2列联表如表所示:
B
合计
A
n11
n12
n1+
n21
n22
n2+
合计
n+1
n+2
n
其中n+1=n11+n21,n+2=n12+n22,
n1+=n11+n12,n2+=n21+n22,
n=n11+n21+n12+n22.
2.最小二乘法
对于一组数据(xi,yi),i=1,2,…,n,如果它们线性相关,则回归直线方程为=x+,其中==,=-.
3.独立性检验
常用统计量
χ2=来检验两个变量是否有关系.
类型一 独立性检验
例1 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:
喜爱打篮球
不喜爱打篮球
合计
男生
6
女生
10
合计
48
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为.
(1)请将上面的2×2列联表补充完整;(不用写计算过程)
(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由.
考点 独立性检验及其基本思想
题点 独立性检验的综合应用
解 (1)列联表补充如下:
喜爱打篮球
不喜爱打篮球
合计
男生
22
6
28
女生
10
10
20
合计
32
16
48
(2)由χ2=≈4.286.
因为4.286>3.841,所以能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关.
反思与感悟 通过公式χ2=
计算出χ2的值,再与临界值作比较,最后得出结论.
跟踪训练1 奥运会期间,为调查某高校学生是否愿意提供志愿者服务,用简单随机抽样方法从该校调查了60人,结果如下:
是否愿意提供
志愿者服务
性别
愿意
不愿意
男生
20
10
女生
10
20
(1)用分层抽样的方法在愿意提供志愿者服务的学生中抽取6人,其中男生抽取多少人?
(2)你能否在犯错误的概率不超过0.01的前提下认为该高校学生是否愿意提供志愿者服务与性别有关?
下面的临界值表供参考:
P(χ2≥x0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
x0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
考点 独立性检验思想的应用
题点 独立性检验在分类变量中的应用
解 (1)由题意,可知男生抽取6×=4(人).
(2)χ2=≈6.667,由于6.667>6.635,所以能在犯错误的概率不超过0.01的前提下认为该高校学生是否愿意提供志愿者服务与性别有关.
类型二 线性回归分析
例2 某城市理论预测2010年到2014年人口总数与年份的关系如表所示:
年份201x(年)
0
1
2
3
4
人口数y(十万)
5
7
8
11
19
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,求出y关于x的回归直线方程=x+;
(3)据此估计2019年该城市人口总数.
考点 回归分析思想的应用
题点 回归分析思想的应用
解 (1)散点图如图:
(2)因为==2,
==10,
iyi=0×5+1×7+2×8+3×11+4×19=132,
=02+12+22+32+42=30,
所以==3.2,
=-=3.6.
所以回归直线方程为=3.2x+3.6.
(3)令x=9,则=3.2×9+3.6=32.4,
故估计2019年该城市人口总数为32.4(十万).
反思与感悟 解决回归分析问题的一般步骤
(1)画散点图.根据已知数据画出散点图.
(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.
(3)实际应用.依据求得的回归方程解决实际问题.
跟踪训练2 某运动员训练次数与运动成绩之间的数据关系如下:
次数x
30
33
35
37
39
44
46
50
成绩y
30
34
37
39
42
46
48
51
(1)作出散点图;
(2)求出回归直线方程;
(3)计算相关系数并进行相关性检验;
(4)试预测该运动员训练47次及55次的成绩.
解 (1)作出该运动员训练次数x与成绩y之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.
(2)列表计算:
次数xi
成绩yi
x
y
xiyi
30
30
900
900
900
33
34
1089
1156
1122
35
37
1225
1369
1295
37
39
1369
1521
1443
39
42
1521
1764
1638
44
46
1936
2116
2024
46
48
2116
2304
2208
50
51
2500
2601
2550
由上表可求得=39.25,=40.875,x=12656,
y=13731,xiyi=13180,
∴=≈1.0415,=-=-0.00388,
∴回归直线方程为y=1.0415x-0.00388.
(3)计算相关系数r=0.9927,因此运动员的成绩和训练次数两个变量有较强的相关关系.
(4)由上述分析可知,我们可用回归直线方程y=1.0415x-0.00388作为该运动员成绩的预报值.
将x=47和x=55分别代入该方程可得y≈49和y≈57.故预测该运动员训练47次和55次的成绩分别为49和57.
1.从某地区老人中随机抽取500人,其生活能否自理的情况如下表所示,则( )
性别
人数
生活能否自理
男
女
能
178
278
不能
23
21
A.有95%的把握认为老人生活能否自理与性别有关
B.有99%的把握认为老人生活能否自理与性别有关
C.没有充分理由认为老人生活能否自理与性别有关
D.以上都不对
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 C
解析 经计算,得χ2=
≈2.925<3.841,
故我们没有充分的理由认为老人生活能否自理与性别有关.
2.“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时由高尔顿提出的,他的研究结果是子代的平均身高向中心回归.根据他的结论,在儿子的身高y与父亲的身高x的回归直线方程=x+中,的值( )
A.在(-1,0)内 B.等于0
C.在(0,1)内 D.在[1,+∞)内
考点 线性回归分析
题点 回归直线方程的应用
答案 C
解析 子代平均身高向中心回归,应为正的真分数,故选C.
3.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①②B.②③C.③④D.①④
考点 线性回归分析
题点 回归直线方程的应用
答案 D
解析 ①中,回归方程中x的系数为正,不是负相关;④中,回归方程中x的系数为负,不是正相关,所以①④一定不正确.
4.对于回归直线方程=x+,当x=3时,对应的y的估计值是17,当x=8时,对应的y的估计值是22,那么,该回归直线方程是________,根据回归直线方程判断当x=________时,y的估计值是38.
考点 线性回归分析
题点 回归直线方程的应用
答案 =x+14 24
解析 首先把两组值代入回归直线方程,得
解得
所以回归直线方程是=x+14.
令x+14=38,可得x=24,即当x=24时,y的估计值是38.
1.建立回归模型的基本步骤
(1)确定研究对象,明确哪个变量是自变量,哪个变量是因变量.
(2)画出散点图,观察它们之间的关系.
(3)由经验确定回归方程的类型.
(4)按照一定的规则估计回归方程中的参数.
2.独立性检验是对两个分类变量间是否存在相关关系的一种案例分析方法.
一、选择题
1.当χ2>3.841时,认为事件A与事件B( )
A.有95%的把握有关
B.有99%的把握有关
C.没有理由说它们有关
D.不确定
答案 A
2.下表显示出样本中变量y随变量x变化的一组数据,由此判断它最可能是( )
x
4
5
6
7
8
9
10
y
14
18
19
20
23
25
28
A.线性函数模型 B.二次函数模型
C.指数函数模型 D.对数函数模型
考点 回归分析
题点 建立回归模型的基本步骤
答案 A
解析 画出散点图(图略)可以得到这些样本点在某一条直线上或在该直线附近,故最可能是线性函数模型.
3.下表是某厂1~4月份用水量(单位:百吨)的一组数据:
月份x
1
2
3
4
用水量y
4.5
4
3
2.5
由散点图可知,用水量y与月份x之间有较好的线性相关关系,其回归直线方程是=-0.7x+,则等于( )
A.10.5B.5.15C.5.2D.5.25
考点 回归直线方程
题点 样本中心点的应用
答案 D
解析 样本点的中心为(2.5,3.5),将其代入回归直线方程可解得=5.25.
4.据统计,用于数学学习的时间(单位:小时)与成绩(单位:分)近似于线性相关关系,对某小组每周用于数学学习时间x与数学成绩y进行数据收集如表:
x
15
16
18
19
22
y
102
98
115
115
120
由表中样本数据求回归直线方程=x+,则点(,)与直线x+18y=110的位置关系为( )
A.点在直线左侧 B.点在直线右侧
C.点在直线上 D.无法确定
考点 回归直线方程
题点 样本点中心的性质
答案 C
解析 由题意知=18,=110,样本点中心为(18,110)在回归直线上,故110=18+,即点(,)在直线上.
5.某考察团对全国10大城市进行职工人均工资水平x(单位:千元)与居民人均消费水平y(单位:千元)统计调查,y与x具有线性相关关系,回归直线方程为=0.66x+1.562.若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为( )
A.83%B.72%C.67%D.66%
考点 线性回归分析
题点 回归直线方程的应用
答案 A
解析 将y=7.675代入回归直线方程,可计算得x≈9.26,所以该城市人均消费额占人均工资收入的百分比约为7.675÷9.26≈0.83,即约为83%.
6.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
考点 线性回归分析
题点 回归直线方程的应用
答案 C
解析 因为y=-0.1x+1,-0.1<0,所以x与y负相关.又y与z正相关,故可设z=ay+b(a>0),所以z=-0.1ax+a+b,-0.1a<0,所以x与z负相关.故选C.
二、填空题
7.已知x与y之间的一组数据:
x
0
2
4
6
y
a
3
5
3a
已求得关于y与x的回归直线方程为=1.2x+0.55,则a=________.
考点 线性回归分析
题点 回归直线方程的应用
答案 2.15
解析 =3,=a+2,将(3,a+2)代入方程,得a+2=3.6+0.55,解得a=2.15.
8.某工厂为了新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单位x(元)
4
5
6
7
8
9
销量y(件)
90
84
83
80
75
68
由表中数据,求得回归直线方程为=-4x+,若在这些样本点中任取一点,则它在回归直线左下方的概率为________.
考点 线性回归分析
题点 回归直线方程的应用
答案
解析 由表中数据得=6.5,=80,由点(,)在直线=-4x+上,得=106,即回归直线方程为=-4x+106,经过计算只有点(9,68)和(5,84)在直线的左下方,故所求概率为=.
9.某工厂为了调查工人文化程度与月收入之间的关系,随机调查了部分工人,得到如下表所示的2×2列联表(单位:人):
月收入2000元以下
月收入2000元及以上
总计
高中文化以上
10
45
55
高中文化及以下
20
30
50
总计
30
75
105
由2×2列联表计算可知,我们有________以上的把握认为“文化程度与月收入有关系”.
P(χ2≥x0)
0.15
0.10
0.05
0.025
0.01
0.001
x0
2.072
2.706
3.841
5.024
6.635
10.828
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 97.5%
解析 由表中的数据可得χ2=≈6.109,
由于6.109>5.024,
所以我们有97.5%以上的把握认为“文化程度与月收入有关系”.
10.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得χ2≈3.918,经查临界值表知P(χ2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.
①在犯错误的概率不超过5%的前提下认为“这种血清能起到预防感冒的作用”;
②若某人未使用该血清,则他在一年中有95%的可能性得感冒;
③这种血清预防感冒的有效率为95%.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 ①
解析 查临界值表知P(χ2≥3.841)≈0.05,故有95%的把握认为“这种血清能起到预防感冒的作用”.95%仅是指“血清与预防感冒有关”的可信程度,但也有“在100个使用血清的人中一个患感冒的人也没有”的可能.故答案为①.
三、解答题
11.某城区为研究城镇居民家庭月人均生活费支出和月人均收入的相关关系,随机抽取10户进行调查,其结果如下:
月人均收入x(元)
300
390
420
520
570
月人均生活费y(元)
255
324
335
360
450
月人均收入x(元)
700
760
800
850
1080
月人均生活费y(元)
520
580
600
630
750
(1)作出散点图;
(2)求出回归直线方程;
(3)试预测月人均收入为1100元和月人均收入为1200元的两个家庭的月人均生活费.
考点
题点
解 (1)作出散点图如图所示,由图可知月人均生活费与月人均收入之间具有较强的线性相关关系.
(2)通过计算可知=639,=480.4,
x=4610300,xiyi=3417560,
∴=≈0.6599,=-=58.7239,
∴回归直线方程为=0.6599x+58.7239.
(3)由以上分析可知,我们可以利用线性回归方程
=0.6599x+58.7239来计算月人均生活费的预测值.
将x=1100代入,得y≈784.61,
将x=1200代入,得y≈850.60.
故预测月人均收入分别为1100元和1200元的两个家庭的月人均生活费分别为784.61元和850.60元.
12.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:
甲厂:
分组
[29.86,29.90)
[29.90,29.94)
[29.94,29.98)
[29.98,30.02)
[30.02,30.06)
[30.06,30.10)
[30.10,30.14]
频数
12
63
86
182
92
61
4
乙厂:
分组
[29.86,29.90)
[29.90,29.94)
[29.94,29.98)
[29.98,30.02)
[30.02,30.06)
[30.06,30.10)
[30.10,30.14]
频数
29
71
85
159
76
62
18
(1)试分别估计两个分厂生产的零件的优质品率;
(2)由以上统计数据填写下面的2×2列联表,并问能否在犯错误的概率不超过0.01的前提下认为“两个分厂生产的零件的质量有差异”?
甲厂
乙厂
合计
优质品
非优质品
合计
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为=72%;
乙厂抽查的产品中有'320件优质品,从而乙厂生产的零件的优质品率估计为=64%.
(2)2×2列联表如下:
甲厂
乙厂
合计
优质品
360
320
680
非优质品
140
180
320
合计
500
500
1000
χ2=≈7.353>6.635,
所以在犯错误的概率不超过0.01的前提下认为“两个分厂生产的零件的质量有差异.”
四、探究与拓展
13.某校高一年级理科有8个班,在一次数学考试中成绩情况分析如下:
班级
1
2
3
4
5
6
7
8
大于145分的人数
6
6
7
3
5
3
3
7
不大于145分的人数
39
39
38
42
40
42
42
38
附:xiyi=171,x=204.
求145分以上人数y对班级序号x的回归直线方程.(精确到0.0001)
考点 独立性检验思想的应用
题点 独立性检验与回归直线方程、期望的综合应用
解 =4.5,=5,xiyi=171,x=204,
==
=-≈-0.2143,
=-=5-(-0.2143)×4.5≈5.9644,
∴回归直线方程为=-0.2143x+5.9644.