2018版高中数学苏教版选修2-3学案:第三章统计案例(4份)

文档属性

名称 2018版高中数学苏教版选修2-3学案:第三章统计案例(4份)
格式 zip
文件大小 599.7KB
资源类型 教案
版本资源 苏教版
科目 数学
更新时间 2018-11-03 17:10:46

文档简介

3.1 独立性检验
学习目标 1.了解2×2列联表的意义.2.了解统计量χ2的意义.3.通过对典型案例分析,了解独立性检验的基本思想和方法.
知识点一 2×2列联表
思考 山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:
体育
文娱
合计
男生
210
230
440
女生
60
290
350
合计
270
520
790
如何判定“喜欢体育还是文娱与性别是否有联系”?
 
 
梳理 (1)2×2列联表的定义
对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B;Ⅱ也有两类取值,即类1和类2.我们得到如下列联表所示的抽样数据:

类1
类2
合计

类A
a
b
类B
c
d
合计
a+b+c+d
(2)χ2统计量的求法
公式χ2=.
知识点二 独立性检验
独立性检验的概念
用χ2统计量研究两变量是否有关的方法称为独立性检验.
知识点三 独立性检验的步骤
1.独立性检验的步骤
要判断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:
(1)提出假设H0:__________________;
(2)根据2×2列联表及χ2公式,计算________的值;
(3)查对临界值,作出判断.
其中临界值如表所示:
P(χ2≥x0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
x0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
表示在H0成立的情况下,事件“_____________________________________”发生的概率.
2.推断依据
(1)若χ2>10.828,则有99.9%的把握认为“Ⅰ与Ⅱ有关系”.
(2)若χ2>6.635,那么有99%的把握认为“Ⅰ与Ⅱ有关系”.
(3)若χ2>2.706,那么有90%的把握认为“Ⅰ与Ⅱ有关系”.
(4)若χ2≤2.706,那么就认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“H0成立”,即Ⅰ与Ⅱ没有关系.
类型一 2×2列联表
例1 在一项有关医疗保健的社会调查中,发现调查的男性为530人,女性为670人,其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为492人,请作出性别与喜欢吃甜食的列联表.
 
 
 
反思与感悟 分清类别是列联表的作表关键步骤.表中排成两行两列的数据是调查得来的结果.
跟踪训练1 (1)下面是2×2列联表:
y1
y2
合计
x1
a
21
73
x2
2
25
27
合计
b
46
100
则表中a,b的值分别为________,________.
(2)某学校对高三学生作一项调查后发现:在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张,性格外向的594名学生中有213名在考前心情紧张.作出2×2列联表.
 
 
 
 
 
 
类型二 由χ2进行独立性检验
例2 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示.
又发作心脏病过
未发作过心脏病
合计
心脏搭桥手术
39
157
196
血管清障手术
29
167
196
合计
68
324
392
试根据上述数据比较这两种手术对病人又发作过心脏病的影响有没有差别.
 
 
 
 
 
 
 
 
反思与感悟 独立性检验的关注点
在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.
跟踪训练2 某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
(1)根据以上数据建立一个2×2列联表;
(2)判断是否有99%的把握说明对新课程教学模式的赞同情况与教师年龄有关系.
 
 
 
 
 
类型三 独立性检验的综合应用
例3 电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,并根据调查结果绘制了观众日均收看该体育节目时间的频率分布直方图如图.
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的2×2列联表,并据此资料推断“体育迷”与性别是否有关?
非体育迷
体育迷
合计


10
55
合计
(2)将上述调查所得的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的概率分布,均值E(X)和方差V(X).
附:χ2=.
P(χ2≥x0)
0.10
0.05
0.01
x0
2.706
3.841
6.635
 
 
 
 
 
反思与感悟 独立性检验的步骤
第一步,假设两个分类变量X与Y无关系;第二步,找相关数据,列出2×2列联表;第三步,由公式χ2=(其中n=a+b+c+d)计算出χ2的值;第四步,将χ2的值与临界值进行比较,进而作出统计推断.这些临界值,在高考题中常会附在题后,应适时采用.
跟踪训练3 某地区甲校高二年级有1 100人,乙校高二年级有900人,为了统计两个学校高二年级在学业水平考试中的数学学科成绩,采用分层抽样的方法在两校共抽取了200名学生的数学成绩,如下表:(已知本次测试合格线是50分,两校合格率均为100%)
甲校高二年级数学成绩:
分组
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
10
25
35
30
x
乙校高二年级数学成绩:
分组
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
15
30
25
y
5
(1)计算x,y的值,并分别估计以上两所学校数学成绩的平均分;(精确到1分)
(2)若数学成绩不低于80分为优秀,低于80分为非优秀,根据以上统计数据填写下面2×2列联表,并回答能否在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异”?
甲校
乙校
总计
优秀
非优秀
总计
 
 
 
 
1.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算χ2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(填有关,无关)
2.为了考察长头发与女性头晕是否有关系,随机抽查301名女性,得到如下所示的列联表,试根据表格中已有数据填空.
经常头晕
很少头晕
合计
长发
35

121
短发
37
143

合计
72


则空格中的数据分别为:①________;②________;③________;④________.
3.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是________.(填序号)
①若χ2>6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
②从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;
③若从χ2与临界值的比较中得出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误.
4.某科研机构为了研究中年人秃发与心脏病是否有关,随机调查了一些中年人的情况,具体数据如表:
心脏病
无心脏病
秃发
20
300
不秃发
5
450
根据表中数据得到χ2=≈15.968,因为χ2>6.635,则断定秃发与心脏病有关系,那么这种判断出错的可能性为________.
5.根据下表计算:
不看电视
看电视

37
85

35
143
χ2≈________.(保留3位小数)
1.列联表
列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有相关关系.
2.对独立性检验思想的理解
独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算统计量χ2的值,如果χ2的值很大,说明假设不合理.χ2越大,两个分类变量有关系的可能性越大.
答案精析
问题导学
知识点一
思考 可通过表格与图形进行直观分析,也可通过统计分析定量判断.
梳理 (1)a+b c+d a+c b+d
知识点三
1.(1)Ⅰ与Ⅱ没有关系 (2)χ2 (3)χ2≥x0
题型探究
例1 解 作列联表如下:
喜欢甜食
不喜欢甜食
合计

117
413
530

492
178
670
合计
609
591
1 200
跟踪训练1 (1)52 54
解析 ∵a+21=73,∴a=52.
又∵a+2=b,∴b=54.
(2)解 作列联表如下:
性格内向
性格外向
合计
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
合计
426
594
1 020
例2 解 假设病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术没有关系,由表中数据得a=39,b=157,c=29,d=167,a+b=196,c+d=196,a+c=68,b+d=324,n=392,
由公式得
χ2=
≈1.779.
因为χ2≈1.779<2.706,所以不能得出病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术有关系的结论,即这两种手术对病人又发作过心脏病的影响没有差别.
跟踪训练2 解 (1)2×2列联表如下所示:
赞同
不赞同
总计
老教师
10
10
20
青年教师
24
6
30
总计
34
16
50
(2)假设“对新课程教学模式的赞同情况与教师年龄无关”.
由公式得χ2=
≈4.963<6.635,
所以没有99%的把握认为对新课程教学模式的赞同情况与教师年龄有关.
例3 解 (1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:
非体育迷
体育迷
合计

30
15
45

45
10
55
合计
75
25
100
将2×2列联表中的数据代入公式计算,
得χ2==
≈3.030.
因为2.706<3.030<3.841,所以在犯错误的概率不超过0.10的前提下认为“体育迷”与性别有关.
(2)由频率分布直方图知,抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为.
由题意知,X~B(3,),从而X的概率分布为
X
0
1
2
3
P




故E(X)=np=3×=,
V(X)=np(1-p)=3××=.
跟踪训练3 解 (1)依题意知,甲校应抽取110人,乙校应抽取90人,
∴x=10,y=15,
估计两个学校的平均分,甲校的平均分为

≈75.
乙校的平均分为

≈71.
(2)数学成绩不低于80分为优秀,低于80分为非优秀,得到2×2列联表如下:
甲校
乙校
总计
优秀
40
20
60
非优秀
70
70
140
总计
110
90
200
χ2=≈4.714,
又4.714>3.841,故能在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异”.
当堂训练
1.有关 2.86 180 229 301 3.③
4.0.01 5.4.514
3.2 回归分析
学习目标 1.会建立线性回归模型分析两个变量间的相关关系.2.能通过相关系数判断两个变量间的线性相关程度.3.了解非线性回归分析.
知识点一 线性回归模型
思考 某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表:
推销员编号
1
2
3
4
5
工作年限x/年
3
5
6
7
9
推销金额y/万元
2
3
3
4
5
请问如何表示推销金额y与工作年限x之间的相关关系?y关于x的线性回归方程是什么?
 
 
 
 
 
 
 
 
 
梳理 线性回归模型
(1)随机误差
具有线性相关关系的两个变量的取值x、y,y的值不能由x完全确定,可将x,y之间的关系表示为y=a+bx+ε,其中________是确定性函数,________称为随机误差.
(2)随机误差产生的主要原因
①所用的______________不恰当引起的误差;
②忽略了________________;
③存在________误差.
(3)线性回归模型中a,b值的求法
y=__________称为线性回归模型.
a,b的估计值为,,则

(4)回归直线和线性回归方程
直线=+x称为回归直线,此直线方程即为线性回归方程,称为____________,称为____________,称为__________.
知识点二 样本相关系数r
具有相关关系的两个变量的线性回归方程=x+.
思考1 变量与真实值y一样吗?
 
思考2 变量与真实值y之间误差大了好还是小了好?
 
梳理 样本相关系数r及其性质
(1)r=________________________________.
(2)r具有以下性质:
①|r|≤________;
②|r|越接近于________,x,y的线性相关程度越强;
③|r|越接近于________,x,y的线性相关程度越弱.
知识点三 对相对关系数r进行显著性检验的基本步骤
1.________________:变量x,y不具有线性相关关系;
2.如果以95%的把握作出判断,那么可以根据1-0.95=0.05与n-2在教材附录2中查出一个r的临界值r0.05(其中1-0.95=0.05称为检验水平);
3.计算__________________;
4.作出统计推断:若|r|>________,则否定H0,表明有________的把握认为x与y之间具有线性相关关系;若|r|≤r0.05,则________________原来的假设H0,即就目前数据而言,没有充分理由认为y与x之间有线性相关关系.
类型一 求线性回归方程
例1 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x
6
8
10
12
y
2
3
5
6
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.
(相关公式:=,=-)
 
 
 
 
 
 
 
 
 
反思与感悟 (1)求线性回归方程的基本步骤
①列出散点图,从直观上分析数据间是否存在线性相关关系.
②计算:,,,iyi.
③代入公式求出=x+中参数,的值.
④写出线性回归方程并对实际问题作出估计.
(2)需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.
跟踪训练1 某班5名学生的数学和物理成绩如下表:
学生编号
1
2
3
4
5
学科编号
A
B
C
D
E
数学成绩(x)
88
76
73
66
63
物理成绩(y)
78
65
71
64
61
(1)画出散点图;
(2)求物理成绩y对数学成绩x的线性回归方程;
(3)一名学生的数学成绩是96,试预测他的物理成绩.
 
 
 
 
 
 
 
 
 
类型二 线性回归分析
例2 现随机抽取了某中学高一10名在校学生,他们入学时的数学成绩(x)与入学后第一次考试的数学成绩(y)如下:
学生号
1
2
3
4
5
6
7
8
9
10
x
120
108
117
104
103
110
104
105
99
108
y
84
64
84
68
69
68
69
46
57
71
请问:这10名学生的两次数学成绩是否具有线性关系?
 
 
 
 
 
 
 
 
 
 
反思与感悟 相关关系的两种判定方法及流程
(1)利用散点图判定的流程
(2)利用相关系数判定的流程
―→
跟踪训练2 一台机器由于使用时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少,随机器运转的速度而变化,下表为抽样试验的结果:
转速x(转/秒)
16
14
12
8
每小时生产有缺点的零件数y(件)
11
9
8
5
对变量y与x进行线性相关性检验.
 
 
 
类型三 非线性回归分析
例3 下表为收集到的一组数据:
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
(1)作出x与y的散点图,并猜测x与y之间的关系;
(2)建立x与y的关系;
(3)利用所得模型,估计当x=40时y的值.
 
 
 
 
 
 
 
反思与感悟 非线性回归问题的处理方法
(1)指数函数型y=ebx+a
①函数y=ebx+a的图象
②处理方法:两边取对数,得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.
(2)对数函数型y=bln x+a
①函数y=bln x+a的图象:
②处理方法:设x′=ln x,原方程可化为y=bx′+a,
再根据线性回归模型的方法求出a,b.
(3)y=bx2+a型
处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.
跟踪训练3 已知某种食品每千克的生产成本y(元)与生产该食品的重量x(千克)有关,经生产统计得到以下数据:
x
1
2
3
5
10
y
10.15
5.52
4.08
2.85
2.11
x
20
30
50
100
200
y
1.62
1.41
1.30
1.21
1.15
通过以上数据,判断该食品的生产成本y(元)与生产的重量x(千克)的倒数之间是否具有线性相关关系.若有,求出y关于的回归方程,并估计一下生产该食品500千克时每千克的生产成本是多少.(精确到0.01)
 
 
 
1.设有一个线性回归方程=2-1.5x,当变量x增加1个单位时,y平均________个单位.
2.如图四个散点图中,适合用线性回归模型拟合其中两个变量的是________.(填序号)
3.某厂节能降耗技术改造后,在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据如表:
x
3
4
5
6
y
2.5
t
4
4.5
根据上表提供的数据,求出y关于x的线性回归方程为=0.7x+0.35,则上表中的t=________.
4.下表是x和y之间的一组数据,则y关于x的回归直线必过点________.
x
1
2
3
4
y
1
3
5
7
5.已知x、y之间的一组数据如下表:
x
0
1
2
3
y
1
3
5
7
(1)分别计算:、、x1y1+x2y2+x3y3+x4y4、x+x+x+x;
(2)已知变量x与y线性相关,求出回归方程.
 
 
 
 
 
回归分析的步骤
(1)确定研究对象,明确哪个变量是自变量,哪个变量是因变量;
(2)画出确定好的自变量和因变量的散点图,观察它们之间的关系(如是否存在线性关系等);
(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程=x+);
(4)按一定规则估计回归方程中的参数.
答案精析
问题导学
知识点一
思考 画出散点图,由图可知,样本点散布在一条直线附近,因此可用回归直线表示变量之间的相关关系.
设所求的线性回归方程为=x+,
则===0.5,
=-=0.4.
所以年推销金额y关于工作年限x的线性回归方程为=0.5x+0.4.
梳理 (1)a+bx ε (2)①确定性函数
②某些因素的影响 ③观测
(3)a+bx+ε  -
(4)回归截距 回归系数 回归值
知识点二
思考1 不一定.
思考2 越小越好.
梳理 (1)
(2)①1 ②1 ③0
知识点三
1.提出统计假设H0 3.样本相关系数r
4.r0.05 95% 没有理由拒绝
题型探究
例1 解 (1)如图:
(2)iyi=6×2+8×3+10×5+12×6=158,
==9,==4,
=62+82+102+122=344,
===0.7,
=-=4-0.7×9=-2.3,
故线性回归方程为=0.7x-2.3.
(3)由(2)中线性回归方程可知,当x=9时,=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.
跟踪训练1 解 (1)散点图如图.
(2)=×(88+76+73+66+63)
=73.2,
=×(78+65+71+64+61)=67.8.
iyi=88×78+76×65+73×71+66×64+63×61=25 054.
=882+762+732+662+632=27 174.
所以=
=≈0.625.
=-≈67.8-0.625×73.2=22.05.
所以y对x的线性回归方程是=0.625x+22.05.
(3)当x=96时,=0.625×96+22.05≈82,即可以预测他的物理成绩是82.
例2 解 =(120+108+…+99+108)=107.8,
=(84+64+…+57+71)=68.
=1202+1082+…+992+1082
=116 584.
=842+642+…+572+712=47 384.
iyi=120×84+108×64+…+99×57+108×71=73 796.
所以相关系数为
r=
≈0.751.
由检验水平0.05及n-2=8,
在附录2中查得r0.05=0.632.
因为0.751>0.632,
由此可看出这10名学生的两次数学成绩具有较强的线性相关关系.
跟踪训练2 解 由题中数据可得=12.5,=8.25,
iyi=438,4 =412.5,=660,=291,
所以r=
=
=≈0.995.
由检验水平0.05及n-2=2,在教材附录表2中查得r0.05=0.950,因为r>r0.05,所以y与x具有线性相关关系.
例3 解 (1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数型函数曲线y=c1ec2x的周围,其中c1、c2为待定的参数.
(2)对两边取对数把指数关系变为线性关系,令z=ln y,则有变换后的样本点应分布在直线z=bx+a,a=ln c1,b=c2的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程,数据可以转化为
x
21
23
25
27
29
32
35
z
1.946
2.398
3.045
3.178
4.190
4.745
5.784
求得线性回归方程为
=0.272x-3.849,
∴=e0.272x-3.849.
(3)当x=40时,=e0.272x-3.849≈1 131.
跟踪训练3 解 设u=,通过已知数据得到y与u的相应数据为
u=
1
0.5
0.33
0.2
0.1
y
10.15
5.52
4.08
2.85
2.11
u=
0.05
0.03
0.02
0.01
0.005
y
1.62
1.41
1.30
1.21
1.15
根据上述数据可求得相关系数
r=
≈0.999 8,
于是有很大的把握认为y与具有线性相关关系.
而=≈8.973,
=-·≈1.126,
于是y与的回归方程为=+1.126.
当x=500时,=+1.126≈1.14.
所以估计生产该食品500千克时每千克的生产成本是1.14元.
当堂训练
1.减少1.5 2.①③ 3.3 4.(2.5,4)
5.解 (1)==1.5,==4,
x1y1+x2y2+x3y3+x4y4=0×1+1×3+2×5+3×7=34,
x+x+x+x=02+12+22+32=14.
(2)==2,
=- =4-2×1.5=1,
故=2x+1.
第三章 统计案例
              1 本章知识大串烧
一、独立性检验的基本思想
通过分析数据与图形,得出的估计是粗略的,因为我们说的“大得多”、“小得多”,到底是有多大的差距?也就是说得到的结论是直观上的印象,其实与是否有关还是有较大的差距的.
下面从理论上说明两个变量是否有关,请同学们从中体会其思想方法.
1.基本思想与图形的联系
假设两个变量是无关的,可知如下的比应差不多,即:
≈?|ad-bc|=0.
构造统计量χ2=(其中n=a+b+c+d)(此公式如何记忆,其特点是什么?结合2×2列联表理解),显然所构造的统计量与|ad-bc|的大小具有一致性.
2.独立性检验的思想方法
如果χ2的值较大,说明其发生(无关系)的概率很小,此时不接受假设,也就是两个变量是有关系的(称小概率事件发生);如果χ2的值较小,此时接受假设,说明两分类变量是无关系的.其思想方法类似于数学上的反证法.
3.得到χ2的值常与以下几个临界值加以比较:
如果χ2>2.706,就有90%的把握认为Ⅰ和Ⅱ有关系;如果χ2>3.841,就有95%的把握认为Ⅰ和Ⅱ有关系;如果χ2>6.635,就有99%的把握认为Ⅰ和Ⅱ有关系;如果χ2>10.828,就有99.9%的把握认为Ⅰ和Ⅱ有关系;如果χ2≤2.706,就认为没有充分的证据显示Ⅰ和Ⅱ有关系.
像这种利用统计量χ2来确定在多大程度上可以认为“两个变量有关系”的方法称为两个变量的独立性检验.
二、回归分析
1.线性回归方程 = x+ ,其中:
 ==, =- .
(注: =主要方便计算,其中(xi,yi)为样本数据,(,)为样本点的中心)
公式作用:通过刻画线性相关的两变量之间的关系,估计和分析数据的情况,解释一些实际问题,以及数据的变化趋势.
2.样本相关系数的具体计算公式
r=
=
公式作用:反映两个变量之间线性相关关系的强弱.当r的绝对值接近1时,表明两个变量的线性相关性越强;当r的绝对值接近0时,表明两个变量之间几乎不存在线性相关关系.规定当|r|>r0.05时,认为两个变量有很强的线性相关关系.
公式联系:(1)由于分子与回归方程中的斜率 的分子一样(这也给出了公式的内在联系以及公式的记法),因此,当r>0时,两个变量正相关;当r<0时,两个变量负相关.
(2)常配合散点图判断两个随机变量是否线性相关.
散点图是从形上进行粗略地分析判断,这个判断是可行的、可靠的,也是进行线性回归分析的基础,否则回归方程失效;它形象直观地反映了数据点的分布情况.
相关系数r是从数上反映了两个变量是否具有线性相关关系,以及线性相关关系的强弱,它较精确地反映了数据点的分布情况,准确可靠.
                  2 回归分析题目击破
1.基本概念
函数关系是一种确定关系,而相关关系是一种非确定关系,回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
例1 下列变量之间的关系是相关关系的是________.(填序号)
①正方形的边长与面积之间的关系;
②水稻产量与施肥量之间的关系;
③人的身高与年龄之间的关系;
④降雪量与交通事故发生率之间的关系.
分析 两变量之间的关系有两种:函数关系和带有随机性的相关关系.
解析 ①是函数关系;
②不是严格的函数关系,但是具有相关性,因而是相关关系;
③既不是函数关系,也不是相关关系,因为人的年龄达到一定时期身高就不发生明显变化了,因而它们不具有相关关系;
④降雪量与交通事故发生率之间具有相关关系.
答案 ②④
点评 该例主要考查对变量相关关系概念的掌握.
2.线性回归方程
设x与y是具有相关关系的两个变量,且相应于n个观测值的n个点大致分布在一条直线的附近,这条直线就叫做线性回归直线.
例2 假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下的统计资料:
使用年限x
2
3
4
5
6
维修费用y
2.2
3.8
5.5
6.5
7.0
若由资料知y对x呈线性相关关系,试求:
(1)线性回归方程 = + x;
(2)估计使用年限10年时,维修费用是多少?
分析 因为y对x呈线性相关关系,所以可以用线性相关的方法解决问题.
解 (1)制表
i
1
2
3
4
5
合计
xi
2
3
4
5
6
20
yi
2.2
3.8
5.5
6.5
7.0
25
xiyi
4.4
11.4
22.0
32.5
42.0
112.3
x
4
9
16
25
36
90
=4,=5,x=90,xiyi=112.3
于是有 ==1.23,
 =- =5-1.23×4=0.08.
∴线性回归方程为 =1.23x+0.08.
(2)当x=10时, =1.23×10+0.08=12.38(万元),
即估计使用10年时维修费用约是12.38万元.
点评 已知y对x呈线性相关关系,无需进行相关性检验,否则,应首先进行相关性检验.
3.非线性回归问题
分析非线性回归问题的具体做法
(1)若问题中已给出经验公式,这时可以将解释变量进行变换(换元),将变量的非线性关系转化为线性关系,将问题化为线性回归分析问题来解决.
(2)若问题中没有给出经验公式,需要我们画出已知数据的散点图,通过与各种函数(如指数函数、对数函数、幂函数等)的图象作比较,选择一种与这些散点拟合得最好的函数,然后采用适当的变量变换,将问题化为线性回归分析问题来解决.
下面举例说明非线性回归分析问题的解法.
例3 某地区对本地的企业进行了一次抽样调查,表中是这次抽查中所得到的各企业的人均资本x(单位:万元)与人均产值y(单位:万元)的数据:
人均资本x/万元
3
4
5.5
6.5
7
8
9
10.5
11.5
14
人均产值y/万元
4.12
4.67
8.68
11.01
13.04
14.43
17.50
25.46
26.66
45.20
(1)设y与x之间具有近似关系y≈axb (a,b为常数),试根据表中数据估计a和b的值;
(2)估计企业人均资本为16万元时的人均产值(精确到0.01).
解 (1)在y≈axb的两边取常用对数,可得lg y≈lg a+blg x,设lg y=z,lg a=A,lg x=X,则z≈A+bX.
相关数据计算如下表所示.
人均资本x/万元
3
4
5.5
6.5
7
人均产出y/万元
4.12
4.67
8.68
11.01
13.04
X=lg x
0.477 12
0.602 06
0.740 36
0.812 91
0.845 1
z=lg y
0.614 9
0.669 32
0.938 52
1.041 79
1.115 28
人均资本x/万元
8
9
10.5
11.5
14
人均产出y/万元
14.43
17.50
25.46
26.66
45.20
X=lg x
0.903 09
0.954 24
1.021 19
1.060 7
1.146 13
z=lg y
1.159 27
1.243 04
1.405 86
1.425 86
1.655 14
由公式(1)可得
由lg  =-0.215 5,得 ≈0.608 8,
即a,b的估计值分别为0.608 8和1.567 7.
(2)由(1)知 =0.608 8x1.567 7.
样本数据及回归曲线的图形如图所示.
当x=16时, =0.608 8×161.567 7≈47.01(万元),
故当企业人均资本为16万元时,人均产值约为47.01万元.
                 3 独立性检验思想的应用
在日常生活中,经常会面临一些需要推断的问题.在对这些问题作出推断时,我们不能仅凭主观臆断作出结论,需要通过试验来收集数据,并依据独立性检验思想做出合理的推断.
所谓独立性检验,就是根据采集样本的数据,利用公式计算χ2的值,比较与临界值的大小关系来判定事件X与Y是否有关的问题.其基本步骤如下:
(1)考察需抽样调查的背景问题,确定所涉及的变量;
(2)根据样本数据制作列联表;
(3)计算统计量χ2,并查表分析.当χ2很大时,就认为两个变量有关系;否则就认为没有充分的证据显示两个变量有关系.
下面举例说明独立性检验思想在解决实际问题中的应用.
例1 水果富含各种维生素,不但有益于人体健康,还可起到养颜护肤的功效.下表是一次调查所得的数据,试问:适量吃水果与皮肤好有关系吗?有多大的把握认为你的结论成立?
皮肤好
皮肤不好
合计
适量吃水果
30
224
254
不吃水果
24
1 355
1 379
合计
54
1 579
1 633
解 假设“适量吃水果与皮肤好没有关系”,由题意可知,a=30,b=224,c=24,d=1 355,a+b=254,c+d=1 379,a+c=54,b+d=1 579,n=1 633,代入得到
χ2=≈68.033>10.828.
∴我们有99.9%的把握认为吃水果与皮肤好有关系.
点评 该例中我们有较大的把握认为结论成立,但我们所说的“吃水果与皮肤好有关系”指的都是统计上的关系,不要误认为里面存在因果关系,具体到某一个适量吃水果的人,并不能说明他一定有好的皮肤.
例2 某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示:
积极支持企业改革
不太赞成企业改革
合计
工作积极
54
40
94
工作一般
32
63
95
合计
86
103
189
对于人力资源部的研究项目,根据上述数据能得出什么结论?
分析 首先由已知条件确定a、b、c、d、n的数值,再利用公式求出χ2的值,最后根据χ2的值分析结果.
解 由题目中表的数据可知,
χ2=
=≈10.759.
因为10.759>7.879,所以有99.5%的把握说员工“工作积极”与“积极支持企业改革”有关,可以认为企业的全体员工对待企业改革的态度与其工作积极性是有关的.
点评 在列联表中注意事件的对应及有关值的确定,避免混乱;把计算出的χ2的值与临界值作比较,确定出“Ⅰ与Ⅱ有关系”的把握程度.
例3 为了调查患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,统计结果为:患慢性气管炎共有56人,患慢性气管炎且吸烟的有43人,未患慢性气管炎但吸烟的有162人.根据调查统计结果,分析患慢性气管炎与吸烟在多大程度上有关系?
解 根据所给样本数据得到如下2×2列联表:
患慢性气管炎
未患慢性气管炎
总计
吸烟
43
162
205
不吸烟
13
121
134
总计
56
283
339
由列联表可以粗略估计出:在吸烟者中,有20.98%的患慢性气管炎;在不吸烟者中,有9.70%的患慢性气管炎.两个比例的值相差较大,所以结论“患慢性气管炎与吸烟有关”成立的可能性较大.
根据列联表中的数据,
得到χ2=
≈7.469>6.635.
所以有99%的把握认为“患慢性气管炎与吸烟有关”.
点评 对列联表的比例进行分析,可粗略地判断两个分类变量是否有关系.通过计算统计量χ2,可以比较精确地给出这种判断的可靠程度.先收集数据,然后通过一些统计方法对数据进行科学的分析,这是我们用统计方法解决实际问题的基本策略.
                  4 巧解非线性回归问题
如果题目所给样本点的分布不呈带状分布,即两个变量不呈线性关系,那么,就不能直接利用线性回归方程建立两个变量之间的关系,这时我们可以把散点图和已经学过的各种函数,如幂函数、指数函数、对数函数、二次函数等作比较,挑选出与这些散点拟合最好的函数,然后利用变量置换,把非线性回归方程问题转化为线性回归方程的问题来解决,这是解决此类问题的通法,体现了转化思想.
1.案例分析
例 一个昆虫的某项指标和温度有关,现收集了7组数据如下表:
温度x/℃
2
3
4
5
6
7
8
某项指标y
5.790
6.810
8.199
10.001
12.190
14.790
17.801
试建立某项指标y关于温度x的回归模型,并判断你所建立的回归模型的拟合效果.
分析 根据表中的数据画出散点图,再由图设出相应的回归模型.
解 画出散点图如图所示,样本点并没有分布在某个带状区域内,而是分布在某一条二次函数曲线y=Bx2+A的周围.
令X=x2,则变换后的样本点应该分布在y=bX+a(b=B,a=A)的周围.
由已知数据可得变换后的样本数据表:
X
4
9
16
25
36
49
64
某项
指标y
5.790
6.810
8.199
10.001
12.190
14.790
17.801
计算得到线性回归方程为 =0.199 94X+4.999 03.
用x2替换X,得某项指标y关于温度x的回归方程 =0.199 94x2+4.999 03.
计算得r≈0.999 999,几乎为1,说明回归模型的拟合效果非常好.
点评 本题是非线性回归分析问题,解决这类问题应该先画出散点图,把它与我们所学过的函数图象相对照,选择一种跟这些样本点拟合的最好的函数,然后采用适当的变量变换转化为线性回归分析问题,使之得以解决.
2.知识拓展
常见的非线性函数转换方法:
(1)幂型函数y=axm(a为正数,x,y取正值)
解决方案:对y=axm两边取常用对数,有lg y=lg a+mlg x,令u=lg y,v=lg x,则原式可变为u=mv+lg a,其中m,lg a为常数,该式表示u,v的线性函数.
(2)指数型函数y=cax(a,c>0,且a≠1)
解决方案:对y=cax两边取常用对数,则有lg y=lg c+xlg a,令u=lg y,则原式可变为u=xlg a+lg c,其中lg a和lg c为常数,该式表示u,x的线性函数.与幂函数不同的是x保持不变,用y的对数lg y代替了y.
(3)反比例函数y=(k>0)
解决方案:令u=,则y=ku,该式表示y,u的线性函数.
(4)二次函数y=ax2+c
解决方案:令u=x2,则原函数可变为y=au+c,该式表示y,u的线性函数.
(5)对数型函数y=clogax
解决方案:令x=au,则原函数可变为y=cu,该式表示y,u的线性函数.
第三章 统计案例
学习目标 1.会求线性回归方程,并用回归直线进行预测.2.理解独立性检验的基本思想及实施步骤.
1.最小二乘法
对于一组数据(xi,yi),i=1,2,…,n,如果它们线性相关,则线性回归方程为=x+,其中=________________________________________________________________________
=,=____________.
2.2×2列联表
2×2列联表如表所示:
B

总计
A
a
b

c
d
总计
n
其中n=________________为样本容量.
3.独立性检验
常用统计量
χ2=________________________来检验两个变量是否有关系.
类型一 线性回归分析
例1 某城市理论预测2010年到2014年人口总数与年份的关系如表所示:
年份201x(年)
0
1
2
3
4
人口数y(十万)
5
7
8
11
19
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,求出y关于x的线性回归方程=x+;
(3)据此估计2018年该城市人口总数.
 
 
 
 
 
 
 
反思与感悟 解决回归分析问题的一般步骤
(1)画散点图.根据已知数据画出散点图.
(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.
(3)实际应用.依据求得的回归方程解决实际问题.
跟踪训练1 在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:
x(元)
14
16
18
20
22
y(件)
12
10
7
5
3
且知x与y具有线性相关关系,求出y关于x的线性回归方程.
 
 
 
类型二 独立性检验
例2 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:
喜爱打篮球
不喜爱打篮球
合计
男生
6
女生
10
合计
48
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为.
(1)请将上面的2×2列联表补充完整;(不用写计算过程)
(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由;
(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X,求X的概率分布与均值.
 
 
 
 
 
 
 
反思与感悟 独立性检验问题的求解策略
通过公式χ2=,
先计算出χ2,再与临界值表作比较,最后得出结论.
跟踪训练2 某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主).
(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯;
(2)根据以上数据完成如表所示的2×2列联表;
主食蔬菜
主食肉类
合计
50岁以下
50岁以上
总计
(3)在犯错误的概率不超过0.01的前提下,是否能认为“其亲属的饮食习惯与年龄有关”?
 
 
 
 
 
 
 
1.“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时由高尔顿提出的,他的研究结果是子代的平均身高向中心回归.根据他的结论,在儿子的身高y与父亲的身高x的线性回归方程=x+中,的取值范围是________.
2.假如由数据:(1,2),(3,4),(2,2),(4,4),(5,6),(3,3.6)可以得出线性回归方程=+x,则经过的定点是以上点中的________.
3.考古学家通过始祖鸟化石标本发现:其股骨长度x(cm)与肱骨长度y(cm)的线性回归方程为=1.197x-3.660,由此估计,当股骨长度为50 cm时,肱骨长度的估计值为________cm.
4.下面是一个2×2列联表:
y1
y2
总计
x1
a
21
70
x2
5
c
30
总计
b
d
100
则b-d=________.
5.对于线性回归方程=x+,当x=3时,对应的y的估计值是17,当x=8时,对应的y的估计值是22,那么,该线性回归方程是________,根据线性回归方程判断当x=________时,y的估计值是38.
1.建立回归模型的基本步骤
(1)确定研究对象,明确哪个变量是自变量,哪个变量是因变量;
(2)画出散点图,观察它们之间的关系;
(3)由经验确定回归方程的类型;
(4)按照一定的规则估计回归方程中的参数.
2.独立性检验是对两个分类变量间是否存在相关关系的一种案例分析方法.利用假设的思想方法,计算出某一个统计量χ2的值来判断更精确些.
答案精析
知识梳理
1. - 
2.a+b c+d a+c b+d a+b+c+d
3.
题型探究
例1 解 (1)散点图如图:
(2)因为==2,
==10,
iyi=0×5+1×7+2×8+3×11+4×19=132,
=02+12+22+32+42=30,
所以==3.2,
=- =3.6.
所以线性回归方程为=3.2x+3.6.
(3)令x=8,则=3.2×8+3.6=29.2,
故估计2018年该城市人口总数为29.2(十万).
跟踪训练1 解 =×(14+16+18+20+22)=18,
=×(12+10+7+5+3)=7.4,
=142+162+182+202+222
=1 660,
=122+102+72+52+32=327,
iyi=14×12+16×10+18×7+20×5+22×3=620,
所以=
==-1.15,
所以=7.4+1.15×18=28.1,
所以y对x的线性回归方程为
=-1.15x+28.1.
例2 解 (1)列联表补充如下:
喜爱打篮球
不喜爱打篮球
合计
男生
22
6
28
女生
10
10
20
合计
32
16
48
(2)由χ2=≈4.286.
因为4.286>3.841,所以能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关.
(3)喜爱打篮球的女生人数X的可能取值为0,1,2,其概率分别为
P(X=0)==,
P(X=1)==,
P(X=2)==,
故X的概率分布为
X
0
1
2
P



X的均值E(X)=0++=1.
跟踪训练2 解 (1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉类为主.
(2)2×2列联表如表所示:
主食蔬菜
主食肉类
合计
50岁以下
4
8
12
50岁以上
16
2
18
总计
20
10
30
(3)χ2==10>6.635,
故在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”.
当堂训练
1.(0,1) 2.(3,3.6) 3.56.19 4.8
5.=x+14 24