2018高中数学苏教版选修1-2学案:第1章统计案例(8份)

文档属性

名称 2018高中数学苏教版选修1-2学案:第1章统计案例(8份)
格式 zip
文件大小 4.9MB
资源类型 教案
版本资源 苏教版
科目 数学
更新时间 2018-11-01 16:17:30

文档简介

1.1 独立性检验
在从烟台——大连的某次航运中,海上出现恶劣气候,随机调查男、女乘客在船上晕船的情况如下表:
晕船
不晕船
合计
男人
32
51
83
女人
8
24
32
合计
40
75
115
问题1:上述表格在数学中是如何定义的?
提示:此表格为2×2列联表.
问题2:据此资料,你是否认为在恶劣气候中航行,男人比女人更容易晕船?
提示:不能认为.
问题3:判断上述问题应运用什么方法?
提示:独立性检验.
1.2×2列联表的定义
对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值类A和类B,Ⅱ也有两类取值类1和类2,可以得到如下列联表所示的抽样数据:

类1
类2
合计

类A
a
b
a+b
类B
c
d
c+d
合计
a+c
b+d
a+b+c+d
  将形如此表的表格称为2×2列联表.
2.卡方统计量
为了消除样本量对|ad-bc|的影响,统计学中引入下面的量(称为卡方统计量):
χ2=.①
其中n=a+b+c+d为样本量.
3.独立性检验
利用χ2统计量来研究两类对象是否有关系的方法称为独立性检验.
4.要推断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行
(1)提出假设H0:Ⅰ与Ⅱ没有关系;
(2)根据2×2列联表与公式①计算χ2的值;
(3)查对临界值(如表),作出判断.
P(χ2≥x0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
x0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
  例如:
①若χ2>10.828,则有99.9%的把握认为“Ⅰ与Ⅱ有关系”;
②若χ2>6.635,则有99%的把握认为“Ⅰ与Ⅱ有关系”;
③若χ2>2.706,则有90%的把握认为“Ⅰ与Ⅱ有关系”;
④若χ2≤2.706,则认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“H0成立”,即不能认为Ⅰ与Ⅱ没有关系.
1.在列联表中,如果两个变量没有关系,则应满足ad-bc≈0.因此|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
2.独立性检验的基本思想类似于反证法,我们可以利用独立性检验来考察两个对象是否有关,并且能较精确地给出这种判断的把握程度.
  [例1] 在一项有关性别与喜欢吃甜食的关系的社会调查中,发现调查的男性为530人,女性为670人,其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为492人,请作出性别与喜欢吃甜食的列联表.
[思路点拨] 在2×2列联表中,共有两类变量,每一类变量都有两个不同的取值,然后找出相应的数据,列表即可.
[精解详析] 作列联表如下:
喜欢吃甜食
不喜欢吃甜食
合计

117
413
530

492
178
670
合计
609
591
1 200
[一点通] (1)分清类别是作列联表的关键;
(2)表中排成两行两列的数据是调查得来的结果;
(3)选取数据时,要求表中的四个数据a,b,c,d都要不小于5,以保证检验结果的可信度.
1.下面是一个2×2列联表:
y1
y2
合计
x1
a
21
73
x2
8
25
33
合计
b
46
则表中a=________,b=________.
解析:∵a+21=73,∴a=73-21=52.
又∵a+8=b,∴b=52+8=60.
答案:52 60
2.某学校对高三学生作一项调查后发现:在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张;性格外向的594名学生中在考前心情紧张的有213人,作出2×2列联表.
解:作列联表如下:
性格内向
性格外向
合计
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
合计
426
594
1 020
  [例2] 某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:
阳性例数
阴性例数
合计
新防护服
5
70
75
旧防护服
10
18
28
合计
15
88
103
问这种新防护服对预防工人患职业性皮肤炎是否有效?并说明你的理由.
[思路点拨] 通过有关数据的计算,作出相应的判断.
[精解详析] 提出假设H0:新防护服对预防皮肤炎没有明显效果.
根据列联表中的数据可求得
χ2=≈13.826.
因为H0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈13.826>10.828,所以我们有99.9%的把握说新防护服比旧防护服对预防工人患职业性皮肤炎有效.
[一点通] 根据2×2列联表,利用公式
计算χ2的值,再与临界值比较,作出判断.
3.有300人按性别和是否色弱分类如下表:


正常
132
151
色弱
12
5
色弱与性别是否有关?
解:提出假设H0:色弱与性别无关.
通过计算χ2知,
χ2=

≈3.683 9.
因为H0成立时,χ2>2.706的概率约为0.10,
而这里χ2≈3.683 9>2.706,故有90%的把握说色弱与性别有关.
4.有甲、乙两个班级进行一门课的考试,按照学生的考试成绩优秀和不优秀统计后,得到如下列联表:
优秀
不优秀
合计
甲班
10
35
45
乙班
7
38
45
合计
17
73
90
利用列联表的独立性检验估计成绩与班级是否有关系.
解:提出假设H0:成绩与班级没有关系.由列联表中所给数据,可得χ2=≈0.653<0.708.
因为当H0成立时,χ2≥0.653的概率大于40%,这概率比较大,所以根据目前的调查数据,不能否定假设H0,即不能作出成绩与班级有关的结论.
  [例3] 为了调查某生产线上质量监督员甲是否在生产现场对产品质量好坏有无影响,现统计数据如下:甲在生产现场时,990件产品中有合格品982件,次品8件;甲不在生产现场时,510件产品中有合格品493件,次品17件.试用独立性检验的方法分析监督员甲是否在生产现场对产品质量好坏有无影响.
[思路点拨] 正确地写出两个分类变量的四个取值,画出2×2 列联表是解决问题的关键,利用χ2公式,计算χ2的值,进而与临界值比较大小,作出结论.
[精解详析] 2×2列联表如下
合格品数
次品数
合计
甲在生产现场
982
8
990
甲不在生产现场
493
17
510
合计
1 475
25
1 500
  提出假设
H0:质量监督员甲是否在生产现场与产品质量的好坏无明显关系.
根据χ2公式得
χ2=≈13.097.
因为H0成立时,χ2>10.828的概率约为0.001,而这里χ2≈13.097>10.828,所以有99.9%的把握认为质量监督员甲是否在生产现场与产品质量的好坏有关系.
[一点通] (1)通过分析题可以画出列联表,然后求得χ2值.
(2)进行独立性检验时和反证法的思想一样,都是先假设与预定的结论相反,然后推出矛盾,在实际做题中成了程序化的步骤,只需求出χ2值,与临界值相比较即可.
5.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
性别
是否需要志愿者


合计
需要
40
30
70
不需要
160
270
430
合计
200
300
500
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)有多大的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?
(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.
附:
P(χ2≥x0)
0.050
0.010
0.001
x0
3.841
6.635
10.828
χ2=.
解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为=14%.
(2)提出假设H0:该地区的老年人是否需要志愿者帮助与性别无关,由列联表中所给数据,可得
χ2=≈9.967.
因为H0成立时,χ2≈9.967>6.635,所以有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关.
(3)由(2)的结论知,该地区老年人是否需要志愿者提供帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层,并采用分层抽样方法,比采用简单随机抽样方法更好.
6.电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.
根据已知条件完成下面的2×2列联表,并据此资料你是否有95%的把握认为“体育迷”与性别有关?
非体育迷
体育迷
合计


合计
解:由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:
非体育迷
体育迷
合计

30
15
45

45
10
55
合计
75
25
100
将2×2列联表中的数据代入公式计算,
得χ2==≈3.030.
因为3.030<3.841,所以没有95%的把握认为“体育迷”与性别有关.
1.独立性检验与反证法的区别和联系
(1)联系
可以用反证法的思想解释独立性检验原理,它们的对应关系为:
反证法思想
独立性检验
要证明结论A
提出假设H0
在A不成立的前提下进行推理
在H0成立的条件下推理
推出矛盾,意味着结论A成立
推出有利于H0成立的小概率事件发生,意味着H0的反面成立的可能性很大
没有找到矛盾,不能对A下任何结论,即反证法不成功
推出有利于H0成立的小概率事件不发生,接受原假设
(2)区别
一是独立性检验中用有利于H0的小概率事件的发生代替了反证法思想中的矛盾;二是独立性检验中接受原假设的结论相当于反证法中没有找到矛盾.
2.利用2×2列联表进行独立性检验的一般步骤
→→→
一、填空题
1.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算χ2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(有关、无关)
解析:∵χ2=27.63,∴χ2>10.828
∴有理由认为打鼾与患心脏病是有关的.
答案:有关
2.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的序号是________.
①若χ2的观测值为6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
②从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能性患有肺病;
③若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误;
④以上三种说法均不正确.
解析:若有95%的把握认为两个变量有关系,则说明判断出错的可能性是5%.
答案:③
3.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
合计

13
10
23

7
20
27
合计
20
30
50
已知P(χ2≥3.841)≈0.05,P(χ2≥5.024)≈0.025,
根据表中数据得到χ2=≈4.844.
则有________的把握认为选修文科与性别有关.
答案:95%
4.考察棉花种子是否经过处理跟得病之间的关系,得如下表所示的数据:
种子处理
种子未处理
合计
得病
32
101
133
不得病
61
213
274
合计
93
314
407
根据以上数据得χ2的值是________.
解析:由χ2=,得χ2=0.164.
答案:0.164
5.为大力提倡“厉行节约,反对浪费”,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:
做不到“光盘”
能做到“光盘”

45
10

30
15
附:
P(χ2≥x0)
0.10
0.05
0.025
x0
2.706
3.841
5.024
χ2=
参照附表,得到的正确结论的序号是________.
①在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”;
②在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”;
③有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”;
④有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”.
解析:χ2=≈3.03>2.706,
∴有90%以上把握认为“该市居民能否做到‘光盘’与性别有关”,即犯错不超过10%.
答案:③
二、解答题
6.为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查,得到如下数据:
成绩优秀
成绩较差
合计
兴趣浓厚的
64
30
94
兴趣不深厚的
22
73
95
合计
86
103
189
学生的数学成绩好坏与对学习数学的兴趣是否有关?
解:提出假设H0:学生数学成绩的好坏与对学习数学的兴趣无关.
由公式得χ2的值
χ2=≈38.459.
∵当H0成立时,χ2≥10.828的概率约为0.001,
而这里χ2≈38.459>10.828,
∴有99.9%的把握认为学生数学成绩的好坏与对学习数学的兴趣是有关的.
7.有两个变量x,y,其一组观测值如下面的2×2列联表所示:
y1
y2
x1
a
20-a
x2
15-a
30+a
其中a,15-a均为大于5的整数,则a取何值时,有90%的把握认为x与y之间有关系?
解:查表可知,要使x与y之间有90%的把握认为有关系,则χ2>2.706,
由题意,得χ2==
=,
由χ2>2.706,解得a>7.19或a<2.04.
又a>5,且15-a>5,a∈Z,∴a=8,9.
当a等于8或9时,有90%的把握认为x与y之间有关系.
8.某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.
规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
解:由已知得样本中有25周岁以上组工人100×=60人,25周岁以下组工人,100×=40人.由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×(0.005 0+0.020 0)×10=15(人),“25周岁以下组”中的生产能手有40×(0.032 5+0.005 0)×10=15(人),据此可得2×2列联表如下:
生产能手
非生产能手
合计
25周岁以上组
15
45
60
25周岁以下组
15
25
40
合计
30
70
100
所以得χ2=

=≈1.786.
因为1.786<2.706,
所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.
1.1 独立性检验
[学习目标] 1.理解列联表的意义,会根据列联表中数据大致判断两个变量是否独立.2.理解统计量χ2的意义和独立性检验的基本思想.
[知识链接]
1.什么是列联表?怎样从列联表判断两个分类变量有无关系?
答 一般地,假设两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},列出两个变量的频数表,称为列联表(如下图):
y1
y2
合计
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
|ad-bc|越小,说明两个分类变量x、y之间的关系越弱;
|ad-bc|越大,说明两个分类变量x、y之间的关系越强.
2.统计量χ2有什么作用?
答 χ2=,用χ2的大小可判断事件A、B是否有关联.
[预习导引]
1.2×2列联表:
一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值类A和类B,Ⅱ也有两类取值类1和类2,得到如下列联表所示的抽样数据:

类1
类2
合计

类A
a
b
a+b
类B
c
d
c+d
合计
a+c
b+d
a+b+c+d
上述表格称为2×2列联表.
2.统计量χ2
χ2=.
3.独立性检验
要推断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:
(1)提出假设H0:Ⅰ与Ⅱ没有关系;
(2)根据2×2列联表计算χ2]的值;
(3)查对临界值,作出判断.
要点一 2×2列联表和χ2统计量
例1 根据下表计算:
不看电视
看电视

37
85

35
143
χ2≈________.(结果保留3位小数)
答案 4.514
解析 χ2=≈4.514.
规律方法 利用χ2=,准确代数与计算,求出χ2的值.
跟踪演练1 已知列联表:药物效果与动物试验列联表
患病
未患病
合计
服用药
10
45
55
未服药
20
30
50
合计
30
75
105
则χ2≈________.(结果保留3位小数)
答案 6.109
解析 χ2=≈6.109.
要点二 独立性检验
例2 为了研究人的性别与患色盲是否有关系,某研究所进行了随机调查,发现在调查的480名男性中有39名患有色盲,520名女性中有6名患有色盲,能在犯错误的概率不超过0.001的前提下认为人的性别与患色盲有关系吗?
解 由题意列出2×2列联表:
患色盲
未患色盲
总计
男性
39
441
480
女性
6
514
520
总计
45
955
1000
由公式得χ2的观测值
x0=≈28.225.
因为P(χ2≥10.828)≈0.001,且28.225>10.828,
所以在犯错误的概率不超过0.001的前提下认为患色盲与人的性别有关系,男性患色盲的概率要比女性大得多.
规律方法 独立性检验可以通过2×2列联表计算χ2的值,然后和临界值对照作出判断.
跟踪演练2 调查在2~3级风的海上航行中男女乘客的晕船情况,结果如下表所示:
晕船
不晕船
合计
男人
12
25
37
女人
10
24
34
合计
22
49
71
根据此资料,你是否认为在2~3级风的海上航行中男人比女人更容易晕船?
解 假设H0:海上航行和性别没有关系,χ2=≈0.08.
因为χ2<2.706,所以我们没有理由认为男人比女人更容易晕船.
要点三 独立性检验的应用
例3 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在(29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出500件,量其内径尺寸,结果如下表:
甲厂
分组
[29.86,
29.90)
[29.90,
29.94)
[29.94,
29.98)
[29.98,
30.02)
[30.02,
30.06)
[30.06,
30.10)
[30.10,
30.14)
频数
12
63
86
182
92
61
4
乙厂
分组
[29.86,
29.90)
[29.90,
29.94)
[29.94,
29.98)
[29.98,
30.02)
[30.02,
30.06)
[30.06,
30.10)
[30.10,
30.14)
频数
29
71
85
159
76
62
18
(1)试分别估计两个分厂生产的零件的优质品率;
(2)由以上统计数据填下面2×2列联表,并计算是否有99%的把握认为“两个分厂生产的零件的质量有差异”.
甲厂
乙厂
合计
优质品
非优质品
合计
解 (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为=72%;
乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为=64%.
(2)
甲厂
乙厂
合计
优质品
360
320
680
非优质品
140
180
320
合计
500
500
1000
χ2=≈7.353>6.635,
所以有99%的把握认为“两个分厂生产的零件的质量有差异”.
规律方法 (1)解答此类题目的关键在于正确利用χ2=计算χ2的值,再用它与临界值的大小作比较来判断假设检验是否成立,从而使问题得到解决.
(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.
跟踪演练3 下表是某地区的一种传染病与饮用水的调查表:
得病
不得病
合计
干净水
52
466
518
不干净水
94
218
312
合计
146
684
830
(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;
(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.
解 (1)假设H0:传染病与饮用水无关.把表中数据代入公式得:χ2=≈54.21,
∵54.21>10.828,所以假设H0不成立.
因此我们有99.9%的把握认为该地区这种传染病与饮用水的卫生程度有关.
(2)依题意得2×2列联表:
得病
不得病
合计
干净水
5
50
55
不干净水
9
22
31
合计
14
72
86
此时,χ2=≈5.785.
由于5.785>5.024所以我们有97.5%的把握认为该种疾病与饮用水的卫生程度有关.
两个样本都能统计得到传染病与饮用水的卫生程度有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有97.5%的把握肯定结论的正确性.
1.下面是一个2×2列联表:
y1
y2
合计
x1
a
21
73
x2
8
25
33
合计
b
46
则表中a=________.b=________.
答案 52 60
解析 ∵a+21=73,∴a=52,b=a+8=52+8=60.
2.为了考查长头发与女性头晕是否有关系,随机抽查301名女性,得到如表所示的列联表,试根据表格中已有数据填空.
经常头晕
很少头晕
合计
长发
35

121
短发
37
143

合计
72


则空格中的数据分别为:①________;②________;
③________;④________.
答案 86 180 229 301
解析 最右侧的合计是对应行上的两个数据的和,由此可求出①和②;而最下面的合计是相应列上的两个数据的和,由刚才的结果可求得③④.
3.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是________.(填序号)
①若χ2>6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
②从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;
③若从χ2统计量中得出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误.
答案 ③
解析 对于①,99%的把握是通过大量的试验得出的结论,这100个吸烟的人中可能全患肺病也可能都不患,是随机的,所以①错;对于②,某人吸烟只能说其患病的可能性较大,并不一定患病;③的解释是正确的.
4.为研究学生的数学成绩与学生学习数学的兴趣是否有关,对某年级学生作调查,得到如下数据:
成绩优秀
成绩较差
合计
兴趣浓厚的
64
30
94
兴趣不浓厚的
22
73
95
合计
86
103
189
学生的数学成绩好坏与对学习数学的兴趣是否有关?
解 由公式得:χ2=≈38.459.
∵38.459>10.828,∴有99.9%的把握认为,学生学习数学的兴趣与数学成绩是有关的.
 1.独立性检验的思想:先假设两个事件无关,计算统计量χ2的值.若χ2值较大,则假设不成立,认为两个事件有关.
2.独立性检验的步骤:(1)作出假设H0:Ⅰ与Ⅱ没有关系;(2)计算χ2的值;(3)查对临界值,作出判断.
一、基础达标
1.当χ2>2.706时,就有________的把握认为“x与y有关系”.
答案 90%
2.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:
优秀
及格
总计
甲班
11
34
45
乙班
8
37
45
总计
19
71
90
则随机变量χ2的观测值约为________.
答案 0.600
解析 根据列联表中的数据,可得随机变量χ2的观测值x0=≈0.600.
3.分类变量X和Y的列表如下,则下列说法判断正确的是________.(填序号)
y1
y2
合计
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
①ad-bc越小,说明X与Y的关系越弱;
②ad-bc越大,说明X与Y的关系越强;
③(ad-bc)2越大,说明X与Y的关系越强;
④(ad-bc)2越接近于0,说明X与Y的关系越强.
答案 ③
4.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:


合计
爱好
40
20
60
不爱好
20
30
50
合计
60
50
110
由χ2=算得,
χ2=≈7.8.
附表:
P(χ2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
参照附表,得到的正确结论是________.
①在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”;
②在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”;
③有99%以上的把握认为“爱好该项运动与性别有关”;
④有99%以上的把握认为“爱好该项运动与性别无关”.
答案 ③
解析 根据独立性检验的定义,由χ2≈7.8>6.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”.
5.为了研究男子的年龄与吸烟的关系,抽查了100个男子,按年龄超过和不超过40岁,吸烟量每天多于和不多于20支进行分组,如下表:
年龄
合计
不超过40岁
超过40岁
吸烟量不多于20支/天
50
15
65
吸烟量多于20支/天
10
25
35
合计
60
40
100
则有________的把握确定吸烟量与年龄有关.
答案 99.9%
解析 利用题中列联表,代入公式计算χ2=
≈22.16>10.828,
所以我们有99.9%的把握确定吸烟量与年龄有关.
6.某高校“统计初步”课程的教师随机调查了选该课的一些情况,具体数据如下表:
  专业
性别  
非统计专业
统计专业
合计

13
10
23

7
20
27
合计
20
30
50
为了判断主修统计专业是否与性别有关,根据表中的数据,得χ2=≈4.844.因为χ2≈4.844>3.841,所以判断主修统计专业与性别有关系,那么这种判断出错的可能性为________.
答案 5%
解析 因为4.844>3.841,则有95%的把握认为两事件有关系,因此判断出错的可能性为5%.
7.在某测试中,卷面满分为100分,60分为及格,为了调查午休对本次测试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进行了测试成绩的统计,数据如下表所示:
分数段
29~
40
41~
50
51~
60
61~
70
71~
80
81~
90
91~
100
午休考
生人数
23
47
30
21
14
31
14
不午休
考生人数
17
51
67
15
30
17
3
(1)根据上述表格完成列联表:
及格人数
不及格人数
合计
午休
不午休
合计
(2)根据列联表可以得出什么样的结论?对今后的复习有什么指导意义?
解 (1)根据题表中数据可以得到列联表如下:
及格人数
不及格人数
合计
午休
80
100
180
不午休
65
135
200
合计
145
235
380
(2)计算可知,午休的考生及格率为P1==,不午休的考生的及格率为P2==,则P1>P2,因此,可以粗略判断午休与考生考试及格有关系,并且午休的及格率高,所以在以后的复习中考生应尽量适当午休,以保持最佳的学习状态.
二、能力提升
8.在2×2列联表中,若每个数据变为原来的2倍,则χ2的值变为原来的________倍.
答案 2
解析 由公式χ2=中所有值变为原来的2倍,
得(χ2)′==2χ2,
故χ2也变为原来的2倍.
9.下列说法正确的是________.(填序号)
①对事件A与B的检验无关,即两个事件互不影响;②事件A与B关系越密切,χ2就越大;③χ2的大小是判断事件A与B是否相关的唯一数据;④若判定两事件A与B有关,则A发生B一定发生.
答案 ②
解析 对于①,事件A与B的检验无关,只是说两事件的相关性较小,并不一定两事件互不影响,故①错.②是正确的.对于③,判断A与B是否相关的方式很多,可以用列联表,也可以借助于概率运算,故③错.对于④,两事件A与B有关,说明两者同时发生的可能性相对来说较大,但并不是A发生B一定发生,故④错.
10.为研究某新药的疗效,给50名患者服用此药,跟踪调查后得下表中的数据:
无效
有效
合计
男性患者
15
35
50
女性患者
6
44
50
合计
21
79
100
设H0:服用此药的效果与患者的性别无关,则χ2的值约为________,从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.
答案 4.882 5%
解析 由公式计算得χ2≈4.882>3.841,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.
11.下表是关于男婴与女婴出生时间调查的列联表:
晚上
白天
总计
男婴
45
A
B
女婴
E
35
C
总计
98
D
180
那么,A=________,B=________,C=________,D=________,E=________.
答案 47 92 88 82 53
解析 由列联表知识得解得
12.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示.
又发作过
心脏病
未发作过
心脏病
合计
心脏搭桥手术
39
157
196
血管清障手术
29
167
196
合计
68
324
392
试根据上述数据比较这两种手术对病人又发作过心脏病的影响有没有差别.
解 假设病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术没有关系.由表中数据得a=39,b=157,c=29,d=167,a+b=196,c+d=196,a+c=68,b+d=324,n=392,由公式得χ2=≈1.779.因为χ2≈1.779<2.706,所以不能得出病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术有关系的结论,即这两种手术对病人又发作过心脏病的影响没有差别.
三、探究与创新
13.在某校高三年级一次全年级的大型考试的数学成绩优秀和非优秀的学生中,物理、化学、总分成绩优秀的人数如下表所示,能否在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学、总分成绩优秀有关系?
物理优秀
化学优秀
总分优秀
数学优秀
228
225
267
数学非优秀
143
156
99
注:该年级在此次考试中数学成绩优秀的有360人,非优秀的有880人.
解 列出数学成绩与物理成绩的2×2列联表如下:
物理优秀
物理非优秀
合计
数学优秀
228
132
360
数学非优秀
143
737
880
合计
371
869
1240
将表中数据代入公式,得χ的观测值为
x1=≈270.1>10.828.
列出数学成绩与化学成绩的2×2列联表如下:
化学优秀
化学非优秀
合计
数学优秀
225
135
360
数学非优秀
156
724
880
合计
381
859
1240
将表中数据代入公式,得χ的观测值为
x2=≈240.6>10.828.
列出数学成绩与总分成绩的2×2列联表如下:
总分优秀
总分非优秀
合计
数学优秀
267
93
360
数学非优秀
99
781
880
合计
366
874
1240
将表中数据代入公式,得χ的观测值为
x3=≈486.1>10.828.
由上面的分析知,χ2的观测值都大于10.828,说明在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学、总分成绩优秀都有关系.
§1.1 独立性检验
课时目标1.了解独立性检验的基本思想.2.体会由实际问题建模的过程,了解独立性检验的基本方法.
1.独立性检验:用______________研究两个对象是否有关的方法称为独立性检验.
2.对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B,Ⅱ也有两类取值,即类1和类2.我们得到如下列联表所示的抽样数据:

合计
类1
类2

类A
a
b
a+b
类B
c
d
c+d
合计
a+c
b+d
a+b+c+d
则χ2的计算公式是________________.
3.独立性检验的一般步骤:(1)提出假设H0:两个研究对象没有关系;(2)根据2×2列联表计算χ2的值;(3)查对临界值,作出判断.
一、填空题
1.下面是一个2×2列联表:
y1
y2
总计
x1
a
21
73
x2
8
25
33
总计
b
46
则表中a、b处的值分别为________,________.
2.为了检验两个事件A,B是否相关,经过计算得χ2=8.283,则说明事件A和事件B________(填“相关”或“无关”).
3.为了考察高一年级学生的性别与是否喜欢数学课程之间的关系,在高一年级随机抽取了300名,得到如下2×2列联表.判断学生性别与是否喜欢数学________(填“有”或“无”)关系.
喜欢
不喜欢
合计

37
85
122

35
143
178
合计
72
228
300
4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算χ2=99.9,根据这一数据分析,下列说法正确的是________(只填序号).
①有99.9%的人认为该栏目优秀;
②有99.9%的人认为栏目是否优秀与改革有关系;
③有99.9%的把握认为电视栏目是否优秀与改革有关系;
④以上说法都不对.
5.某班班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示.从表中数据分析,学生学习积极性与对待班级工作的态度之间有关系的把握有________.
积极参加
班级工作
不太主动参加班级工作
合计
学习积极性高
18
7
25
学习积极性一般
6
19
25
合计
24
26
50
6.给出下列实际问题:
①一种药物对某种病的治愈率;②两种药物治疗同一种病是否有区别;③吸烟者得肺病的概率;④吸烟人群是否与性别有关系;⑤网吧与青少年的犯罪是否有关系.其中用独立性检验可以解决的问题有______.
7.下列说法正确的是________.(填序号)
①对事件A与B的检验无关,即两个事件互不影响;
②事件A与B关系越密切,χ2就越大;
③χ2的大小是判断事件A与B是否相关的唯一数据;
④若判定两事件A与B有关,则A发生B一定发生.
8.某市政府在调查市民收入增减与旅游愿望的关系时,采用独立性检验法抽查了3 000人,计算发现χ2=6.023,根据这一数据查表,市政府断言市民收入增减与旅游愿望有关系,这一断言犯错误的概率不超过____________________________________________________.
二、解答题
9.在对人们休闲的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.
(1)根据以上数据建立一个2×2的列联表;
(2)检验性别与休闲方式是否有关系.
10.有甲、乙两个工厂生产同一种产品,产品分为一等品和二等品.为了考察这两个工厂的产品质量的水平是否一致,从甲、乙两个工厂中分别随机地抽出产品109件,191件,其中甲工厂一等品58件,二等品51件,乙工厂一等品70件,二等品121件.
(1)根据以上数据,建立2×2列联表;
(2)试分析甲、乙两个工厂的产品质量有无显著差别(可靠性不低于99%)
能力提升
11.在吸烟与患肺病是否相关的判断中,有下面的说法:
①若χ2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,若某人吸烟,则他有99%的可能患有肺病;
③从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.
其中说法正确的是________.
12.下表是对某市8所中学学生是否吸烟进行调查所得的结果:
吸烟学生
不吸烟学生
父母中至少有一人吸烟
816
3 203
父母均不吸烟
188
1 168
(1)在父母至少有一人吸烟的学生中,估计吸烟学生所占的百分比是多少?
(2)在父母均不吸烟的学生中,估计吸烟学生所占的百分比是多少?
(3)学生的吸烟习惯和父母是否吸烟有关吗?请简要说明理由.
(4)有多大的把握认为学生的吸烟习惯和父母是否吸烟有关?
1.对独立性检验思想的理解
独立性检验的基本思想类似于数学中的反证法,要确认两个变量有关系这一结论成立的可信程度,首先假设该结论不成立,即假设“两个变量没有关系”成立,在该假设下我们构造的随机变量χ2应该很小,如果由观测数据计算得到的χ2的观测值很大,则在一定程度上说明假设不合理.
2.在解题时,可以根据列联表计算χ2的值,然后参考临界值对两个变量是否独立做出判断.
第1章 统计案例
§1.1 独立性检验
答案
知识梳理
1.χ2统计量
2.χ2=
作业设计
1.52 60
解析 由列联表知,a=73-21=52,
b=a+8=52+8=60.
2.相关
3.有
解析 由列联表可得χ2=4.514>3.841,
∴有95%的把握认为学生性别与是否喜欢数学有关.
4.③
5.99.9%
解析 χ2=
≈11.5>10.828.
6.②④⑤
7.②
解析 对于①,事件A与B的检验无关,只是说两事件的相关性较小,并不一定两事件互不影响,故①错.②是正确的.对于③,判断A与B是否相关的方式很多,可以用列联表,也可以借助于概率运算,故③错.对于④,两事件A与B有关,说明两者同时发生的可能性相对来说较大,但并不是A发生B一定发生,故④错.
8.0.025
9.解 (1)2×2的列联表:
休闲方式
性别
看电视
运动
合计

43
27
70

21
33
54
合计
64
60
124
(2)根据列联表中的数据得到
χ2=≈6.201.
因为χ2>5.024,所以在犯错误的概率不超过0.025的前提下认为休闲方式与性别有关系.
10.解 (1)
甲工厂
乙工厂
合计
一等品
58
70
128
二等品
51
121
172
合计
109
191
300
(2)提出假设H0:甲、乙两个工厂的产品质量无显著差别.
根据列联表中的数据可以求得
χ2=
≈7.781 4>6.635.
因为当H0成立时,P(χ2>6.635)≈0.01,所以我们有99%以上的把握认为甲、乙两个工厂的产品质量有显著差别.
11.③
解析 χ2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确.
12.解 (1)×100%≈20.3%.
(2)×100%≈13.86%.
(3)有关,因为父母吸烟与不吸烟,其子女吸烟的比例有较大的差异.
(4)提出假设H0:学生的吸烟习惯和父母是否吸烟无关.
根据列联表中的数据可以求得
χ2≈27.677>10.828.
因为当H0成立时,P(χ2>10.828)≈0.001,所以我们有99.9%以上的把握认为学生的吸烟习惯和父母是否吸烟有关.
1.2 回归分析
[学习目标] 1.会建立线性回归模型分析两个变量间的相关关系.2.能通过相关系数判断两个变量间的线性相关程度.3.了解回归分析的基本思想和初步应用.
[知识链接]
1.什么叫回归分析?
答 回归分析是对具有相关关系的两个变量进行统计分析的一种方法.
2.回归分析中,利用线性回归方程求出的函数值一定是真实值吗?
答 不一定是真实值,利用线性回归方程求的值,在很多时候是个预报值,例如,人的体重与身高存在一定的线性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食,是否喜欢运动等.
[预习导引]
1.线性回归方程
(1)对于n对观测数据(xi,yi)(i=1,2,3,…,n),直线方程=+x称为这n对数据的线性回归方程.其中=-称为回归截距,==称为回归系数,称为回归值.
(2)将y=a+bx+ε称为线性回归模型,其中a+bx是确定性函数,ε称为随机误差.
2.相关系数r的性质
(1)|r|≤1;
(2)|r|越接近于1,x,y的线性相关程度越强;
(3)|r|越接近于0,x,y的线性相关程度越弱.
3.显著性检验
(1)提出统计假设H0:变量x,y不具有线性相关关系;
(2)如果以95%的把握作出判断,可以根据1-0.95=0.05与n-2在附录2中查出一个r的临界值r0.05(其中1-0.95=0.05称为检验水平);
(3)计算样本相关系数r==;
(4)作出统计推断:若|r|>r0.05,则否定H0,表明有95%的把握认为x与y之间具有线性相关关系;若|r|≤r0.05,则没有理由拒绝原来的假设H0,即就目前数据而言,没有充分理由认为x与y之间有线性相关关系.
要点一 线性相关的判断
例1 某校高三(1)班的学生每周用于数学学习的时间x(单位:h)与数学平均成绩y(单位:分)之间有表格所示的数据.
x
24
15
23
19
16
11
20
16
17
13
y
92
79
97
89
64
47
83
68
71
59
(1)画出散点图;
(2)作相关性检验;
(3)若某同学每周用于数学学习的时间为18h,试预测其数学成绩.
解 (1)根据表中的数据,画散点图,如图.
从散点图看,数学成绩与学习时间线性相关.
(2)由已知数据求得=17.4,=74.9,=3182,
=58375,iyi=13578,
所以相关系数r=
≈0.920.
而n=10时,r0.05=0.632,
所以|r|>r0.05,所以有95%的把握认为数学成绩与学习时间之间具有线性相关关系.
(3)用科学计算器计算,可得线性回归方程为=3.53x+13.44.
当x=18时,=3.53×18+13.44≈77,故预计该同学数学成绩可得77分左右.
规律方法 判断变量的相关性通常有两种方式:一是散点图;二是相关系数r.前者只能粗略的说明变量间具有相关性,而后者从定量的角度分析变量相关性的强弱.
跟踪演练1 暑期社会实践中,小闲所在的小组调查了某地家庭人口数x与每天对生活必需品的消费y的情况,得到的数据如下表:
x/人
2
4
5
6
8
y/元
20
30
50
50
70
(1)利用相关系数r判断y与x是否线性相关;
(2)根据上表提供的数据,求出y关于x的线性回归方程.
解 (1)由表中数据,利用科学计算器计算得:
r=≈0.975.
因为r>r0.05=0.878,所以y与x之间具有线性相关关系.
(2)根据以上数据可得,==8.5,
∴=-=44-8.5×5=1.5,
∴所求的线性回归方程为=1.5+8.5x.
要点二 求线性回归方程
例2 某班5名学生的数学和物理成绩如下表:
学生编号
1
2
3
4
5
学科编号
A
B
C
D
E
数学成绩(x)
88
76
73
66
63
物理成绩(y)
78
65
71
64
61
(1)画出散点图;(2)求物理成绩y对数学成绩x的线性回归方程;(3)一名学生的数学成绩是96,试预测他的物理成绩.
解 (1)散点图如图.
(2)=×(88+76+73+66+63)=73.2,
=×(78+65+71+64+61)=67.8.
iyi=88×78+76×65+73×71+66×64+63×61
=25054.
=882+762+732+662+632=27174.
所以==≈0.625.
=-≈67.8-0.625×73.2=22.05.
所以y对x的线性回归方程是=0.625x+22.05.
(3)x=96,则=0.625×96+22.05≈82,即可以预测他的物理成绩是82.
规律方法 (1)散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析.
(2)求线性回归方程,首先应注意到,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.
跟踪演练2 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x
6
8
10
12
y
2
3
5
6
①请画出上表数据的散点图(要求:点要描粗);
②请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
③试根据求出的线性回归方程,预测记忆力为9的同学的判断力.
解 ①如图:
②xiyi=6×2+8×3+10×5+12×6=158,
==9,
==4,
x=62+82+102+122=344,
===0.7,
=-=4-0.7×9=-2.3,
故线性回归方程为=0.7x-2.3.
③由②中线性回归方程当x=9时,=0.7×9-2.3=4,故预测记忆力为9的同学的判断力为4.
要点三 非线性回归分析
例3 某种书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:
x
1
2
3
5
10
y
10.15
5.52
4.08
2.85
2.11
x
20
30
50
100
200
y
1.62
1.41
1.30
1.21
1.15
检验每册书的成本费y与印刷册数的倒数之间是否具有线性相关关系;如有,求出y对x的回归方程.
解 令u=,原题中所给数据变成如下表示的数据:
u
1
0.5
0.33
0.2
0.1
y
10.15
5.52
4.08
2.85
2.11
u
0.05
0.03
0.02
0.01
0.005
y
1.62
1.41
1.30
1.21
1.15
=0.2245,=3.14,-10()2=0.9088,
iyi-10=8.15525,-10()2=73.207,
∴r=≈0.9998,
查表得r0.05=0.632,因为r>r0.05,从而认为u与y之间具有线性相关关系.
回归系数=≈8.974,
=3.14-8.974×0.2245≈1.125,
所以=8.974u+1.125,
所以y对x的回归方程为=+1.125.
规律方法 对非线性回归问题,若给出经验公式,采用变量代换把问题转化为线性回归问题.若没有经验公式,需结合散点图挑选拟合得最好的函数.
跟踪演练3 在试验中得到变量y与x的数据如下表:
试求y与x之间的回归方程,并预测x=40时,y的值.
x
19
23
27
31
35
y
4
11
24
109
325
解 作散点图如图所示,
从散点图可以看出,两个变量x,y不呈线性相关关系,根据学过的函数知识,样本点分布的曲线符合指数型函数y=c1ec2x,通过对数变化把指数关系变为线性关系,令z=lny,则z=bx+a(a=lnc1,b=c2).
列表:
x
19
23
27
31
35
z
1.386
2.398
3.178
4.691
5.784
作散点图如图所示,
从散点图可以看出,两个变量x,z呈很强的线性相关关系.由表中的数据得到线性回归方程为=0.277x-3.998.
所以y关于x的指数回归方程为:=e0.277x-3.998.
所以,当x=40时,y=e0.277×40-3.998≈1190.347.
1.在下列各量之间,存在相关关系的是________.
①正方体的体积与棱长之间的关系;②一块农田的水稻产量与施肥量之间的关系;③人的身高与年龄之间的关系;④家庭的支出与收入之间的关系;⑤某户家庭用电量与电价之间的关系.
答案 ②③④
2.如图是x和y的一组样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关指数最大.
答案 D(3,10)
解析 经计算,去掉D(3,10)这一组数据后,其他4组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强,此时相关指数最大.
3.对具有线性相关关系的变量x和y,由测得的一组数据已求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________.
答案 =-10+6.5x
解析 由题意知=2,=3,=6.5,所以=-=3-6.5×2=-10,即回归直线的方程为=-10+6.5x.
4.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:
推销员编号
1
2
3
4
5
工作年限x/年
3
5
6
7
9
推销金额y/万元
2
3
3
4
5
(1)求年推销金额y关于工作年限x的线性回归方程;
(2)若第6名推销员的工作年限为11年,试估计他的年推销金额.
解 (1)设所求的线性回归方程为=x+,
则===0.5,=-=0.4.
所以年推销金额y关于工作年限x的线性回归方程为
=0.5x+0.4.
(2)当x=11时,=0.5x+0.4=0.5×11+0.4=5.9(万元).
所以可以估计第6名推销员的年推销金额为5.9万元.
1.相关系数r
r的大小与两个变量之间线性相关程度的强弱关系:
(1)当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.当r=1时,两个变量完全正相关;当r=-1时,两个变量完全负相关.
(2)|r|≤1,并且|r|越接近1,表明两个变量的线性相关程度越强,它们的散点图越接近于一条直线,这时用线性回归模型拟合这组数据的效果就越好;|r|越接近0,表明两个变量的线性相关程度越弱,通常当|r|>r0.05时,认为两个变量有很强的线性相关程度.此时建立的回归模型是有意义的.
2.回归分析
用回归分析可以预测具有相关关系的两个随机变量的取值.但要注意:
①回归方程只适用于我们所研究的样本的总体.
②我们建立的回归方程一般都有时间性.
③样本取值的范围影响了回归方程的适用范围.
④回归方程得到预报值不是变量的精确值,是变量可能取值的平均值.
一、基础达标
1.已知方程=0.85x-82.71是根据女大学生的身高预报她的体重的回归方程,其中x的单位是cm,的单位是kg,那么针对某个体(160,53)的随机误差是________.
答案 -0.29
2.对于相关系数r,以下4个叙述错误的是________.
①|r|∈(0,+∞),|r|越大,线性相关程度越大,反之,线性相关程度越小;
②r∈(-∞,+∞),r越大,线性相关程度越大,反之,线性相关程度越小;
③|r|≤1,|r|越接近1,线性相关程度越大,|r|越接近0,线性相关程度越小.
答案 ①②
3.已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的线性回归方程可能是________.
①=0.4x+2.3;
②=2x-2.4;
③=-2x+9.5;
④=-0.3x+4.4.
答案 ①
解析 因为变量x和y正相关,则回归直线的斜率为正,故可以排除选项③和④.因为样本点的中心在回归直线上,把点(3,3.5)分别代入选项①和②中的直线方程进行检验,可以排除②,故选①.
4.某小卖部为了了解冰糕销售量y(箱)与气温x(℃)之间的关系,随机统计了某4天卖出的冰糕的箱数与当天气温,并制作了对照表(如下表所示),且由表中数据算得线性回归方程=x+中的=2,则预测当气温为25℃时,冰糕销量为________箱.
气温/℃
18
13
10
-1
冰糕/箱
64
38
34
24
答案 70
解析 由线性回归方程必过点(,),且=2,得=20.
∴当x=25时,=70.
5.已知对一组观测值(xi,yi)(i=1,2,…,n)作出散点图后,确定具有线性相关关系,若对于=+x,求得=0.51,=61.75,=38.14,则线性回归方程为________.
答案 =0.51x+6.65
解析 ∵=-=38.14-0.51×61.75
=6.6475≈6.65.∴=0.51x+6.65.
6.以下关于线性回归的判断,正确的是________.
①散点图中所有点都在一条直线附近,这条直线为回归直线;
②散点图中的绝大多数点都在回归直线的附近,个别特殊点不影响线性回归性;
③已知直线方程为=0.50x-0.81,则x=25时,为11.69;
④线性回归方程的意义是它反映了样本整体的变化趋势.
答案 ②③④
解析 对于①,回归直线应使样本点总体距回归直线最近,而不是所有点都在一条直线附近,故①不正确,②③④均正确.
7.在某种产品表面进行腐蚀性刻线试验,得到腐蚀深度y与腐蚀时间x之间相应的一组观察值,如下表:
x/s
5
10
15
20
30
40
50
60
70
90
120
y/μm
6
10
10
13
16
17
19
23
25
29
46
用散点图及相关系数两种方法判断x与y的相关性.
解 (1)作出如图所示的散点图.
从散点图可看出腐蚀深度y(μm)与腐蚀时间x(s)之间存在着较强的线性相关关系.
(2)相关系数r=
≈0.98,
显然|r|>r0.05=0.602.所以,腐蚀深度y与腐蚀时间x之间有很强的线性相关关系.
二、能力提升
8.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得线性回归方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是________.
答案 ①④
解析 ①中,回归方程中x的系数为正,不是负相关;④方程中的x的系数为负,不是正相关,∴①④一定不正确.
9.对具有线性相关关系的变量x、y有观测数据(xi,yi)(i=1,2,…,10),它们之间的线性回归方程是=3x+20,若i=18,则i=________.
答案 254
解析 由i=18,得=1.8.
因为点(,)在直线=3x+20上,则=25.4.
所以i=25.4×10=254.
10.一唱片公司欲知唱片费用x(十万元)与唱片销售量Y(千张)之间的关系,从其所发行的唱片中随机抽选了10张,得如下的资料:i=28,=303.4,i=75,
=598.5,iyi=237,则y与x的相关系数r的绝对值为________.
答案 0.3
解析 r=
==0.3.
11.为了对新产品进行合理定价,对该产品进行了试销试验,以观察需求量y(单位:千件)对于价格x(单位:千元)的反应,得数据如下:
x/千元
50
70
80
40
30
90
95
97
y/千件
100
80
60
120
135
55
50
48
(1)若y与x之间具有线性相关关系,求y对x的线性回归方程;
(2)若成本X=y+500,试求:
①在盈亏平衡条件下(利润为零)的价格;
②在利润为最大的条件下,定价为多少?
解 (1)y与x之间有线性相关关系,
==-1.2866,
=-=169.7724,
∴线性回归方程为=-1.2866x+169.7724.
(2)①在盈亏平衡条件下,x=+500,
即-1.2866x2+169.7724x
=-1.2866x+169.7724+500,
1.2866x2-171.059x+669.7724=0,
解得x1=128.9162,x2=4.0381(舍去),
∴此时新产品的价格为128.9162千元.
②在利润最大的条件下,
Q=x-X=-1.2866x2+169.7724x+1.2866x-169.7724-500=-1.2866x2+171.059x-669.7724.
要使Q取得最大值,x=66.4771,即此时新产品应定价为66.4771千元.
12.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验.测得的数据如下:
零件数
x/个
10
20
30
40
50
60
70
80
90
100
加工时
间y/分钟
62
68
75
81
89
95
102
108
115
122
(1)y与x是否具有线性相关关系?
(2)如果y与x具有线性相关关系,求线性回归方程;
(3)根据求出的线性回归方程,预测加工200个零件所用的时间为多少?
解 (1)列出下表:
i
1
2
3
4
5
6
7
8
9
10
xi
10
20
30
40
50
60
70
80
90
100
yi
62
68
75
81
89
95
102
108
115
122
xiyi
620
1360
2250
3240
4450
5700
7140
8640
10350
12200
=55,=91.7,
=38500,=87777,iyi=55950,
因此r=

≈0.9998.
由于|r|=0.9998>r0.05=0.632,因此x与y之间有很强的线性相关关系.
(2)设所求的线性回归方程为=x+,则有
==≈0.668,
=-=91.7-0.668×55=54.96,
因此,所求的线性回归方程为=0.668x+54.96.
(3)这个线性回归方程的意义是当x每增大1时,y的值约增加0.668,而54.96是y不随x增加而变化的部分.
因此,当x=200时,y的估计值为=0.668×200+54.96=188.56≈189.
因此,加工200个零件所用的工时约为189分钟.
三、探究与创新
13.从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i=80,i=20,iyi=184,=720.
(1)求家庭的月储蓄y对月收入x的线性回归方程=x+;
(2)判断变量x与y之间是正相关还是负相关;
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
附:线性回归方程=x+中,=,
=-b,其中,为样本平均值.
解 (1)由题意知
n=10,=i==8,=i==2,
又lxx=-n2=720-10×82=80,
lxy=iyi-n=184-10×8×2=24,
由此得===0.3,=-=2-0.3×8=-0.4, 
故所求回归方程为=0.3x-0.4.
(2)由于变量y的值随x的值增加而增加(b=0.3>0),故x与y之间是正相关.
(3)将x=7代入回归方程可以预测该家庭的月储蓄为=0.3×7-0.4=1.7(千元).
1.2 回归分析
1.线性回归模型
(1)线性回归模型y=a+bx+ε,其中a+bx是确定性函数,ε称为随机误差.
(2)随机误差产生的原因主要有以下几种:
①所用的确定性函数不恰当引起误差;
②忽略了某种因素的影响;
③存在观测误差.
(3)在线性回归方程=+x中
==,
=-(其中=i,=i).
其中,,分别为a,b的估计值,称为回归截距,称为回归系数,称为回归值.
2.相关系数
(1)计算两个随机变量间线性相关系数的公式

(2)r具有如下性质:
①|r|≤1;
②|r|越接近于1,x,y的线性相关程度越强;
③|r|越接近于0,x,y的线性相关程度越弱.
3.对相关系数进行显著性检验的基本步骤
(1)提出统计假设H0:变量x,y不具有线性相关关系;
(2)如果以95%的把握作出判断,那么可以根据1-0.95=0.05与n-2在教材附录1中查出一个r的临界值r0.05(其中1-0.95=0.05称为检验水平);
(3)计算样本相关系数r;
(4)作出统计推断:若|r|>r0.05,则否定H0,表明有95%的把握认为x与y之间具有线性相关关系;若|r|≤r0.05,则没有理由拒绝原来的假设H0,即就目前数据而言,没有充分理由认为y与x之间有线性相关关系.
我们把相关关系(不确定性关系)转化为函数关系(确定性关系),当两个具有相关关系的变量近似地满足一次函数关系时,我们所求出的函数关系式=+x就是回归直线方程.求回归直线方程的一般方法是借助于工作软件求出回归直线方程,也可以利用计算器计算出,再由=-求出,写出回归直线方程=x+.计算时应注意:
(1)求时,利用公式=,先求出=(x1+x2+…+xn),=(y1+y2+…+yn),iyi=x1y1+x2y2+…+xnyn,=x+x+…+x.再由=-求出的值,并写出回归直线方程.
(2)线性回归方程中的截距和斜率都是通过样本估计而来的,存在着误差,这种误差可能导致估计结果的偏差.
(3)回归直线方程=+x中的表示x增加1个单位时,的变化量为,而表示不随x的变化而变化的部分.
(4)可以利用回归直线方程=+x求在x取某一个值时y的估计值.
[例1] 假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下的统计资料:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
若由数据可知,y对x呈线性相关关系.
(1)求线性回归方程;
(2)估计使用年限为10年时,维修费用是多少?
[思路点拨] 由于题目条件已经指明y对x呈线性相关关系,所以可直接利用公式求与,然后求出线性回归方程,最后把10代入,估计维修费用.
[精解详析] (1)列表如下:
i
1
2
3
4
5
xi
2
3
4
5
6
yi
2.2
3.8
5.5
6.5
7.0
xiyi
4.4
11.4
22.0
32.5
42.0
x
4
9
16
25
36
经计算得:=4,=5,=90,iyi=112.3,
于是==1.23,=-·=0.08,
所以线性回归方程为=x+=1.23x+0.08.
(2)当x=10时,=1.23×10+0.08=12.38(万元),即若估计使用年限为10年时,维修费用为12.38万元.
[一点通] 若题目中没有指明y对x呈线性相关关系,而只给出资料,则需根据散点图或利用线性相关系数先确定变量是否线性相关,再求线性回归方程.
1.(辽宁高考)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
解析:以x+1代x,得=0.254(x+1)+0.321,与=0.254x+0.321相减可得,年饮食支出平均增加0.254万元.
答案:0.254
2.(湖北高考改编)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是________.
解析:由回归直线方程=x+,知当>0时,x与y正相关,当<0时,x与y负相关,所以①④一定错误.
答案:①④
3.某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时的销售额为________万元.
解析:∵==,==42.
又=x+必过(,),
∴42=×9.4+,∴=9.1.
∴线性回归方程为=9.4x+9.1.
∴当x=6时,=9.4×6+9.1=65.5(万元).
答案:65.5
4.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
8
8.2
8.4
8.6
8.8
9
销量y(件)
90
84
83
80
75
68
(1)求回归直线方程=bx+a,其中b=-20,a=-b;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
解:(1)由于x=(x1+x2+x3+x4+x5+x6)=8.5,
y=(y1+y2+y3+y4+y5+y6)=80.
所以a=y-bx=80+20×8.5=250,从而回归直线方程为=-20x+250.
(2)设工厂获得的利润为L元,依题意得
L=x(-20x+250)-4(-20x+250)
=-20x2+330x-1 000
=-20+361.25.
当且仅当x=8.25时,L取得最大值.
故当单价定为8.25元时,工厂可获得最大利润.
  [例2] 10名同学在高一和高二的数学成绩如下表:
x
74
71
72
68
76
73
67
70
65
74
y
76
75
71
70
76
79
65
77
62
72
其中x为高一数学成绩,y为高二数学成绩.
(1)y与x是否具有相关关系?
(2)如果y与x具有线性相关关系,求回归直线方程.
[思路点拨] 可先计算线性相关系数r的值,然后与r0.05比较,进而对x与y的相关性做出判断.
[精解详析] (1)由已知表格中的数据,求得=71,=72.3,
r=≈0.78.
由检验水平0.05及n-2=8,在课本附录1中查得r0.05=0.632,因为0.78>0.632,
所以y与x之间具有很强的线性相关关系.
(2)y与x具有线性相关关系,设回归直线方程为
=+x,则有=≈1.22,
=-=72.3-1.22×71=-14.32.
所以y关于x的回归直线方程为=1.22x-14.32.
[一点通] 判断x与y是否具有线性相关关系,还可以先作出散点图,从点的分布特征来判定是否线性相关.有些同学不对问题进行必要的相关性检验,直接求x与y的回归直线方程,它就没有任何实际价值,也就不能准确反映变量x与y间的变化规律.另外,要注意计算的正确性.
5.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则r1与r2的关系为________.
解析:对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,所以有r2<0<r1.
答案:r2<0<r1
6.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为________.
解析:样本相关系数越接近1,相关性越强,现在所有的样本点都在直线y=x+1上,样本的相关系数应为1.
答案:1
7.为了了解某地母亲身高x与女儿身高y的相关关系,现随机测得10对母女的身高,所得数据如下表所示:
母亲身高x/cm
159
160
160
163
159
154
159
158
159
157
女儿身高y/cm
158
159
160
161
161
155
162
157
162
156
试对x与y进行线性回归分析,并预测当母亲身高为161 cm时,女儿的身高为多少?
解:作线性相关性检验.
=×(159+160+…+157)=158.8,
=×(158+159+…+156)=159.1,
-10()2=(1592+1602+…+1572)-10×158.82=47.6,
iyi-10=(159×158+160×159+…+157×156)-10×158.8×159.1=37.2,
-10()2=(1582+1592+…+1562)-10×159.12=56.9,
因此r=
=≈0.71.
由检验水平0.05及n-2=8,在课本附录1中查得r0.05=0.632,因为0.71>0.632,所以可以认为x与y有较强的相关关系,因而求回归直线方程有必要.
又==≈0.78,
=159.1-0.78×158.8≈35.2,
由此得回归直线方程为=35.2+0.78x,回归系数=0.78反映出当母亲身高每增加1 cm时女儿身高平均增加0.78 cm,=35.2可以理解为女儿身高中不受母亲身高影响的部分,当母亲身高为161 cm时女儿身高为=0.78×161+35.2=160.78≈161(cm),这就是说当母亲身高为161 cm时,女儿身高大致也为161 cm.
1.求线性回归方程的方法
确定线性回归方程的基本步骤为:
(1)先求;(2)再求;(3)写出方程=x+.
2.分析两个变量的相关关系常用的方法
(1)散点图法.该法主要是用来直观地分析两变量间是否存在相关关系.
(2)相关系数法.该法主要是从量上分析两个变量间相互联系的密切程度,|r|越接近于1,相关程度越强,|r|越接近于0,相关程度越弱.
一、填空题
1.设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点得到的线性回归直线(如图),以下结论正确的序号是________.
①直线l过点(x,y);
②x和y的相关系数为直线l的斜率;
③x和y的相关系数在0到1之间;
④当n为偶数时,分布在l两侧的样本点的个数一定相同.
解析:因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近于1,两个变量的线性相关程度越强,所以②③错误;④中n为偶数时,分布在l两侧的样本点的个数可以不相同,所以④错误;根据回归直线方程一定经过样本中心点可知①正确.
答案:①
2.(湖北高考改编)根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为=bx+a,则下列说法正确的是________.(填序号)
①a>0,b>0      ②a>0,b<0
③a<0,b>0 ④a<0,b<0
解析:由表中数据画出散点图,如图,
由散点图可知b<0,a>0,故②正确.
答案:②
3.设有一个回归方程为=2-2.5x,则变量x每增加一个单位时,y________.
解析:由回归系数的意义可知当变量x增加一个单位时,的平均改变量为,由题目回归方程=2-2.5x,
可得当变量x增加一个单位时,平均减少2.5个单位.
答案:平均减少2.5个单位
4.某数学老师的身高是176 cm,他爷爷、父亲和儿子的身高分别是173 cm、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm.
解析:设父亲身高为x cm,儿子身高为y cm,则
x
173
170
176
y
170
176
182
x=173,y=176,==1,=y-=176-1×173=3,∴=x+3,当x=182时,=185.
答案:185
5.为了对学业水平测试成绩进行分析,在得分60分以上的全体同学中随机抽取8位.他们的物理、化学成绩如下:
物理成绩x/分
72
77
80
84
88
90
93
95
化学成绩y/分
67
72
76
80
84
87
90
92
若用变量x,y分别记作物理成绩和化学成绩,则x,y之间的线性相关系数r为________.
(参考数据:≈85,=81,(xi-)2≈457,(yi-)2≈550,(xi-)(yi-)≈501,≈21.4,≈23.5)
解析:r=
≈≈≈0.996.
答案:0.996
二、解答题
6.某企业上半年产品产量与单位成本资料如下:
月份
产量(千件)
单位成本(元)
1
2
73
2
3
72
3
4
71
4
3
73
5
4
69
6
5
68
且已知产量x与单位成本y具有线性相关关系.
(1)求出线性回归方程;
(2)指出产量每增加1 000件时,单位成本平均变动多少?
(3)假定产量为6 000件时,单位成本为多少元?
解:(1)n=6,=3.5,=71,
=≈-1.82,
=-=71+1.82×3.5=77.37,
则线性回归方程为=x+=-1.82x+77.37.
(2)因为单位成本平均变动=-1.82<0,且产量x的计量单位是千件,所以根据回归系数的意义有产量每增加一个单位即1 000件时,单位成本平均减少1.82元.
(3)当产量为6 000件,
即x=6时,代入线性回归方程,
得=77.37-1.82×6=66.45(元).
即当产量为6 000件时,单位成本大约为66.45元.
7.一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器运转速度的变化而变化,下表为抽样试验的结果:
转速x(转/秒)
16
14
12
8
每小时生产有缺点的零件数y(件)
11
9
8
5
(1)利用散点图或相关系数r的大小判断变量y对x是否线性相关?为什么?
(2)如果y对x有线性相关关系,求线性回归方程;
(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么机器的运转速度应控制在什么范围内?
(最后结果精确到0.001,参考数据:≈25.617,16×11+14×9+12×8+8×5=438,162+142+122+82=660,112+92+82+52=291)
解:(1)∵=12.5,=8.25,
(xi-)(yi-)=25.5,
=≈25.617,
∴r0.05≈0.995,由检验水平0.05及n-2=2,在附录1中查得r0.05=0.950,因为0.995>0.950,∴y与x有线性相关关系.
(2)∵(xi-)2=35,∴≈0.729,=-≈-0.863.
∴线性回归方程为=0.729x-0.863.
(3)0.729x-0.863≤10,解得x≤14.901.
故机器运转速度应在14转/秒之内.
8.(重庆高考)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i=80,i=20,iyi=184,=720.
(1)求家庭的月储蓄y对月收入x的线性回归方程=x+;
(2)判断变量x与y之间是正相关还是负相关;
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
解:(1)依题意得:
===0.3,
=-=2-0.3×8=-0.4,
故所求回归方程为y=0.3x-0.4.
(2)由于变量y的值随x的值增加而增加(=0.3>0),故x与y之间是正相关.
(3)将x=7代入回归方程可以预测该家庭的月储蓄为y=0.3×7-0.4=1.7(千元).
§1.2 回归分析(一)
课时目标1.掌握建立线性回归模型的步骤.2.了解回归分析的基本思想和初步应用.
1.对于n对观测数据(xi,yi)(i=1,2,3,…,n),直线方程__________________称为这n对数据的线性回归方程.其中________称为回归截距,______称为回归系数,________称为回归值.
2. , 的计算公式
3.相关系数r的性质
(1)|r|≤1;
(2)|r|越接近于1,x,y的线性相关程度越强;
(3)|r|越接近于0,x,y的线性相关程度越弱.
一、填空题
1.下列关系中正确的是________(填序号).
①函数关系是一种确定性关系;
②相关关系是一种非确定性关系;
③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;
④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
2.回归直线 = + x恒经过定点________.
3.为了解决初中二年级平面几何入门难的问题,某校在初中一年级代数教学中加强概念和推理教学,并设有对照班,下表是初中二年级平面几何期中测试成绩统计表的一部分,其χ2≈________(保留小数点后两位).
70和70分以下
70分以上
合计
对照班
32
18
50
实验班
12
38
50
4.从某学校随机选取8名女大学生,其身高x(cm)和体重y(kg)的线性回归方程为 =0.849x-85.712,则身高172 cm的女大学生,由线性回归方程可以估计其体重为________ kg.
5.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,且y关于x的回归直线的斜率是 ,那么 与r的符号________(填写“相同”或“相反”).
6.某小卖部为了了解冰糕销售量y(箱)与气温x(℃)之间的关系,随机统计了某4天卖出的冰糕的箱数与当天气温,并制作了对照表(如下表所示),且由表中数据算得线性回归方程 = x+ 中的 =2,则预测当气温为25℃时,冰糕销量为________箱.
气温(℃)
18
13
10
-1
冰糕(箱)
64
38
34
24
7.今年一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y(件)与月平均气温x(℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表:
月平均气温x(℃)
17
13
8
2
月销售量y(件)
24
33
40
55
由表中数据算出线性回归方程 = x+ 中的 ≈-2.气象部门预测下个月的平均气温约为6℃,据此估计,该商场下个月羽绒服的销售量的件数约为______________________.
8.已知线性回归方程为 =0.50x-0.81,则x=25时,y的估计值为________.
二、解答题
9.某企业上半年产品产量与单位成本资料如下:
月份
产量(千件)
单位成本(元)
1
2
73
2
3
72
3
4
71
4
3
73
5
4
69
6
5
68
(1)求出线性回归方程;
(2)指出产量每增加1 000件时,单位成本平均变动多少?
(3)假定产量为6 000件时,单位成本为多少元?
10.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:
推销员编号
1
2
3
4
5
工作年限x/年
3
5
6
7
9
推销金额y/万元
2
3
3
4
5
(1)求年推销金额y关于工作年限x的线性回归方程;
(2)若第6名推销员的工作年限为11年,试估计他的年推销金额.
能力提升
11.下表提供了某厂节能降耗技术改造后,生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.
x
3
4
5
6
y
2.5
3
4
4.5
则根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程是________.
12.以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:
房屋面积(m2)
115
110
80
135
105
销售价格(万元)
24.8
21.6
18.4
29.2
22
(1)画出数据对应的散点图;
(2)求线性回归方程,并在散点图中加上回归直线;
(3)根据(2)的结果估计当房屋面积为150 m2时的销售价格.
1.(1)求线性回归方程的步骤为
①作出散点图;②利用公式计算回归系数 及 的值;③写出线性回归方程.
(2)一般地,我们可以利用线性回归方程进行预测,这里所得到的值是预测值,但不是精确值.
2.计算相关系数r可以判断变量x,y的线性相关程度.
§1.2 回归分析(一)
答案
知识梳理
1. = +x    
作业设计
1.①②④ 2.(,) 3.16.23
4.60.316
解析 当x=172时, =0.849×172-85.712
=60.316.
5.相同
解析 可以分析 、r的计算公式.
6.70
解析 由线性回归方程必过点(,),且 =2,
得 =20,所以当x=25时, =70.
7.46
解析 ∵样本点的中心为(10,38),
∴38=-2×10+ ,∴ =58,
∴当x=6时, =-2×6+58=46.
8.11.69
解析 y的估计值就是当x=25时的函数值,
即0.50×25-0.81=11.69.
9.解 (1)n=6,xi=21,yi=426,=3.5,
=71,x=79,xiyi=1 481,
==≈-1.82.
=- =71+1.82×3.5=77.37.
线性回归方程为 = + x=77.37-1.82x.
(2)因为单位成本平均变动 =-1.82<0,且产量x的计量单位是千件,所以根据回归系数 的意义有:
产量每增加一个单位即1 000件时,单位成本平均减少1.82元.
(3)当产量为6 000件时,即x=6,代入线性回归方程:
=77.37-1.82×6=66.45(元).
当产量为6 000件时,单位成本为66.45元.
10.解 (1)设所求的线性回归方程为 = x+ ,则 ===0.5,
=- =0.4.
所以年推销金额y关于工作年限x的线性回归方程为 =0.5x+0.4.
(2)当x=11时, =0.5×11+0.4=5.9(万元).
所以可以估计第6名推销员的年推销金额为5.9万元.
11. =0.7x+0.35
解析 对照数据,计算得:x=86,
==4.5,==3.5.
已知xiyi=66.5,
所以 ===0.7.
=- =3.5-0.7×4.5=0.35.
因此,所求的线性回归方程为 =0.7x+0.35.
12.解 (1)散点图如图所示:
(2)=xi=109, (xi-)2=1 570,
=23.2, (xi-)(yi-)=308.
设所求线性回归方程为 = x+ ,
则 =≈0.196 2,
=- =23.2-109×≈1.816 6.
故所求线性回归方程为 =0.196 2x+1.816 6.
(3)据(2),当x=150 m2时,销售价格的估计值为
=0.196 2×150+1.816 6=31.246 6(万元).
§1.2 回归分析(二)
课时目标 1.会对变量x与y进行相关性检验.2.进一步理解回归分析的基本思想.
1.根据给定的样本数据,求得的线性回归方程未必有实际意义.
2.对相关系数r进行显著性检验的基本步骤如下:
(1)提出统计假设H0:变量x,y________________;
(2)如果以95%的把握作出推断,可以根据1-0.95=0.05与n-2在附录1中查出一个r的__________(其中1-0.95=0.05称为____________);
(3)计算__________________;
(4)作出统计推断:若__________,则否定H0,表明有________的把握认为x与y之间具有__________________;若________,则没有理由拒绝原来的假设H0,即就目前数据而言,没有充分理由认为x与y之间有__________________.
一、填空题
1.下列说法正确的是________.(填序号)
①y=2x2+1中的x、y是具有相关关系的两个变量
②正四面体的体积与其棱长具有相关关系
③电脑的销售量与电脑的价格之间是一种确定性的关系
④传染病医院感染甲型H1N1流感的医务人员数与医院收治的甲型流感人数是具有相关关系的两个变量
2.某考察团对全国10大城市进行职工人均工资水平x(千元)与居民人均消费水平y(千元)统计调查,y与x具有相关关系,线性回归方程为 =0.66x+1.562,若某城市居民人均消费水平为7.675千元,估计该城市人均工资收入的百分比约为________.
3.对具有线性相关关系的变量x、y有观测数据(xi,yi) (i=1,2,…,10),它们之间的线性回归方程是=3x+20,若xi=18,则yi=________.
4.某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得线性回归方程 = x+ 中的 为9.4,据此模型预报广告费用为6万元是销售额为________万元.
5.若回归直线的斜率的估计值是1.23,样本的中心点为(4,5),则线性回归方程为________________.
6.某种产品的广告费支出x与销售额y之间有下表关系,现在知道其中一个数据弄错了,则最可能错的数据是__________________________________.
x/万元
2
4
5
6
8
y/万元
30
40
60
50
70
7.根据统计资料,我国能源生产自1986年以来发展很快.下面是我国能源生产总量(单位:亿吨标准煤)的几个统计数据:
年份
1986
1991
1996
2001
产量
8.6
10.4
12.9
16.1
根据有关专家预测,到2010年我国能源生产总量将达到21.7亿吨左右,则专家所选择的回归模型是下列的四种模型中的哪一种________.(填序号)
① = x+ (a≠0);
②y=ax2+bx+c(a≠0);
③y=ax(a>0且a≠1);
④y=logax(a>0且a≠1).
8.下列说法中正确的是________(填序号).
①回归分析就是研究两个相关事件的独立性;②回归模型都是确定性的函数;③回归模型都是线性的;④回归分析的第一步是画散点图或求相关系数;⑤回归分析就是通过分析、判断,确定相关变量之间的内在的关系的一种统计方法.
二、解答题
9.假设学生在初一和初二数学成绩是线性相关的.若10个学生初一(x)和初二(y)的数学分数如下:
x
74
71
72
68
76
73
67
70
65
74
y
76
75
71
70
76
79
65
77
62
72
试求初一和初二数学分数间的线性回归方程.
10.在某化学实验中,测得如下表所示的6对数据,其中x(单位:min)表示化学反应进行的时间,y(单位:mg)表示未转化物质的质量.
x/min
1
2
3
4
5
6
y/mg
39.8
32.2
25.4
20.3
16.2
13.3
(1)设y与x之间具有关系y=cdx,试根据测量数据估计c和d的值(精确到0.001);
(2)估计化学反应进行到10 min时未转化物质的质量(精确到0.1).
能力提升
11.假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下表的统计资料:
使用年限x
2
3
4
5
6
维修费用y
2.2
3.8
5.5
6.5
7.0
若由资料知y与x呈线性相关关系.
(1)试求线性回归方程 = x+ 的回归系数 与常数项 ;
(2)估计使用年限为10年时,维修费用是多少?
12.测得10对某国父子身高(单位:英寸)如下:
父亲身高(x)
60
62
64
65
66
67
68
70
72
74
儿子身高(y)
63.6
65.2
66
65.5
66.9
67.1
67.4
68.3
70.1
70
(1)对变量y与x进行相关性检验;
(2)如果y与x之间具有线性相关关系,求线性回归方程;
(3)如果父亲的身高为73英寸,估计儿子的身高.
1.线性回归方程可得到变量 的估计值.
2.通过显著性检验可以推断x、y之间是否具有线性相关关系.
§1.2 回归分析(二)
答案
知识梳理
2.(1)不具有线性相关关系 (2)临界值r0.05
检验水平 (3)样本相关系数r (4)|r|>r0.05 95% 线性相关关系 |r|≤r0.05 线性相关关系
作业设计
1.④
解析 感染的医务人员数不仅受医院收治的病人数的影响,还受防护措施等其他因素的影响.
2.83%
解析 当 =7.675时,x≈9.262,
∴估计该城市人均消费额占人均收入百分比约7.675÷9.262≈83%.
3.254
解析 由xi=18,得=1.8.
因为点(,)在直线 =3x+20上,则=25.4.
所以yi=25.4×10=254.
4.65.5万元
解析 由题意可知=3.5,=42,
则42=9.4×3.5+ , =9.1, =9.4×6+9.1
=65.5.
5. =1.23x+0.08
解析 回归直线 = + x经过样本的中心点(4,5),
又 =1.23,所以 =- =5-1.23×4=0.08,
所以线性回归方程为 =1.23x+0.08.
6.(6,50) 7.①
8.④⑤
解析 回归分析就是研究两个事件的相关性;回归模型是需要通过散点图模拟的;回归模型有线性和非线性之分.
9.解 因为=71,=50 520,=72.3,iyi=51 467,
所以, =≈1.218 2.
=72.3-1.218 2×71=-14.192 2,
线性回归方程是: =1.218 2x-14.192 2.
10.解 (1)在y=cdx两边取自然对数,
令ln y=z,ln c=a,ln d=b,则z=a+bx.
由已知数据,得
x
1
2
3
4
5
6
y
39.8
32.2
25.4
20.3
16.2
13.3
z
3.684
3.472
3.235
3.011
2.785
2.588
由公式得a≈3.905 5,b≈-0.221 9,则线性回归方程为 =3.905 5-0.221 9x.而ln c=3.905 5,ln d=-0.221 9,故c≈49.681,d≈0.801,所以c、d的估计值分别为49.681,0.801.
(2)当x=10时,由(1)所得公式可得y≈5.4(mg).
11.解 (1)由已知条件制成下表:
i
1
2
3
4
5
合计
xi
2
3
4
5
6
20
yi
2.2
3.8
5.5
6.5
7.0
25
xiyi
4.4
11.4
22.0
32.5
42.0
112.3
x
4
9
16
25
36
90
=4,  =5,
x=90,  xiyi=112.3
于是 ===1.23,
=- =5-1.23×4=0.08.
(2)由(1)知线性回归方程是 =1.23x+0.08,
当x=10时,y=1.23×10+0.08=12.38(万元).
即估计使用10年时维修费用是12.38万元.
12.解 (1)=66.8,=67.01,
x=44 794,y=44 941.93, =4 476.27,
2=4 462.24,2=4 490.34,xiyi=44 842.4.
所以r=

=≈≈0.9 801.
又查表得r0.05=0.632.
因为r>r0.05,所以y与x之间具有线性相关关系.
(2)设回归方程为 = x+ .
由 ==
=≈0.4645,
=- =67.01-0.464 5×66.8≈35.98.
故所求的线性回归方程为 =0.464 5x+35.98.
(3)当x=73时, =0.464 5×73+35.98≈69.9,所以当父亲身高为73英寸时,估计儿子的身高约为69.9英寸.
第1章 统计案例
1.独立性检验
所谓的独立性检验,就是根据采集的数据,利用公式求出χ2的值,比较χ2与临界值的大小关系,来判断两个变量是否相关的问题,是一种假设检验.
独立性检验问题的基本步骤为:
(1)找相关数据,作列联表;
(2)求统计量χ2;
(3)判断可能性,注意与临界值作比较,得出事件有关的确信度.
若χ2>10.828,则有99.9%的把握认为“x与y有关系”;
若χ2>7.879,则有99.5%的把握认为“x与y有关系”;
若χ2>6.635,则有99%的把握认为“x与y有关系”;
若χ2>5.024,则有97.5%的把握认为“x与y有关系”;
若χ2>3.841,则有95%的把握认为“x与y有关系”;
若χ2≥2.706,则有90%的把握认为“x与y有关系”;
如果χ2<2.706,就认为没有充分的证据显示“x与y有关系”.
2.回归分析
对于两个变量之间是否存在线性关系,可根据得到的数据,作散点图.如果这些点在一条直线附近,则两变量呈线性相关关系,再列表,计算,它们之间的相关程度可由相关系数进行判断,我们可以根据所得的线性回归方程进行有效的预测.
若两变量之间存在线性关系,设线性回归方程为=+x,则=,=-,从而求出线性回归方程.
其线性相关程度可用计算两个随机变量间的相关系数r来判断,r=,|r|越接近于1,x,y的线性相关程度越强;|r|越接近于0,x,y的线性相关程度越弱.
(考试时间:120分钟 试卷总分:160分)
一、填空题(本大题共14小题,每小题5分,共70分)
1.下列现象属于相关关系的序号是________.
①家庭收入越多,消费也越多
②圆的半径越大,圆的面积越大
③气体体积随温度升高而膨胀,随压力加大而减小
④在价格不变的条件下,商品销售量越多销售额也越多
解析:根据相关关系的概念可知①属于相关关系.
答案:①
2.为研究变量x和y的线性相关关系,甲、乙两人分别作了研究,利用线性回归方程得到回归直线l1和l2,两人计算知相同,也相同,则l1与l2的位置关系是________.
解析:每条回归直线都过样本中心(,),故l1与l2有公共点(,).
答案:l1与l2有公共点(,)
3.考古学家通过始祖鸟化石标本发现:其股骨长度x(cm)与肱骨长度y(cm)的线性回归方程为=1.197x-3.660,由此估计,当股骨长度为50 cm时,肱骨长度的估计值为________ cm.
解析:根据线性回归方程=1.197x-3.660,将x=50代入得y=56.19,则肱骨长度的估计值为56.19 cm.
答案:56.19
4.在2014年1月1日,某市场价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:
价格x
9
9.5
10
10.5
11
销售量y
11
10
8
6
5
由散点图可知,销售量y与价格x之间有较好的线性相关关系,其线性回归直线方程是:=-3.2x+(参考公式:回归方程=x+,=-),则=________.
解析:价格的平均数是==10,销售量的平均数是==8,
由=-3.2x+知=-3.2,
所以=-=8+3.2×10=40.
答案:40
5.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是,纵截距是,则与r的符号________.(相同或相反)
解析:当变量x和y之间是正相关时,r>0且>0;
当变量x和y之间是负相关时,r<0且<0.
答案:相同
6.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性作试验并用回归分析方法分别求出相关系数r.如表:




r
0.82
0.78
0.69
0.85
试验结果体现变量A,B的线性相关性最强的是________.
解析:根据线性相关的检验方法知,当|r|越趋近于1,两个变量的线性相关程度越强.故丁正确.
答案:丁
7.(重庆高考改编)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能为________.
①=0.4x+2.3      ②=2x-2.4
③=-2x+9.5 ④=-0.3x+4.4
解析:依题意知,相应的回归直线的斜率应为正,排除③,④.且直线必过点(3,3.5)代入①,②得①正确.
答案:①
8.
以下关于线性回归的判断,正确的序号是________.
①散点图中所有点都在一条直线附近,这条直线为回归直线
②散点图中的绝大多数点都线性相关,个别特殊点不影响线性回归,如图中的A,B,C点
③已知直线方程为=0.50x-0.81,则x=25时,y的估计值为11.69
④回归直线方程的意义是它反映了样本整体的变化趋势
解析:①不正确,②③④均正确.
答案:②③④
9.如图所示,有5组数据,去掉________后,剩下的4组数据的线性相关性更强了.
解析:由散点图可见:点A、B、C、E近似地在一条直线上,所以去掉点D以后,线性相关性就更好了.
答案:D(3,10)
10.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是________(填序号).
①y与x具有正的线性相关关系
②回归直线过样本点的中心(,)
③若该大学某女生身高增加1 cm,则其体重约增加0.85 kg 
④若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
解析:①由于回归直线斜率为正值,故y与x是有正的线性相关关系;②回归直线过样本中心点(,);③根据回归直线斜率意义正确;④由于回归分析得出的是估计值.
答案:④
11.下表是性别与喜欢足球与否的统计列联表,依据表中的数据,得到χ2=________.
喜欢足球
不喜欢足球
合计

40
28
68

5
12
17
合计
45
40
85
解析:由χ2=
=≈4.722.
答案:4.722
12.下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系.
时间x
1
2
3
4
5
命中率y
0.4
0.5
0.6
0.6
0.4
小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.
解析:平均命中率=×(0.4+0.5+0.6+0.6+0.4)=0.5,=(1+2+3+4+5)=3,
iyi=7.6,=55,
所以==0.01,
=-=0.5-0.01×3=0.47,∴=0.01x+0.47,
令x=6,得=0.53.
答案:0.5 0.53
13.某化工厂为了预测某产品的回收率y,需要研究它和原料有效成分含量 x之间的线性相关关系,现取了8对观测数据,计算得i=52,i=228,=478,iyi=1 849,则y对x的回归方程为________.
解析:据已知=
=≈2.62.
=-=11.47.∴=11.47+2.62x.
答案:=11.47+2.62x
14.(福建高考改编)已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为=x+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则与b′的关系为________,与a′的关系为________.
解析:==,=,iyi=58,=91,
代入公式求得=
==,
=-=-×=-,
而b′=2,a′=-2,∴<b′,>a′.
答案:<b′ >a′
二、解答题(本大题共6小题,共90分)
15.(本小题满分14分)在研究某种新措施对猪白痢的防治效果问题时,得到以下数据:
存活数
死亡数
合计
对照
114
36
150
新措施
132
18
150
合计
246
54
300
试问:新措施对防治猪白痢是否有效?
解:提出假设H0:防治猪白痢与是否采取新措施无关.
由χ2公式,得χ2=

≈7.317>6.635.
因为H0成立时,χ2≥6.635的概率为0.01,因此我们有99%的把握认为新措施对防治猪白痢是有效的.
16.(本小题满分14分)一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:
零件数
x(个)
10
20
30
40
50
60
70
80
90
100
加工时间
y(分钟)
62
68
75
81
89
95
102
108
115
122
如果y与x具有线性相关关系,求线性回归方程.
解:设所求的线性回归方程为=x+,
则有==≈0.668,
=--0.668=54.96.
因此,所求的回归直线方程为=0.668x+54.96.
17.(本小题满分14分)为了解某班学生喜欢打篮球是否与性别有关,对本班50人进行了调查,得到了如下2×2列联表:
喜爱打篮球
不喜爱打篮球
合计
男生
5
女生
10
合计
50
已知在全班50人中随机抽取1人,抽到喜爱打篮球的学生的概率为.
(1)请将上面的2×2列联表补充完整;
(2)是否有99.5%的把握认为“喜爱打篮球与性别有关?”说明你的理由;
(参考公式:χ2=,其中n=a+b+c+d)
解:(1)补充如下:
喜爱打篮球
不喜爱打篮球
合计
男生
20
5
25
女生
10
15
25
合计
30
20
50
(2)∵χ2=≈8.333>7.879.
∴有99.5%的把握认为“喜爱打篮球与性别有关”.
18.(本小题满分16分)为了对新产品进行合理定价,对该产品进行了试销试验,以观察需求量y(单位:千件)对于价格x(单位:千元)的反应,得数据如下:
x
50
70
80
40
30
90
95
97
y
100
80
60
120
135
55
50
48
(1)若y与x之间具有线性相关关系,求线性回归方程;
(2)若成本x=y+500,试求:
①在盈亏平衡条件下(利润为零)的价格;
②在利润为最大的条件下,定价为多少?
解:(1)=≈-1.286 6,
=-≈169.772 4,
∴线性回归方程为=-1.286 6x+169.772 4.
(2)①在盈亏平衡条件下,
x=+500,即-1.286 6x2+169.772 4x=-1.286 6x+169.772 4+500,
1.286 6x2-171.059x+669.772 4=0,
解得x1=128.916 2,x2=4.038 1(舍去),
∴此时新产品的价格为128.916 2千元.
②在利润最大的条件下,
Q=x-x
=-1.286 6x2+169.772 4x+1.286 6x-169.772 4-500
=-1.286 6x2+171.059x-669.772 4.
要使Q取得最大值,x=66.477 1,即此时新产品应定价为66.477 1千元.
19.(本小题满分16分)某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;

(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
附:χ2=
P(χ2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
解:(1)300×=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的.所以每周平均体育运动时间与性别列联表如下:
每周平均体育运动时间与性别列联表
男生
女生
总计
每周平均体育运动时间
不超过4小时
45
30
75
每周平均体育运动时间
超过4小时
165
60
225
总计
210
90
300
结合列联表可算得χ2==≈4.762>3.841.
所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
20.(本小题满分16分)炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响炼钢时间的长短,必须掌握钢水含碳量和冶炼时间的关系.如果已测得炉料熔化完毕时钢水的含碳量x与冶炼时间Y(从炉料熔化完毕到出钢的时间)的一列数据,如下表所示:
x(0.01%)
104
180
190
177
147
134
150
191
204
121
Y(min)
100
200
210
185
155
135
170
205
235
125
(1)Y与x是否具有线性相关关系?
(2)如果Y与x具有线性相关关系,求线性回归方程;
(3)预测当钢水含碳量为160个0.01%时,应冶炼多少分钟?
解:(1)由已知数据列成下表:
i
1
2
3
4
5
xi
104
180
190
177
147
yi
100
200
210
185
155
i
6
7
8
9
10
xi
134
150
191
204
121
yi
135
170
205
235
125
由上表知:=159.8,=172,=265 448,
=312 350,iyi=287 640.
于是r=≈0.990 6.
由于|r|=0.990 6>r0.05,可知x与Y具有很强的线性相关关系.
(2)设所求的线性回归方程为=x+.
则=≈1.267,
=-≈-30.467.
所以所求的线性回归方程为=1.267x-30.467.
(3)当x=160时,=1.267×160-30.467≈172(min).
即大约冶炼172 min.