高中数学人教版必修3 2.3.2两个变量的线性相关 【教案+作业】( 10份 )

文档属性

名称 高中数学人教版必修3 2.3.2两个变量的线性相关 【教案+作业】( 10份 )
格式 zip
文件大小 2.4MB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2017-09-26 16:13:11

文档简介

章末复习课
课时目标 1.巩固本章主干知识点.2.提高知识的综合应用能力.
INCLUDEPICTURE
"E:\\常贝
2015\\ppt\\同步\\数学\\创新
人教A版\\《课时作业与单元检测》Word版文档\\双基演练.TIF"
\
MERGEFORMAT
1.某质检人员从编号为1~100这100件产品中,依次抽出号码为3,13,23,…,93的产品进行检验,则这样的抽样方法是(  )
A.简单随机抽样
B.系统抽样
C.分层抽样
D.以上都不对
2.某单位有职工750人,其中青年职工350人,中年职工250人,老年职工150人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本,若样本中的青年职工为7人,则样本容量为(  )
A.7
B.15
C.25
D.35
3.若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是(  )
A.91.5和91.5
B.91.5和92
C.91和91.5
D.92和92
4.某人5次上班途中所花的时间(单位:分钟)分别为x,y,10,11,9.已知这组数据的平均数为10,方差为2,则|x-y|的值为(  )
A.1
B.2
C.3
D.4
5.如果数据x1,x2,…,xn的平均数为,方差为s2,则2x1+3,2x2+3,…,2xn+3的平均数和方差分别为(  )
A.和s
B.2+3和4s2
C.2+3和s2
D.2+3和4s2+12s+9
6.某棉纺厂为了了解一批棉花的质量,从中随机抽测了100根棉花纤维的长度(棉花纤维的长度是棉花质量的重要指标),所得数据均在区间[5,40]中,其频率分布直方图如图所示,则在抽测的100根中,有______根棉花纤维的长度小于20
mm.
INCLUDEPICTURE
"E:\\常贝
2015\\ppt\\同步\\数学\\创新
人教A版\\《课时作业与单元检测》Word版文档\\作业设计A.TIF"
\
MERGEFORMAT
一、选择题
1.为了调查参加运动会的500名运动员的身高情况,从中抽查了50名运动员的身高,就这个问题来说,下列说法正确的是(  )
A.50名运动员是总体
B.每个运动员是个体
C.抽取的50名运动员是样本
D.样本容量是50
2.某高级中学高一年级有十六个班,812人,高二年级有十二个班,605人,高三年级有十个班,497人,学校为加强民主化管理,现欲成立由76人组成的学生代表会,你认为下列代表产生的办法中,最符合统计抽样原则的是(  )
A.指定各班团支部书记、班长为代表
B.全校选举出76人
C.高三选举出20人,高二选举出24人,高一选举出32人
D.高三20人,高二24人,高一32人均在各年级随机抽取
3.一个容量为n的样本,分成若干组,已知某组的频数和频率分别为40和0.125,则n的值是(  )
A.640
B.320
C.240
D.160
4.观察新生婴儿的体重,其频率分布直方图如图所示,则新生婴儿的体重在[2
700,3
000]的频率为(  )
A.0.001
B.0.01
C.0.003
D.0.3
5.在某项体育比赛中,七位裁判为一选手打出的分数如下:
90 89 90 95 93 94 93
去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为(  )
A.92,2
B.92,2.8
C.93,2
D.93,2.8
6.下列图形中具有相关关系的两个变量是(  )
题 号
1
2
3
4
5
6
答 案
二、填空题
7.一个总体中有100个个体,随机编号0,1,2,…,99,依从小到大的编号顺序平均分成10个小组,组号依次为1,2,3,…,10.现用系统抽样方法抽取一个容量为10的样本,规定如果在第1组随机抽取的号码为m,那么在第k组中抽取的号码个位数字与m+k的个位数字相同,若m=8,则在第8组中抽取的号码是________.
8.一个样本容量是100的频率分布如图:
(1)样本落在[60,70)内的频率为________;
(2)样本落在[70,80)内的频数为________;
(3)样本落在[90,100)内的频率是0.16,该小矩形的高是________.
9.某商店统计了最近6个月某商品的进价x与售价y(单位:元)的对应数据如下表:
x
3
5
2
8
9
12
y
4
6
3
9
12
14
假设得到的关于x和y之间的回归直线方程是

x+
,那么该直线必过的定点是________.
三、解答题
10.对甲、乙的学习成绩进行抽样分析,各抽5门功课,得到的观测值如下:

60
80
70
90
70

80
60
70
80
75
分别计算两个样本的平均数和方差s2,并根据计算结果估计甲、乙谁的平均成绩较好?谁的各门功课发展较平衡?
11.下表数据是退水温度x(℃)对黄酮延长性y(%)效应的试验结果,y是以延长度计算的,且对于给定的x,y为正态变量,其方差与x无关.
x(℃)
300
400
500
600
700
800
y(%)
40
50
55
60
67
70
(1)画出散点图;
(2)指出x,y是否线性相关;
(3)若线性相关,求y关于x的回归方程;
(4)估计退水温度是1
000℃时,黄酮延长性的情况.
12.在育民中学举行的电脑知识竞赛中,将九年级两个班参赛的学生成绩(得分均为整数)进行整理后分成五组,绘制如图所示的频率分布直方图.已知图中从左到右的第一、第三、第四、第五小组的频率分别是0.30,0.15,0.10,0.05,第二小组的频数是40.
(1)求第二小组的频率,并补全这个频率分布直方图;
(2)求这两个班参赛的学生人数是多少?
(3)这两个班参赛学生的成绩的中位数应落在第几小组内?(不必说明理由)
能力提升
13.在一次中学生田径运动会上,参加跳高的17名运动员成绩如下:
成绩(单位m)
1.50
1.60
1.65
1.70
1.75
1.80
1.85
1.90
人数
2
3
2
3
4
1
1
1
(1)分别求这些运动员成绩的众数、中位数、平均数(保留3个有效数字);
(2)分析这些数据的含义.
14.今年西南一地区遭遇严重干旱,某乡计划向上级申请支援,为上报需水量,乡长事先抽样调查了100户村民的月均用水量,得到这100户村民月均用水量的频率分布表如下表:(月均用水量的单位:吨)
用水量分组
频数
频率
[0.5,2.5)
12
[2.5,4.5)
[4.5,6.5)
40
[6.5,8.5)
0.18
[8.5,10.5]
6
合计
100
1
(1)请完成该频率分布表,并画出相对应的频率分布直方图和频率分布折线图;
(2)估计样本的中位数是多少?
(3)已知上级将按每户月均用水量向该乡调水,若该乡共有1
200户,请估计上级支援该乡的月调水量是多少吨?
INCLUDEPICTURE
"E:\\常贝
2015\\ppt\\同步\\数学\\创新
人教A版\\《课时作业与单元检测》Word版文档\\反思感悟1.TIF"
\
MERGEFORMAT
1.三种常用的抽样方法:简单随机抽样、系统抽样和分层抽样.在使用它们的过程中,每一个个体被抽到的可能性是一样的.应用抽样方法抽取样本时,应注意以下几点:
(1)用随机数法抽样时,对个体所编的号码位数是相等的,当问题所给位数不相等时,以位数较多的为准,在位数较少的数前面添“0”,凑齐位数.
(2)用系统抽样法抽样时,如果总体容量N能被样本容量n整除,抽样间隔为k=,如果总体容量N不能被样本容量n整除,先用简单抽样法剔除多余个数、抽样间隔为k=[],([]表示取的整数部分.)
(3)三种抽样方法的适用范围:当总体容量较小,样本容量也较小时,可采用抽签法;当总体容量较大,样本容量较小时,可采用随机数表法;当总体容量较大,样本容量也较大时,可采用系统抽样法;当总体由差异明显的几部分组成时,可采用分层抽样法.
2.为了从整体上更好地把握总体的规律,可以通过样本数据的众数、中位数、平均数和标准差等数字特征对总体的数字特征作出估计.众数就是样本数据中出现次数最多的那个值;中位数就是把样本数据分成相同数目的两部分,其中一部分比这个数小,另一部分比这个数大的那个数;平均数就是所有样本数据的平均值,用表示;标准差是反映样本数据分散程度大小的最常用统计量,其计算公式如下:
s=.
有时也用标准差的平方s2——方差来代替标准差,实质一样.
3.求回归直线方程的步骤:
(1)先把数据制成表,从表中计算出,,x,y,xiyi;
(2)计算回归系数

.公式为
(3)写出回归直线方程

x+
.
答案:
章末复习课
双基演练
1.B
2.B [设样本容量为n,则=,∴n=15.]
3.A
4.D [∵=10,[(x-10)2+(y-10)2+(10-10)2+(11-10)2+(9-10)2]=2,化简得x+y=20,(x-10)2+(y-10)2=8,解得x=12,y=8或x=8,y=12,
∴|x-y|=4.]
5.B [因x1+x2+…+xn=n,
所以
==+3=2+3.
又(x1-)2+(x2-)2+…+(xn-)2=ns2,
所以[2x1+3-(2+3)]2+[2x2+3-(2+3)]2+…+[2xn+3-(2+3)]2=4[(x1-)2+(x2-)2+…+(xn-)2]=4ns2.
所以方差为4s2.]
6.30
解析 纤维长度小于20
mm的频率约为
p=5×0.01+5×0.01+5×0.04=0.3,
∴100×0.30=30.
作业设计
1.D [在这个问题中所要考察的对象是身高,另一方面,样本容量是指样本中的个体数目.]
2.D [以年级为层,按各年级所占的比例进行抽样,为了使抽取的学生具有代表性,应在各年级进行随机抽样.]
3.B [由=0.125,得n=320.]
4.D [频率=×组距,
由图易知:=0.001,组距=3
000-2
700=300,
∴频率=0.001×300=0.3]
5.B [去掉95和89后,剩下5个数据的平均值
==92,
方差s2=[(90-92)2+(90-92)2+(93-92)2+(94-92)2+(93-92)2]=2.8.]
6.D [A和B符合函数关系,即对x的每一个值,y都有唯一确定的值与之对应;从C、D散点图来看,D的散点都在某一条直线附近波动,因此两变量具有相关关系.]
7.76
解析 由题意知:m=8,k=8,
则m+k=16,也就是第8组的个位数字为6,
十位数字为8-1=7,故抽取的号码为76.
8.(1)0.2 (2)30 (3)0.016
解析 (1)由×组距=频率,得频率为0.2;
(2)频率为0.3,又由频数=频率×样本容量,得频数为30;
(3)由=高,得小矩形的高是0.016.
9.(6.5,8)
解析 =(3+5+2+8+9+12)=6.5,
=(4+6+3+9+12+14)=8.

=-
得=


所以y=
x+
恒过(,),
即过定点(6.5,8).
10.解 甲=(60+80+70+90+70)=74,
乙=(80+60+70+80+75)=73,
s=(142+62+42+162+42)=104,
s=(72+132+32+72+22)=56,
∵甲>乙,s>s;
∴甲的平均成绩较好,乙的各门功课发展较平衡.
11.解 (1)散点图如下.
(2)由散点图可以看出样本点分布在一条直线的附近,可见y与x线性相关.
(3)列出下表并用科学计算器进行有关计算.
i
1
2
3
4
5
6
xi
300
400
500
600
700
800
yi
40
50
55
60
67
70
xiyi
12
000
20
000
27
500
36
000
46
900
56
000
90
000
160
000
250
000
360
000
490
000
640
000
=550,=57x2i=1
990
000,xiyi=198
400
于是可得
==≈0.058
86,
=-
=57-0.058
86×550=24.627.
因此所求的回归直线方程为
=0.058
86x+24.627.
(4)将x=1
000代入回归方程得
y=0.058
86×1
000+24.627=83.487,
即退水温度是1
000℃时,
黄酮延长性大约是83.487%.
12.解 (1)各小组的频率之和为1.00,第一、三、四、五小组的频率分别是0.30,0.15,0.10,0.05.
∴第二小组的频率为:
1.00-(0.30+0.15+0.10+0.05)=0.40.
∴落在59.5~69.5的第二小组的小长方形的高===0.04.
则补全的直方图如图所示.
(2)设九年级两个班参赛的学生人数为x人.
∵第二小组的频数为40人,频率为0.40,
∴=0.40,解得x=100(人).
所以九年级两个班参赛的学生人数为100人.
(3)∵0.3×100=30,0.4×100=40,0.15×100=15,0.10×100=10,0.05×100=5,
即第一、第二、第三、第四、第五小组的频数分别为30,40,15,10,5,所以九年级两个班参赛学生的成绩的中位数应落在第二小组内.
13.解 (1)在17个数据中,1.75出现了4次,次数最多,即众数是1.75;
把成绩从小到大排列,中间一个数即第9个数据是1.70中的一个,即中位数是1.70;
平均数=(1.50×2+1.60×3+…+1.90×1)≈1.69(m)
因此,17名运动员成绩的众数、中位数、平均数依次为1.75
m,1.70
m,1.69
m.
(2)众数是1.75说明了跳1.75
m的人数最多;中位数是1.70
m说明了1.70
m以下和1.70
m以上的成绩个数相等;平均数是1.69
m说明了所有参赛运动员平均成绩是1.69
m.
14.解 (1)频率分布表与相应的频率分布直方图和频率分布折线图如下:
用水量分组
频数
频率
[0.5,2.5)
12
0.12
[2.5,4.5)
24
0.24
[4.5,6.5)
40
0.40
[6.5,8.5)
18
0.18
[8.5,10.5]
6
0.06
合计
100
1
(2)前两个矩形面积和为0.12+0.24,第三个矩形一半的面积为0.5-(0.12+0.24),则所求的中位数为:4.5+=4.5+0.7=5.2.
(3)该乡每户平均月均用水量估计为
(1.5×12+3.5×24+5.5×40+7.5×18+9.5×6)/100=5.14.
上级支援该乡的月调水量应为5.14×1
200=6
168.
答 上级支援该乡的月调水量是6
168吨.2.3.1 变量之间的相关关系及两个变量的线性相关
1.下列两个变量具有相关关系且不是函数关系的是(  )
A.正方形的边长与面积
B.匀速行驶的车辆的行驶距离与时间
C.人的身高与体重
D.人的身高与视力
答案:C
2.下列说法中不正确的是(  )
A.回归分析中,变量x和y都是普通变量
B.变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定
C.回归系数可能是正的也可能是负的
D.如果回归系数是负的,y的值随x增大而减小
答案:A
3.下列各图中所示两个变量具有相关关系的是(  )
A.①②
B.①③
C.②④
D.②③
答案:D 
4.设有一个线性回归方程=3-x,则变量x增加一个单位时(  )
A.y平均增加2个单位 
B.y平均减少2个单位
C.y平均增加1个单位
D.y平均减少1个单位
答案:D
5.如果两个变量有线性相关关系,则下面说法不正确的是
(  )
A.应用所提供的数据,一定可求出其线性回归方程
B.应用所提供的数据,不一定能求出其线性回归方程
C.只要求出的线性回归方程,它都能较好估计两变量间的变化趋势
D.线性回归方程是两变量之间变化趋势的较准确描述
答案:B
6.如果样本点有3个,坐标分别是(1,2),(2,2.5),(3,4.5),则用最小二乘法求出其线性回归方程=+x中与的关系是(  )
A.+=3
B.+3=2
C.2+=3
D.+2=3
答案:D 
7.已知x,y的取值如下表所示:
x
0
1
3
4
y
2.2
4.3
4.8
6.7
从散点图分析,y与x线性相关,且=0.95x+,则=__________.
答案:2.6
8.对变量x,
y
有观测数据(xi,yi)(i=1,2,…,10),得散点图1;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图2.由这两个散点图可以判断(  )
    图1        
图2
A.变量x
与y
正相关,u
与v
正相关
B.变量x
与y
正相关,u
与v
负相关
C.变量x
与y
负相关,u
与v
正相关
D.变量x
与y
负相关,u
与v
负相关
答案:C
9.下表为某地近几年机动车辆数与交通事故数的统计资料,请判断机动车辆数与交通事故数之间是否具有线性相关关系,如果具有线性相关关系,求出线性回归方程;如果不具有线性相关关系,说明理由.
机动车辆数
x/千台
95
110
112
120
129
135
150
180
交通事故数
y/千件
6.2
7.5
7.7
8.5
8.7
9.8
10.
2
13
解析:在直角坐标系中画出数据的散点图,如下图所示.
直观判断这些点大致在一条直线附近,故具有线性相关关系,计算相应的数据之和:
xi=1
031,yi=71.6,
x=137
835,xiyi=9
611.7.
设线性回归方程为=x+,

所以,所求线性回归方程为=0.077
4x-1.024
9.
1.求解两个变量的回归直线方程的计算量较大,需要细心、谨慎地计算.如果会使用含统计的科学计算器,能简单得到i,i,iyi,
这些量,也就不需要制表这一步,直接算出结果就行了.
2.目前高考暂时不能使用计算器,因此考题数字一般不会太大,但是还是要多加训练.
3.列表格式一般如下:
i
1
2
3
4
5
xi
yi
xiyi
=?,  =?  =?,
iyi=?2.3.2两个变量的线性相关
1.在回归直线方程中,b表示
(
)
A.当增加一个单位时,增加的数量
B.当增加一个单位时,
增加的数量
C.当增加一个单位时,
的平均增加量
D.当增加一个单位时,
的平均增加量
2.回归方程为,则
(
)
A.
B.15是回归系数
C.
1.5是回归系数
D.时
3.工人月工资(元)与劳动生产率(千元)变化的回归直线方程为,下列判断不正确的是
(
)
A.劳动生产率为1000元时,工资为130元
B.劳动生产率提高1000元时,则工资提高80元
C.劳动生产率提高1000元时,则工资提高130元
D.当月工资为210元时,劳动生产率为2000元
4.有关线性回归的说法中,不正确的是
(
)
A.相关关系的两个变量不是因果关系
B.散点图能直观地反映数据的相关程度
C.回归直线最能代表线性相关的两个变量之间的关系
D.任一组数据都有回归方程
5.设有一个回归方程为,则变量x增加一个单位时
(
)
A.平均增加1.5单位
B.
平均增加2单位
C.
平均减少1.5单位
D.
平均减少2单位
6.回归直线方程必定过
(
)
A.点
B.

C.

D.

7.2003年春季,我国部分地区SARS流行,党和政府采取果断措施,防治结合,很快使病情得到控制,下表是某同学记载的5月1日至5月12日每天北京市SARS治愈者数据,以及根据这些数据绘制出的散点图
日期
5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
5.10
5.11
5.12
人数
100
109
115
118
121
134
141
152
168
175
186
203
下列说法①根据此散点图,可以判断日期与人数具有线性相关关系;
②根据此散点图,可以判断日期与人数具有一次函数关系.
其中正确的个数为
(
)
A.
0个
B.
1个
C.
2个
D.以上都不对课题:2.3.1变量间的相互关系(三)

个教案
课型:
新授课



教学目标
知识与技能:能用数学符号刻画出“从整体上看,各点与此直线的点的偏差”的表达方式;
过程与方法:通过减少样本点个数,经历对表达式的展开,把“偏差最小”简化为“二次多项式”最小值问题,通过合情推理,使学生接受最小二乘法的科学性,在此过程中了解最小二乘法思想;
情感、态度与价值观:
在经历用不同估算方法描述两个变量线性相关的过程后,在学生现有知识能力范围内,如何选择一个最优方法,成为知识发展的逻辑必然
教学重点
能结合具体案例,经历数据处理步骤,根据回归方程系数公式建立回归方程
教学难点
通过改变同一问题下样本点的选择进而对照回归方程的差异,体会随机思想
教学方法
通过大量的回归直线比较分析,体会回归思想和随机思想,因此需要多媒体电脑展示设备支持。
教学过程:


活动一:创设情景,揭示课题
(5分钟)问题1:(投影上节课探究结果)如何评价这些“直线”的优劣?理由呢?问题2:能否从几何直观角度用文字语言叙述你的理由?问题3:“从整体上看,各点与此直线的距离最小”中,距离等于偏差吗?作为判断优劣的标准,可以等同吗?活动二:步入新知,师生交流(20分钟)
回归直线
思考1:一组样本数据的平均数是样本数据的中心,那么散点图中样本点的中心如何确定?它一定是散点图中的点吗?
思考2:在各种各样的散点图中,有些散点图中的点是杂乱分布的,有些散点图中的点的分布有一定的规律性,年龄和人体脂肪含量的样本数据的散点图中的点的分布有什么特点?这些点大致分布在一条直线附近.(如上右图)思考3:对一组具有线性相关关系的样本数据,你认为其回归直线是一条还是几条?思考4:在样本数据的散点图中,能否用直尺准确画出回归直线?借助计算机怎样画出回归直线?活动三:合作学习,探究新知学(18分钟):回归方程
在直角坐标系中,任何一条直线都有相应的方程,回归直线的方程称为回归方程.对一组具有线性相关关系的样本数据,如果能够求出它的回归方程,那么我们就可以比较具体、清楚地了解两个相关变量的内在联系,并根据回归方程对总体进行估计.
思考1:回归直线与散点图中各点的位置应具有怎样的关系?
整体上最接近
思考2:对于求回归直线方程,你有哪些想法?思考3:对一组具有线性相关关系的样本数据:(x1,y1),(x2,y2),…,(xn,yn),设其回归方程为可以用哪些数量关系来刻画各样本点与回归直线的接近程度?
思考4:为了从整体上反映n个样本数据与回归直线的接近程度,你认为选用哪个数量关系来刻画比较合适?
思考5:根据有关数学原理分析,当
时,总体偏差
为最小,这样就得到了回归方程,这种求回归方程的方法叫做最小二乘法.回归方程中,a,b的几何意义分别是什么?思考6:利用计算器或计算机可求得年龄和人体脂肪含量的样本数据的回归方程为
,由此我们可以根据一个人个年龄预测其体内脂肪含量的百分比的回归值.若某人37岁,则其体内脂肪含量的百分比约为多少?20.9%练习
3.F表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗Y(吨标准煤)的几组对照数据x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,崩最小二乘法求出Y关于x的线性回归方程Y=bx+a;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤
(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
解:(1)如图(2)由对照数据,计算得:
;
所求的回归方程为
(3)
,
吨,
预测生产100吨甲产品的生产能耗比技改前降低(吨)活动四:归纳整理,提高认识(2分钟)求样本数据的线性回归方程,可按下列步骤进行:第一步,计算平均数
第二步,求和
第三步,计算第四步,写出回归方程
2.
回归方程被样本数据惟一确定,各样本点大致分布在回归直线附近.对同一个总体,不同的样本数据对应不同的回归直线,所以回归直线也具有随机性.
3.
对于任意一组样本数据,利用上述公式都可以求得“回归方程”,如果这组数据不具有线性相关关系,即不存在回归直线,那么所得的“回归方程”是没有实际意义的.因此,对一组样本数据,应先作散点图,在具有线性相关关系的前提下再求回归方程.活动五:作业布置板书设计:
教学后记:2.3.2
两个变量的线性相关(第一课时)(新授课)
一、教学目标:
明确事物间的相互联系。认识现实生活中变量间除了存在确定的关系外,仍存在大量的非确定性的相关关系,并利用散点图直观体会这种相关关系。
二、教学重点与难点
重点:利用散点图直观认识两个变量之间的线性关系.
难点:作散点图和理解两个变量的正相关和负相关。
三、教学过程:
(一)引入
1.
人的身高和体重之间的关系?
2.
学生设计一个统计问题,并指出问题涉及的总体是什么,所涉及的变量是什么.
(二)讲授新课:
1、
散点图
(1)例题:在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:
年龄
23
27
38
41
45
49
50
脂肪
9.5
17.8
21.2
25.9
27.5
26.3
28.2
年龄
53
54
56
57
58
60
61
脂肪
29.6
30.2
31.4
30.8
33.5
35.2
34.6
分析数据:大体上来看,随着年龄的增加,人体中脂肪的百分比也在增加。我们可以作散点图来进一步分析。
(2)散点图的概念:将各数据在平面直角坐标中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫做散点图。(1.如果所有的样本点都落在某一函数曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系.2.如果所有的样本点都落在某一函数曲线附近,变量之间就有相关关系。3.
如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系)
(3)正相关与负相关概念:如果散点图中的点散布在从左下角到右上角的区域内,称为正相关。如果散点图中的点散布在从左上角到右下角的区域内,称为负相关。(注:散点图的点如果几乎没有什么规则,则这两个变量之间不具有相关关系)
(4)讨论:你能举出一些生活中的变量成正相关或负相关的例子吗?(比如高学历高收入现象)
(三)课堂练习:
一个工厂为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次调查,收集数据如下:
零件数
10
20
30
40
50
60
70
80
90
100
加工时间
62
68
75
81
89
95
102
108
115
122
1.
画出散点图。
2.
指出是正相关还是负相关。
3.
关于加工零件的个数与加工时间,你能得出什么结论?
(四)课时小结:1.散点图的画法。
2.正相关与负相关的概念。
(五)布置作业:课本P98
A组
2
B组
1题
(1)
四、课后反思2.3变量间的相互关系(三)
(
)一、复习
(
)(1)两个变量间由函数关系时,数据点位于某曲线上.
(
)(2)两个变量间的关系是相关关系时,数据点位于某曲线附近.
(
)(3)两个变量间的关系为线性相关时,数据点位于某直线附近.
(
)该直线叫回归直线,对应的方程叫回归方程,该直线作为两个变量有线性相关关系的代表
(
)(4)求回归方程的一般步骤:
(
)第一步,计算平均数
第二步,求和
第三步,计算
第四步,写出回归方程
练习1.
由一组10个数据(xi,yi)算得
则b=
,a=
,回归方程为
.
练习2.
二、新授
1.
两个变量是否有相关关系可以先作出散点图进行判断.
2.
两个变量间是否有相关关系也可以通过求相关函数来判断.
其中
三、习题讲解
G
-r-D)2YJi-mry
a=D-br
〔乓-x)1-y
∑〔-x)2∑01-P)2
L下可于线性关的是
父母的身高气女的关系②作产量与系
州与健康的关系的我学绩气你情系
2生性E归方程y=h+过D
A00B.(x20C.02y)D〔y
设有一个F归方程为=3-5x,支量加一↑单位时
A平均增个单位B平均少个单位
C平均增个单位Dy平均增个单位
A动生产率为千无,则工资为3元;
乃动生产率千元,则工资是元;
C动生产率在千瓦,则工资提在3元
D当月工资LD元,劳生产率为千
I年项关丑究中,位区网9-32454员的
目巩5人到32人,由员人囊关于的回归分得到如论:贵员人衰
95·02x,两啦M,盘员平均人我差“人,对最
小的,计的员衰为
人,对最大的,员最为29人[A.基础达标]
1.(2015·张掖高一检测)有几组变量:
①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;
②平均日学习时间和平均学习成绩;
③立方体的棱长和体积.
其中两个变量成正相关的是(  )
A.①③         
B.②③
C.②
D.③
解析:选C.①是负相关;②是正相关;③是函数关系,不是相关关系.
2.对于给定的两个变量的统计数据,下列说法正确的是(  )
A.都可以分析出两个变量的关系
B.都可以用一条直线近似地表示两者的关系
C.都可以作出散点图
D.都可以用确定的表达式表示两者的关系
解析:选C.由两个变量的数据统计,不能分析出两个变量的关系,A错;不具有线性相关的两个变量不能用一条直线近似地表示他们的关系,更不能用确定的表达式表示他们的关系,B,D错.
3.对有线性相关关系的两个变量建立的回归直线方程=+x中,回归系数(  )
A.不能小于0
B.不能大于0
C.不能等于0
D.只能小于0
解析:选C.当=0时,r=0,这时不具有线性相关关系,但能大于0,也能小于0.
4.(2013·高考湖北卷)
四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:(  )

y与x负相关且=2.347x-6.423;②
y与x负相关且=-3.476x+5.648;③
y与x正相关且=5.437x+8.493;④
y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是(  )
A.①②
B.②③
C.③④
D.①④
解析:选D.由正负相关性的定义知①④一定不正确.
5.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是(  )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1
cm,则其体重约增加0.85
kg
D.若该大学某女生身高为170
cm,则可断定其体重必为58.79
kg
解析:选D.当x=170时,=0.85×170-85.71=58.79,体重的估计值为58.79
kg,故D不正确.
6.已知一个回归直线方程为=1.5x+45,x∈{1,7,5,13,19},则=________.
解析:因为=(1+7+5+13+19)=9,
且回归直线过样本中心点(x,y),
所以=1.5×9+45=58.5.
答案:58.5
7.对具有线性相关关系的变量x和y,测得一组数据如下表,若已求得它们回归直线的斜率为6.5,则这条回归直线的方程为________.
x
2
4
5
6
8
y
30
40
60
50
70
解析:设回归直线方程为=x+,则=6.5,易知=50,=5,所以=-=50-32.5=17.5,即回归直线方程为=6.5x+17.5.
答案:=6.5x+17.5
8.对某台机器购置后的运营年限x(x=1,2,3,…)与当年利润y的统计分析知具备线性相关关系,线性回归方程为=10.47-1.3x,估计该台机器使用________年最合算.
解析:只要预计利润不为负数,使用该机器就算合算,即≥0,所以10.47-1.3x≥0,解得x≤8.05,所以该台机器使用8年最合算.
答案:8
9.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
8
8.2
8.4
8.6
8.8
9
销量y(件)
90
84
83
80
75
68
(1)求回归直线方程=x+,其中=-20,=-;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
解:(1)由于=(8+8.2+8.4+8.6+8.8+9)=8.5,
=(90+84+83+80+75+68)=80.
所以=-=80+20×8.5=250,
从而回归直线方程为=-20x+250.
(2)设工厂获得的利润为L元,依题意得
L=x(-20x+250)-4(-20x+250)
=-20x2+330x-1
000
=-20(x-)2+361.25.
当且仅当x=8.25时,L取得最大值.
故当单价定为8.25元时,工厂可获得最大利润.
10.(2013·高考重庆卷)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得=80,
=20,=184,=720.
(1)求家庭的月储蓄y对月收入x的线性回归方程y=bx+a;
(2)判断变量x与y之间是正相关还是负相关;
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
附:线性回归方程y=bx+a中,b=
eq
\f(
-n,-
n)
a=-b,其中为,样本的平均值,线性回归方程也可写为=x+
解:(1)由题意知n=10,
=i==8,
=i==2,
又-
n=720-10×82=80,
-n=184-10×8×2=24,
由此得b==0.3,a=,-b,=2-0.3×8=-0.4,
故所求线性回归方程为y=0.3x-0.4.
(2)由于变量y的值随x值的增加而增加(b=0.3>0),故x与y之间是正相关.
(3)将x=7代入回归方程可以预测该家庭的月储蓄为y=0.3×7-0.4=1.7(千元).
[B.能力提升]
1.回归直线方程的系数,是最小二乘法估计中使函数Q(,)取得最小函数值时所满足的条件,其中Q(,)的表达式是(  )
A.
eq
\i\su(i=1,n,
(yi--xi)2))
B.
eq
\i\su(i=1,n,
|yi--xi|2))
C.
(yi--xi)2
D.
|yi--xi|
解析:选A.用最小二乘法确定两变量之间的线性回归方程的思想,即求,使n个样本点(xi,yi)(i=1,2,…,n)与直线y=+x的“距离”的平方和最小,即使得Q(,)=(y1--x1)2+(y2--x2)2+…+(yn--xn)2=eq
\i\su(i=1,n,
(yi--xi)2))达到最小,故选A.
2.对于两个变量的散点图:①若所有点都落在某一函数曲线上,则变量之间具有函数关系;②若所有点都落在某一曲线附近,则变量之间具有相关关系;③若所有点都落在某一直线附近,则变量之间具有线性相关关系;④若所有点都杂乱无章,则变量之间不具有相关关系.其中正确的是(  )
A.①②
B.①②③
C.①②④
D.①②③④
解析:选D.①②③④四个说法全部正确.
3.(2015·江西重点中学盟校联考)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9.
零件数x(个)
10
20
30
40
50
加工时间y(min)
62
75
81
89
现发现表中有一个数据看不清,请你推断该数据的值为________.
解析:由已知可计算求出=30,而回归直线方程必过点(,),则=0.67×30+54.9=75,设模糊数字为a,则=75,
计算得a=68.
答案:68
4.近年来,我国高等教育事业有了迅速发展,为了解某省从2000年到2014年18岁到24岁的青年人每年考入大学的人数,我们把农村、县镇和城市分别标记为一组、二组、三组分开统计.为了便于计算,把2000年编号为1,2001年编号为2,…,2014年编号为15,如果把年份从1到15作为自变量进行回归分析,可得三个回归方程:农村:=0.42x+1.80;县镇:=2.32x+6.72;城市:=2.84x+9.50(y的单位是万).则下列说法中正确的是________.(把你认为正确说法的序号填上)
①三个组的两个变量都是正相关关系;②对于县镇组而言,每年考入大学的人数约是上一年的2.32倍;③在这一阶段,城市组的大学入学人数增长最快;④0.42表示农村青年考入大学的人数以每年约4
200人递增.
解析:①由于三个组的线性回归方程中x的系数均为正数,故三个组的两个变量都是正相关关系,故①正确;②中县镇组的线性回归直线方程=2.32x+6.72的意义是县镇考入大学的人数每年大约比上一年增加23
200人,故②不正确,由此可推知④正确;由于三个组的线性回归方程中,城市组所对应的方程的x的系数最大,表示城市组入学人数增加得最快,故③正确.
答案:①③④
5.现对x,y有如下观测数据:
x
18
25
30
39
41
42
49
52
y
3
5
6
7
8
8
9
10
(1)作出散点图;
(2)试求y对x的线性回归方程.
解:(1)散点图如下:
(2)可求得x=37,y=7,=11
920,yi=2
257.
设线性回归方程为=+x,
则=
eq
\f(
-8,-
8)
==≈0.19,
=-=7-0.19×37=-0.03.
所以线性回归方程为=0.19x-0.03.
6.(选做题)在某种产品表面进行腐蚀性实验,得到腐蚀深度与腐蚀时间之间对应的一组数据:
时间t(s)
5
10
15
20
30
40
50
60
70
90
120
深度
y(mm)
6
10
10
13
16
17
19
23
25
29
46
(1)画出散点图;
(2)试求腐蚀深度对时间的回归直线方程.
解:(1)散点图如图:
(2)经计算可得:
≈46.36,y≈19.45,
yi=13
910.

eq
\f(
-11,-
11)
=≈0.3.
=-=19.45-0.3×46.36=5.542.
故所求的回归直线方程为=0.3t+5.542.2.3 变量间的相关关系
课时目标 1.理解两个变量的相关关系的概念.2.会作散点图,并利用散点图判断两个变量之间是否具有相关关系.3.会求回归直线方程.
INCLUDEPICTURE
"E:\\常贝
2015\\ppt\\同步\\数学\\创新
人教A版\\《课时作业与单元检测》Word版文档\\知识梳理.TIF"
\
MERGEFORMAT
1.相关关系:与函数关系不同,相关关系是一种__________性关系.
2.从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为________,点散布在从左上角到右下角的区域内,两个变量的相关关系为________.
3.如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量之间具有____________,这条直线叫__________.
4.回归直线方程=x+,其中
是回归方程的斜率,是截距.
5.通过求Q=(yi-bxi-a)2的最小值而得出回归直线的方法,即求出的回归直线使样本数据中的点到它的距离的平方和最小,由于平方又叫二乘方,所以这种使“偏差平方和最小”的方法叫做______________.                  
INCLUDEPICTURE
"E:\\常贝
2015\\ppt\\同步\\数学\\创新
人教A版\\《课时作业与单元检测》Word版文档\\作业设计.TIF"
\
MERGEFORMAT
一、选择题
1.下列两个变量之间的关系,哪个不是函数关系?(  )
A.匀速行驶车辆的行驶距离与时间
B.圆半径与圆的面积
C.正n边形的边数与内角度数之和
D.人的年龄与身高
2.下列有关线性回归的说法,不正确的是(  )
A.变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系
B.在平面直角坐标系中用描点的方法得到表示具有相关关系的两个变量的一组数据的图形叫做散点图
C.回归直线方程最能代表观测值x、y之间的关系
D.任何一组观测值都能得到具有代表意义的回归直线方程
3.工人月工资(元)依劳动生产率(千元)变化的回归直线方程为
=60+90x,下列判断正确的是(  )
A.劳动生产率为1千元时,工资为50元
B.劳动生产率提高1千元时,工资提高150元
C.劳动生产率提高1千元时,工资约提高90元
D.劳动生产率为1千元时,工资90元
4.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是(  )
A.
=-10x+200
B.
=10x+200
C.
=-10x-200
D.
=10x-200
5.给出两组数据x、y的对应值如下表,若已知x、y是线性相关的,且回归直线方程:y=

x,经计算知:
=-1.4,则
为(  )
x
4
5
6
7
8
y
12
10
9
8
6
A.
17.4
B.-1.74
C.0.6
D.-0.6
6.回归直线方程表示的直线


x必经过点(  )
A.(0,0)
B.(,0)
C.(,)
D.(0,)
题 号
1
2
3
4
5
6
答 案
二、填空题
7.若对某个地区人均工资x与该地区人均消费y进行调查统计得y与x具有相关关系,且回归直线方程
=0.7x+2.1(单位:千元),若该地区人均消费水平为10.5,则估计该地区人均消费额占人均工资收入的百分比约为________.
8.设有一个回归方程
=3-2.5x,当变量x增加一个单位时,变量y________个单位.
9.期中考试后,某校高三(9)班对全班65名学生的成绩进行分析,得到数学成绩y对总成绩x的回归直线方程为
=6+0.4x.由此可以估计:若两个同学的总成绩相差50分,则他们的数学成绩大约相差______分.
三、解答题
10.下表是某旅游区游客数量与平均气温的对比表:
平均气温(℃)
-1
4
10
13
18
26
数量(百个)
20
24
34
38
50
64
若已知游客数量与平均气温是线性相关的,求回归方程.
11.5个学生的数学和物理成绩(单位:分)如下表:
学生学科
A
B
C
D
E
数学
80
75
70
65
60
物理
70
66
68
64
62
画出散点图,判断它们是否具有相关关系,若相关,求出回归方程.
能力提升
12.在研究硝酸钠的可溶性程度时,观测它在不同温度的水中的溶解度,得观测结果如下:
温度x(℃)
0
10
20
50
70
溶解度y
66.7
76.0
85.0
112.3
128.0
则由此得到回归直线的斜率约为________.
13.20世纪初的一项关于16艘轮船的研究显示,轮船的吨位从192~3
246吨,船员的数目从5~32人,对船员人数关于轮船的吨位数的回归分析得:船员人数=9.5+0.006
2×轮船吨位.
(1)假设两轮船吨位相差1
000吨,船员人数平均相差多少?
(2)对于最小的轮船估计的船员人数是多少?对于最大的轮船估计的船员人数是多少?
INCLUDEPICTURE
"E:\\常贝
2015\\ppt\\同步\\数学\\创新
人教A版\\《课时作业与单元检测》Word版文档\\反思感悟1.TIF"
\
MERGEFORMAT
1.由最小二乘法得
其中:
是回归方程的斜率,
是截距.
2.回归方程的求解过程

3.在回归方程
=bx+a中,当回归系数b>0时,说明两个变量呈正相关关系,它的意义是:当x每增加一个单位时y就增加b个单位;当b<0时,说明两个变量呈负相关关系,它的意义是:当x每增加一个单位时,y就减少b个单位.
答案:
§2.3 变量间的相关关系
知识梳理
1.非确定 2.正相关 负相关 3.线性相关关系 回归直线 4.- 5.最小二乘法
作业设计
1.D [人的年龄与身高具有相关关系.]
2.D [只有所有的数据点都分布在一条直线附近时,才能得到具有代表意义的回归直线.]
3.C [因工人月工资与劳动生产率变化的回归直线方程为
=60+90x,当x由a提高到a+1时,
2-
1=60+90(a+1)-60-90a=90.]
4.A [∵y与x负相关,∴排除B、D,
又∵C项中x>0时
<0不合题意,∴C错.]
5.A [=(4+5+6+7+8)=6,
=(12+10+9+8+6)=9.
=-
=9+1.4×6=9+8.4=17.4.]
6.C [由
=-
得=


即点(,)适合方程


x.]
7.87.5%
解析 设该地区人均工资收入为,
则=0.7+2.1,
当=10.5时,==12.
×100%=87.5%.
8.减少2.5
解析 
′=3-2.5(x+1)=3-2.5x-2.5=
-2.5,
因此,y的值平均减少2.5个单位.
9.20
解析 令两人的总成绩分别为x1,x2.
则对应的数学成绩估计为
=6+0.4x1,
2=6+0.4x2,
所以|
1-
2|=|0.4(x1-x2)|=0.4×50=20.
10.解 ==,==,x=1+16+100+169+324+676=1
286,xiyi=-20+96+340+13×38+18×50+26×64=3
474.
==≈1.68,
=-
≈18.73,
即所求的回归方程为
=1.68x+18.73.
11.解 以x轴表示数学成绩,y轴表示物理成绩,可得到相应的散点图如图所示:
由散点图可知,两者之间具有相关关系,且为线性相关.
列表,计算
i
1
2
3
4
5
xi
80
75
70
65
60
yi
70
66
68
64
62
xiyi
5
600
4
950
4
760
4
160
3
720
x
6
400
5
625
4
900
4
225
3
600
=70,=66,x=24
750,xiyi=23
190
设所求回归方程为

x+
,则由上表可得
===0.36,
=-
=40.8.
∴所求回归方程为
=0.36x+40.8.
12.0.880
9
解析 =30,=93.6,x=7
900,
xiyi=17
035,
所以回归直线的斜率
==≈0.880
9.
13.解 (1)由
=9.5+0.006
2x可知,当x1与x2相差1
000吨时,船员平均人数相差
1-
2=(9.5+0.006
2x1)-(9.5+0.006
2x2)=0.006
2×1000≈6(人).
(2)当取最小吨位192时,预计船员人数为
=9.5+0.006
2×192≈10(人).
当取最大吨位3
246时,预计船员人数为=9.5+0.006
2×3
246≈29(人).第2课时
导入新课
思路1
客观事物是相互联系的,过去研究的大多数是因果关系,但实际上更多存在的是一种非因果关系.比如说:某某同学的数学成绩与物理成绩,彼此是互相联系的,但不能认为数学是“因”,物理是“果”,或者反过来说.事实上数学和物理成绩都是“果”,而真正的“因”是学生的理科学习能力和努力程度.所以说,函数关系存在着一种确定性关系,但还存在着另一种非确定性关系——相关关系.为表示这种相关关系,我们接着学习两个变量的线性相关——回归直线及其方程.
思路2
某小卖部为了了解热茶销售量与气温之间的关系,随机统计并制作了某6天卖出热茶的杯数与当天气温的对照表:
气温/℃
26
18
13
10
4
-1
杯数
20
24
34
38
50
64
如果某天的气温是-5
℃,你能根据这些数据预测这天小卖部卖出热茶的杯数吗?为解决这个问题我们接着学习两个变量的线性相关——回归直线及其方程.
推进新课
新知探究
提出问题
(1)作散点图的步骤和方法?
(2)正、负相关的概念?
(3)什么是线性相关?
(4)看人体的脂肪百分比和年龄的散点图,当人的年龄增加时,体内脂肪含量到底是以什么方式增加的呢?
(5)什么叫做回归直线?
(6)如何求回归直线的方程?什么是最小二乘法?它有什么样的思想?
(7)利用计算机如何求回归直线的方程?
(8)利用计算器如何求回归直线的方程?
活动:学生回顾,再思考或讨论,教师及时提示指导.
讨论结果:(1)建立相应的平面直角坐标系,将各数据在平面直角坐标中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫做散点图.(a.如果所有的样本点都落在某一函数曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系.b.如果所有的样本点都落在某一函数曲线附近,变量之间就有相关关系.c.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系)
(2)如果散点图中的点散布在从左下角到右上角的区域内,称为正相关.如果散点图中的点散布在从左上角到右下角的区域内,称为负相关.
(3)如果所有的样本点都落在某一直线附近,变量之间就有线性相关的关系.
(4)大体上来看,随着年龄的增加,人体中脂肪的百分比也在增加,呈正相关的趋势,我们可以从散点图上来进一步分析.
(5)如下图:
从散点图上可以看出,这些点大致分布在通过散点图中心的一条直线附近.如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线(regression
line).如果能够求出这条回归直线的方程(简称回归方程),那么我们就可以比较清楚地了解年龄与体内脂肪含量的相关性.就像平均数可以作为一个变量的数据的代表一样,这条直线可以作为两个变量具有线性相关关系的代表.
(6)从散点图上可以发现,人体的脂肪百分比和年龄的散点图,大致分布在通过散点图中心的一条直线.
那么,我们应当如何具体求出这个回归方程呢
有的同学可能会想,我可以采用测量的方法,先画出一条直线,测量出各点与它的距离,然后移动直线,到达一个使距离的和最小的位置,测量出此时的斜率和截距,就可得到回归方程了.但是,这样做可靠吗
有的同学可能还会想,在图中选择这样的两点画直线,使得直线两侧的点的个数基本相同.同样地,这样做能保证各点与此直线在整体上是最接近的吗
还有的同学会想,在散点图中多取几组点,确定出几条直线的方程,再分别求出各条直线的斜率、截距的平均数,将这两个平均数当成回归方程的斜率和截距.
同学们不妨去实践一下,看看这些方法是不是真的可行
(学生讨论:1.选择能反映直线变化的两个点.2.在图中放上一根细绳,使得上面和下面点的个数相同或基本相同.3.多取几组点对,确定几条直线方程.再分别算出各个直线方程斜率、截距的算术平均值,作为所求直线的斜率、截距.)教师:分别分析各方法的可靠性.如下图:
上面这些方法虽然有一定的道理,但总让人感到可靠性不强.
实际上,求回归方程的关键是如何用数学的方法来刻画“从整体上看,各点与此直线的距离最小”.人们经过长期的实践与研究,已经得出了计算回归方程的斜率与截距的一般公式
其中,b是回归方程的斜率,a是截距.
推导公式①的计算比较复杂,这里不作推导.但是,我们可以解释一下得出它的原理.
假设我们已经得到两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn),
且所求回归方程是=bx+a,
其中a、b是待定参数.当变量x取xi(i=1,2,…,n)时可以得到=bxi+a(i=1,2,…,n),
它与实际收集到的yi之间的偏差是yi-=yi-(bxi+a)(i=1,2,…,n).
这样,用这n个偏差的和来刻画“各点与此直线的整体偏差”是比较合适的.由于(yi-)可正可负,为了避免相互抵消,可以考虑用来代替,但由于它含有绝对值,运算不太方便,所以改用Q=(y1-bx1-a)2+(y2-bx2-a)2+…+(yn-bxn-a)2

来刻画n个点与回归直线在整体上的偏差.
这样,问题就归结为:当a,b取什么值时Q最小,即总体偏差最小.经过数学上求最小值的运算,a,b的值由公式①给出.
通过求②式的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法(method
of
least
square).
(7)利用计算机求回归直线的方程.
根据最小二乘法的思想和公式①,利用计算器或计算机,可以方便地求出回归方程.
以Excel软件为例,用散点图来建立表示人体的脂肪含量与年龄的相关关系的线性回归方程,具体步骤如下:
①在Excel中选定表示人体的脂肪含量与年龄的相关关系的散点图(如下图),在菜单中选定“图表”中的“添加趋势线”选项,弹出“添加趋势线”对话框.
②单击“类型”标签,选定“趋势预测/回归分析类型”中的“线性”选项,单击“确定”按钮,得到回归直线.
③双击回归直线,弹出“趋势线格式”对话框.单击“选项”标签,选定“显示公式”,最后单击“确定”按钮,得到回归直线的回归方程=0.577x-0.448.
(8)利用计算器求回归直线的方程.
用计算器求这个回归方程的过程如下:
所以回归方程为=0.577x-0.448.
正像本节开头所说的,我们从人体脂肪含量与年龄这两个变量的一组随机样本数据中,找到了它们之间关系的一个规律,这个规律是由回归直线来反映的.
直线回归方程的应用:
①描述两变量之间的依存关系;利用直线回归方程即可定量描述两个变量间依存的数量关系.
②利用回归方程进行预测;把预报因子(即自变量x)代入回归方程对预报量(即因变量Y)进行估计,即可得到个体Y值的容许区间.
③利用回归方程进行统计控制规定Y值的变化,通过控制x的范围来实现统计控制的目标.如已经得到了空气中NO2的浓度和汽车流量间的回归方程,即可通过控制汽车流量来控制空气中NO2的浓度.
应用示例
思路1
例1
有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的热饮杯数与当天气温的对比表:
摄氏温度/℃
-5
0
4
7
12
15
19
23
27
31
36
热饮杯数
156
150
132
128
130
116
104
89
93
76
54
(1)画出散点图;
(2)从散点图中发现气温与热饮销售杯数之间关系的一般规律;
(3)求回归方程;
(4)如果某天的气温是2
℃,预测这天卖出的热饮杯数.
解:(1)散点图如下图所示:
(2)从上图看到,各点散布在从左上角到右下角的区域里,因此,气温与热饮销售杯数之间呈负相关,即气温越高,卖出去的热饮杯数越少.
(3)从散点图可以看出,这些点大致分布在一条直线的附近,因此,可用公式①求出回归方程的系数.
利用计算器容易求得回归方程=-2.352x+147.767.
(4)当x=2时,=143.063.因此,某天的气温为2
℃时,这天大约可以卖出143杯热饮.
思考
气温为2
℃时,小卖部一定能够卖出143杯左右热饮吗?为什么?
这里的答案是小卖部不一定能够卖出143杯左右热饮,原因如下:
1.线性回归方程中的截距和斜率都是通过样本估计出来的,存在随机误差,这种误差可以导致预测结果的偏差.
2.即使截距和斜率的估计没有误差,也不可能百分之百地保证对应于x的预报值,能够与实际值y很接近.我们不能保证点(x,y)落在回归直线上,甚至不能百分之百地保证它落在回归直线的附近,事实上,y=bx+a+e=+e.
这里e是随机变量,预报值与实际值y的接近程度由随机变量e的标准差所决定.
一些学生可能会提出问题:既然不一定能够卖出143杯左右热饮,那么为什么我们还以“这天大约可以卖出143杯热饮”作为结论呢?这是因为这个结论出现的可能性最大.具体地说,假如我们规定可以选择连续的3个非负整数作为可能的预测结果,则我们选择142,143和144能够保证预测成功(即实际卖出的杯数是这3个数之一)的概率最大.
例2
下表为某地近几年机动车辆数与交通事故数的统计资料.
机动车辆数x/千台
95
110
112
120
129
135
150
180
交通事故数y/千件
6.2
7.5
7.7
8.5
8.7
9.8
10.2
13
(1)请判断机动车辆数与交通事故数之间是否有线性相关关系,如果不具有线性相关关系,说明理由;
(2)如果具有线性相关关系,求出线性回归方程.
解:(1)在直角坐标系中画出数据的散点图,如下图.
直观判断散点在一条直线附近,故具有线性相关关系.
(2)计算相应的数据之和:
=1
031,=71.6,
=137
835,=9
611.7.
将它们代入公式计算得b≈0.077
4,a=-1.024
1,
所以,所求线性回归方程为=0.077
4x-1.024
1.
思路2
例1
给出施化肥量对水稻产量影响的试验数据:
施化肥量x
15
20
25
30
35
40
45
水稻产量y
330
345
365
405
445
450
455
(1)画出上表的散点图;
(2)求出回归直线的方程.
解:(1)散点图如下图.
(2)表中的数据进行具体计算,列成以下表格:
i
1
2
3
4
5
6
7
xi
15
20
25
30
35
40
45
yi
330
345
365
405
445
450
455
xiyi
4
950
6
900
9
125
12
150
15
575
18
000
20
475
故可得到
b=≈4.75,
a=399.3-4.75×30≈257.
从而得回归直线方程是=4.75x+257.
例2
一个车间为了规定工时定额,需要确定加工零件所花费的时间.为此进行了10次试验,测得数据如下:
零件个数x(个)
10
20
30
40
50
60
70
80
90
100
加工时间y(分)
62
68
75
81
89
95
102
108
115
122
请判断y与x是否具有线性相关关系,如果y与x具有线性相关关系,求线性回归方程.
解:在直角坐标系中画出数据的散点图,如下图.
直观判断散点在一条直线附近,故具有线性相关关系.由测得的数据表可知:
=38
500,=87
777,=55
950.
b=≈0.668.
a==91.7-0.668×55≈54.96.
因此,所求线性回归方程为=bx+a=0.668x+54.96.
例3
已知10条狗的血球体积及红血球数的测量值如下:
血球体积x(mL)
45
42
46
48
42
35
58
40
39
50
红血球数y(百万)
6.53
6.30
9.52
7.50
6.99
5.90
9.49
6.20
6.55
8.72
(1)画出上表的散点图;
(2)求出回归直线的方程.
解:(1)散点图如下.
(2)(45+42+46+48+42+35+58+40+39+50)=44.50,
(6.53+6.30+9.52+7.50+6.99+5.90+9.49+6.20+6.55+8.72)=7.37.
设回归直线方程为=bx+a,则b==0.175,a==-0.418,
所以所求回归直线的方程为=0.175x-0.148.
点评:对一组数据进行线性回归分析时,应先画出其散点图,看其是否呈直线形,再依系数a,b的计算公式,算出a,b.由于计算量较大,所以在计算时应借助技术手段,认真细致,谨防计算中产生错误,求线性回归方程的步骤:计算平均数;计算xi与yi的积,求∑xiyi;计算∑xi2;将结果代入公式求b;用a=求a;写出回归直线方程.
知能训练
1.下列两个变量之间的关系哪个不是函数关系(

A.角度和它的余弦值
B.正方形边长和面积
C.正n边形的边数和它的内角和
D.人的年龄和身高
答案:D
2.三点(3,10),(7,20),(11,24)的线性回归方程是(

A.=5.75-1.75x
B.=1.75+5.75x
C.=1.75-5.75x
D.=5.75+1.75x
答案:D
3.已知关于某设备的使用年限x与所支出的维修费用y(万元),有如下统计资料:
使用年限x
2
3
4
5
6
维修费用y
2.2
3.8
5.5
6.5
7.0
设y对x呈线性相关关系.试求:
(1)线性回归方程=bx+a的回归系数a,b;
(2)估计使用年限为10年时,维修费用是多少?
答案:(1)b=1.23,a=0.08;(2)12.38.
4.我们考虑两个表示变量x与y之间的关系的模型,δ为误差项,模型如下:
模型1:y=6+4x;模型2:y=6+4x+e.
(1)如果x=3,e=1,分别求两个模型中y的值;
(2)分别说明以上两个模型是确定性模型还是随机模型.
解:(1)模型1:y=6+4x=6+4×3=18;
模型2:y=6+4x+e=6+4×3+1=19.
(2)模型1中相同的x值一定得到相同的y值,所以是确定性模型;模型2中相同的x值,因δ的不同,所得y值不一定相同,且δ为误差项是随机的,所以模型2是随机性模型.
5.以下是收集到的新房屋销售价格y与房屋大小x的数据:
房屋大小x(m2)
80
105
110
115
135
销售价格y(万元)
18.4
22
21.6
24.8
29.2
(1)画出数据的散点图;
(2)用最小二乘法估计求线性回归方程.
解:(1)散点图如下图.
(2)n=5,=545,=109,=116,=23.2,
=60
952,=12
952,
b=≈0.199,a=23.2-0.199×109≈1.509,
所以,线性回归方程为y=0.199x+1.509.
拓展提升
某调查者从调查中获知某公司近年来科研费用支出(Xi)与公司所获得利润(Yi)的统计资料如下表:
科研费用支出(Xi)与利润(Yi)统计表
单位:万元
年份
科研费用支出
利润
199819992000200120022003
5114532
314030342520
合计
30
180
要求估计利润(Yi)对科研费用支出(Xi)的线性回归模型.
解:设线性回归模型直线方程为:,
因为:=5,=30,
根据资料列表计算如下表:
年份
Xi
Yi
XiYi
Xi2
Xi-
Yi-
(Xi-)2
(Xi-)(Yi-)
199819992000200120022003
5114532
314030342520
1554401201707540
25121162594
06-10-2-3
11004-5-10
0361049
060001030
合计
30
180
1
000
200
0
0
50
100
现求解参数β0、β1的估计值:
方法一:=2,
=30-2×5=20.
方法二:=2,
=30-2×5=20.
方法三:=2,
=30-2×5=20.
所以利润(Yi)对科研费用支出(Xi)的线性回归模型直线方程为:=20+2Xi.
课堂小结
1.求线性回归方程的步骤:
(1)计算平均数;
(2)计算xi与yi的积,求∑xiyi;
(3)计算∑xi2,∑yi2,
(4)将上述有关结果代入公式
求b,a,写出回归直线方程.
2.经历用不同估算方法描述两个变量线性相关的过程.知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.
作业
习题2.3A组3、4,B组1、2.
设计感想
本节课在上节课的基础上,利用实例分析了散点图的分布规律,推导出了线性回归直线的方程的求法,并利用回归直线的方程估计可能的结果,本节课讲得较为详细,实例较多,便于同学们分析比较.思路1和思路2的例题对知识进行了巩固和加强,另外,本节课通过选取一些学生特别关心的身边事例,对学生进行思想情操教育、意志教育和增强学生的自信心,养成良好的学习态度,树立时间观,培养勤奋、刻苦的精神.
备课资料
阅读材料
相关关系的强与弱
我们知道,两个变量x、y正(负)相关时,它们就有相同(反)的变化趋势,即当x由小变大时,相应的y有由小(大)变大(小)的趋势,因此可以用回归直线来描述这种关系.与此相关的一个问题是:如何描述x和y之间的这种线性关系的强弱 例如,物理成绩与数学成绩正相关,但数学成绩能够在多大程度上决定物理成绩 这就是相关强弱的问题,类似的还有吸烟与健康的负相关强度、父母身高与子女身高的正相关强度、农作物的产量与施肥量的正相关强度等.
统计中用相关系数r来衡量两个变量之间线性关系的强弱.若相应于变量x的取值xi,变量y的观测值为yi(1≤i≤n),则两个变量的相关系数的计算公式为
r=.
不相同的相关性可以从散点图上直观地反映出来.图1反映了变量x、y之间很强的线性相关关系,而图2中的两个变量的线性相关程度很弱.
对于相关系数r,首先值得注意的是它的符号.当r为正时,表明变量x、y正相关;当r为负时,表明变量x、y负相关.反映在散点图上,图1中的变量x、y正相关.这时的r为正,图2中的变量x、y负相关,这时的r为负.
另一个值得注意的是r的大小.统计学认为,对于变量x、y,如果r∈[-1,-0.75],那么负相关很强;如果r∈[0.75,1],那么正相关很强;如果r∈(-0.75,-0.30]或r∈[0.30,0.75),那么相关性一般;如果r∈[-0.25,0.25],那么相关性较弱.反映在散点图上,图1的r=0.97,这些点有明显的从左下角到右上角沿直线分布趋势,这时用线性回归模型描述两个变量之间的关系效果很好;图2的r=-0.85,这些点也有明显的从左上角到右下角沿直线分布趋势.这时用线性回归模型描述两个变量之间的关系也有好的效果.
你能试着对自己身边的某个问题,确定两个变量,通过收集数据,计算相关系数,然后分析一下能否用线性回归模型来拟合它们之间的关系吗
图1
图2
(设计者:路致芳)2.3.2
两个变量的线性相关(第二课时)(新授课)
一、教学目标:
经历用不同估算方法描述两个变量线性相关的过程.知道最小二乘法的思想,能根据给出的线性回归方程的系数公式建立线性回归方程.
二、教学重点与难点
重点:根据给出的线性回归方程的系数公式建立线性回归方程.
难点:理解最小二乘法的思想
三、教学过程:
(一)复习引入:
1.
作散点图的步骤和方法?正.负相关的概念?
2.
提问:看人体的脂肪百分比和年龄的散点图,当人的年龄增加时,体内脂肪含量到底是以什么方式增加的呢?
(二)讲授新课:
1、回归直线:
(1)从散点图上可以看出,这些点大致分布在通过散点图中心的一条直线。如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这这两个变量之间具有线形相关关系,直线叫回归直线。(线形相关→回归直线)
(2)提问:从散点图上可以发现,人体的脂肪百分比和年龄的散点图,大致分布在通过散点图中心的一条直线。那么,怎样确定这条直线呢?
讨论:①选择能反映直线变化的两个点。
②在图中放上一根细绳,使得上面和下面点的个数相同或基本相同。
③多取几组点对,确定几条直线方程。再分别算出各个直线方程斜率、截距的算术平均值,作为所求直线的斜率、截距。)。教师:分别分析各方法的可靠性。
2.
教学最小二乘法:
(1)求回归方程的关键是如何用数学的方法刻画"从整体上看,各点与此直线的距离最小".(课本92页分析)
(2)最小二乘法公式:求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法。公式见课本P92
(3)举例:有一间商店,为了研究气温对冰箕淋销售的影响。经过统计,得到一个卖出的冰箕淋与当天气温的对比表。
气温
-5
0
4
12
19
21
23
27
31
36
冰箕淋个数
2
10
26
75
104
143
128
132
145
156
①画出散点图。②.求回归方程。③.如果气温是25,预测这天卖出的冰箕淋个数。
(学生共练
教师分析
师生共同总结)
(三)课堂练习:课本P98
A组
3
(四)课时小结:如何求回归直线
(五)布置作业:课本P98
A组
第4题 
四、课后反思