1 为了考查两个变量和之间的线性关系,甲、乙两位同学各自独立作了10次和15次试验,并且利用线性回归方法,求得回归直线分别为,已知两人得的试验数据中,变量和的数据的平均值都分别相等,且值为与,那么下列说法正确的是( )
A.直线和一定有公共点 B.直线和相交,但交点不一定是
C.必有直线∥ D.直线和必定重合
2 工人工资(元)依劳动生产率(千元)变化的回归方程为,下列判断正确的是( )
A.劳动生产率为1000元时,工资为130元
B.劳动生产率提高1000元时,工资提高80元
C.劳动生产率提高1000元时,工资提高130元
D.当月工资250元时,劳动生产率为2000元
3 下列命题:
①任何两个变量都具有相关关系;
②圆的周长与该圆的半径具有相关关系;
③某商品的需求与该商品的价格是一种非确定性关系;
④根据散点图求得的回归直线方程可能是没有意义的;
⑤两个变量间的相关关系可以通过回归直线,把非确定性问题转化为确定性问题进行研究。
其中正确的命题为 ( )
A.①③④ B.②④⑤ C.③④⑤ D.②③⑤
4 设有一个直线回归方程为,则变量增加一个单位时 ( )
A.平均增加 2个单位 B.平均增加 3 个单位
C.平均减少 2 个单位 D.平均减少 3个单位
5 某考察团对全国10大声调进行职工人均平均工资与居民人均消费进行统计调查,与具有相
关关系,回归方程为(单位:千元)。若某城市居民消费水平为7.675,估计该城
消费额占人均工资收入的百分比为( ) A.66% B.72.3% C.67.3% D.83%
6 如果你想作一个反对抽烟的电视公益广告的播放次数与看电视的中学生戒烟率的数据散点图,作为
轴的变量应为
7 若施肥量与水稻产量的线性回归直线方程,当施肥量为80Kg时,预计水稻产量为___________
8 某种机器购置后运营年限与当年增加利润的统计分析知具备线性相关关系,回归方成为,估计这种机器使用 年最合算
X 3 4 5 6
y 25 t 4 45
下表提供了某厂节能降耗技术改造后在生产A产品过程中记录的产品x(吨)与相应的生产能耗y(吨)
的几组对应数据,根据表中提供的数据,求出y关于x的线性回归方程为y=0.7x+0.35,那么表中
t的值为( )
A. 4.5 B.3.5
C. 3.15 D.3回归分析的基本思想及其初步应用 1相关关系:对于两个变量,当自变量取值一定时因变量的取值带有一定随机性的两个变量之间的关系
2 在线性关系中包括正相关、负相关;正相关是随着一个量的值由小变大时另一变量的值也由小变大
3 散点:将收集到的两个变量的统计数据分别作为横、纵坐标,在直角坐标系中描出的点叫做散点
4 我们常用最小二乘法来刻画具有线性关系的变量之间的关系
回归直线方程的意义和求法
意义:用数学的方法刻画“从整体上看,各点与待求的直线的距离最小”,即最能代表两变量的关系
回归分析:是对具有相关关系的两个变量进行统计的分析
在统计数据中取得变量
当直线横坐标取时纵坐标为
实际收集的与变量在直线上纵坐标的差
用方差来反映个点与直线在整体上的接近程度
取最小值时的值分别为
最小二乘法求得回归直线方程 使样本数据的点到回归直线的距离的平方和最小时求得的代入方程得到回归直线方程
说明:①直线回归方程表示两变量之间的相关关系,而非确定的函数关系可以理解为:直线回归是用来描述一个变量如何依赖于另一个变量变化的,也就是说变量随着变量而变化,但不能由的取值精确求出y的值;②回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析;③回归直线必过样本中心点
最小二成的方法:设与个观测点最接近的直线方程为,其中是待定系数,当变量取时,对应这条直线上的值为与实际收集的之间的偏差。这些偏差值有正由负,若直接相加会把偏差量抵消,看不出偏差程度,这里我们用偏差的平方和就能体现总体上偏差程度其实就是方差意义的应用从某大学中随机选出8名女大学生,其身高和体重数据如下表:
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高172cm的女大学生的体重
编号 1 2 3 4 5 6 7 8
身高 165 165 157 170 175 165 155 170
体重 48 57 50 54 64 61 43 59
从图中可以看出,样本点成条状分布,即身高与体重呈线性关系,因此可以用线性回归方程刻画他们之间的关系 求得线性回归方程为:
所有可以预报身高172cm的女大学生的体重为60.316kg
思考:对于每个身高为172cm的女大学生的体重一定是60.316kg吗
显然:利用线性回归方程只能预测身高为172cm的女大学生的平均体重的估计值是60.316kg
而不能确定每一位身高为172cm的女大学生的体重是60.316kg
线性回归模型
从上题的散点图可以看出,样本点散布在一条直线附近,而不是在直线上,所以不能用一次函数来描述他们之间的关系,这是我们用线性回归模型来描述身高和体重的关系
线性回归模型: 其中是随机误差
回归模型解释图
除了身高影响体重外的其他因素是不可测量的(例如饮食习惯、是否喜欢运动等),不能希望有某种方法获取随机误差的值以提高预报变量的估计精度,但却可以估计预报变量观测值中所包含的随机误差
随机误差 的估计量
样本点:
相应的随机误差为:
随机误差的估计值为: (符号“”下的数值表示估计量)
称为相应点的残差
误差和残差都是衡量不确定的指标
误差 测量值与同一待测量的大量重复测量的平均数之差
残差 回归所得的估计值与实际值之间的误差;衡量预测的准确性,残差越大表示预测越不准确
下表是女大学生身高和体重的残差数据表
编号 1 2 3 4 5 6 7 8
身高/cm 165 165 157 170 175 165 155 170
体重/kg 48 57 50 54 64 61 43 59
残差 -6.373 2.627 2.419 -4.618 1.137 6.627 -2.883 0.382
以纵坐标为残差,横坐标为编号,作残差图如下
刻画模型拟合效果的相关指数
表示解释变量对预报变量的贡献率,越接近1,表示回归的效果越好
说明:
总偏差平方和:衡量的是被解释变量波动的程度或不确定性的程度
回归平方和:衡量的是被解释变量不确定性程度中能被解释变量解释的部分
残差平方和:衡量的是被解释变量不确定性程度中不能被解释变量解释的部分
例 关于与有如下数据:
2 4 5 6 8
30 40 60 50 70
为了对两个变量进行统计分析,现有以下两种线性模型:,试比较哪一个模型拟合的效果较好
分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较
解:求两种模型下的相关指数,
;
所以甲选用的模型拟合效果较好
分析大学生身高和体重相关指数列表如下
变量来源 平方和 比例
回归变量 225.639 0.64
残差变量 128.361 0.36
总计 354 1
可见:预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量的变化程度之和
从上表中可以看出 表明:“女大学生的身高解释了64%的体重变化”,
或者说“女大学生的体重差异有64%是由身高引起的”
而随机误差贡献了剩余的36%, 所以身高对体重的效应比随机误差的效应大得多
总结建立回归模型的基本步骤:
(1)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量
(2)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程)
(4)按一定规则估计回归方程中的参数(如最小二乘法)
(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等)
若存在异常,则检查数据是否有误,或模型是否合适等
施肥量/kg 15 20 25 30 35 40 45
水稻产量/kg 330 345 365 405 445 450 455
1 在7块形状、大小相同的并排试验田上进行施肥量对水稻产量影响的试验,得到如下表所示的一组数据(单位:kg):
(I)以施肥量为解释变量,水稻产量为预报变量,作出散点图
(II)求与之间的回归方程,并求施肥量为28kg时水稻产量的预报值
(III)计算残差,并计算残差平方和 (IIII)求,并说明其含义
附加题:对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是
相关系数为 相关系数为
相关系数为 相关系数为
A. B.
C. D.
解:
(I)散点图如右图:
(II)由散点图可以看出,样本点呈条状分布,施肥量和水稻产量有较好的线性相关关系,因此可以用线
性回归方程近似刻画它们之间的关系,设回归方程为
于是 代入数据得: 所以
因此所求回归直线方程为
当时,水稻产量预报值是
(III) 因为残差
可得 , , , , , ,
所以
(IIII)
所以
说明了施肥量对水稻产量的影响占
预报变量(体重)
解释变量(身高)
随机误差
(其他因素)
1、6样点预测误差较大独立性检验的基本思想及其初步应用
分类变量:对于性别变量,其取值为男和女两种,这种变量的不同“值”表示个体所属的不同类别(仅表示个体所属的类别),像这样的变量称为分类变量
我们用回归分析法来研究两定量相关关系,那么对于分类变量之间是否有关系?
例 为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人):
吸烟与患肺癌列联表(两个分类变量的频数表叫列联表)
不患肺癌 患肺癌 总计
不吸烟 7775 42 7817
吸烟 2099 49 2148
总计 9874 91 9965
比较不吸烟者中患肺癌与吸烟者中患肺癌的比例
可见:吸烟者和不吸烟者患肺癌的可能性存在差异,那么我们有多大把握说明他们之间有关
如下用字母表示数字得列联表如下
不患肺癌 患肺癌 总计
不吸烟 a b a+b
吸烟 c d c+d
总计 a+c b+d a+b+c+d
如果“吸烟与患肺癌没有关系”,(用表示:吸烟与患肺癌没有关系)则在吸烟者中不患肺癌的比例应该与不吸烟者中相应的比例应差不多,即:
越小,说明吸烟与患肺癌之间关系越弱;越大,说明吸烟与患肺癌之间关系越强
为统一标准,我们构造一个随机变量 其中为样本容量
成立,即“吸烟与患肺癌没有关系” 不成立,即“吸烟与患肺癌有关系”
值应该很小 值应该很大
根据观测数据计算随机变量的值,其值越大说明“X与Y有关系”成立的可能性越大
通过查阅下表可以确定“X与Y有关系”的可信度
0.50 0.40 0.5 0.15 0.10 0.05 0.025 0.010 0.005 0.001
0.445 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
例如:如果>10.828,就有99.9%的把握认为“X与Y有关系”
当<2.706,就认为没有充分证据显示“X与Y有关系”
例 在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.判断秃顶与患心脏病是否有关,能否在犯错误的概率不超过0.010的前提下认为秃顶与患心脏病有关
患心脏病 不患心脏病 总计
秃顶 214 175 389
不秃顶 451 597 1048
总计 665 772 1437
解:根据题目所给数据得到如下列联表
根据上列联表数据可得:
因此,在犯错误的概率不超过0.010的前提下认为秃顶与患心脏病有关;也就是有99%的把握认为“秃顶与患心脏病有关”
1 有两个分类变量X与Y的一组数据,由其列联表计算得,则认为X与Y有关系是错误的可信度为( ) A. 95% B. 90% C. 10% D. 5%
物理优秀 化学优秀 总分优秀
数学优秀 228 225 267
数学非优秀 143 156 99
2 某校高三年级在一次全年级的大型考试中数学成绩优秀的有360人,非优秀的有880人,数学成绩优秀和非优秀的学生中物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大
数学与物理优秀的列联表
物理优秀 物理非优秀 总计
数学优秀 228 132 360
数学非优秀 143 737 880
总计 371 869 1240
由表数据得:
数学与化学优秀的列联表
化学优秀 化学非优秀 总计
数学优秀 225 135 360
数学非优秀 156 724 880
总计 381 859 1240
由表数据得:
数学与总分优秀的列联表
总分优秀 总分非优秀 总计
数学优秀 267 93 360
数学非优秀 99 781 880
总计 366 874 1240
由表数据得:
得到的观测值都大于10.828,说明都有99.9%的把握认为数学优秀与物理优秀、化学优秀、总分优秀都有关系.与总分优秀关系最大,物理次之某班5名学生的数学和物理成绩如下表
学生学科成绩 A B C D E
数学成绩 88 76 73 66 63
物理成绩 78 65 71 64 61
(I)画出散点图
(II)求物理成绩对数学成绩的回归直线方程
(III)一名学生的数学成绩是96,试预测他的物
理成绩
解:(I)散点图
(II)
;
所以对的回归直线方程为
(III)当时,,
即可以预测他的物理成绩约是82
思考:能不能用物理成绩代入:
预测数学成绩?
提示:可以,相当于把变量和应变量反过来,再来研究他们之间的线性关系
要分析学生初中升学的数学成绩对高一年级数学学习有什么影响,在高一年级学生中随机抽选10名学生,分析他们入学的数学成绩和高一年级期末数学考试成绩(如下表):
学生编号 1 2 3 4 5 6 7 8 9 10
入学成绩x 63 67 45 88 81 71 52 99 58 76
高一期末成绩y 65 78 52 82 92 89 73 98 56 75
计算入学成绩(x)与高一期末考试成绩(y)
的相关关系;
若某学生入学数学成绩80分,试估计他高一
期末数学考试成绩.
答案:
高一期末数学成绩预测分为84两个变量呈现非线性关系,求回归模型的方法
一只红铃虫的产卵数和温度有关.现收集了7组观测数据列于表中:
温度/ 21 23 25 27 29 32 35
产卵数/个 7 11 21 24 66 115 325
(I)试建立产卵数与温度之间的回归方程,并预测温度为28时产卵个数
(II)计算所建立的模型中温度在多大程度上解释了产卵数的变化
解:由散点图可知样本点并没有分布在某个带状区域内,因此不呈线性相关关系,就不能直接利用线性
回归方程来建立两变量之间的关系
用二次函数来刻画温度与产卵数的相关性
目前我们只学过对线性方程拟合效果的相关指数
故我们需要将二次函数转化为形式
令,则可化化为;相关列表如下:
温度/ 21 23 25 27 29 32 35
温度的平方 441 529 625 729 841 1024 1225
产卵数y/个 7 11 21 24 66 115 325
求得对的线性回归方程为
将代入得:
当时,
因此二次函数模型中温度解释了的产卵数变化
用指数函数来刻画温度与产卵数的相关性
若令可以将转化为形式
对两边取对数
令,, 则有;相关列表如下:
温度/ 21 23 25 27 29 32 35
1.946 2.398 3.405 3.178 4.19 4.745 5.784
产卵数/个 7 11 21 24 66 115 325
求得对的线性回归方程为
将,代入
得:
当时,
利用计算器求得
因此二次函数模型中温度解释了的产卵数变化
综上可得用指数模型拟合效果较好,也就是说刻画产卵数与温度的关系更接近实际情况
1.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( )
A.总偏差平方和 B.残差平方和 C.回归平方和 D.相关指数R2
2.回归分析中,相关指数R2的值越大,说明残差平方和( )
A.越小 B.越大 C.可能大也可能小 D.以上都不对
3.若对于变量 ( http: / / www. / )与 ( http: / / www. / )的 ( http: / / www. / )组统计数据的回归模型中,相关指数 ( http: / / www. / ),又知残差平方和为 ( http: / / www. / ),那么 ( http: / / www. / )的值为( ) (A) ( http: / / www. / ) (B) ( http: / / www. / ) (C) ( http: / / www. / ) (D) ( http: / / www. / )
0.25 0.5 1 2 4
16 12 5 2 1
4.在一次抽样调查中测得样本的5个样本点,数据如下:
(1)画出散点图;(2)通过作出的散点图发现,与之
间的关系可用函数拟合,试确定的值