课件17张PPT。2.3变量的相关性(2)最小二乘法 有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的热饮杯数与当天气温的对比表:如果某天的气温是2℃,预测这天卖出的热饮杯数。阅读课本P87~P89的有关内容,以小组为单位讨论并尝试回答下列问题:
1.在探索“如何求回归方程”的过程中,你想到了哪些方法?
2.在获得数据的过程中,有两个变量:年龄和脂肪含量,这两个变量中哪一个是可以控制使其不产生误差的?
3.根据上个问题的结论,导致样本点与直线产生距离的变量是哪一个?据此应该用哪个量刻画样本点到回归直线的距离?如何用你熟悉的数学知识来刻画“从整体上看各点与此直线距离最小”呢?思考1: 人体脂肪观察值与回归值样本个体脂肪值和由回归方程计算得到的值很接近,可以用回归方程来预测特定年龄的人的脂肪值。例1.有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的热饮杯数与当天气温的对比表:(1)画出散点图;
(2)从散点图中发现气温与热饮销售杯数之间关系的一
般规律;
(3)求回归方程;
(4)如果某天的气温是2℃,预测这天卖出的热饮杯数。利用线性回归方程对总体进行估计解: (1)散点图(2)气温与热饮杯数成负相关,即气温越高, 卖出去的热饮杯数越少。(3)从散点图可以看出,这些点大致分布在一条直线附近。思考2:
气温为 2℃时,小卖部一定能够卖出143杯左右热饮吗?为什么?
小卖部不一定能够卖出143杯左右的热饮。
1.线性回归方程中的截距和斜率都是通过样本估计出来的,存在随机误差,这种误差可以导致预测结果的偏差。
2.即使截距和斜率的估计没有误差,也不可能百分之百的保证对应于x的预报值能够与实际值y很接近。我们不能保证点落在回归直线上,甚至不能百分之百的保证它落在回归直线的附近。练习1从某居民区随机抽取了10个家庭,获得第i 个家庭的月收入 (单元:千元)与月储蓄 (单元:千元)的数据资料,算得
(1)求家庭的月储蓄 对月收入 的线性回归方程;
(2)判断变量 与 之间是正相关还是负相关;
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
附:回归直线的斜率和截距的最小二乘估计公式分别为:
(I)因为
所以线性回归方程为
(2)正相关;
(3)1.7千元.
练习2:
调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:
由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加 万元.
0.254练习3
某产品的广告费用 与销售额 的统计数据如下表
根据上表可得回归方程 中的 为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元 B.65.5万元
C.67.7万元 D.72.0万元
B因为
又
将(3.5,42)代入 中,得
所以 .
当x=6时, .
(1)回归直线是各数据点与此直线在整体上最接近的一条(最优拟合),最小二乘法(离差平方和为最小)求回归直线方程的公式会用。(2)利用线性回归方程对总体进行估计进行预测。小结: