课件39张PPT。第三章 统计案例第三章 统计案例3.1 回归分析的基本思想及其初步应用第三章 统计案例学习导航1.线性回归模型
(1)线性回归模型y=____________,其中a和b是模型的未知参数,e称为___________.自变量x又称为解释变量,因变量y又称为____________.bx+a+e随机误差预报变量想一想
在线性回归模型中,预报变量y由解释变量x唯一确定吗?
提示:不唯一.y值由x和随机误差e共同确定,即自变量x只能解释部分y的变化.做一做
答案:58.52.刻画回归效果的方式残差样本编号身高数据体重估计值越小解释预报题型一 求线性回归方程 对于x与y有如下观测数据:
(1)作出散点图;
(2)求出y关于x的回归直线方程.【解】 (1)作出散点图,如图所示:跟踪训练
1.有一台机床可以按各种不同的速度运转,其加工的零件有一些是二级品,每小时生产的二级品零件的数量随机床运转的速度而变化.下面是试验所得数据:
(1)作出散点图;
(2)求出机床运转的速度x与每小时生产二级品数量y的回归直线方程.
解:(1)散点图如图所示. 已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:
求y对x的回归直线方程,并说明回归模型拟合效果的好坏.题型二 线性回归分析【名师点评】 在进行线性回归分析时,要按线性回归分析步骤进行.在求R2时,通常采用分步计算的方法,R2越大,模型的拟合效果越好.跟踪训练
2.关于x与y有如下数据: 下表为收集到的一组数据:
(1)作出x与y的散点图,并猜测x与y之间的关系;
(2)建立x与y的关系,预报回归模型并计算残差;
(3)利用所得模型,预报x=40时y的值.题型三 非线性回归分析【解】 (1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线y=c1ec2x的周围,其中c1、c2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z=ln y,则有变换后的样本点应分布在直线z=bx+a(a=ln c1,b=c2)的周围,这样就可以利用线性回归模型来建立非线性回归方程了,数据可以转化为:残差
(3)当x=40时,y=e0.272×40-3.849≈1 131.
【名师点评】 非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后像本例这样,采用适当的变量置换,把问题化为线性回归分析问题,使之得到解决.跟踪训练
3.某地区不同身高的未成年男性的体重平均值如下表:
试建立y与x之间的回归方程.
解:由已知数据,作出散点图如图:由散点图可以看出,样本点分布在某条指数函数曲线y=c1ec2x的周围,于是令z=ln y,则所给表变换后如下:
作出散点图如图所示.从图中可以看出,变换后的样本点分布在某条直线的附近,因此可用线性回归方程来拟合.回归模型的拟定
炼钢厂出钢时盛钢水的钢包在使用过程中受钢水和炉渣侵蚀,其容积不断增大.下表是钢包使用不同次数时钢包容积(由于容积不便测量,故以钢包盛满水质量表示)的一组实测数据.
钢包使用次数与容积实测数据名师解题试求出y关于x的回归方程.【解】 先建立坐标系,画出散点图,如图:
从图中我们可以发现,这一系列的点并不是均匀分布在一条直线附近,这些点开始时y值增加很快,随后逐渐减慢趋于平缓.据此,我们可以用双曲线来拟合这些数据,从而达到较好的吻合程度.跟踪训练
4.x、y满足如下表的关系:
则x、y之间符合的函数模型为________.
解析:通过数据发现y的值与x的平方值比较接近,所以x、y之间的函数模型为y=x2.
答案:y=x2课件22张PPT。3.2 独立性检验的基本思想及其初步应用第三章 统计案例学习导航1.分类变量及其关系的分析
(1)分类变量的概念:
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)分析方法:
①列出两个分类变量的频数表,称为列联表,利用频数分析分类变量的关系.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:②等高条形图展示列联表数据的频率特征.做一做
班级与成绩2×2列联表:
表示数据m,n,p,q的值应分别为( )
A.70,73,45,188 B.17,73,45,90
C.73,17,45,90 D.17,73,45,45
答案:B2.独立性检验a+b+c+d想一想
由独立性检验可知,在犯错误的概率不超过0.10的前提下认为吸烟与患气管炎有关系时,我们说某人吸烟,那么他有90%的可能患有气管炎,此说法正确吗?
提示:不正确.应认为有90%的把握认为吸烟与患气管炎有关.题型一 两分类变量关系的直观分析 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:【解】 等高条形图如图所示:
其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.
由图可以直观地看出铅中毒病人与对照组相比较尿棕色素为阳性差异明显,因此铅中毒病人与尿棕色素为阳性存在关联关系.【名师点评】 在判断两个变量是否有关系时,通过作出等高条形图,能直观地反映数据的情况,从中清晰地看出各个频数的相对大小,粗略判断两个分类变量是否有关系.要注意的是这种判断不能精确地给出其犯错误的概率.跟踪训练
1.在一次恶劣气候的飞行航程中,调查男女乘客在机上晕机的情况如下表所示.画出等高条形图,判断在恶劣气候飞行中男性比女性是否更容易晕机?解:由数据的列联表可以得到等高条形图为:
从上图中可以发现男性中晕机的人的频率与女性中晕机的人的频率相差较大,故我们认为性别和是否晕机是有关系的,且在恶劣气候飞行中男性比女性更容易晕机. 为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关?
【解】 列出2×2列联表题型二 独立性检验【名师点评】 运用独立检验的方法:
(1)列出2×2列联表,根据公式计算K2的观测值k.
(2)比较k与k0的大小作出结论.
特别注意本题类型的无关问题.跟踪训练
2.研究人员选取170名青年男女大学生作为样本,对他们进行一种心理测验,发现60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,作否定的有38名;男生110名在相同的题目上作肯定的有22名,作否定的有88名,问:性别与态度之间是否存在某种关系?试用独立性检验的方法判断.
解:根据题意,得如下2×2列联表:1.K2的计算公式中字母取值勿取错;在2×2列联表中,a,b,c,d是有顺序的,因此在计算K2的值时容易取错字母a,b,c,d的值.
2.只有当K2的值大于或等于k0时,我们才说两个变量“有关系”;否则就说“没有充分的证据显示两个变量有关系”,即认为两个变量无关系.独立性检验中的易误点
对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
试根据上述数据,比较这两种手术对病人又发作心脏病的影响有没有差别.易错警示【常见错误】 在独立性检验中当K2≤2.706时,得出结论:“我们判定又发作过心脏病和他是否做过这两种手术无关”,这里的错误主要是结论下的太过武断.【防范措施】 在利用2×2列联表进行独立性检验时,如果K2≤2.706,并不是表示两个分类变量没有关系,只是没有充分证据表明它们有关系而已,所以在解题中不要滥用.跟踪训练
3.在吸烟与患肺病这两个分类变量的计算中,下列说法中:
①若统计量K2>6.635,我们有99%的把握说吸烟与患肺病有关,则某人吸烟,那么他有99%的可能患有肺病;
②若从统计中求出,有99%的把握说吸烟与患肺病有关,则在100个吸烟者中必有99个人患有肺病;
③若从统计中求出有95%的把握说吸烟与患肺病有关,是指有5%的可能性使得推断错误.
正确的个数为( )A.0
B.1
C.2
D.3
解析:选B.统计量K2仅仅说明一个统计推断,并不能说明个案或某些情况.从而③正确,故选B.课件8张PPT。章末专题整合第三章 统计案例专题一 线性回归分析 某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价x(x取整数)元与日销售量y台之间有如下对应数据:
(1)画出散点图并说明y与x是否具有线性相关关系?如果有,求出线性回归方程;(方程的斜率保留一个有效数字)
(2)设经营此商品的日销售利润为P元,根据(1)写出P关于x的函数关系式,并预测当销售单价x为多少元时,才能获得最大日销售利润?专题二 独立性检验
独立性检验问题的基本步骤为:(1)找相关数据,作列联表;(2)求统计量K2;(3)判断可能性,注意与临界值作比较,得出与事件有关的确信度.
在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人,六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主,六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.
(1)根据以上数据建立一个2×2列联表;
(2)判断人的饮食习惯是否与年龄有关.【解】 (1)2×2列联表如下: