回归方程与独立性检验
一、变量间的相关关系--相关系数
若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.
(1)当时,表示两个变量正相关;当时,表示两个变量负相关.
(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
(3)通常当时,认为两个变量具有很强的线性相关关系.
公式的选择原则:若题目没有给出部分数据的整体和,则用第1组公式计算,先算减法可以使数据变小,再算乘法计算简单;若题目给出了部分数据的整体和,则用第2组公式,有时两组公式需要配合使用.
总结:相关系数是用来研究两个变量的线性相关性的强弱,只能适用于线性模型,同时越大说明的线性模型越合理。而对于非线性相关性的研究,必须先转化为线性模型之后,才能利用相关系数去判断该模型是否合理。
二、线性回归直线方程
(1)如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.回归直线对应的方程叫做回归直线方程(简称回归方程).
(2)通过求的最小值而得出回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.该式取最小值时的,的值即分别为,.
(3)设已经得到两个具有线性相关关系的变量的一组数据,直线方程,其中是待定参数.
经数学上的推导,的值由下列公式给出:.
其中,回归直线的斜率为,截距为,即回归方程为,它主要用来预测并对总体进行估计.
说明:回归方程一定通过样本点的中心,可能不经过,,…,中的任何一点.
三、非线性回归直线方程
解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.
求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.
1.建立非线性回归模型的基本步骤:
(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);
(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);
(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;
(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
(6)消去新元,得到非线性回归方程;
(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.
2.常见的非线性回归模型
先通过适当变换将非线性关系转化为线性关系.
(1)指数函数型(且,)
两边取自然对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(2)对数函数型
令,原方程变为,然后按线性回归模型求出,.
(3)幂函数型
两边取常用对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(4)二次函数型
令,原方程变为,然后按线性回归模型求出,.
(5)反比例函数型型
令,原方程变为,然后按线性回归模型求出,.
总结:非线性模型转换到线性模型的最关键点,在于构造出中的常数,指数和幂函数可以通过取对数的方法构造常数。之后如果含的项不是一次式,可以通过整体换元的方法构造出中的一次项。
四、独立性检验
1.分类变量和列联表
(1)分类变量:
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
总计
总计
从列表中,依据与的值可直观得出结论:两个变量是否有关系.
2.独立性检验
(1)定义:利用独立性假设、随机变量来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
(2)公式:,其中为样本容量.
(3)独立性检验的具体步骤如下:
①计算随机变量的观测值,查下表确定临界值:
0.5 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
②如果,就推断“与有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“与有关系”.
(2)两个分类变量和是否有关系的判断标准:
统计学研究表明:
当时,认为与无关;
当时,有的把握说与有关;
当时,有的把握说与有关;
当时,有的把握说与有关.
考点一 相关系数与线性回归
【例1】国家发改委和住建部等六部门发布通知,提到:2025年,农村生活垃圾无害化处理水平将明显提升.现阶段我国生活垃圾有填埋 焚烧 堆肥等三种处理方式,随着我国生态文明建设的不断深入,焚烧处理已逐渐成为主要方式.根据国家统计局公布的数据,对2013-2020年全国生活垃圾焚烧无害化处理厂的个数y(单位:座)进行统计,得到如下表格:
年份 2013 2014 2015 2016 2017 2018 2019 2020
年份代码 1 2 3 4 5 6 7 8
垃圾焚烧无害化处理厂的个数 y 166 188 220 249 286 331 389 463
(1)根据表格中的数据,可用一元线性回归模型刻画变量与变量之间的线性相关关系,请用相关系数加以说明(精确到0.01);
(2)求出关于的经验回归方程,并预测2022年全国生活垃圾焚烧无害化处理厂的个数;
(3)对于2035年全国生活垃圾焚烧无害化处理厂的个数,还能用(2)所求的经验回归方程预测吗?请简要说明理由.
参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为
参考数据:,
【例2】随着智能手机的普及,使用手机上网成为了人们日常生活的一部分,很多消费者对手机流量的需求越来越大,某通信公司为了更好地满足消费者对流量的需求,准备推出一款流量包该通信公司选了5个城市(总人数、经济发展情况、消费能力等方面比较接近)采用不同的定价方案作为试点,经过一个月的统计,发现该流量包的定价(单位:元/月)和购买人数(单位:万人)的关系如下表:
x 30 35 40 45 50
y 18 14 10 8 5
(1)根据表中的数据,运用相关系数进行分析说明,是否可以用线性回归模型拟合与的关系?并指出与是正相关还是负相关.
(2)①求出关于的回归方程;
②若该通信公司在一个类似于试点的城市中将这款流量包的价格定为25元/月,请用所求回归方程预测该市一个月内购买该流量包的人数能否超过20万人.
参考数据:,,.
变式1.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限X(单位:年)与失效费Y(单位:万元)的统计数据如下表所示.
使用年限X(单位:年) 1 2 3 4 5 6 7
失效费Y(单位:万元) 2.90 3.30 3.60 4.40 4.80 5.20 5.90
(1)由上表数据可知,可用线性回归模型拟合与的关系,请用样本相关系数加以说明(精确到0.01);
(2)求出Y关于X的线性回归方程,并估算该种机械设备使用10年的失效费.
参考数据:,,.
考点二 非线性回归
【例3】一地质探测队为探测一矿中金属锂的分布情况,先设了1个原点,再确定了5个采样点,这5个采样点到原点距离分别为,其中,并得到了各采样点金属锂的含量,得到一组数据,经计算得到如下统计量的值:
,,,,,其中.
(1)利用相关系数判断与哪一个更适宜作为y关于x的回归模型;
(2)建立y关于x的回归方程.
参考公式:回归方程中斜率、截距的最小二乘估计公式、相关系数公式分别为,,;
参考数据:.
【例4】一企业生产某种产品,通过加大技术创新投入降低了每件产品成本,为了调查年技术创新投入(单位:千万元)对每件产品成本(单位:元)的影响,对近年的年技术创新投入和每件产品成本的数据进行分析,得到如下散点图,并计算得:,,,,.
(1)根据散点图可知,可用函数模型拟合与的关系,试建立关于的回归方程;
(2)已知该产品的年销售额(单位:千万元)与每件产品成本的关系为.该企业的年投入成本除了年技术创新投入,还要投入其他成本千万元,根据(1)的结果回答:当年技术创新投入为何值时,年利润的预报值最大?
(注:年利润=年销售额一年投入成本)
参考公式:对于一组数据、、、,其回归直线的斜率和截距的最小乘估计分别为:,.
【例5】某高科技公司对其产品研发年投资额x(单位:百万元)与其年销售量y(单位:千件)的数据进行统计,整理后得到如下统计表1和散点图.通过初步分析,求得年销售量y关于年投资额x的线性回归方程为.
x12345y0.511.535.5
表1 x1234500.41.11.7
表2
(1)该公司科研团队通过进一步分析散点图的特征后,计划用作为年销售量y关于年投资额x的非线性回归方程,请根据参考数据及表2的数据,求出此方程;
(2)若求得线性回归模型的相关系数,请根据参考数据,求出(1)中非线性回归模型的相关系数,并比较两种回归方程的拟合效果哪个更好?(越大越好)(精确到0.01)
参考数据:,;,,,,;
参考公式:,,.
【例6】数据显示中国车载音乐已步入快速发展期,随着车载音乐的商业化模式进一步完善,市场将持续扩大,下表为2018—2022年中国车载音乐市场规模(单位:十亿元),其中年份2018—2022对应的代码分别为1—5.
年份代码x 1 2 3 4 5
车载音乐市场规模y 2.8 3.9 7.3 12.0 17.0
(1)由上表数据知,可用指数函数模型拟合y与x的关系,请建立y关于x的回归方程(a,b的值精确到0.1);
(2)综合考虑2023年及2024年的经济环境及疫情等因素,某预测公司根据上述数据求得y关于x的回归方程后,通过修正,把b-1.3作为2023年与2024年这两年的年平均增长率,请根据2022年中国车载音乐市场规模及修正后的年平均增长率预测2024年的中国车载音乐市场规模.
参考数据:
1.94 33.82 1.7 1.6
其中,.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘法估计公式分别为.
变式2.一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据如下表所示:
温度 21 23 25 27 29 32 35
产卵个数个 7 11 21 24 66 115 325
(1)画出散点图,根据散点图判断与哪一个适宜作为产卵数y关于温度x的回归方程类型(给出判断即可 不必说明理由);
(2)根据(1)的判断结果及表中数据.建立关于的回归方程.
(附:可能用到的公式,可能用到的数据如下表所示:
27.430 81.290 3.612 147.700 2763.764 705.592 40.180
(对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为.)
变式3. 某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本(元)与生产该产品的数量(千件)有关,经统计得到如下数据:
1 2 3 4 5 6 7 8
112 61 35 28 25 24
根据以上数据,绘制了散点图.观察散点图,两个变量不具有线性相关关系,现考虑用反比例函数模型和指数函数模型分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为与的相关系数.
(1)用反比例函数模型求关于的回归方程;
(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到,并用其估计产量为10千件时每件产品的非原料成本.
参考数据:
360
参考公式:对于一组数据,其回归直线的斜率和截距的最小一乘估计分别为:,,相关系数
变式4. 某研究所为了研究某种昆虫的产卵数与温度之间的关系,现将收集到的温度和一组昆虫的产卵数的6组观测数据作了初步处理,得到如图的散点图及一些统计数据.
经计算得到以下数据:,.
(1)若用线性回归模型来拟合数据的变化关系,求y关于x的回归方程(结果精确到0.1);
(2)若用非线性回归模型来拟合数据的变化关系,求得关于的回归方程,且相关指数为.
①试与(1)中的回归模型相比,用R2说明哪种模型的拟合效果更好;
②用拟合效果好的模型预测温度为35℃时该组昆虫的产卵数(结果四舍五入取整数).
附参考公式:对于一组具有线性相关关系的数据,其回归直线截距和斜率的最小二乘法估计公式分别为:,相关系数:.参考数据:.
考点三 独立性检验
【例7】为提高教育教学质量,越来越多的高中学校采用寄宿制的封闭管理模式.某校对高一新生是否适应寄宿生活做调查,从高一新生中随机抽取了100人,其中男生占总人数的40%,且只有20%的男生表示自己不适应寄宿生活,女生中不适应寄宿生活的人数占总人数的32%,学校为了考察学生对寄宿生活适应与否是否与性别有关,构建了如下2×2列联表:
不适应寄宿生活 适应寄宿生活 合计
男生
女生
合计
(1)请将2×2列联表补充完整,并判断是否有99%的把握认为“适应寄宿生活与否”与性别有关;
(2)从男生中以“是否适应寄宿生活”为标准采用分层抽样的方法随机抽取5人,再从这5人中随机抽取2人,求所选2名学生都“适应寄宿生活”的概率..
附:,其中.
变式5.内蒙古自治区新高考改革自2022年起执行,在取消文理分科后实行“”模式,即语数外三科为国家统考,所有考生必选,然后从物理、历史2科中任选1科,再从化学、生物、政治和地理中任选2科参加高考.选科前大家普遍认为,传统的“大文大理”(即“数理化”、“政史地”组合)还依然是主流,而且男生将依然是“大理”的主体.某校为了解学生对“大理”的选择是否与性别有关,从该校高一年级1000名学生(550名男生,450名女生),按男女生分层随机抽样抽取100人进行选科意向调查.经统计,选择“大理”的人数比非“大理”人数多出20人.
选择“大理” 选择非“大理” 合计
男生 15
女生
合计
(1)完成上面的列联表,并判断能否在犯错误的概率不超过0.5%的前提下认为选择“大理”与性别有关;
(2)为了进一步了解学生进行选科的理由,随机选取了男生4名,女生2名进行访谈,再从中抽取2名代表作详细交流,求至少抽到1名女生的概率.
附表及公式:,.
0.05 0.025 0.010 0.005 0.001
3.841 5.024 6.635 7.879 10.828
课后练习
1.为了解某地区某种农产品的年产量(单位:吨)对价格(单位:千元吨)和利润的影响,对近五年该农产品的年产量和价格统计如表:
1 2 3 4 5
7.0 6.5 5.5 3.8 2.2
(1)求关于的线性回归方程;
(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润取到最大值?(保留两位小数)(参考公式:,,其中,为样本平均数.
2.2020年初,武汉出现新型冠状病毒肺炎疫情,并快速席卷我国其他地区,口罩成了重要的防疫物资.某口罩生产厂不断加大投入,高速生产,现对其2月1日月9日连续9天的日生产量(单位:十万只,,2,,数据作了初步处理,得到如图所示的散点图及一些统计量的值:
2.72 19 139.09 1095
注:图中日期代码分别对应2月1日月9日;表中,.
(1)由散点图分析,样本点都集中在曲线的附近,求关于的方程.
(2)估计该厂从什么时候开始日生产量超过四十万只.
参考公式:回归直线方程是,,.
参考数据:.
3.为研制新冠肺炎的疫苗,某生物制品研究所将所研制的某型号疫苗用在小白鼠身上进行科研和临床试验,得到如表统计数据:
未感染病毒 感染病毒 总计
未注射疫苗 40
注射疫苗 60
总计 100 100 200
现从未注射疫苗的小白鼠中任取1只,取到“感染病毒”的小白鼠的概率为.
(1)能否有的把握认为注射此疫苗有效?
(2)在未感染病毒的小白鼠中,按木注射疫苗和注射疫苗的比例抽取5只进行病理分析,然后从这5只小白鼠中随机抽取3只对注射疫苗的情况进行核实,求恰有1只为未注射过疫苗的概率.
附:下面的临界值表仅供参考.
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
参考公式:.回归方程与独立性检验答案解析
一、相关系数与线性回归方程
【例1】.国家发改委和住建部等六部门发布通知,提到:2025年,农村生活垃圾无害化处理水平将明显提升.现阶段我国生活垃圾有填埋 焚烧 堆肥等三种处理方式,随着我国生态文明建设的不断深入,焚烧处理已逐渐成为主要方式.根据国家统计局公布的数据,对2013-2020年全国生活垃圾焚烧无害化处理厂的个数y(单位:座)进行统计,得到如下表格:
年份 2013 2014 2015 2016 2017 2018 2019 2020
年份代码 1 2 3 4 5 6 7 8
垃圾焚烧无害化处理厂的个数 y 166 188 220 249 286 331 389 463
(1)根据表格中的数据,可用一元线性回归模型刻画变量与变量之间的线性相关关系,请用相关系数加以说明(精确到0.01);
(2)求出关于的经验回归方程,并预测2022年全国生活垃圾焚烧无害化处理厂的个数;
(3)对于2035年全国生活垃圾焚烧无害化处理厂的个数,还能用(2)所求的经验回归方程预测吗?请简要说明理由.
参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为
参考数据:,
【答案】(1)答案见解析
(2),513
(3)答案见解析
【分析】(1)根据相关系数的公式,即可代入求值,根据相关系数的大小即可作出判断,
(2)利用最小二乘法即可计算求解,
(3)根据相关关系不是确定的函数关系,而受多因素影响,即可求解.
【详解】(1)
相关系数
因为与的相关系数,接近1,所以与的线性相关程度很高,可用线性回归模型拟合与的关系.
(2)
所以与的线性回归方程为
又2022年对应的年份代码,当时,,
所以预测2022年全国生活垃圾焚烧无害化处理厂的个数为513.
(3)对于2035年全国生活垃圾焚烧无害化处理厂的个数,不能由(2)所求的线性回归方程预测,理由如下(说出一点即可):
①线性回归方程具有时效性,不能预测较远情况;
②全国生活垃圾焚烧无害化处理厂的个数有可能达到上限,一段时间内不再新建;
③受国家政策的影响,可能产生新的生活垃圾无害化处理方式.
【例2】.随着智能手机的普及,使用手机上网成为了人们日常生活的一部分,很多消费者对手机流量的需求越来越大,某通信公司为了更好地满足消费者对流量的需求,准备推出一款流量包该通信公司选了5个城市(总人数、经济发展情况、消费能力等方面比较接近)采用不同的定价方案作为试点,经过一个月的统计,发现该流量包的定价(单位:元/月)和购买人数(单位:万人)的关系如下表:
x 30 35 40 45 50
y 18 14 10 8 5
(1)根据表中的数据,运用相关系数进行分析说明,是否可以用线性回归模型拟合与的关系?并指出与是正相关还是负相关.
(2)①求出关于的回归方程;
②若该通信公司在一个类似于试点的城市中将这款流量包的价格定为25元/月,请用所求回归方程预测该市一个月内购买该流量包的人数能否超过20万人.
参考数据:,,.
【答案】(1)可以用线性回归模型拟合与的关系,与是负相关
(2)①;②能超过
【分析】(1)计算变量的平均值,列表计算,,,从而代入相关系数的公式求解判断;(2)①代入数据计算回归方程系数;②将代入回归方程计算即可.
【详解】(1)根据题意,得,.
可列表如下:
1 2 3 4 5
则,,
因此相关系数.
由于,很接近1,因此可以用线性回归模型拟合与的关系.由于,故与是负相关.
(2)①由(1)得与线性相关,设回归直线方程为,则,
,因此关于x的回归直线方程为.
②由①知,若,则,
故若将流量包的价格定为25元/月,则可预测该市一个月内购买该流量包的人数能超过20万人.
【跟踪训练】
1.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限X(单位:年)与失效费Y(单位:万元)的统计数据如下表所示.
使用年限X(单位:年) 1 2 3 4 5 6 7
失效费Y(单位:万元) 2.90 3.30 3.60 4.40 4.80 5.20 5.90
(1)由上表数据可知,可用线性回归模型拟合与的关系,请用样本相关系数加以说明(精确到0.01);
(2)求出Y关于X的线性回归方程,并估算该种机械设备使用10年的失效费.
参考数据:,,.
【答案】(1)答案见解析
(2);万元.
【分析】(1)根据题意,利用公式求得,即可得到结论;
(2)根据最小二乘法求得回归直线的方程,将代入线性回归方程,即可得到答案.
(1)
解:由题意,可得,
,
.
所以样本相关系数为:.
因为与的样本相关系数约为,
所以与的线性相关程度很强,从而可以用线性回归模型拟合与的关系.
(2)
解:由,所以,
所以关于的线性回归方程为,
将代入线性回归方程,可得.
所以估算该种机械设备使用10年的失效费为万元.
三、非线性回归方程(共0分
【例3】一地质探测队为探测一矿中金属锂的分布情况,先设了1个原点,再确定了5个采样点,这5个采样点到原点距离分别为,其中,并得到了各采样点金属锂的含量,得到一组数据,经计算得到如下统计量的值:
,,,,,其中.
(1)利用相关系数判断与哪一个更适宜作为y关于x的回归模型;
(2)建立y关于x的回归方程.
参考公式:回归方程中斜率、截距的最小二乘估计公式、相关系数公式分别为,,;
参考数据:.
【答案】(1)用作为y关于x的回归模型方程更适宜,理由见解析;
(2)
【分析】(1)用作回归模型求出相关系数,用作为回归模型求出
相关系数,比较大小可得答案;
(2)由已知条件求出,可得答案.
【详解】(1)若用作回归模型,
,,
所以相关系数,
若用作为回归模型,
相关系数,
比较与,
,
,
因为,所以用作为y关于x的回归模型方程;
(2)由(1),,
,,
,
则y关于x的回归方程为.
【例4】.一企业生产某种产品,通过加大技术创新投入降低了每件产品成本,为了调查年技术创新投入(单位:千万元)对每件产品成本(单位:元)的影响,对近年的年技术创新投入和每件产品成本的数据进行分析,得到如下散点图,并计算得:,,,,.
(1)根据散点图可知,可用函数模型拟合与的关系,试建立关于的回归方程;
(2)已知该产品的年销售额(单位:千万元)与每件产品成本的关系为.该企业的年投入成本除了年技术创新投入,还要投入其他成本千万元,根据(1)的结果回答:当年技术创新投入为何值时,年利润的预报值最大?
(注:年利润=年销售额一年投入成本)
参考公式:对于一组数据、、、,其回归直线的斜率和截距的最小乘估计分别为:,.
【答案】(1)
(2)当年技术创新投入为千万元时,年利润的预报值取最大值
【分析】(1)令,可得出关于的线性回归方程为,利用最小二乘法可求出、的值,即可得出关于的回归方程;
(2)由可得,可计算出年利润关于的函数关系式,结合二次函数的基本性质可求得的最小值及其对应的值.
【详解】(1)解:令,则关于的线性回归方程为,
由题意可得,
,则,
所以,关于的回归方程为.
(2)解:由可得,
年利润
,
当时,年利润取得最大值,此时,
所以,当年技术创新投入为千万元时,年利润的预报值取最大值.
【例5】某高科技公司对其产品研发年投资额x(单位:百万元)与其年销售量y(单位:千件)的数据进行统计,整理后得到如下统计表1和散点图.通过初步分析,求得年销售量y关于年投资额x的线性回归方程为.
x12345y0.511.535.5
表1 x1234500.41.11.7
表2
(1)该公司科研团队通过进一步分析散点图的特征后,计划用作为年销售量y关于年投资额x的非线性回归方程,请根据参考数据及表2的数据,求出此方程;
(2)若求得线性回归模型的相关系数,请根据参考数据,求出(1)中非线性回归模型的相关系数,并比较两种回归方程的拟合效果哪个更好?(精确到0.01)
参考数据:,;,,,,;
参考公式:,,.
【答案】(1)
(2)0.99,非线性回归方程拟合效果更好
【分析】(1)根据已知公式计算,,根据,即可求得答案;
(2)由(1)的结论,求得,与相比较,可得结论.
【详解】(1)由,则,记,即,
,,
,,
所以,即非线性回归方程为.
(2)由(1)可得:,
x 1 2 3 4 5
y 0.5 1 1.5 3 5.5
0.54 0.96 1.74 3.15 5.67
,
显然,故非线性回归方程拟合效果更好.
【例6】.数据显示中国车载音乐已步入快速发展期,随着车载音乐的商业化模式进一步完善,市场将持续扩大,下表为2018—2022年中国车载音乐市场规模(单位:十亿元),其中年份2018—2022对应的代码分别为1—5.
年份代码x 1 2 3 4 5
车载音乐市场规模y 2.8 3.9 7.3 12.0 17.0
(1)由上表数据知,可用指数函数模型拟合y与x的关系,请建立y关于x的回归方程(a,b的值精确到0.1);
(2)综合考虑2023年及2024年的经济环境及疫情等因素,某预测公司根据上述数据求得y关于x的回归方程后,通过修正,把b-1.3作为2023年与2024年这两年的年平均增长率,请根据2022年中国车载音乐市场规模及修正后的年平均增长率预测2024年的中国车载音乐市场规模.
参考数据:
1.94 33.82 1.7 1.6
其中,.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘法估计公式分别为.
【答案】(1)
(2)十亿元
【分析】(1)由,两边同时取常用对数得到,设,,利用最小二乘法求解;
(2)由(1)得到2023年与2024年这两年的年平均增长率和2022年中国车载音乐市场规模为17求解.
【详解】(1)解:因为,
所以两边同时取常用对数,得,
设,
所以,设,
因为,
所以
,
所以
所以
所以
(2)由(1)知2023年与2024年这两年的年平均增长率,
2022年中国车载音乐市场规模为17,
故预测2024年的中国车载音乐市场规模(十亿元).
【跟踪训练】
1.一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据如下表所示:
温度 21 23 25 27 29 32 35
产卵个数个 7 11 21 24 66 115 325
(1)画出散点图,根据散点图判断与哪一个适宜作为产卵数y关于温度x的回归方程类型(给出判断即可 不必说明理由);
(2)根据(1)的判断结果及表中数据.建立关于的回归方程.
(附:可能用到的公式,可能用到的数据如下表所示:
27.430 81.290 3.612 147.700 2763.764 705.592 40.180
(对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为.)
【答案】(1)散点图答案见解析,
(2)
【分析】(1)按照表格作图即可,并根据散点图判定回归方程类型;
(2)令,先建立关于的线性回归方程,根据线性回归方程的计算公式结合数据,得出,从而得出结果.
【详解】(1)散点图如图所示,
根据散点图可以判断,适宜作为产卵数关于温度的回归方程类型.
(2)令,先建立关于的线性回归方程,由数据得
.
所以关于的线性回归方程为
因此,关于的回归方程为
2. 某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本(元)与生产该产品的数量(千件)有关,经统计得到如下数据:
1 2 3 4 5 6 7 8
112 61 35 28 25 24
根据以上数据,绘制了散点图.观察散点图,两个变量不具有线性相关关系,现考虑用反比例函数模型和指数函数模型分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为与的相关系数.
(1)用反比例函数模型求关于的回归方程;
(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到,并用其估计产量为10千件时每件产品的非原料成本.
参考数据:
360
参考公式:对于一组数据,其回归直线的斜率和截距的最小一乘估计分别为:,,相关系数
【答案】(1)
(2)用反比例函数模型拟合效果更好,21元
【分析】(1)利用换元法,根据题中所给的公式进行求解即可;
(2)根据题中所给的相关系数公式,结合代入法进行求解即可.
【详解】(1)令,则可转化为.
因为,
所以,
,
得,即关于的回归方程为.
(2)由定义知与的相关系数为:
,
则,所以用反比例函数模型拟合效果更好.
当时,(元),
则当产量为10千件时,每件产品的非原料成本为21元.
3. 某研究所为了研究某种昆虫的产卵数与温度之间的关系,现将收集到的温度和一组昆虫的产卵数的6组观测数据作了初步处理,得到如图的散点图及一些统计数据.
经计算得到以下数据:,.
(1)若用线性回归模型来拟合数据的变化关系,求y关于x的回归方程(结果精确到0.1);
(2)若用非线性回归模型来拟合数据的变化关系,求得关于的回归方程,且相关指数为.
①试与(1)中的回归模型相比,用R2说明哪种模型的拟合效果更好;
②用拟合效果好的模型预测温度为35℃时该组昆虫的产卵数(结果四舍五入取整数).
附参考公式:对于一组具有线性相关关系的数据,其回归直线截距和斜率的最小二乘法估计公式分别为:,相关系数:.参考数据:.
【答案】(1);
(2)①用比拟合效果更好;②190个.
【分析】(1)利用最小二乘法即得;
(2)根据线性回归方程结合的值,即可比较拟合效果,然后将代入回归方程计算即得.
(1)
由题意可知,
;
∴y关于x的线性回归方程是;
(2)
①用指数回归模型拟合y与x的关系,相关指数,
线性回归模型拟合y与x的关系,相关指数,
且,
∴用比拟合效果更好.
②中,令,
则,
故预测温度为时该昆虫产卵数约为190个.
四、独立性检验
【例7】.为提高教育教学质量,越来越多的高中学校采用寄宿制的封闭管理模式.某校对高一新生是否适应寄宿生活做调查,从高一新生中随机抽取了100人,其中男生占总人数的40%,且只有20%的男生表示自己不适应寄宿生活,女生中不适应寄宿生活的人数占总人数的32%,学校为了考察学生对寄宿生活适应与否是否与性别有关,构建了如下2×2列联表:
不适应寄宿生活 适应寄宿生活 合计
男生
女生
合计
(1)请将2×2列联表补充完整,并判断是否有99%的把握认为“适应寄宿生活与否”与性别有关;
(2)从男生中以“是否适应寄宿生活”为标准采用分层抽样的方法随机抽取5人,再从这5人中随机抽取2人,求所选2名学生都“适应寄宿生活”的概率..
附:,其中.
【答案】(1)填表见解析;有99%的把握认为“适应寄宿生活与否”与性别有关;
(2)0.6.
【分析】(1)根据给定条件,完善2×2列联,计算的观测值并比对作答.
(2)求出男生中适应寄宿生活与不适应寄宿生活的人数,再编号,利用列举法求出概率作答.
【详解】(1)依题意,男生人数为,不适应寄宿生活的有,
女生人数为,不适应寄宿生活的有,
于是2×2列联表:
不适应寄宿生活 适应寄宿生活 合计
男生 8 32 40
女生 32 28 60
合计 40 60 100
的观测值为,
所以有99%的把握认为“适应寄宿生活与否”与性别有关联.
(2)从男生中以“是否适应寄宿生活”为标准采用分层抽样的方法随机抽取5人中,
适应寄宿生活的有4人,记这4人为,不适应寄宿生活的有1人,记为,
从5人中随机抽取2人的结果有:,共10个,
所选2名学生都“适应寄宿生活”的结果有:,共6个,
所以所选2名学生都“适应寄宿生活”的概率为.
【跟踪训练】
1.内蒙古自治区新高考改革自2022年起执行,在取消文理分科后实行“”模式,即语数外三科为国家统考,所有考生必选,然后从物理、历史2科中任选1科,再从化学、生物、政治和地理中任选2科参加高考.选科前大家普遍认为,传统的“大文大理”(即“数理化”、“政史地”组合)还依然是主流,而且男生将依然是“大理”的主体.某校为了解学生对“大理”的选择是否与性别有关,从该校高一年级1000名学生(550名男生,450名女生),按男女生分层随机抽样抽取100人进行选科意向调查.经统计,选择“大理”的人数比非“大理”人数多出20人.
选择“大理” 选择非“大理” 合计
男生 15
女生
合计
(1)完成上面的列联表,并判断能否在犯错误的概率不超过0.5%的前提下认为选择“大理”与性别有关;
(2)为了进一步了解学生进行选科的理由,随机选取了男生4名,女生2名进行访谈,再从中抽取2名代表作详细交流,求至少抽到1名女生的概率.
附表及公式:,.
0.05 0.025 0.010 0.005 0.001
3.841 5.024 6.635 7.879 10.828
【答案】(1)详见解析;
(2)
【分析】(1)先依据题给条件求得样本中选择“大理”和非“大理”男生人数和女生人数,进而完成列联表;求得的值再与7.879进行比较进而判断能否在犯错误的概率不超过0.5%的前提下认为选择“大理”与性别有关;
(2)利用古典概型即可求得至少抽到1名女生的概率.
【详解】(1)该校高一年级1000名学生(550名男生,450名女生),
按男女生分层随机抽样抽取100人,则样本中55名男生,45名女生
选择非“大理”男生15名,则选择“大理”男生40名,
设选择非“大理”女生x名,则选择“大理”女生名,
则,解之得,
则选择非“大理”女生25名,则选择“大理”女生名,则列联表如下:
选择“大理” 选择非“大理” 合计
男生 40 15 55
女生 20 25 45
合计 60 40 100
则能在犯错误的概率不超过0.5%的前提下认为选择“大理”与性别有关;
(2)在选取的4名男生2名女生中,抽取2名代表作详细交流,
记“至少抽到1名女生”为事件A,
则
即至少抽到1名女生的概率为.