4.3统计模型(新课)
知识梳理
线性回归方程及其应用
1.相关系数:
用它来衡量两个变量之间的线性相关程度。
(1)当,当时,变量与正相关,当时,变量与负相关。
(2),且越接近1,相关程度越强;且越接近0,相关程度越弱,几乎不存在。
2.求线性回归方程的步骤:
(1)利用散点图或进行相关性检验判断两个变量具有线性相关关系;
(2)列表求出等。
(3)线性回归方程,其中,。
独立性检验在实际中的应用
解题步骤:(1)独立性检验原理只能解决两个对象,且每个对象有两类属性的问题,所以对于一个实际问题,我们要明确能否用独立性检验的思想加以解决;
(2)如果确实属于这类问题,要科学的抽取样本,样本容量要适当,不可太小;
(3)根据数据列出列联表;
(4)提出假设:所研究的两类对象无关;
(5)根据公式计算的值;
(6)比较观测值与临界值表中相应的检验水平,根据小概率原理肯定或否定假设,判断是否相关。
典例解析
考点一:一元线性回归模型
例1.由于美国对华为实施禁令,华为手机的销售受到影响,现统计出今年月份的销售量(单位:万台)的一组相关数据如下表
6 7 8 9 10
700 650 630 620 600
若变量,具有线性相关性,,之间的线性回归方程为,则预计今年11月份的销量为( )万台.
A.580 B.570 C.560 D.550
变式1.在一项调查中有两个变量和,下图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为关于的回归方程的函数类型是( )
A. B.
C. D.()
变式2.某单位为了解用电量y度与气温之间的关系,随机统计了其中4天的用电量与当天气温,并制作了对照表:
气温() 18 13 10
用电量(度) 24 34 38 64
由表中数据得回归直线方程,其中,预测当气温为时,用电量的度数约为( )
A.64 B.68
C.68.8 D.69.6
例2.对四组数据进行统计,获得以下散点图,关于其线性相关系数比较,正确的是( )
A. B.
C. D.
变式1.在一组样本数据,,,,,,,,,不全相等)的散点图中,若所有样本点,,2,,都在直线上,则这组样本数据的样本相关系数为( )
A. B.0 C. D.1
变式2.对两个变量与进行线性相关性和回归效果分析,得到一组样本数据:、、、,则下列说法不正确的是( )
A.残差平方和越小的模型,拟合的效果越好
B.由样本数据利用最小二乘法得到的回归方程表示的直线必过样本点的中心
C.若变量与之间的相关系数,则变量与之间具有很强的线性相关性
D.用相关指数来刻画回归效果,越小,说明模型的拟合效果越好
例3.根据统计,某蔬菜基地西红柿亩产量的增加量(百千克)与某种液体肥料每亩使用量(千克)之间的对应数据的散点图,如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合与的关系,请计算相关系数并加以说明(若,则线性相关程度很高,可用线性回归模型拟合);
(2)求关于的回归方程,并预测液体肥料每亩使用量为千克时,西红柿亩产量的增加量约为多少?
附:相关系数公式,回归方程中斜率和截距的最小二乘估计公式分别为:,.
变式1.近年来,随着信息技术的飞速发展,支付方式发生了翻天覆地的变化,手机支付逐渐成为人们付款的首选,皖北某超市全部销售额中,客户使用手机支付数据统计如下表:
x(年份) 2014 2015 2016 2017 2018
金额y(万元) 8 38 73 128 158
由资料可知y与x具有线性相关关系:
(Ⅰ)判断y与x是正相关还是负相关;
(Ⅱ)求手机支付金额与年份之间的线性回归方程;
(Ⅲ)根据线性回归方程,估计2019年手机支付金额是多少?
参考公式:,..
变式2.某市2013年至2019年新能源汽车(单位:百台)的数据如表:
年份 2013 2014 2015 2016 2017 2018 2019
年份代号 1 2 3 4 5 6 7
新能源汽车 5 8 8 10 14 15 17
(1)求关于的线性回归方程,并预测该市2021年新能源汽车台数;
(2)该市某公司计划投资600台“双枪同充”(两把充电枪)、“一拖四群充”(四把充电枪)的两种型号的直流充电桩.按要求,充电枪的总把数不少于该市2021年新能源汽车预测台数,若双枪同充、一拖四群充的每把充电枪的日利润分别为25元,10元,问两种型号的充电桩各安装多少台时,才能使日利润最大,求出最大日利润.,
附:回归直线的斜率和截距的最小二乘法估计公式分别为,.
例4.年月日,国家统计局公布全国规模以上工业企业月累计(x)营业收入利润率(y)数据如表:
月份累计
(1)根据表中有关数据请在下图中补充完整与的折线图,判断与哪一个更适宜作为关于的回归方程类型,并说明理由;
(2)根据(1)的判断结果及表中数据,建立关于的回归方程(系数精确到);
(3)根据(2)得出的回归方程,预测月月累计营业收入利润率的值为多少?
参考公式:对于一组数据、、、,其回归直线的斜率和截距的最小二乘估计分别为,.
参考数据:
表中,,.
变式1.2020年初,武汉出现新型冠状病毒肺炎疫情,并快速席卷我国其他地区,口罩成了重要的防疫物资.某口罩生产厂不断加大投入,高速生产,现对其2月1日~2月9日连续9天的日生产量(单位:十万只,)数据作了初步处理,得到如图所示的散点图及一些统计量的值:
2.72 19 139.09 1095
注:图中日期代码1~9分别对应2月1日~2月9日;表中,.
(1)从9个样本点中任意选取2个,在2个点的日生产量都不高于三十万只的条件下,求2个都高于二十万只的概率;
(2)由散点图分析,样本点都集中在曲线的附近,请求y关于t的方程,并估计该厂从什么时候开始日生产量超过四十万只.
参考公式:回归直线方程是,,.
参考数据:.
变式2.某种新产品投放市场一段时间后,经过调研获得了时间x(天数)与销售单价y(元)的一组数据,且做了一定的数据处理(如表),并作出了散点图(如图).
表中.
(1)根据散点图判断,与哪一个更适合作价格y关于时间x的回归方程类型?(不必说明理由)
(2)根据判断结果和表中数据,建立y关于x的回归方程.
(3)若该产品的日销售量(件)与时间x的函数关系为,求该产品投放市场第几天的销售额最高?最高为多少元?
附:对于一组数据,其回归直线的斜率和截距的最小二乘法估计分别为.
考点二:独立性检验
例5.为了迎接冬奥会,某中学推广冰上运动,从全校学生中随机抽取了100人,统计是否爱好冰上运动,得到如表的列表:
爱好 不爱好 共计
男生 10
女生 30
共计 50
参考附表:
P() 0.100 0.050 0.025
k 2.706 3.841 5.024
参考公式:,其中.
(1)补全联表;
(2)能否在犯错误的概率不超过0.05的前提下认为“爱好冰上运动与性别有关“?请说明理由.
变式1.为激活国内消费布场,挽回疫情造成的损失,国家出台一系列的促进国内消费的优惠政策,某机构从某一电商的线上交易大数据中来跟踪调查消费者的购买力,界定3至8月份购买商品在5000元以上人群属“购买力强人群”,购买商品在5000元以下人群属“购买力弱人群”.现从电商平台消费人群中随机选出200人,发现这200人中属购买力强的人数占80%,并将这200人按年龄分组,记第1组,第2组,第3组,第4组,第5组,得到的频率分布直方图,如图所示.
(1)求出频率分布直方图中的a值和这200人的平均年龄;
(2)从第2,3,5组中用分层抽样的方法抽取12人,并再从这12人中随机抽取3人进行电话回访,求这三人恰好属于不同组别的概率;
(3)把年龄在第1,2,3组的居民称为青少年组,年龄在第4,5组的居民称为中老年组,若选出的200人中“购买力弱人群”的中老年人有20人,问是否有99%的把握认为是否“购买力强人群”与年龄有关?
附:
0.150 0.100 0.050 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
,
变式2.为了加快恢复疫情过后的经济,各地旅游景点相继推出各种优惠政策,刺激旅游消费.8月份,某景区一纪念品超市随机调查了180名游客到该超市购买纪念品的情况,整理数据,得到下表:
消费金额(元)
人数 20 30 40 30 40 20
(Ⅰ)估计8月份游客到该超市购买纪念品不少于90元的概率;
(Ⅱ)估计8月份游客到该超市购买纪念品金额的平均值(结果精确到,同一组中的数据用该组区间的中点值作代表);
(Ⅲ)完成下面的列联表,并判断能否有%的把握认为购买纪念品的金额与年龄有关.
不少于120元 少于120元 总计
年龄不小于50岁 80
年龄小于50岁 36
总计
附:,.
巩固练习
1.两个变量与的回归模型中,分别选择了4个不同模型,它们的相关指数如下,其中拟合效果最好的模型是( )
A.模型1的相关指数 B.模型2的相关指数
C.模型3的相关指数 D.模型4的相关指数
2.某种产品的广告费支出与销售额(单位:万元)之间有如表关系,与的线性回归方程为,当广告支出5万元时,随机误差的效应(残差)为( )
2 4 5 6 8
30 40 60 50 70
A.10 B.20 C.30 D.40
3.对于相关系数,下列说法中正确的是( )
A.越大,线性相关程度越强
B.越小,线性相关程度越强
C.越大,线性相关程度越弱,越小,线性相关程度越强
D.,且越接近,线性相关程度越强,越接近,线性相关程度越弱
4.为研究某种细菌在特定环境下随时间变化的繁殖情况,得到如下实验数据:
天数(天) 3 4 5 6
繁殖个数(千个) 2.5 3 4 4.5
由最小二乘法得与的线性回归方程为,则样本在(4,3)处的残差为( )
A.-0.15 B.0.15 C.-0.25 D.0.25
5.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.②相关指数来刻画回归的效果,值越大,说明模型的拟合效果越好.③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.其中正确命题的个数是( )
A.0 B.1 C.2 D.3
6.某商店为了更好地规划某种商品进货的量,该商店从某一年的销售数据中,随机抽取了组数据作为研究对象,如下图所示((吨)为该商品进货量,(天)为销售天数):
(Ⅰ)根据上表数据在下列网格中绘制散点图:
(Ⅱ)根据上表提供的数据,求出关于的线性回归方程;
(Ⅲ)根据(Ⅱ)中的计算结果,若该商店准备一次性进货该商品吨,预测需要销售天数;参考公式和数据:
7.《中华人民共和国道路交通安全法》第条的相关规定:机动车行经人行道时,应当减速慢行;遇行人正在通过人行道,应当停车让行,俗称“礼让斑马线”, 《中华人民共和国道路交通安全法》第条规定:对不礼让行人的驾驶员处以扣分,罚款元的处罚.下表是某市一主干路口监控设备所抓拍的5个月内驾驶员“礼让斑马线”行为统计数据:
月份
违章驾驶员人数
(1)请利用所给数据求违章人数与月份之间的回归直线方程;
(2)预测该路口月份的不“礼让斑马线”违章驾驶员人数.
参考公式: ,参考数据:.
8.年月底,为严防新型冠状病毒疫情扩散,有效切断病毒传播途径,坚决遏制疫情蔓延势头,确保人民群众生命安全和身体健康,多地相继做出了封城决定.某地在月日至日累计确诊人数如下表:
日期(月) 日 日 日 日 日 日 日
人数(人)
由上述表格得到如散点图(月日为封城第一天).
(1)根据散点图判断与(,均为大于的常数)哪一个适宜作为累计确诊人数与封城后的天数的回归方程类型(给出判断即可,不必说明理由);并根据上表中的数据求出回归方程;
(2)随着更多的医护人员投入疫情的研究,月日武汉影像科医生提出存在大量核酸检测呈阴性(阳性则确诊),但观其肺片具有明显病变,这一提议引起了广泛的关注,月日武汉疾控中心接收了份血液样本,假设每份样本的检验结果是阳性还是阴性都是相互独立的,且每份样本是阳性样本的概率为,核酸试剂能把阳性样本检测出阳性结果的概率是(核酸检测存在阳性样本检测不出来的情况,但不会把阴性检测呈阳性),求这份样本中检测呈阳性的份数的期望.
参考数据:
其中,,参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.
9.个人所得税是国家对本国公民、居住在本国境内的个人的所得和境外个人来源于本国的所得征收的一种所得税我国在年月日,第五届全国人民代表大会第三次会议通过并公布了《中华人民共和国个人所得税法》公民依法诚信纳税是义务,更是责任现将自年至年的个人所得税收入统计如下:
年份
时间代号
个税收入(千亿元)
并制作了时间代号与个人所得税收入的如如图所示的散点图:
根据散点图判断,可用①与②作为年个人所得税收入关于时间代号的回归方程,经过数据运算和处理,得到如下数据:
表中,,,,参考数据:,.
以下计算过程中四舍五入保留两位小数.
(1)根据所给数据,分别求出①、②中关于的回归方程;
(2)已知年个人所得税收人为千亿元,用年的数据验证(1)中所得两个回归方程,哪个更适宜作为关于时间代号的回归方程?
(3)你还能从统计学哪些角度来进一步确认哪个回归方程更适宜?(只需叙述,不必计算)
附:对于一组数据、、、,其回归直线的斜率和截距的最小二乘估计分别为:,.
10.某学校共有1000名学生,其中男生400人,为了解该校学生在学校的月消费情况,采取分层抽样随机抽取了100名学生进行调查,月消费金额分布在之间.根据调查的结果绘制的学生在校月消费金额的频率分布直方图如图所示:
将月消费金额不低于750元的学生称为“高消费群”.
(1)求的值,并估计该校学生月消费金额的平均数(同一组中的数据用该组区间的中点值作代表);
(2)现采用分层抽样的方式从月消费金额落在,,,内的两组学生中抽取10人,再从这10人中随机抽取3人,记被抽取的3名学生中属于“高消费群”的学生人数为随机变量,求的分布列及数学期望;
(3)若样本中属于“高消费群”的女生有10人,完成下列列联表,并判断是否有的把握认为该校学生属于“高消费群”与“性别”有关?
属于“高消费群” 不属于“高消费群” 合计
男
女
合计
(参考公式:,其中
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
11.为了解决消费者在网购退货过程中和商家由于运费问题产生的纠纷,某保险公司推出退货“运费险”.消费者在购买商品时可选择是否购买运费险.当购买运费险的消费者退货时,保险公司将按约定对消费者的退货运费进行赔付.该保险公司随机调查了100名消费者,统计数据如下:
不购买运费险 购买运费险 总计
农村消费者 40
城镇消费者 3
总计 10 100
(1)请将上面列联表补充完整,并求若在农村消费者和城镇消费者中按分层抽样抽取一个容量为15的样本时,农村消费者和城镇消费者各应抽取的人数;
(2)是否有95%的把握认为消费者购买运费险与城镇农村有关?
附:,其中.
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
12.随着新冠疫情防控进入常态化,生产生活逐步步入正轨,为拉动消费,成都市先后发行了三批(每批2亿元)消费券.我们随机抽取了50人,对这种拉动消费的方式是否赞同进行调查,结果如下表,其中年龄低于45岁的总人数与不低于45岁的总人数之比为.
年龄(单位:岁)
人数 5 15 10 5
赞同人数 5 10 12 7 2 1
(1)求,值;
(2)若以“年龄45岁为分界点”,由以上统计数据完成下面列联表,并判断是否有99%的把握认为“赞同”的态度与人的年龄有关;
年龄低于45岁的人数 年龄不低于45岁的人数 合计
赞同
不赞同
合计
(3)若从年龄在的被调查人中随机选取2人进行追踪调查,求2人中至少有1人不赞同的概率.
参考数据:
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
,其中.
4.3统计模型答案
例1.A 变式1.B 变式2.B
例2.B 变式1.A 变式2.D
例3.(1),可用线性回归模型拟合与的关系;(2) ,预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为9.9百千克.
变式1.(Ⅰ)正相关;(Ⅱ);(Ⅲ)198万元.
变式2.(1);2100台;(2)双枪同充安装150台,一拖四群充安装450台时,每天的利润最大,最大利润为25500元.
例4.(1)折线图如右图。更适宜,理由:根据折线图知折线的形状更接近的图象.;(2);(3),
变式1.(1);(2),从2月14日开始。
变式2.(1)更适合作价格y关于时间x的回归方程;(2);(3)第10天,最高销售额为2420元;
例5.(1)根据题意补全列联表,如下;(2),在犯错误的概率不超过0.05的前提下,可以认为“爱好冰上运动与性别有关”,.
爱好 不爱好 共计
男生 10 20 30
女生 40 30 70
共计 50 50 100
变式1.(1);;(2);(2)没有99%的把握。
变式2.(Ⅰ)0.5;(Ⅱ)91.7;(Ⅲ)列联表如下,,有把握.
不少于120元 少于120元 总计
年龄不小于50岁 24 80 104
年龄小于50岁 36 40 76
总计 60 120 180
巩固练习
1.D 2.A 3.D 4.A 5.D
6.(Ⅰ)散点图如图所示:(Ⅱ);(Ⅲ)17
7.(1);(2)49.
8.(1)选择,关于的回归方程为;(2)期望为人.
9.(1);;(2);(3)计算两个回归方程的残差,残差的平方和越小,模拟效果越好。
10.(1),平均数(2)分布列如下,期望(3)表如下,有.
0 1 2 3
列联表:
属于“高消费群” 不属于“高消费群” 合计
男生 15 25 40
女生 10 50 60
合计 25 75 100
11.(1)表如下;农村消费者取人,城镇消费者取人;(2)有把握.
不购买运费险 购买运费险 总计
农村消费者 7 33 40
城镇消费者 3 57 60
总计 10 90 100
12.(1),;(2)联表如下,有99%把握(3).
年龄低于45岁的人数 年龄不低于45岁的人数 合计
赞同 27 10 37
不赞同 3 10 13
合计 30 20 50
20