1.相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2.散点图:将样本中的每一个序号下的成对样本数据都用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
3.正相关与负相关:如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关
1.线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
2.非线性相关:一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
相关关系与函数关系有什么异同点?
不同点:①函数关系是一种确定的关系,如圆的面积S与半径r的关系,它可以用函数关系式S=πr2来表示;相关关系是一种非确定的关系,如人的体重y与身高x有关,一般来说,身高越高,体重越重,但不能用一个函数关系式来严格地表示它们之间的关系.函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量之间的关系.②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
样本相关系数
对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn),其中x1,x2,…,xn和y1,y2,…,yn的均值分别为
我们称r为变量x和变量y的样本相关系数.
例题1.“十三五”期间,我国大力实施就业优先政策,促进居民人均收入持续增长.下面散点图反映了2016-2020年我国居民人均可支配收入(单位:元)情况.根据图中提供的信息,下列判断不正确的是(??? )
A.?2016-2020年,全国居民人均可支配收入每年都超过20000元
B.?2017-2020年,全国居民人均可支配收入均逐年增加
C.?根据图中数据估计,2015年全国居民人均可支配收入可能高于20000元
D.?根据图中数据预测,2021年全国居民人均可支配收入一定大于30000元
【答案】 D
【解析】A:由散点图可知:2016-2020年,全国居民人均可支配收入每年都超过20000元,所以本判断正确;
B:由散点图可知:2017-2020年,全国居民人均可支配收入均逐年增加,所以本判断正确;
C:根据图中数据估计,2015年全国居民人均可支配收入可能高于20000元,所以本判断正确;
D:根据图中数据预测,2021年全国居民人均可支配收入有可能大于30000元,不是一定大于30000元,所以本判断不正确,
故答案为:D
例题2.电影《流浪地球》中反复出现这样的人工语音:“道路千万条,安全第一条,行车不规范,亲人两行泪”,成为网络热句.讲的是“开车不喝酒,喝酒不开车”.2019年,公安部交通管理局下发《关于治理酒驾醉驾违法犯罪行为的指导意见》,对综合治理酒驾醉驾违法犯罪行为提出了新规定,根据国家质量监督检验检疫总局下发的标准,车辆驾驶人员饮酒后或者醉酒后驾车血液中的酒精含量阈值见表.经过反复试验,一般情况下,某人喝一瓶啤酒后酒精在人体血液中的变化规律的散点图如图所示,且该图表示的函数模型 .假设该人喝一瓶啤酒后至少经过 小时才可以驾车,则 的值为(??? )(参考数据: , )
车辆驾驶人员血液酒精含量阈值
驾驶行为类别 阈值
饮酒驾车
醉酒驾车
A.?7???????????????????????????????????????????B.?6???????????????????????????????????????????C.?5???????????????????????????????????????????D.?4
【答案】 B
【解析】由散点图可知,该人喝一瓶啤酒后的2个小时内,其血液酒精含量大于20,
则令 ,即 ,
解得 ,
, 的最小值为6,
故至少经过6小时才可以驾车.
故答案为:B.
例题3.某湿地公园经过近十年的规划和治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的300个地块,并设计两种抽样方案,方案一:在该地区应用简单随机抽样的方法抽取30个作为样本区;依据抽样数据计算得到相应的相关系数 ;方案二:在该地区应用分层抽样的方法抽取30个作为样本区,调查得到样本数据 ( ,2,…,30),其中 和 分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得 , , , , .
附:相关系数 , ;相关系数 ,则相关性很强, 的值越大,相关性越强.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求方案二抽取的样本 ( ,2,…,30)的相关系数(精确到0.01);并判定哪种抽样方法更能准确的估计.
【答案】 (1)解:由题意可得,样区野生动物平均数为 ,
又地块数为300,所以该地区这种野生动物的估计值为 ;
(2)解:由题中数据可得,
样本 ( ,2,…,30)的相关系数为
.
因为方案一的相关系数为 明显小于方案二的相关系数为 ,
所以方案二的分层抽样方法更能准确的估计.
【解析】【分析】(1)利用实际问题的已知条件结合平均数公式,再利用这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数,从而求出该地区这种野生动物数量的估计值。
(2)再利用相关系数求解方法结合方案一的相关系数为 明显小于方案二的相关系数为 ,从而得出方案二的分层抽样方法更能准确的估计。
?
例题4.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi , yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得 , , , , .
附:相关系数r= , ≈1.414.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi , yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
【答案】 (1)解:样区野生动物平均数为 ,
地块数为200,该地区这种野生动物的估计值为
(2)解:样本 (i=1,2,…,20)的相关系数为
(3)解:由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,
由于各地块间植物覆盖面积差异很大,从俄各地块间这种野生动物的数量差异很大,
采用分层抽样的方法较好地保持了样本结构与总体结构得以执行,提高了样本的代表性,
从而可以获得该地区这种野生动物数量更准确的估计.
【解析】【分析】(1)利用野生动物数量的估计值等于样区野生动物平均数乘以地块数,代入数据即可;(2)利用公式 计算即可;(3)各地块间植物覆盖面积差异较大,为提高样本数据的代表性,应采用分层抽样.
例题5.某企业为了更好地了解设备改造前后与生产合格品的关系,随机抽取了180件产品进行分析,其中设备改造前的合格品有36件,不合格品有49件,设备改造后生产的合格品有65件,不合格品有30件.根据所给数据:
(1)写出2×2列联表;
(2)判断产品是否合格与设备改造是否有关.
【答案】 解:(1)∵设备改造前的合格品有36件,不合格品有49件,
设备改造后生产的合格品有65件,不合格品有30件
由已知数据得
(2)根据列联表中数据,K2的观测值为
k=≈12.38.
∵12.38>10.828,
∴有99.9%的把握认为产品是否合格与设备改造有关.
【解析】(1)由题意知设备改造前的合格品有36件,不合格品有49件,设备改造后生产的合格品有65件,不合格品有30件,做出合计的五个数据,填入表格,得到列联表.
(2)根据列联表中的数据,做出观测值,把所得的观测值同临界值进行比较,得到有99.9%的把握认为产品是否合格与设备改造有关.
练习1.2020年12月30日,国家药品监督管理局附条件批准国药集团中国生物北京生物制品研究所有限责任公司的新型冠状病毒灭活疫苗( 细胞)注册申请.该疫苗是首家获批的国产新冠病毒灭活疫苗,适用于预防由新型冠状病毒感染引起的疾病( ).2021年1月3日,北京市人民政府新闻办公室召开疫情防控第200场例行新闻发布会,表示不在 岁接种年龄段范围的人员,需要等待进一步临床试验数据.近日专家对该年龄内和该年龄段外的110人进行了临床试验,得到如下 列联表:
能接种 不能接种 总计
岁内 40 20 60
岁外 20 30 50
总计 60 50 110
附: ,其中 ;
0.050 0.010 0.001
3.841 6.635 10828
参照附表,得到的正确结论是(??? )
A.?在犯错误的概率不超过 的前提下,认为“能接种与年龄段无关”
B.?在犯错误的概率不超过 的前提下,认为“能接种与年龄段有关”
C.?有 以上的把握认为“能接种与年龄段无关”
D.?有 以上的把握认为“能接种与年龄段有关”
练习2.观察下列各图形,
其中两个变量 具有相关关系的图是(??? )
A.?①②??????????????????????????????????????B.?①④??????????????????????????????????????C.?③④?????????????????????????????D.?③
练习3.研究“刹车距离”对于安全行车及分析交通事故责任都有一定的作用,所谓“刹车距离”就是指行驶中的汽车,从刹车开始到停止,由于惯性的作用而又继续向前滑行的一段距离.为了测定某种型号汽车的刹车性能(车速不超过140km/h),对这种汽车进行测试,测得的数据如表:
刹车时的车速(km/h) 0 10 20 30 40 50 60
刹车距离(m) 0 0.3 1.0 2.1 3.6 5.5 7.8
(1)以车速为x轴,以刹车距离为y轴,在给定坐标系中画出这些数据的散点图;
(2)观察散点图,估计函数的类型,并确定一个满足这些数据的函数表达式;
(3)该型号汽车在国道上发生了一次交通事故,现场测得刹车距离为46.5m,请推测刹车时的速度为多少?请问在事故发生时,汽车是超速行驶还是正常行驶?
练习4.研究某设备的使用年限x与维修费用y之间的关系,测得一组数据如下(y值为观察值):
年限x(年) 2 3 4 5 6
维修费用y(万元) 3 4.4 5 5.6 6.2
由数据可知y与x有明显的线性相关关系,可以用一条直线l的方程来反映这种关系.
(Ⅰ)将表中的数据画成散点图;
(Ⅱ)如果直线l过散点图中的最左侧点和最右侧点,求出直线l的方程;
(Ⅲ)如果直线l过散点图中的中间点(即点(4,5)),且使维修费用的每一个观察值与直线l上对应点的纵坐标的差的绝对值之和最小,求出直线l的方程.
练习5.教育部,体育总局和共青团中央号召全国各级各类学校要广泛,深入地开展全国亿万大,中学生阳光体育运动,为此,某校学生会对高二年级2014年9月与10月这两个月内参加体育运动的情况进行统计,随机抽取了100名学生作为样本,得到这100名学生在该月参加体育运动总时间的小时数,根据此数据作出了如下的频数和频率的统计表和 频率分布直方图:
(I)求a,p的值,并补全频率分布直方图;
(Ⅱ)根据上述数据和直方图,试估计运动时间在[25,55]小时的学生体育运动的平均时间;
练习1【答案】 D
【解析】由 列联表可得
?由
所以在犯错误的概率不超过 的前提下,认为“能接种与年龄段有关”
即有 以上的把握认为“能接种与年龄段有关
故答案为:D
练习2【答案】 C
【解析】由图可知,图③中这些点大致分布在一条直线附近,具有线性相关关系;图④中这些点大致分布在一条类似二次曲线附近,具有相关关系;而图①②中这些点分布不均匀,比较分散,不具有相关关系.
故答案为:C.
练习3【答案】 (1)解:如图所示
(2)解:根据图象可估计为抛物线.
∴设y=ax2+bx+c.
把表内前三对数代入函数,可得
解得:
∴y=0.002x2+0.01x(0≤x≤140).
经检验,其他各数均满足函数(或均在函数图象上)
(3)解:当y=46.5时,46.5=0.002x2+0.01x.
整理可得x2+5x﹣23250=0.
解之得x1=150,x2=﹣155(不合题意,舍去).
所以可以推测刹车时的速度为150千米/时.
∵150>140,
∴汽车发生事故时超速行驶.汽车属于超速行驶
【解析】(1)依题意描点即可.(2)设抛物线为y=ax2+bx+c,再根据表格中所给数据可得方程组,解出a,b,c即可.(3)当y=46.5时,代入函数关系式解出x的值,根据题意进行取舍即可.
练习4【答案】 解:(Ⅰ)如图所示.
(Ⅱ)因为散点图中的最左侧点和最右侧点分别是(2,3),(6,6.2),
所以 直线l的方程是:y-3= , 即4x﹣5y+7=0.
(Ⅲ)由题意可设直线l的方程为y=k(x﹣4)+5.
则维修费用的每一个观察值与直线l上对应点的纵坐标的差的绝对值之和
S(k)=|3﹣(﹣2k+5)|+|4.4﹣(﹣k+5)|+|5.6﹣(k+5)|+|6.2﹣(2k+5)|=2|k﹣1|+4|k﹣0.6|= ,
因为S(k)的单调递增区间为(0.6,+∞),单调递减区间为(﹣∞,0.6),
所以当k=0.6时,S(k)取得最小值0.8,
此时直线l的方程是3x﹣5y+13=0.
【解析】(Ⅰ)将数据在平面坐标系中标出,即可得到散点图;
(Ⅱ)确定散点图中的最左侧点和最右侧点的坐标,即可求出直线l的方程;
(Ⅲ)根据绝对值函数的性质,求出函数的最值,即可求出直线的方程。
练习5【答案】 解:(Ⅰ)因为随机抽取了100名学生作为样本,
所以a=100﹣20﹣20﹣15﹣10﹣5=30;
b==0.3;
频率分布直方图如下:
(Ⅱ)根据表格数据和直方图得到运动时间在[25,55]小时的学生体育运动的平均时间为27.5×0.2+32.5×0.3+37.5×0.2+42.5×0.15+47.5×0.1+52.5×0.05=5.5+9.75+7.5+6.375+4.75+2.625=36.5(小时);
【解析】(Ⅰ)根据频数总和是样本容量求出a,然后利用频数与样本容量的比是频率求p;
(Ⅱ)利用各矩形底边中点的横坐标乘以矩形的面积之和解得平均数。