9.1 统计与统计案例
一、整合教材知识,落实基本能力
1.简单随机抽样
(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.
(2)最常用的简单随机抽样的方法:抽签法和随机数法.
2.分层抽样
(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
(2)分层抽样的应用范围
当总体由差异明显的几个部分组成时,往往选用分层抽样.
(1).不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.
(2).分层抽样是按比例抽样,每一层入样的个体数为该层的个体数乘抽样比.
3.常用统计图表
(1)作频率分布直方图的步骤:①求极差(即一组数据中最大值与最小值的差).②决定组距与组数.③将数据分组.④列频率分布表.⑤画频率分布直方图.
(2)频率分布直方图:反映样本频率分布的直方图(如图)
横轴表示样本数据,纵轴表示,每个小矩形的面积表示样本数据落在该组内的频率.各小矩形的面积和为1.
(3)频率分布折线图和总体密度曲线
①频率分布折线图:将频率分布直方图中各相邻的矩形的上底边的中点顺次连接起来,就得到频率分布折线图.
②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
(4)茎叶图的画法步骤:
第一步:将每个数据分为茎(高位)和叶(低位)两部分;
第二步:将最小茎与最大茎之间的数按大小次序排成一列;
第三步:将各个数据的叶依次写在其茎的右(左)侧.
4.样本的数字特征
(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.
(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(3)平均数:把=称为x1,x2,…,xn这n个数的平均数.
(4)标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为,则这组数据的标准差和方差分别是
s=;
s2=[(x1-)2+(x2-)2+…+(xn-)2].
频率分布直方图中的常见结论
(1)众数的估计值为最高矩形的中点对应的横坐标.
(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.
平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
(2)数据x1,x2,…,xn的方差为s2.
①数据x1+a,x2+a,…,xn+a的方差也为s2; ②数据ax1,ax2,…,axn的方差为a2s2.
5.两个变量的线性相关
(1)在散点图中,点散布在从左下角到右上角的区域,两个变量的这种相关关系称为正相关.
(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系,这条直线叫做回归直线.
6.回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn).其回归方程为=x+,则,其中.其中(,)称为样本点的中心.
7.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)其中(,)称为样本点的中心.
(3)相关系数:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
8.独立性检验
(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为和,其样本频数列联表(2×2列联表)为
Y X y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
K2=(其中n=a+b+c+d为样本容量).
二、精研高考题点,提升备考知能
考点一 随机抽样
简单随机抽样在高考中单独考查的频率较小,主要涉及随机抽样的特点及随机数法的应用.题型为选择题或填空题,难度较小.
(1)简单随机抽样需满足:①被抽取样本的总体的个体数有限;②逐个抽取;③是不放回抽取;④是等可能抽取.
(2)简单随机抽样常有抽签法(适用于总体中个体数较少的情况)、随机数法(适用于个体数较多的情况).
1.(2021·聊城模拟)要考察某种品牌的850颗种子的发芽率,利用随机数表法抽取50颗种子进行实验.先将850颗种子按001,002,…,850进行编号,如果从随机数表第2行第2列的数开始并向右读,则选出来的第4个个体的编号为( )(下面抽取了随机数表第1行至第3行).
03 47 43 73 86 36 96 47 36 61 46 98 63 71 62 33 26 16 80 45 60 11 14 10 95
97 74 94 67 74 42 81 14 57 20 42 53 32 37 32 27 07 36 07 51 24 51 79 89 73
16 76 62 27 66 56 50 26 71 07 32 90 79 78 53 13 55 38 58 59 88 97 54 14 10
A.774 B.946 C.428 D.572
2.(2015·唐山二模)用简单随机抽样的方法从含有100个个体的总体中抽取一个容量为5的样本,则个体M被抽到的概率为( )A. B. C. D.
3.利用简单随机抽样,从n个个体中抽取一个容量为10的样本.若第二次抽取时,余下的每个个体被抽到的概率为,则在整个抽样过程中,每个个体被抽到的概率为( )
A. B. C. D.
4.用简单随机抽样的方法从含有10个个体的总体中,抽取一个容量为3的样本,其中某一个体a“第一次被抽到”的可能性与“第二次被抽到”的可能性分别是( )
A., B., C.,. D.,
考点二 分层抽样
分层抽样是每年高考的常考内容,题型既有选择题、填空题,有时也出现在解答题中,难度较小,属于低档题.
分层抽样问题类型及解题思路
(1)求某层应抽个体数量:按该层所占总体的比例计算.
(2)已知某层个体数量,求总体容量或反之:根据分层抽样就是按比例抽样,列比例式进行计算.
(3)确定是否应用分层抽样:分层抽样适用于总体中个体差异较大的情况.
1.(2017·江苏高考)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.
2.为了了解高一、高二、高三学生的身体状况,现用分层抽样的方法抽取一个容量为1 200的样本,三个年级学生人数之比依次为k∶5∶3,已知高一年级共抽取了240人,则高三年级抽取的人数为________.
3.某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现分层抽取容量为45的样本,那么高一、高二、高三年级抽取的人数分别为( )
A.15,10,20 B.10,5,30 C.15,15,15 D.15,5,25
4.某单位有职工480人,其中青年职工210人,中年职工150人,老年职工120人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本.若样本中的青年职工为7人,则样本容量为________.
5.(2019·洛阳一模)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
A.100,10 B.100,20 C.200,10 D.200,20
图甲 图乙
进行分层抽样的相关计算时,常用到的两个关系
(1)抽样比==.
(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.
6.(2020·郴州二模)已知我市某居民小区户主人数和户主对户型结构的满意率分别如图1和图2所示,为了解该小区户主对户型结构的满意程度,用分层抽样的方法抽取30%的户主进行调查,则样本容量和抽取的户主对四居室满意的人数分别为( )
A.240,18 B.200,20 C.240,20 D.200,18
7.(2020·百校大联考)在新冠肺炎疫情期间,大多数学生都进行网上上课.我校高一、高二、高三共有学生1800名,为了了解同学们对“钉钉”授课软件的意见,计划采用分层抽样的方法从这1800名学生中抽取一个容量为72的样本.若从高一、高二、高三抽取的人数恰好是从小到大排列的连续偶数,则我校高三年级的人数为( )
A.800 B.750 C.700 D.650
考点三 茎叶图
茎叶图中的2个关注点
(1)重复出现的数据要重复记录,不能遗漏.
(2)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.
1.如图所示的茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分),已知甲组数据的中位数为17,乙组数据的平均数为17.4,则x,y的值分别为( )
A.7,8 B.5,7 C.8,5 D.7,7
甲组 乙组
9 0 9
9 y 6 1 6 6 x
6 2 9
2.[多选]胡萝卜中含有大量的β 胡萝卜素,摄入人体消化器官后,可以转化为维生素A,现从a,b两个品种的胡萝卜所含的β 胡萝卜素(单位:mg)得到茎叶图如图所示,则下列说法正确的有( )
A.aC.b品种的众数为3.31 D.a品种的中位数为3.27
考点四 频率分布直方图
频率分布直方图是每年高考的重点,既有单独命题,也有与数字特征、概率等知识的综合问题,题型既有选择题或填空题,也有解答题,难度适中,属于中档题.
频率、频数、样本容量的计算方法
(1)×组距=频率.(2)=频率,=样本容量,样本容量×频率=频数.
1.某班的全体学生参加英语测试,成绩的频率分布直方图如图所示,数据的分组依次为:[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是( )
A.45 B.50 C.55 D.60
2.某工厂对一批产品进行了抽样检测,如图是根据抽样检测后的产品净重(单位:克)数据绘制的频率分布直方图,其中产品净重的范围是[96,106],样本数据分组为[96,98),[98,100),[100,102),[102,104),[104,106].已知样本中产品净重小于100克的个数是36,则样本中净重大于或等于98克并且小于104克的产品的个数是( )
A.90 B.75 C.60 D.45
3.为了了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图如图,由于不慎将部分数据丢失,但知道后5组频数和为62,设视力在4.6到4.8之间的学生数为a,最大频率为0.32,则a的值为( )
A.64 B.54 C.48 D.27
考点五 样本的数字特征
样本的数字特征常与频率分布直方图、茎叶图等知识交汇命题.,常见的命题角度有:(1)样本的数字特征与频率分布直方图交汇;(2)样本的数字特征与茎叶图交汇;(3)样本的数字特征与优化决策问题交汇.
利用样本的数字特征解决决策问题的依据
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
角度1 样本的数字特征与频率分布直方图交汇
1.(2015·广东高考)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?
频率分布直方图与众数、中位数、平均数的关系
(1)最高的小长方形底边中点的横坐标为众数;
(2)中位数左边和右边的小长方形的面积和是相等的;
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
2.(2018·张掖重点中学联考)张掖市旅游局为了了解大佛寺景点在大众中的熟知度,随机对15~65岁的人群抽样了n人,问题是“大佛寺是几A级旅游景点?”统计结果如下图表.
组号 分组 回答正确的人数 回答正确的人数占本组的频率
第1组 [15,25) a 0.5
第2组 [25,35) 18 x
第3组 [35,45) b 0.9
第4组 [45,55) 9 0.36
第5组 [55,65] 3 y
(1)分别求出a,b,x,y的值;
(2)从第2,3,4组回答正确的人中用分层抽样的方法抽取6人,求第2,3,4组每组各抽取多少人;
(3)在(2)抽取的6人中随机抽取2人,求所抽取的人中恰好没有第3组人的概率.
角度2 样本的数字特征与茎叶图交汇
1.(2017·山东高考)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为( ) A.3,5 B.5,5 C.3,7 D.5,7
2.将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示,则7个剩余分数的方差为________.
角度3 样本的数字特征与优化决策问题交汇
1.甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:
甲 乙 丙 丁
平均环数 8.3 8.8 8.8 8.7
方差s2 3.5 3.6 2.2 5.4
从这四个人中选择一人参加该运动会射击项目比赛,最佳人选是( )
A.甲 B.乙 C.丙 D.丁
2.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( ) A.中位数 B.平均数 C.方差 D.极差
3.(2020·全国Ⅲ卷)设一组样本数据x1,x2,…,xn的方差为0.01,则数据10x1,10x2,…,10xn的方差为( ) A.0.01 B.0.1 C.1 D.10
4.(2021·全国Ⅰ卷)有一组样本数据,,…,,由这组数据得到新样本数据,,…,,其中(为非零常数,则( )
A.两组样本数据的样本平均数相同 B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同 D.两组样数据的样本极差相同
考点六 统计图表及应用
角度1 扇形图
1.(2018全国I)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
角度2 折线图
1.(多选题)(2021·海南质检)刘女士的网店经营坚果类食品,2019年各月份的收入、支出(单位:百元)情况的统计如图所示,下列说法中正确的是( )
A.4至5月份的收入的变化率与11至12月份的收入的变化率相同
B.支出最高值与支出最低值的比是5∶1
C.第三季度平均收入为5000元
D.利润最高的月份是3月份和10月份
感悟升华 1.通过扇形统计图可以很清楚的表示出各部分数量同总数之间的关系.
2.折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势.
2.(多选题)(2020·济南模拟)某同学在微信上查询到近十年全国高考报名人数、录取人数和山东夏季高考报名人数的折线图,其中2019年的录取人数被遮挡了.他又查询到近十年全国高考录取率的散点图,结合图表中的信息判定下列说法正确的是( )
A.全国高考报名人数逐年增加 B.2018年全国高考录取率最高
C.2019年高考录取人数约820万 D.2019年山东高考报名人数在全国的占比最小
3.(多选题)(2020·重庆诊断)2020年春节前后,一场突如其来的新冠肺炎疫情在全国蔓延.疫情就是命令,防控就是责任.在党中央的坚强领导和统一指挥下,全国人民众志成城,团结一心,掀起了一场坚决打赢疫情防控阻击战的人民战争.下面的图表展示了2月14日至29日全国新冠肺炎疫情数据的变化情况,根据该折线图,可知下列结论正确的是( )
A.16天中每日新增确诊病例数量呈下降趋势且19日的降幅最大
B.16天中每日新增确诊病例数量的中位数小于新增疑似病例数量的中位数
C.16天中新增确诊、新增疑似、新增治愈病例数量的极差均大于2000
D.19日至29日每日新增治愈病例数量均大于新增确诊与新增疑似病例数量之和
考点七 相关关系的判断
高考对相关关系判断的直接考查较少,多与线性回归分析等综合出现在解答题中,难度较小.
判定两个变量正、负相关的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归直线方程中:>0时,正相关;<0时,负相关.
1.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关 B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关 D.变量x与y负相关,u与v负相关
2.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且 =2.347x-6.423; ②y与x负相关且 =-3.476x+5.648;
③y与x正相关且 =5.437x+8.493; ④y与x正相关且 =-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①② B.②③ C.③④ D.①④
考点八 回归分析
回归分析是每年高考的热点,既有选择题、填空题,也有解答题,难度中等以上.,常见的命题角度有:(1)线性回归方程及应用;(2)相关系数及应用.
角度1 线性回归分析
求线性回归直线方程的步骤
(1)用散点图或进行相关性检验判断两个变量是否具有线性相关关系;
(2)利用公式==,=-求得回归系数;
(3)写出回归直线方程.
1.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
2.(2015·福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x(万元) 8.2 8.6 10.0 11.3 11.9
支出y(万元) 6.2 7.5 8.0 8.5 9.8
根据上表可得回归直线方程=x+,其中=0.76,=-.据此估计,该社区一户年收入为15万元家庭的年支出为( )
A.11.4万元 B.11.8万元 C.12.0万元 D.12.2万元
3.(2017·山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为=x+.已知xi=225,yi=1 600,=4.该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163 C.166 D.170
4.某产品的广告费用x万元与销售额y万元的统计数据如表:
广告费用x(万元) 2 3 4 5
销售额y(万元) 26 m 49 54
根据上表可得回归方程=9x+10.5,则m的值为( )
A.36 B.37 C.38 D.39
5.(多选题)(2021·武汉调研)已知某产品的销售额y(单位:万元)与广告费用x(单位:万元)之间的关系如下表:
x(单位:万元) 0 1 2 3 4
y(单位:万元) 10 15 m 30 35
若根据表中的数据用最小二乘法求得y与x的回归直线方程为=6.5x+9,则下列说法中正确的是( )
A.产品的销售额与广告费用成正相关
B.该回归直线过点(2,22)
C.当广告费用为10万元时,销售额一定为74万元
D.m的值是20
6.(2018·山西四校联考)某地随着经济的发展,居民收入逐年增长,下表是该地某银行连续五年的储蓄存款(年底余额),如下表:
年份x 2013 2014 2015 2016 2017
储蓄存款y(千亿元) 5 6 7 8 10
表1
为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2 012,z=y-5得到下表:
时间代号t 1 2 3 4 5
z 0 1 2 3 5
(1)求z关于t的线性回归方程;(2)通过(1)中的方程,求出y关于x的回归方程;
(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少?
角度2 相关系数及应用
1.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( ) A.y=a+bx B.y=a+bx2 C.y=a+bex D.y=a+blnx
2.(2016·全国卷Ⅲ)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1-7分别对应年份2008-2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注参考数据:yi=9.32,tiyi=40.17,=0.55,≈2.646.
参考公式:相关系数r=,回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=-.
考点九 独立性检验
独立性检验是高考的常考内容,但是很少单独考查,多与频率分布直方图、概率等知识综合考查,难度适中.
1.比较几个分类变量有关联的可能性大小的方法
(1)通过计算K2的大小判断:K2越大,两变量有关联的可能性越大.
(2)通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大.
2.独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式K2=计算K2的观测值k.
(3)比较观测值k与临界值的大小关系,作统计推断.
1.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科 文科
男 13 10
女 7 20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=≈4.844.则认为选修文科与性别有关系出错的可能性为________.
2.(2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意 不满意
男顾客 40 10
女顾客 30 20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:K2=,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
3.(2017·皖北名校联考)某医院对治疗支气管肺炎的两种方案A,B进行比较研究,将志愿者分为两组,分别采用方案A和方案B进行治疗,统计结果如下:
有效 无效 总计
使用方案A组 96 120
使用方案B组 72
总计 32
(1)完成上述列联表,并比较两种治疗方案有效的频率;
(2)能否在犯错误的概率不超过0.05的前提下认为治疗是否有效与方案选择有关?
附:K2=,其中n=a+b+c+d.
P(K2≥k0) 0.05 0.010 0.001
k0 3.841 6.635 10.8289.1 统计与统计案例
一、整合教材知识,落实基本能力
1.简单随机抽样
(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.
(2)最常用的简单随机抽样的方法:抽签法和随机数法.
2.分层抽样
(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
(2)分层抽样的应用范围
当总体由差异明显的几个部分组成时,往往选用分层抽样.
(1).不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.
(2).分层抽样是按比例抽样,每一层入样的个体数为该层的个体数乘抽样比.
3.常用统计图表
(1)作频率分布直方图的步骤:①求极差(即一组数据中最大值与最小值的差).②决定组距与组数.③将数据分组.④列频率分布表.⑤画频率分布直方图.
(2)频率分布直方图:反映样本频率分布的直方图(如图)
横轴表示样本数据,纵轴表示,每个小矩形的面积表示样本数据落在该组内的频率.各小矩形的面积和为1.
(3)频率分布折线图和总体密度曲线
①频率分布折线图:将频率分布直方图中各相邻的矩形的上底边的中点顺次连接起来,就得到频率分布折线图.
②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
(4)茎叶图的画法步骤:
第一步:将每个数据分为茎(高位)和叶(低位)两部分;
第二步:将最小茎与最大茎之间的数按大小次序排成一列;
第三步:将各个数据的叶依次写在其茎的右(左)侧.
4.样本的数字特征
(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.
(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(3)平均数:把=称为x1,x2,…,xn这n个数的平均数.
(4)标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为,则这组数据的标准差和方差分别是
s=;
s2=[(x1-)2+(x2-)2+…+(xn-)2].
频率分布直方图中的常见结论
(1)众数的估计值为最高矩形的中点对应的横坐标.
(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.
平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
(2)数据x1,x2,…,xn的方差为s2.
①数据x1+a,x2+a,…,xn+a的方差也为s2;
②数据ax1,ax2,…,axn的方差为a2s2.
5.两个变量的线性相关
(1)在散点图中,点散布在从左下角到右上角的区域,两个变量的这种相关关系称为正相关.
(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系,这条直线叫做回归直线.
6.回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn).其回归方程为=x+,则,其中.其中(,)称为样本点的中心.
7.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)其中(,)称为样本点的中心.
(3)相关系数:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
8.独立性检验
(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为和,其样本频数列联表(2×2列联表)为
Y X y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
K2=(其中n=a+b+c+d为样本容量).
二、精研高考题点,提升备考知能
考点一 随机抽样
简单随机抽样在高考中单独考查的频率较小,主要涉及随机抽样的特点及随机数法的应用.题型为选择题或填空题,难度较小.
(1)简单随机抽样需满足:①被抽取样本的总体的个体数有限;②逐个抽取;③是不放回抽取;④是等可能抽取.
(2)简单随机抽样常有抽签法(适用于总体中个体数较少的情况)、随机数法(适用于个体数较多的情况).
1.(2021·聊城模拟)要考察某种品牌的850颗种子的发芽率,利用随机数表法抽取50颗种子进行实验.先将850颗种子按001,002,…,850进行编号,如果从随机数表第2行第2列的数开始并向右读,则选出来的第4个个体的编号为( )(下面抽取了随机数表第1行至第3行).
03 47 43 73 86 36 96 47 36 61 46 98 63 71 62 33 26 16 80 45 60 11 14 10 95
97 74 94 67 74 42 81 14 57 20 42 53 32 37 32 27 07 36 07 51 24 51 79 89 73
16 76 62 27 66 56 50 26 71 07 32 90 79 78 53 13 55 38 58 59 88 97 54 14 10
A.774 B.946 C.428 D.572
答案 D
解析 依据题意可知:向右读数依次为:774,946,774,428,114,572,042,533,…所以最先检验的4颗种子符合条件的为:774,428,114,572,结合选项知选D.
2.(2015·唐山二模)用简单随机抽样的方法从含有100个个体的总体中抽取一个容量为5的样本,则个体M被抽到的概率为( )
A. B. C. D.
解析:选C 一个总体含有100个个体,某个个体被抽到的概率为,用简单随机抽样方法从该总体中抽取容量为5的样本,则某个个体被抽到的概率为×5=.
3.利用简单随机抽样,从n个个体中抽取一个容量为10的样本.若第二次抽取时,余下的每个个体被抽到的概率为,则在整个抽样过程中,每个个体被抽到的概率为( )
A. B. C. D.
解析:选C 根据题意,=,解得n=28.故在整个抽样过程中每个个体被抽到的概率为=.
4.用简单随机抽样的方法从含有10个个体的总体中,抽取一个容量为3的样本,其中某一个体a“第一次被抽到”的可能性与“第二次被抽到”的可能性分别是( )
A., B., C.,. D.,
答案 A
解析 在抽样过程中,个体a每一次被抽中的概率是相等的,因为总体容量为10,故个体a“第一次被抽到”的可能性与“第二次被抽到”的可能性均为,故选A.
考点二 分层抽样
分层抽样是每年高考的常考内容,题型既有选择题、填空题,有时也出现在解答题中,难度较小,属于低档题.
分层抽样问题类型及解题思路
(1)求某层应抽个体数量:按该层所占总体的比例计算.
(2)已知某层个体数量,求总体容量或反之:根据分层抽样就是按比例抽样,列比例式进行计算.
(3)确定是否应用分层抽样:分层抽样适用于总体中个体差异较大的情况.
1.(2017·江苏高考)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.
解析:应从丙种型号的产品中抽取60×=18(件).答案:18
2.为了了解高一、高二、高三学生的身体状况,现用分层抽样的方法抽取一个容量为1 200的样本,三个年级学生人数之比依次为k∶5∶3,已知高一年级共抽取了240人,则高三年级抽取的人数为________.
解析:因为高一年级抽取学生的比例为=,所以=,解得k=2,故高三年级抽取的人数为1 200×=360.答案:360
3.某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现分层抽取容量为45的样本,那么高一、高二、高三年级抽取的人数分别为( )
A.15,10,20 B.10,5,30 C.15,15,15 D.15,5,25
解析:选A 因为抽取了45人的样本,所以三个年级抽取的人数分别为×45=15,×45=10,×45=20.故选A.
4.某单位有职工480人,其中青年职工210人,中年职工150人,老年职工120人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本.若样本中的青年职工为7人,则样本容量为________.
解析:设样本容量为n,则=,n=16.则样本容量为16.答案:16
5.(2019·洛阳一模)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
图甲 图乙
A.100,10 B.100,20 C.200,10 D.200,20
解析:由题得样本容量为(3 500+2 000+4 500)×2%=10 000×2%=200,
抽取的高中生人数为2 000×2%=40人,则近视人数为40×0.5=20人,故选D.]
进行分层抽样的相关计算时,常用到的两个关系
(1)抽样比==.
(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.
6.(2020·郴州二模)已知我市某居民小区户主人数和户主对户型结构的满意率分别如图1和图2所示,为了解该小区户主对户型结构的满意程度,用分层抽样的方法抽取30%的户主进行调查,则样本容量和抽取的户主对四居室满意的人数分别为( )
A.240,18 B.200,20 C.240,20 D.200,18
答案 A
解析 样本容量n=(250+150+400)×30%=240,抽取的户主对四居室满意的人数为150×30%×40%=18.
7.(2020·百校大联考)在新冠肺炎疫情期间,大多数学生都进行网上上课.我校高一、高二、高三共有学生1800名,为了了解同学们对“钉钉”授课软件的意见,计划采用分层抽样的方法从这1800名学生中抽取一个容量为72的样本.若从高一、高二、高三抽取的人数恰好是从小到大排列的连续偶数,则我校高三年级的人数为( )
A.800 B.750 C.700 D.650
答案 D
解析 设从高三年级抽取的学生人数为2x人,则从高二、高一年级抽取的人数分别为2x-2,2x-4.
由题意可得2x+(2x-2)+(2x-4)=72,∴x=13.
设我校高三年级的学生人数为N,且高三抽取26人,由分层抽样,得=,∴N=650(人).
考点三 茎叶图
茎叶图中的2个关注点
(1)重复出现的数据要重复记录,不能遗漏.
(2)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.
1.如图所示的茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分),已知甲组数据的中位数为17,乙组数据的平均数为17.4,则x,y的值分别为( )
甲组 乙组
9 0 9
9 y 6 1 6 6 x
6 2 9
A.7,8 B.5,7 C.8,5 D.7,7
[解析] 甲的中位数为17, 故y=7,乙的平均数为=17.4,解得x=7.
[答案] D
2.[多选]胡萝卜中含有大量的β 胡萝卜素,摄入人体消化器官后,可以转化为维生素A,现从a,b两个品种的胡萝卜所含的β 胡萝卜素(单位:mg)得到茎叶图如图所示,则下列说法正确的有( )
A.aC.b品种的众数为3.31 D.a品种的中位数为3.27
解析:ABD [由茎叶图得:b品种所含β 胡萝卜素普遍高于a品种,∴a考点四 频率分布直方图
频率分布直方图是每年高考的重点,既有单独命题,也有与数字特征、概率等知识的综合问题,题型既有选择题或填空题,也有解答题,难度适中,属于中档题.
频率、频数、样本容量的计算方法
(1)×组距=频率.(2)=频率,=样本容量,样本容量×频率=频数.
1.某班的全体学生参加英语测试,成绩的频率分布直方图如图所示,数据的分组依次为:[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是( )
A.45 B.50 C.55 D.60
解析:选B 根据频率分布直方图的特点可知,低于60分的频率是(0.005+0.01)×20=0.3,
所以该班的学生人数是=50.
2.某工厂对一批产品进行了抽样检测,如图是根据抽样检测后的产品净重(单位:克)数据绘制的频率分布直方图,其中产品净重的范围是[96,106],样本数据分组为[96,98),[98,100),[100,102),[102,104),[104,106].已知样本中产品净重小于100克的个数是36,则样本中净重大于或等于98克并且小于104克的产品的个数是( )
A.90 B.75 C.60 D.45
解析:选A 产品净重小于100克的频率为(0.050+0.100)×2=0.300,已知样本中产品净重小于100克的个数是36.设样本容量为n,则=0.300,所以n=120,净重大于或等于98克并且小于104克的产品的频率为(0.100+0.150+0.125)×2=0.750,所以样本中净重大于或等于98克并且小于104克的产品的个数是120×0.750=90.
3.为了了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图如图,由于不慎将部分数据丢失,但知道后5组频数和为62,设视力在4.6到4.8之间的学生数为a,最大频率为0.32,则a的值为( )
A.64 B.54 C.48 D.27
解析:B [前两组中的频数为100×(0.05+0.11)=16.因为后五组频数和为62,所以前三组为38.所以第三组频数为22.又最大频率为0.32,对应的最大频数为0.32×100=32.所以a=22+32=54.]
考点五 样本的数字特征
样本的数字特征常与频率分布直方图、茎叶图等知识交汇命题.,常见的命题角度有:(1)样本的数字特征与频率分布直方图交汇;(2)样本的数字特征与茎叶图交汇;(3)样本的数字特征与优化决策问题交汇.
利用样本的数字特征解决决策问题的依据
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
角度1 样本的数字特征与频率分布直方图交汇
1.(2015·广东高考)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?
解:(1)由(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)×20=1,得x=0.007 5,
∴直方图中x的值为0.007 5.
(2)月平均用电量的众数是=230.
∵(0.002+0.009 5+0.011)×20=0.45<0.5,
∴月平均用电量的中位数在[220,240)内,设中位数为a,则(0.002+0.009 5+0.011)×20+0.012 5×(a-220)=0.5,解得a=224,即中位数为224.
(3)月平均用电量在[220,240)的用户有0.012 5×20×100=25(户),同理可求月平均用电量为[240,260),[260,280),[280,300]的用户分别有15户、10户、5户,故抽取比为=,
∴从月平均用电量在[220,240)的用户中应抽取25×=5(户).
频率分布直方图与众数、中位数、平均数的关系
(1)最高的小长方形底边中点的横坐标为众数;
(2)中位数左边和右边的小长方形的面积和是相等的;
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
2.(2018·张掖重点中学联考)张掖市旅游局为了了解大佛寺景点在大众中的熟知度,随机对15~65岁的人群抽样了n人,问题是“大佛寺是几A级旅游景点?”统计结果如下图表.
组号 分组 回答正确的人数 回答正确的人数占本组的频率
第1组 [15,25) a 0.5
第2组 [25,35) 18 x
第3组 [35,45) b 0.9
第4组 [45,55) 9 0.36
第5组 [55,65] 3 y
(1)分别求出a,b,x,y的值;
(2)从第2,3,4组回答正确的人中用分层抽样的方法抽取6人,求第2,3,4组每组各抽取多少人;
(3)在(2)抽取的6人中随机抽取2人,求所抽取的人中恰好没有第3组人的概率.
解:(1)由频率表中第4组数据可知,第4组总人数为=25,
再结合频率分布直方图可知n==100,
所以a=100×0.01×10×0.5=5,
b=100×0.03×10×0.9=27,
x==0.9,y==0.2.
(2)因为第2,3,4组回答正确的共有54人,
所以利用分层抽样在54人中抽取6人,每组分别抽取的人数为:
第2组:×6=2;第3组:×6=3;第4组:×6=1.
(3)设第2组的2人为A1,A2;第3组的3人为B1,B2,B3;第4组的1人为C1.
则从6人中随机抽取2人的所有可能的结果为:(A1,A2),(A1,B1),(A1,B2),(A1,B3),(A1,C1),(A2,B1),(A2,B2),(A2,B3),(A2,C1),(B1,B2),(B1,B3),(B1,C1),(B2,B3),(B2,C1),(B3,C1),共15种,其中恰好没有第3组人的结果为:(A1,A2),(A1,C1),(A2,C1),共3种,
所以所抽取的人中恰好没有第3组人的概率P==.
角度2 样本的数字特征与茎叶图交汇
1.(2017·山东高考)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为( )
A.3,5 B.5,5 C.3,7 D.5,7
解析:选A 由两组数据的中位数相等可得65=60+y,解得y=5,又它们的平均值相等,
所以×[56+62+65+74+(70+x)]=×(59+61+67+65+78),解得x=3.
2.将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示,则7个剩余分数的方差为________.
解析:由图可知去掉的两个数是87,99,所以87+90×2+91×2+94+90+x=91×7,解得x=4.故s2=[(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]=.
答案:
角度3 样本的数字特征与优化决策问题交汇
1.甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:
甲 乙 丙 丁
平均环数 8.3 8.8 8.8 8.7
方差s2 3.5 3.6 2.2 5.4
从这四个人中选择一人参加该运动会射击项目比赛,最佳人选是( )
A.甲 B.乙 C.丙 D.丁
解析:选C 由表格中数据可知,乙、丙平均环数最高,但丙方差最小,说明成绩好,且技术稳定,选C.
2.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
A.中位数 B.平均数 C.方差 D.极差
解析:A [设9位评委评分按从小到大排列为x1中位数仍为x5,∴A正确.]
3.(2020·全国Ⅲ卷)设一组样本数据x1,x2,…,xn的方差为0.01,则数据10x1,10x2,…,10xn的方差为( )
A.0.01 B.0.1 C.1 D.10
答案 C
解析 10x1,10x2,…,10xn的方差为102×0.01=1.故选C.
4.(2021·全国Ⅰ卷)有一组样本数据,,…,,由这组数据得到新样本数据,,…,,其中(为非零常数,则( )
A.两组样本数据的样本平均数相同 B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同 D.两组样数据的样本极差相同
解:A:且,故平均数不相同,错误;
B:若第一组中位数为,则第二组的中位数为,显然不相同,错误;
C:,故方差相同,正确;
D:由极差的定义知:若第一组的极差为,则第二组的极差为,故极差相同,正确; 故选:CD
考点六 统计图表及应用
角度1 扇形图
1.(2018全国I)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
答案 A
解析 法一 设新农村建设前经济收入为a,则新农村建设后经济收入为2a,则由饼图可得新农村建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.新农村建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.
法二 因为0.6<0.37×2,所以新农村建设后,种植收入增加,而不是减少,所以A是错误的.
角度2 折线图
1.(多选题)(2021·海南质检)刘女士的网店经营坚果类食品,2019年各月份的收入、支出(单位:百元)情况的统计如图所示,下列说法中正确的是( )
A.4至5月份的收入的变化率与11至12月份的收入的变化率相同
B.支出最高值与支出最低值的比是5∶1
C.第三季度平均收入为5000元
D.利润最高的月份是3月份和10月份
答案 ACD
解析 对于A,4至5月份的收入的变化率为=-20,11至12月份收入的变化率为=-20,故相同,A正确.
对于B,支出最高值是2月份60百元,支出最低值是5月份的10百元,故支出最高值与支出最低值的比是6∶1,故B错误.
对于C,第三季度的7,8,9月每个月的收入分别为40百元,50百元,60百元,故第三季度的平均收入为=50(百元),故C正确.
对于D,利润最高的月份是3月份和10月份都是30百元,故D正确.
感悟升华 1.通过扇形统计图可以很清楚的表示出各部分数量同总数之间的关系.
2.折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势.
2.(多选题)(2020·济南模拟)某同学在微信上查询到近十年全国高考报名人数、录取人数和山东夏季高考报名人数的折线图,其中2019年的录取人数被遮挡了.他又查询到近十年全国高考录取率的散点图,结合图表中的信息判定下列说法正确的是( )
A.全国高考报名人数逐年增加 B.2018年全国高考录取率最高
C.2019年高考录取人数约820万 D.2019年山东高考报名人数在全国的占比最小
答案 BCD
解析 2016年的人数少于2015年人数,故A错误;2018年的录取率为81.1%,为最高,B正确;2019年高考录取人数为1031×79.5%≈820,故C正确;从2010~2019年山东高考报名人数在全国的占比分别为:6.9%,6.3%,5.6%,5.5%,5.9%,7.4%,6.4%,6.2%,6.1%,5.4%,故D正确.
3.(多选题)(2020·重庆诊断)2020年春节前后,一场突如其来的新冠肺炎疫情在全国蔓延.疫情就是命令,防控就是责任.在党中央的坚强领导和统一指挥下,全国人民众志成城,团结一心,掀起了一场坚决打赢疫情防控阻击战的人民战争.下面的图表展示了2月14日至29日全国新冠肺炎疫情数据的变化情况,根据该折线图,可知下列结论正确的是( )
A.16天中每日新增确诊病例数量呈下降趋势且19日的降幅最大
B.16天中每日新增确诊病例数量的中位数小于新增疑似病例数量的中位数
C.16天中新增确诊、新增疑似、新增治愈病例数量的极差均大于2000
D.19日至29日每日新增治愈病例数量均大于新增确诊与新增疑似病例数量之和
答案 BC
解析 由折线图可知,20日新增确诊病例数量大于19日新增确诊病例数量,因此A项不正确;
16天中每日新增确诊病例数量的中位数小于新增疑似病例数量的中位数,因此B项正确;
16天中新增确诊、新增疑似、新增治愈病例数量的极差均大于2000,因此C项正确;
20日新增治愈病例数量小于新增确诊与新增疑似病例数量之和,因此D不正确.故选B、C.
考点七 相关关系的判断
高考对相关关系判断的直接考查较少,多与线性回归分析等综合出现在解答题中,难度较小.
判定两个变量正、负相关的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归直线方程中:>0时,正相关;<0时,负相关.
1.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关 B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关 D.变量x与y负相关,u与v负相关
解析:选C 由题图(1)可知y随x的增大而减小,各点整体呈下降趋势,故变量x与y负相关,由题图(2)知v随u的增大而增大,各点整体呈上升趋势,故变量v与u正相关.
2.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且 =2.347x-6.423; ②y与x负相关且 =-3.476x+5.648;
③y与x正相关且 =5.437x+8.493; ④y与x正相关且 =-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①② B.②③ C.③④ D.①④
解析:选D 由正负相关性的定义知①④一定不正确.
考点八 回归分析
回归分析是每年高考的热点,既有选择题、填空题,也有解答题,难度中等以上.,常见的命题角度有:(1)线性回归方程及应用;(2)相关系数及应用.
角度1 线性回归分析
求线性回归直线方程的步骤
(1)用散点图或进行相关性检验判断两个变量是否具有线性相关关系;
(2)利用公式==,=-求得回归系数;
(3)写出回归直线方程.
1.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
解析:选D 由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确;又线性回归方程必过样本中心点(,),故B正确;由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确;当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,故D不正确.
2.(2015·福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x(万元) 8.2 8.6 10.0 11.3 11.9
支出y(万元) 6.2 7.5 8.0 8.5 9.8
根据上表可得回归直线方程=x+,其中=0.76,=-.据此估计,该社区一户年收入为15万元家庭的年支出为( )
A.11.4万元 B.11.8万元 C.12.0万元 D.12.2万元
解析:选B 由题意知,==10,==8,
∴=8-0.76×10=0.4,∴当x=15时,=0.76×15+0.4=11.8(万元).
3.(2017·山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为=x+.已知xi=225,yi=1 600,=4.该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163 C.166 D.170
解析:C [∵xi=225,∴=xi=22.5.∵yi=1 600,∴=yi=160.
又=4,∴=-=160-4×22.5=70.∴回归直线方程为=4x+70.
将x=24代入上式得=4×24+70=166.故选C.]
4.某产品的广告费用x万元与销售额y万元的统计数据如表:
广告费用x(万元) 2 3 4 5
销售额y(万元) 26 m 49 54
根据上表可得回归方程=9x+10.5,则m的值为( )
A.36 B.37 C.38 D.39
解析:D [由回归方程的性质,线性回归方程过样本点的中心,则=×9+10.5,解得m=39.故选D.]
5.(多选题)(2021·武汉调研)已知某产品的销售额y(单位:万元)与广告费用x(单位:万元)之间的关系如下表:
x(单位:万元) 0 1 2 3 4
y(单位:万元) 10 15 m 30 35
若根据表中的数据用最小二乘法求得y与x的回归直线方程为=6.5x+9,则下列说法中正确的是( )
A.产品的销售额与广告费用成正相关
B.该回归直线过点(2,22)
C.当广告费用为10万元时,销售额一定为74万元
D.m的值是20
答案 ABD
解析 由线性回归方程=6.5x+9中的回归系数6.5>0,可知产品的销售额与广告费用成正相关,故A中的说法正确;
==2,==,代入=6.5x+9,得=6.5×2+9,解得m=20,故D中的说法正确;
===22,则该回归直线过点(2,22),故B中的说法正确;
当x=10时,=6.5×10+9=74,说明当广告费用为10万元时,销售额预计为74万元,故C中的说法错误.故选ABD.
6.(2018·山西四校联考)某地随着经济的发展,居民收入逐年增长,下表是该地某银行连续五年的储蓄存款(年底余额),如下表1:
年份x 2013 2014 2015 2016 2017
储蓄存款y(千亿元) 5 6 7 8 10
表1
为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2 012,z=y-5得到下表2:
时间代号t 1 2 3 4 5
z 0 1 2 3 5
表2
(1)求z关于t的线性回归方程;
(2)通过(1)中的方程,求出y关于x的回归方程;
(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少?
(附:对于线性回归方程=x+,其中=,=-)
解:(1)由已知,得=3,=2.2,izi=45,=55,
==1.2,=-=2.2-1.2×3=-1.4,∴=1.2t-1.4.
(2)将t=x-2 012,z=y-5,代入=1.2t-1.4,
得y-5=1.2(x-2 012)-1.4,即=1.2x-2 410.8.
(3)∵=1.2×2 020-2 410.8=13.2,
∴预测到2020年年底,该地储蓄存款额可达13.2千亿元.
角度2 相关系数及应用
1.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+blnx
答案 D
解析 由散点图可以看出,这些点大致分布在对数型函数的图象附近.故选D.
2.(2016·全国卷Ⅲ)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1-7分别对应年份2008-2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注参考数据:yi=9.32,tiyi=40.17,=0.55,≈2.646.
参考公式:相关系数r=,回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=-.
[解] (1)由折线图中的数据和附注中的参考数据得=4, (ti-)2=28,=0.55,
(ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89,
r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得==≈0.103,
=-≈1.331-0.103×4≈0.92.所以y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨.
考点九 独立性检验
独立性检验是高考的常考内容,但是很少单独考查,多与频率分布直方图、概率等知识综合考查,难度适中.
1.比较几个分类变量有关联的可能性大小的方法
(1)通过计算K2的大小判断:K2越大,两变量有关联的可能性越大.
(2)通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大.
2.独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式K2=计算K2的观测值k.
(3)比较观测值k与临界值的大小关系,作统计推断.
1.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科 文科
男 13 10
女 7 20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=≈4.844.则认为选修文科与性别有关系出错的可能性为________.
解析:5% [K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.]
2.(2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意 不满意
男顾客 40 10
女顾客 30 20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:K2=,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
[解] (1)由调查数据知,男顾客中对该商场服务满意的比率为=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.
(2)K2的观测值k=≈4.762.
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
3.(2017·皖北名校联考)某医院对治疗支气管肺炎的两种方案A,B进行比较研究,将志愿者分为两组,分别采用方案A和方案B进行治疗,统计结果如下:
有效 无效 总计
使用方案A组 96 120
使用方案B组 72
总计 32
(1)完成上述列联表,并比较两种治疗方案有效的频率;
(2)能否在犯错误的概率不超过0.05的前提下认为治疗是否有效与方案选择有关?
附:K2=,其中n=a+b+c+d.
P(K2≥k0) 0.05 0.010 0.001
k0 3.841 6.635 10.828
[解] (1)列联表如下:
有效 无效 总计
使用方案A组 96 24 120
使用方案B组 72 8 80
总计 168 32 200
使用方案A组有效的频率为=0.8;使用方案B组有效的频率为=0.9.
(2)K2=≈3.517<3.841,
所以不能在犯错误的概率不超过0.05的前提下认为治疗是否有郊与方案选择有关.