2020版高考艺考生文化课百日冲刺 第20讲 抽样方法与总体分布的估计(课件:97张PPT)

文档属性

名称 2020版高考艺考生文化课百日冲刺 第20讲 抽样方法与总体分布的估计(课件:97张PPT)
格式 zip
文件大小 4.0MB
资源类型 教案
版本资源 通用版
科目 数学
更新时间 2020-01-02 12:37:38

图片预览

文档简介

课件97张PPT。第20讲 抽样方法与总体分布的估计1.随机抽样
(1)简单随机抽样
①定义:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),且每次抽取时各个个体被抽到的机会都相等,就称这样的抽样方法为简单随机抽样.
②常用方法:抽签法和随机数法.
(2)系统抽样
①步骤:a.先将总体的N个个体编号;c.在第1段用简单随机抽样确定第一个个体编号l(l≤k);
d.按照一定的规则抽取样本.
②适用范围:适用于总体中的个体数较多时.(3)分层抽样
①定义:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
②适用范围:适用于总体由差异比较明显的几个部分组成时.2.用样本估计总体
(1)统计图表
①频率分布直方图的画法步骤
a.求极差(即一组数据中最大值与最小值的差);
b.决定组距与组数;
c.将数据分组;
d.列频率分布表;
e.画频率分布直方图.
②频率分布折线图和总体密度曲线
a.频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
b.总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.③茎叶图的画法步骤
第一步:将每个数据分为茎(高位)和叶(低位)两部分;
第二步:将最小茎与最大茎之间的数按大小次序排成一列;  
第三步:将各个数据的叶依次写在其茎的两侧.(2)样本的数字特征
①众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.
②中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.④标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为x,则这组数据的标准差和方差分别是⑤平均数、方差的有关性质
若x1,x2,…,xn,的平均数为x,则mx1+a,mx2+a,…,mxn+a的平均数为mx+a.
若x1,x2,…,xn,的方差是s2,则mx1+a,mx2+a,…,mxn+a的方差为m2s2.3.两变量间的相关关系与统计案例
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.
(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于0.75时,认为两个变量有很强的线性相关性.4.非线性回归分析
如果在样本数据的散点图中,样本点并没有分布在某一条直线附近,而是分布在某一条曲线(如二次函数、指数函数、对数函数等)的周围,我们就称这两个变量之间不具有线性相关关系,而是非线性相关关系.对这样的两个变量进行回归分析,称为非线性回归分析.
5.独立性检验
(1)假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为,如下表所示:(2)两个分类变量A和B是否有关系的判断方法
①当K2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B没有关联;
②当 K2>2.706时,有 90%的把握判定变量A,B有关联;
③当K2>3.841 时,有95%的把握判定变量A,B有关联;
④当 K2>6.635时,有 99%的把握判定变量A,B有关联;
⑤当K2>10.828时,有 99.9%的把握判定变量A,B有关联.题型一 简单随机抽样
【例1】 下列抽取样本的方式不属于简单随机抽样的有    .?
①从无限多个个体中抽取100个个体作为样本.
②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.
③从20件玩具中一次性抽取3件进行质量检验.
④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.
【解析】 ①不是简单随机抽样.由于被抽取的样本总体的个数是无限的,而不是有限的。②不是简单随机抽样.由于它是放回抽样.③不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取.④不是简单随机抽样.因为指定个子最高的5名同学是56名中特指的,不存在随机性,不是等可能抽样.
【答案】 ①②③④【规律方法】抽签法与随机数法的适用情况
(1)抽签法适用于总体中个体数较少的情况,随机数法适用于总体中个体数较多的情况.
(2)一个抽样试验能否用抽签法,关键看两点:
一是制签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.变式训练一
1.某校高三(1)班共有48人,学号依次为1,2,3,…,48,现用系统抽样的办法抽取一个容量为6的样本.已知学号为3,11,19, 35,43的同学在样本中,那么还有一个同学的学号应为(  )
A.27 B.26 C.25 D.24A 【解析】 根据系统抽样的规则——“等距离”抽取,也就抽取的号码差相等,根据抽出的序号可知学号之间的差为8,所以在19与35之间还有27.2.我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为(  )
A.134石 B.169石 C.338石 D.1 365石B 3.某年级有1 000名学生,随机编号为0001,0002,…,1000,现用系统抽样方法,从中抽出200人,若0122号被抽到了,则下列编号也被抽到的是(  )
A.0116 B.0927 C.0834 D.0726B 【解析】 样本间隔为1 000÷200=5,因为122÷5=24余2,故抽取的余数应该是2的号码,116÷5=23余1,927÷5=185余2,834÷5=166余4,726÷5=145余1.4.2015年11月11日的“双十一”又掀购物狂潮,某网站对购物情况做了一项调查,收回的有效问卷共500 000份,其中购买下列四种商品的人数统计如下:服饰鞋帽198 000人;家居用品94 000人;化妆品116 000人;家用电器92 000人.为了解消费者对商品的满意度,此网站用分层抽样的方法从中选出部分问卷进行调查,已知在购买“化妆品”这一类中抽取了116人,则在购买“家居用品”这一类中应抽取的问卷份数为(  )
A.92 B.94 C.116 D.118B 【解析】 在购买“化妆品”这一类中抽取了116人,则在购买“家居用品”这一类中应抽取的问卷份数为x,题型二 系统抽样
【例2】 某班级有50名学生,现用系统抽样的方法从这50名学生中抽出10名学生,将这50名学生随机编号为1~5号,并按编号顺序平均分成10组(1~5号,6~10号,…,46~50号),若在第三组抽到的编号是13,则在第七组抽到的编号是    .?
【解析】 ∵是从50名学生中抽出10名学生,组距是5,
∵第三组抽取的是13号,
∴第七组抽取的为13+4×5=33.
【答案】 33
【规律方法】应用系统抽样应注意的问题
(1)系统抽样适用的条件是总体容量较大,样本容量也较大.
(2)使用系统抽样时,若总体容量不能被样本容量整除,可以先从总体中随机地剔除几个个体,从而确定分段间隔.
(3)起始编号可用简单随机抽样来确定,一旦起始编号确定,其他编号便随之确定.变式训练二
1.某校为了解本校高三学生学习的心理状态,采用系统抽样方法从800人中抽取40人参加某种测试,为此将他们随机编号为1,2,…,800,分组后在第一组采用简单随机抽样的方法抽到的号码为18,抽到的40人中,编号落在区间[1,200]的人做试卷A,编号落在[201,560]的人做试卷B,其余的人做试卷C,则做试卷C的人数为(  )
A.10 B.12 C.18 D.28B 2.某学校高一、高二、高三年级分别有720、720、800人,现从全校随机抽取56人参加防火防灾问卷调查.先采用分层抽样确定各年级参加调查的人数,再在各年级内采用系统抽样确定参加调查的同学,若将高三年级的同学依次编号为001,002,…,800,则高三年级抽取的同学的编号不可能为(  )
A.001,041,…,761
B.031,071,…,791
C.027,067,…,787
D.055,095,…,795D 【解析】 由根据分层抽样可得高三年级抽取出20人,利用系统抽样可分成40组得到的数据特征应成等差数列,经计算答案中的数据795-55=740不是40的整数倍,因此这组数据不是系统抽样得到的,故应选D.3.用0,1,…,199给200个零件编号,并用系统抽样的方法从中抽取10件作为样本进行质量检测,若第一段中编号为5的零件被取出,则第二段中被取出的零件编号为(  )
A.25 B.10 C.15 D.20A 【解析】 将编号0,1,…,199分为10段,分别为0~19,20~39,40~59,…,180~199,若第一段中编号为5,则第二段中同等位置上应取25,故选A.题型三 分层抽样
【例3】 (1)(2017·江苏卷)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取    件.?
(2)一支田径队有男运动员56人,女运动员m人,用分层抽样抽出一个容量为n的样本,在这个样本中随机取一个当队长的概率为 ,且样本中的男队员比女队员多4人,则m=    .?解得x=16,y=12,m=42. 【答案】 (1)18 (2)42
【规律方法】分层抽样问题的解题策略
(1)确定抽样比.可依据各层总数与样本数之比,确定抽样比.
(2)求某一层的样本数或总体个数.可依据题意求出抽样比,再由某层总体个数(或样本数)确定该层的样本数(或总体数).
(3)求各层的样本数.可依据题意,求出各层的抽样比,再求出各层样本数.变式训练三
1.某班50名学生中有女生20名,按男女比例用分层抽样的方法,从全班学生中抽取部分学生进行调查,已知抽到的女生有4名,则本次调查抽取的人数是(  )
A.8 B.10 C.12 D.15B 【解析】 因为50名学生中有女生20名,按男女比例用分层抽样的方法,抽到的女生有4名,2.某校共有高一、高二、高三学生1 290人,其中高一480人,高二比高三多30人,为了解该校学生的身体健康情况,现采用分层抽样方法进行调查,在抽取的样本中有高一学生96人,则该样本中的高三学生人数为(  )
A.84 B.78
C.81 D.96B 【解析】 设高三人数为x,由480+(30+x)+x=1 290可得x=390, 3.将参加夏令营的600名学生编号为:001,002,…,600.采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在A营区,从301到495在B营区,从496到600在C营区,则三个营区被抽中的人数依次为(  )
A.26,16,8 B.25,17,8
C.25,16,9 D.24,17,9B 【解析】 依题意及系统抽样的意义可知,将这600名学生按编号依次分成50组,每一组 题型四 样本估计总体
(一)频率分布直方图(高频考点)
频率分布直方图是高考的热点,选择题、填空题、解答题都有可能出现.难度一般较小.
高考对频率分布直方图的考查主要有以下三个命题角度:①求样本的频率、频数;②求样本的平均数、众数、中位数;③与概率结合考查某区间内的个体被选中的概率.【例4—1】 (2016·四川卷)我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;
(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;
(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.【解析】 (1)由频率分布直方图知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04,
同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02.
由0.04+0.08+0.5×a+0.20+0.26+0.5×a+0.06+0.04+0.02=1,解得a=0.30.
(2)由(1)可知,100位居民每人的月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.
由以上样本的频率分布,可以估计全市30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.
(3)因为前6组的频率之和为0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85,
而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85,
所以2.5由0.3×(x-2.5)=0.85-0.73,
解得x=2.9.
所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.【规律方法】 容量,④样本容量×频率=频数.
(2)频率分布直方图与众数、中位数、平均数的关系:
①最高的小长方形底边中点的横坐标为众数;
②中位数左边和右边的小长方形的面积和是相等的;
③平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
【易错警示】①频率分布直方图的纵坐标是 ,而不是频率,切莫与条形图混淆.②制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确.变式训练四(一)
1.(2018·武汉调考)我国是世界上严重缺水的国家,城市缺水问题较为突出.某市政府为了鼓励居民节约用水,计划在本市试行居民生活用水定额管理制度,即确定一个合理的居民月用水量标准x(吨),用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解全市居民用水量的分布情况,通过抽样,获得了某年100位居民的月均用水量(单位:吨),将数据按照[0,0.5],(0.5,1],…,(4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求a的值;
(2)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值;
(3)已知平价收费标准为4元/吨,议价收费标准为8元/吨.当x=3时,估计该市居民的月平均水费.(同一组中的数据用该组区间的中点值代替)解:(1)由(0.08+0.16+a+0.40+0.52+a+0.12+0.08+0.04)×0.5=1,解得a=0.30.
(2)因为前6组的频率之和是(0.08+0.16+0.30+0.40+0.52+0.30)×0.5=0.88>0.85,
前5组的频率之和为(0.08+0.16+0.30+0.40+0.52)×0.5=0.73<0.85,
所以2.51×0.04+3×0.08+5×0.15+7×0.20+9×0.26+11×0.15+14×0.06+18×0.04+22×0.02=8.42(元).2.某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表.B地区用户满意度评分的频数分布表(1)在图②中作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可).解:(1)如图所示.
通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.(2)根据用户满意度评分,将用户的满意度分为三个等级: 估计哪个地区用户的满意度等级为不满意的概率大?说明理由. 解: (2)A地区用户的满意度等级为不满意的概率大.
记CA表示事件:“A地区用户的满意度等级为不满意”;CB表示:“B地区用户的满意度等级为不满意”.由直方图得P(CA)的估计值为(0.01+0.02+0.03)×10=0.6,P(CB)的估计值为(0.005+0.02)×10=0.25.
所以A地区用户的满意度等级为不满意的概率大.3.(2018·广西三市第一次联考)一企业从某条生产线上随机抽取100件产品,测量这些产品的某项技术指标值x,得到如下的频率分布表:(1)作出样本的频率分布直方图,并估计该技术指标值x的平均数和众数;
(2)若x<13或x≥21,则该产品不合格.现从不合格的产品中随机抽取2件,求抽取的2件产品中技术指标值小于13的产品恰有1件的概率.解:(1)频率分布直方图如图:
估计平均数为 =12×0.02+14×0.12+16×0.34+18×0.38+20×0.10+22×0.04=17.08. 估计众数为18.(2)记技术指标值x<13的2件不合格产品为a1,a2,技术指标值x≥21的4件不合格产品为b1,b2,b3,b4,则从这6件不合格产品中随机抽取2件包含以下基本事件(a1,a2),(a1,b1),(a1,b2),(a1,b3),(a1,b4),(a2,b1),(a2,b2),(a2,b3),(a2,b4),(b1,b2),(b1,b3),(b1,b4),(b2,b3),(b2,b4),(b3,b4),共15个基本事件.
记抽取的2件产品中技术指标值小于13的产品恰有1件为事件M,则事件M包含如下基本事件(a1,b1),(a1,b2),(a1,b3),(a1,b4),(a2,b1),(a2,b2),(a2,b3),(a2,b4),共8个基本事件.(二)茎叶图
【例4—2】 (1)为了了解某校教师使用多媒体进行教学的情况,现采用简单随机抽样的方法,从该校400名授课教师中抽取20名,调查了他们上学期使用多媒体进行教学的次数,结果用茎叶图表示,如图所示.据此可估计上学期该校400名教师中,使用多媒体进行教学的次数在[16,30)内的人数为(  )
A.100 B.160
C.200 D.280(2)《中国诗词大会》的播出引发了全民的诗词热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不低于85分的学生得到“诗词达人”的称号,低于85分且不低于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号.根据该次比赛的成绩按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词能手”称号的人数为(  )
A.2 B.4 C.5 D.6【解析】 (1)由茎叶图可知在20名教师中,上学期使用多媒体进行教学的次数在[16,30)内的人数为8,据此可以估计400名教师中,使用多媒体进行教学的次数在[16,30)内的人(2)由题得,获得“诗词达人”称号的有8人,获得“诗词能手”称号的有16人,获得“诗词爱好者”称号的有16人,采用分层抽样的方法抽选10名学生,所以抽选的学生中获得“诗词能【答案】 (1)B (2)B
【规律方法】茎叶图中的三个关注点
(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一.
(2)重复出现的数据要重复记录,不能遗漏.
(3)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.变式训练四(二)
1.(2019·成都检测)某学生在一门功课的22次考试中,所得分数茎叶图如图所示,则此学生该门功课考试分数的极差与中位数之和为(  )
A.117 B.118
C.118.5 D.119.5B 【解析】 22次考试中,所得分数最高的为98,最低的为56,所以极差为98-56=42,
将分数从小到大排列,中间两数为76,76,所以中位数为76,
所以此学生该门功课考试分数的极差与中位数之和为42+76=118.2.(2019·泉州质检)某中学奥数培训班共有14人,分为两个小组,在一次阶段测试中两个小组成绩的茎叶图如图所示,其中甲组学生成绩的平均数是88,乙组学生成绩的中位数是89,则n-m的值是(  )
A.5 B.6
C.7 D.8B 解得m=3.由乙组学生成绩的中位数是89,可得n=9,所以n-m=6,故选B. 3.为了比较两种治疗失眠症的药(分别称为A药,B药)的疗效,随机地选取20位患者服用A药,20位患者服用B药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:
服用A药的20位患者日平均增加的睡眠时间:
0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.5
2.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4
服用B药的20位患者日平均增加的睡眠时间:
3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.3 1.4
1.6 0.5 1.8 0.6 2.1 1.1 2.5 1.2 2.7 0.5
(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好?
(2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?(2)由观测结果可绘制茎叶图如图: 题型五 用样本的数字特征估计总体的数字特征
样本的数字特征是每年高考的重点,且多与频率分布直方图、茎叶图相结合考查.主要命题角度有:①数字特征的计算;②用样本的数字特征解决生活中的优化问题.
【例5】 对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是(  )
A.46,45,56
B.46,45,53
C.47,45,56
D.45,47,53
【解析】 由题意知各数为12,15,20,22,23,23,31,32,34,34,38,39,5,45,45,47,47,48,48,49,50,50,51,51,54,57,59,61,67,68,中位数是46,众数是45,最大数为68,最小数为12,极差为68-12=56.故选A.
【答案】 A【规律方法】样本数字特征及公式推广
(1)平均数和方差都是重要的数字特征,是对总体的一种简明的阐述.平均数、中位数、众数描述总体的集中趋势,方差和标准差描述波动大小.
(2)平均数、方差公式的推广,若数据x1,x2,…,xn的平均数为 ,方差为s2,则数据mx1+a,mx2+a,…,mxn+a的平均数为m +a,方差为m2s2.变式训练五
1.某项测试成绩满分为10分,现随机抽取30名学生参加测试,得分如图所示,假设得分值的中位数为me,平均值为 ,众数为mo,则(  )D 【解析】 由题图知mo=5.
由中位数的定义知me应该是第15个数与第16个数的平均值,由图知将数据从小到大排,2.(2016·全国卷Ⅰ)某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图:记x表示1台机器在三年使用期内需更换的易损零件数,y表示1台机器在购买易损零件上所需的费用(单位:元),n表示购机的同时购买的易损零件数.(1)若n=19,求y与x的函数解析式;
(2)若要求“需更换的易损零件数不大于n”的频率不小于0.5,求n的最小值;
(3)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件?解:(1)当x≤19时,y=3 800;当x>19时,y=3 800+500(x-19)=500x-5 700. (2)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n的最小值为19.(3)若每台机器在购机同时都购买19个易损零件,则这100台机器中有70台在购买易损零件上的费用为3 800,20台的费用为4 300,10台的费用为4 800,因此这100台机器在购买易损零件上所需费用的平均数为
×(3 800×70+4 300×20+4 800×10)=4 000.若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4 000,10台的费用为4 500,因此这100台机器在购买易损零件上所需费用的平均数为
×(4 000×90+4 500×10)=4 050.
比较两个平均数可知,购买1台机器的同时应购买19个易损零件.3.某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240), [240,260),[260,280),[280,300]分组的频率分布直方图如图.
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数.解:(1)由(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)×20=1得x=0.007 5,
所以直方图中x的值为0.007 5.因为(0.002+0.009 5+0.011)×20=0.45<0.5,
(0.002+0.009 5+0.011+0.012 5)×20=0.7>0.5,所以月平均用电量的中位数在[220,240)内,设中位数为a,则(0.002+0.009 5+0.011)×20+0.012 5×(a-220)=0.5,解得a=224,即中位数为224.题型六 两变量间的相关关系与统计案例
(一)回归分析
【例6—1】 (1)x和y的散点图如图所示,则下列说法中所有正确的序号为    .?
①x,y是负相关关系;③x、y之间不能建立线性回归方程. 果要好,故②正确;x,y之间能建立线性回归方程,只不过预报精度不高,故③不正确.(2)(2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2008~2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注: 【解析】 (1)由折线图中数据和附注中参考数据得 因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨. 【规律方法】最小二乘估计的三个步骤
(1)作出散点图,判断是否线性相关.(3)根据方程进行估计. 变式训练六(一)
1.某单位为了了解办公楼用电量y(度)与气温x(℃)之间的关系,随机统计了四个工作日的用电量与当天平均气温,并制作了对照表:A.68度 B.52度
C.12度 D.28度A 所以均值点(10,40)在回归直线上,求得a=60,将x=-4代入求得y=68,故选A. 2.(基础经典试题)下表提供了某厂节能降耗技术改造后在生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据:若根据上表提供的数据用最小二乘法可求得y对x的回归直线方程是 =0.7x+0.35,则表中m的值为(  )
A.4 B.4.5
C.3 D.3.5A 3.(2017·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
(2)一天内抽检零件中,如果出现了尺寸在 之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ii)在 之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)解:(1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数为 由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(二)独立性检验
【例6—2】 【课本典型习题】为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:则在犯错误的概率不超过    的前提下认为喜爱打篮球与性别有关(请用百分数表示).?所以在犯错误的概率不超过0.005的前提下认为喜爱打篮球与性别有关.
【答案】0.5%
【规律方法】独立性检验的一般步骤
(1)根据样本数据制成2×2列联表;(3)查表比较K2与临界值的大小关系,作出统计判断. 变式训练六(二)
1.通过随机询问110名性别不同的大学生是否爱好某项运动,得到列联表:附表: 参照附表,得到的正确结论是(  )
A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”A 【解析】 根据独立性检验的定义,由K2≈7.8>6.635可知,我们有99%以上的把握认为“爱好该项运动与性别有关”.故选A.2.某班学生数学、外语成绩得到2×2列联表如: 那么,随机变量x2等于    .? 4.25 3.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算的K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列表述中正确的是(  )
A.有95%的把握认为“这种血清能起到预防感冒的作用”
B.若有人未使用该血清,那么他一年中有95%的可能性得感冒
C.这种血清预防感冒的有效率为95%
D.这种血清预防感冒的有效率为5%A 【解析】 由题可知,在假设H成立情况下,P(K2≥3.841)的概率为0.05,即在犯错的概率不错过0.05的前提下认为“血清起预防感冒的作用”,即有95%的把握认为“这种血清能起到预防感冒的作用”.这里的95%是我们判断H不成立的概率量度而非预测血清与感冒的几率的量度,故B错误.C,D也犯有B中的错误.1.(2019·中山模拟)某商场在国庆黄金周的促销活动中,对10月1日9时至14时的销售额进行统计,其频率分布直方图如图所示.已知9时至10时的销售额为3万元,则9时至14时的销售总额为(  )
A.10万元 B.12万元
C.15万元 D.30万元D 【解析】 9时至10时的销售额频率为0.1, 2.(2019·惠州模拟)已知数据x1,x2,…,x10,2的平均值为2,方差为1,则数据x1,x2,…,x10相对于原数据(  )
A.一样稳定 B.变得比较稳定
C.变得比较不稳定 D.稳定性不可以判断C 故相对于原数据变得比较不稳定,选C. 3.中国诗词大会节目是央视首档全民参与的诗词节目,节目以“赏中华诗词、寻文化基因、品生活之美”为基本宗旨,力求通过对诗词知识的比拼及赏析,带动全民重温那些曾经学过的古诗词,分享诗词之美,感受诗词之趣,从古人的智慧和情怀中汲取营养,涵养心灵.如图是2016年中国诗词大会中,七位评委为甲、乙两名选手打出的分数的茎叶图(其中m为数字0~9中的一个),去掉一个最高分和一个最低分后,甲、乙两名选手得分的平均数分别为a1,a2,则一定有(  )
A.a1>a2
B.a2>a1
C.a1=a2
D.a1,a2的大小与m的值有关B 【解析】 由茎叶图知, 故a2>a1. 4.下图是一容量为100的样本的重量的频率分布直方图,样本重量均在[5,20]内,其分组为[5,10),[10,15),[15,20],则样本重量落在[15,20]内的频数为(  )
A.10 B.20 C.30 D.40 B 【解析】 第三组[15,20]的频率1-5×0.06-5×0.1=0.2,样本重量落在[15,20]内的频数是100×0.2=20.5.(2019·榆林模拟)为了反映各行业对仓储物流业务需求变化的情况,以及重要商品库存变化的动向,中国物流与采购联合会和中储发展股份有限公司通过联合调查,制定了中国仓储指数.由2017年1月至2018年7月的调查数据得出的中国仓储指数,绘制出如下的折线图.
根据该折线图,下列结论正确的是(  )
A.2017年各月的仓储指数最大值是在3月份
B.2018年1月至7月的仓储指数的中位数为55
C.2018年1月与4月的仓储指数的平均数为52
D.2017年1月至4月的仓储指数相对于2017年1月至4月,波动性更大D 【解析】 2017年各月的仓储指数最大值是在11月份,所以A错误;由图可知,2018年1月至7月的仓储指数的中位数约为53,所以B错误;2018年1月与4月的仓储指数的平均数为由图可知,2017年1月至4月的仓储指数比2018年1月至4月的仓储指数波动更大,故选D.6.(2019·南阳联考)对具有线性相关关系的变量x,y,测得一组数据如下: 时,y的估计值为(  )
A.105.5 B.106
C.106.5 D.107C 7.某工厂一年中各月份的收入、支出情况的统计如图所示,下列说法中错误的是(  )
A.收入最高值与收入最低值的比是3∶1
B.结余最高的月份是7月份
C.1至2月份的收入的变化率与4至5月份的收入的变化率相同
D.前6个月的平均收入为40万元
注:(结余=收入-支出)D 【解析】 由图可知,收入最高值为90万元,收入最低值为30万元,其比是3∶1,故A正确;由图可知,结余最高为7月份,为80-20=60,故B正确;由图可知,1至2月份的收入的变化率与4至5月份的收入的变化率相同,故C正确;由图可知,前6个月的平均收入为
(40+60+30+30+50+60)=45万元,故D错误,故选D.x1+2,x2+2,x3+2,x4+2的平均数为(  )
A.2 B.3 C.4 D.6C 9.(2019·衡水模拟)在高三某次数学测试中,40名学生的成绩如图所示:
若将成绩由低到高编为1~40号,再用系统抽样的方法从中抽取8人,则其中成绩在区间[123,134]上的学生人数为    .?3 【解析】 根据茎叶图,成绩在区间[123,134]上的数据有15个,
所以用系统抽样的方法从所有的40人中抽取8人,10.(2019·聊城模拟)某工厂从生产的一批产品中随机抽出一部分,对这些产品的一项质量指标进行了检测,整理检测结果得到如下频率分布表:据此可估计这批产品的此项质量指标的方差为    .? 144 【解析】 由题意得,这批产品的此项质量指标的平均数为20×0.1+40×0.6+60×0.3=44,
故方差为(20-44)2×0.1+(40-44)2×0.6+(60-44)2×0.3=144.1.(2019·天水模拟)甲、乙两名同学6次考试的成绩统计如图所示,甲、乙两组数据的 C 【解析】 由图可知,甲同学除第二次考试成绩略低于乙同学外,其他考试成绩都远高于 2.某校1200名高三年级学生参加了一次数学测验(满分为100分),为了分析这次数学测验的成绩,从这1200人的数学成绩中随机抽取200人的成绩绘制成如下的统计表,请根据表中提供的信息解决下列问题:(1)求a、b、c的值;
(2)如果从这1200名学生中随机抽取一人,试估计这名学生该次数学测验及格的概率P(注:60分及60分以上为及格);
(3)试估计这次数学测验的年级平均分.解:(1)由题意可得,b=1-(0.015+0.125+0.5+0.31)=0.05,
a=200×0.05=10,c=200×0.5=100.
(2)根据已知,在抽出的200人的数学成绩中,及格的有162人.所以这次数学测验的年级平均分大约为73分. 3.某测试团队为了研究“饮酒”对“驾车安全”的影响,随机选取100名驾驶员先后在无酒状态、酒后状态下进行“停车距离”测试.测试的方案:电脑模拟驾驶,以某速度匀速行驶,记录下驾驶员的“停车距离”(驾驶员从看到意外情况到车子完全停下所需要的距离).无酒状态与酒后状态下的试验数据分别列于表1和表2.
表1:无酒状态表2:酒后状态已知表1数据的中位数估计值为26,回答以下问题.
(1)求m,n的值,并估计驾驶员无酒状态下停车距离的平均数;(3)该测试团队认为:驾驶员酒后驾车的平均“停车距离”y大于(1)中无酒状态下的停车距离平均数的3倍,则认定驾驶员是“醉驾”.请根据(2)中的回归方程,预测当每毫升血液酒精含量大于多少毫克时为“醉驾”?解得m=40,
又m+n+36=100,解得n=24.当每毫升血液酒精含量大于80毫克时认定为“醉驾”. 4.(2019·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;
(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.抽取的5人中,三名男用户记为a,b,c,两名女用户记为r,s,则从这5人中任选2人,共有10种情况:ab,ac,ar,as,bc,br,bs,cr,cs,rs.
其中恰好是男、女用户各1人的有6种情况:ar,as,br,bs,cr,cs.又P(K2≥5.024)=0.025.
故有97.5%的把握认为“产品用户是否满意与性别有关”.
同课章节目录