苏教版(2019)高中数学一轮复习第24讲《统计》
(原卷版)
【知识梳理】
统计 与统计案例 统计 随机抽样 简单抽样 从总体中逐个抽取且不放回抽取样本的方法 等概率抽样
分层抽样 将总体分层,按照比例从各层中独立抽取样本的方法
系统抽样 将总体均匀分段,每段抽取一个样本的方法
样本估计总体 频率分布 在样本中某个(范围)数据在总体中占有的比例成为这个(范围)数据的频率,使用频率分布表、频率分布直方图表达样本数据的频率分布。茎叶图也反映样本数据的分布 统计的基本思想是以样本的分布估计总体的分布。即以样本的频率分布估计总体的频率分布,以样本的特征数估计总体的特征数
众数 样本数据中出现次数最多的数据 样本特征数
中位数 从小到大排序后,中间的数或者中间两数的平均数
平均数 的平均数是
方差 的平均数为,
标准差
统计案例 回归分析 相关关系 两个变量之间的一种不确定性关系,有正相关和负相关
最小 二乘法 最小时得到回归直线方程的方法
独立性检验 对于值域分别是和的分类变量和,列出其样本频数列联表,通过计算卡方统计量判断两个分类变量是否有关的方法
二、【真题再现】
1、(2022全国甲卷)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:
则()
A. 讲座前问卷答题的正确率的中位数小于
B. 讲座后问卷答题的正确率的平均数大于
C. 讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D. 讲座后问卷答题的正确率的极差大于讲座前正确率的极差
2、(2022全国乙卷文)分别统计了甲、乙两位同学16周的各周课外体育运动时长(单位:h),得如下茎叶图:
则下列结论中错误的是()
A. 甲同学周课外体育运动时长的样本中位数为7.4
B. 乙同学周课外体育运动时长的样本平均数大于8
C. 甲同学周课外体育运动时长大于8的概率的估计值大于0.4
D. 乙同学周课外体育运动时长大于8的概率的估计值大于0.6
3、(2022新高考1卷)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好 良好
病例组 40 60
对照组 10 90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
附,
0.050 0.010 0.001
k 3.841 6.635 10.828
4、(2022新高考2卷)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图:
(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);
5、(2022全国甲卷文)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数 未准点班次数
A 240 20
B 210 30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:,
0.100 0.050 0.010
2.706 3.841 6.635
6、(2022全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 034 0.36 0.46 0.42 0.40 3.9
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
三、【考点精讲】
考点1 抽样方法
【例1-1】(2021·陕西西北工业大学附属中学)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法:从随机数表第1行的第5列和第6列数字开始由左到右一次选取两个数字,则选出来的第4个个体的编号为( )
7816 6572 0802 6314 0702 4369 9728 0198
3204 9234 4935 8200 3623 4869 6938 7481
A.08 B.07 C.02 D.01
【例1-2】(2021·北京房山区·高三开学考试)某中学高一、高二和高三各年级人数见表,采用分层抽样的方法调查学生的视力状况,在抽取的样本中,高二年级有20人,那么该样本中高三年级的人数为( )
年级 人数
高一 550
高二 500
高三 m
合计 1500
A.16 B.18 C.22 D.40
【变式1-1】(2021·全国高三专题练习)下面抽样中是简单随机抽样的个数是( )
①从无数个个体中抽取30个个体作为样本
②从100部手机中一次抽取5部进行检测
③某班有45名同指定个子最高的5名同学参加学校组织的篮球比赛
④一彩民买彩票选号,从装有36个大小、形状都相同的号签的盒子中无放回地抽取6个号签
A.1 B.2 C.3 D.4
【变式1-2】(2021·广东惠州·高三)某工厂利用随机数表对生产的50个零件进行抽样测试,先将50个零件进行编号,编号分别为01,02,…,50,从中抽取5个样本,下面提供随机数表的第1行到第2行:
若从表中第1行第9列开始向右依次读取数据,则得到的第4个样本编号是( )
A.10 B.09 C.71 D.20
【变式1-3】(2021·陕西高三)某乡政府对甲、乙、丙三个村的扶贫对象进行抽样调查,其中甲村30人,乙村25人,丙村40人,用分层抽样的方法抽取19人,则从甲、丙两村共抽取的人数为( )
A.8 B.11 C.13 D.14
考点2 用样本估计总体
【例2-1】(2021·全国高三开学考试)在五场篮球比赛中,甲、乙两名运动员得分的茎叶图如图所示.下列说法正确的是( )
A.甲得分的中位数和极差都比乙大
B.甲得分的中位数比乙小,但极差比乙大
C.甲得分的中位数和极差都比乙小
D.甲得分的中位数比乙大,但极差比乙小
【例2-2】(2021·贵州贵阳)2021年4月8日,教育部办公厅“关于进一步加强中小学生体质健康管理工作的通知”中指出,各地要加强对学生体质健康重要性的宣传,中小学校要通过体育与健康课程、大课间、课外体育锻炼、体育竞赛、班团队活动、家校协同联动等多种形式加强教育引导,让家长和中小学生科学认识体质健康的影响因素.了解运动在增强体质、促进健康、预防肥胖与近视、锤炼意志、健全人格等方面的重要作用,提高学生体育与健康素养.增强体质健康管理的意识和能力.某高中学校共有2000名男生,为了了解这部分学生的身体发育情况,学校抽查了100 名男生的体重情况.根据所得数据绘制样本的频率分布直方图如图所示.根据此图,下列说法中错误的是( )
A.样本的众数约为
B.样本的中位数约为
C.样本的平均值约为66
D.为确保学生体质健康,学校将对体重超过的学生进行健康监测,该校男生中需要监测的学生频数约为200人
【例2-3】(2021·重庆市江津中学校高三月考)某北方村庄4个草莓基地,采用水培阳光栽培方式种植的草莓个大味美,一上市便成为消费者争相购买的对象.光照是影响草莓生长的关键因素,过去50年的资料显示,该村庄一年当中12个月份的月光照量(小时)的频率分布直方图如下图所示(注:月光照量指的是当月阳光照射总时长).
(1)求月光照量(小时)的平均数和中位数;(取各组数据的中点值)
(2)现准备按照月光照量来分层抽样,抽取一年中的4个月份来比较草莓的生长状况,问:应在月光照量,,的区间内各抽取多少个月份?
(3)假设每年中最热的5,6,7,8,9,10月的月光照量是大于等于240小时,且6,7,8月的月光照量是大于等于320小时,那么,从该村庄2018年的5,6,7,8,9,10这6个月份之中随机抽取2个月份的月光照量进行调查,求抽取到的2个月份的月光照量(小时)都不低于320的概率.
【变式2-1】(2021·全国高三专题练习)为了从甲 乙两人中选一人参加数学竞赛,老师将二人最近的6次数学测试的分数进行统计,甲 乙两人的得分情况如茎叶图所示,若甲 乙两人的平均成绩分别是,则下列说法正确的是( )
A.,乙比甲成绩稳定,应选乙参加比赛
B.,甲比乙成绩稳定,应选甲参加比赛
C.,甲比乙成绩稳定,应选甲参加比赛
D.,乙比甲成绩稳定,应选乙参加比赛
【变式2-2】(2021·辽宁高三月考)某大学共有名学生,为了了解学生课外图书阅读量情况,该校随机地从全校学生中抽取名,统计他们每年阅读的书籍数量,由此来估计全体学生当年的阅读书籍数量的情况,下列估计中正确的是(注:同一组数据用该组区间的中点值作为代表)( )
A.中位数为 B.众数为
C.平均数为 D.该校读书不低于本的人数约为人
【变式2-3】(2021·四川省资阳中学高三月考)某歌手电视大奖赛中,七位评委对某选手打出如下分数:,则其百分位数为________.
考点3 特征数的运用
【例3-1】(2021·广东高三开学考试)四名同学各掷骰子五次,分别记录每次骰子出现的点数.根据四名同学的统计结果,可以判断出一定没有出现点数6的是( ).
A.平均数为3,中位数为2 B.中位数为3,众数为2
C.平均数为2,方差为2.4 D.中位数为3,方差为2.8
【例3-2】(2021·全国高三(理))在某次射击比赛中,甲、乙两人各射击5次,射中的环数如图,则下列说法正确的是( )
A., B.,
C., D.,
【例3-3】(2021·辽宁高三开学考试)一样本的频率分布直方图如图所示,样本数据共分3组,分别为[5,10),[10,15),[15,20].估计样本数据的第60百分位数是( )
A.14 B.15 C.16 D.17
【变式3-1】(2021·山东青岛·高三开学考试)已知一个样本,样本容量为10,平均数为15,方差为3,现从样本中去掉一个数据,此时样本的平均数为,方差为,则( )
A., B.,
C., D.,
【变式3-2】(2021·安徽高三)某公司计划招收500名新员工,共报名了2000人,远超计划,故该公司采用笔试的方法进行选拔,并按照笔试成绩择优录取.现采用随机抽样的方法抽取200名报名者的笔试成绩,绘制频率分布直方图如下:
则录取分数线可估计为( )
A.70.5 B.72.5 C.75.5 D.77.5
【变式3-3】(多选)(2021·广东高三月考)某高中有学生人,其中男生人,女生人,希望获得全体学生的身高信息,按照分层抽样的原则抽取了容量为的样本.经计算得到男生身高样本均值为,方差为;女生身高样本均值为,方差为.下列说法中正确的是( )
A.男生样本量为 B.每个女生入样的概率均为
C.所有样本的均值为 D.所有样本的方差为
【变式3-4】(2021·全国高三)某地为践行“绿水青山就是金山银山”的人与自然和谐共生的发展理念,对境内企业产生的废水进行实施监测,如图所示茎叶图是对,两家企业10天内产生废水的某项指标值的检测结果,下列说法正确的是( )
A.,两家企业指标值的极差相等
B.企业的指标值的中位数较大
C.企业的指标值众数与中位数相等
D.,企业的指标值的平均数相等
考点4 线性回归方程
【例4-1】(2021·江苏徐州·高三)对于数据组,如果由线性回归方程得到的对应于自变量的估计值是,那么将称为相应于点的残差.某工厂为研究某种产品产量(吨)与所需某种原材料吨)的相关性,在生产过程中收集4组对应数据如下表所示:
3 4 5 6
2.5 3 4
根据表中数据,得出关于的线性回归方程为,据此计算出样本点处的残差为-0.15,则表中的值为( )
A.3.3 B.4.5 C.5 D.5.5
【例4-2】(2021·全国高三月考)击鼓传花,也称传彩球,是中国民间游戏,数人或几十人围成圆圈坐下,其中一人拿花(或一小物件);另有一人背着大家或蒙眼击鼓(桌子、黑板或其他能发出声音的物体),鼓响时众人开始传花(顺序不定),至鼓停止为止.此时花在谁手中(或其座位前),谁就上台表演节目,某单位组织团建活动,9人一组,共10组,玩击鼓传花,(前五组)组号与组内女性人数统计结果如表:
1 2 3 4 5
2 2 3 3 4
(Ⅰ)女性人数与组号(组号变量依次为1,2,3,4,5,…)具有线性相关关系,请预测从第几组开始女性人数不低于男性人数;
参考公式:
(Ⅱ)从10组中随机抽取3组,求若3组中女性人数不低于5人的有组,求的分布列与期望;
(Ⅲ)游戏开始后,若传给相邻的人得1分,间隔人传得2分,每击一次鼓传一次花,得1分的概率为0.2,得2分的概率为0.8.记鼓声停止后得分恰为分的概率为,求.
【变式4-1】(2021·全国高三专题练习(文))某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价(元) 4 5 6 7 8 9
销量(件) 90 84 83 80 75 68
由表中数据,求得线性回归方程=-4x+a,若在这些样本点中任取一点,则它在回归直线右上方的概率为( )
A. B. C. D.
【变式4-2】(2021·贵州贵阳·(理))据贵州省气候中心报,2021年6月上旬,我省降水量在15.2-170.3mm之间,毕节市局地、遵义市北部、铜仁市局地和黔东南州东南部不足50mm,其余均在50mmm以上,局地超过100mm.若我省某地区2021年端午节前后3天,每一天下雨的概率均为.通过模拟实验的方法来估计该地区这3天中恰好有2天下雨的概率,利用计算机或计算器可以产生0到9之间取整数值的随机数(,且)表示是否下雨:当时表示该地区下雨,当时,表示该地区不下雨.因为是3天,所以每三个随机数作为一组,从随机数表中随机取得20组数如下:
332 714 740 945 593 468 491 272 073 445
992 772 951 431 169 332 435 027 898 719
(1)求出k的值,使得该地区每一天下雨的概率均为;并根据上述20组随机数估计该地区这3天中恰好有2天下雨的概率;
(2)2016年到2020年该地区端午节当天降雨量(单位:mm)如表:
时间 2016年 2017年 2018年 2019年 2020年
年份 1 2 3 4 5
降雨量 28 27 25 23 22
经研究表明:从2016年到2020年,该地区端午节有降雨的年份的降雨量与年份具有线性相关关系,求回归直线方程.并预测该地区2022年端午节有降雨的话,降雨量约为多少?
参考公式:,.
【变式4-3】(2021·孟津县第一高级中学)西部某深度贫困村,从2014—2019年的人均纯收入(单位:千元)情况如下表,时间变量从2014-2019年的值依次为1,2,……6.
2014—2019年的人均纯收入情况表:
年份 2014 2015 2016 2017 2018 2019
人均纯收入(千元) 2.6 3.0 3.6 3.9 4.4 5.1
(1)在图中画出表中数据的散点图,根据散点图,是否可用线性回归模型拟合与的关系,请用相关系数加以说明;
(2)建立关于的回归方程(保留两位小数),预测该村2020年的人均纯收入为多少?
附注:参考数据:,,,,.
参考公式:相关系数,
回归方程中斜率和截距的最小二乘法估计公式分别为:,.
考点5 非线性回归方程
【例5-1】(2021·安徽马鞍山·高三(理))2020年初,从非洲蔓延到东南亚的蝗虫灾害严重威胁了国际农业生产,影响了人民生活.世界性与区域性温度的异常 早涝频繁发生给蝗灾发生创造了机会.已知蝗虫的产卵量与温度的关系可以用模型拟合,设,其变换后得到一组数据:
由上表可得线性回归方程,则( )
A. B. C. D.
【例5-2】(2021·重庆市第十一中学校高三月考)某创业者计划在南山旅游景区附近租赁一套农房发展成特色“农家乐”,为了确定未来发展方向,此创业者对该景区附近五家“农家乐”跟踪调查了100天,这五家“农家乐”的收费标准互不相同,得到的统计数据如下表,x为收费标准(单位:元/日),t为入住天数(单位:天),以入住天数的频率作为各自的“入住率”,收费标准x与入住率y的散点图如图.
x 100 150 200 300 450
y 90 65 45 30 20
(1)若从以上五家“农家乐”中随机抽取两家深入调查,记为“入住率”超过的农家乐的个数,求的分布列;
(2)令,由散点图判断与哪个更合适于此模型(给出判断即可,不必说明理由)?并根据你的判断结果求回归方程;(,的结果精确到)
(3)根据第(2)问所求的回归方程,试估计收费标准为多少时,100天销售额Q最大?(100天销售额入住率收费标准x)
参考数据:,,,,,,,,,.
【变式5-1】(2021·山西高三)某公交公司推出扫码支付乘车优惠活动,活动为期两周,活动的前五天数据如下表:
第天 1 2 3 4 5
使用人数() 15 173 457 842 1333
由表中数据可得y关于x的回归方程为,则据此回归模型相应于点(2,173)的残差为( )
A. B. C.3 D.2
【变式5-2】(2021·贵州高三月考)数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行 每-列 每一个粗线宫(3×3)内的数字均含1~9,且不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛.
(1)赛前小明在某数独上进行了一段时间的训练,每天解题的平均速度(秒/题)与训练天数(天)有关,经统计得到如下数据:
(天) 1 2 3 4 5 6 7
(秒/题) 910 800 600 440 300 240 210
现用作为回归方程模型,请利用表中数据,求出该回归方程(,用分数表示).
(2)小明和小红在数独上玩“对战赛”,每局两人同时开始解一道数独题,先解出题的人获胜,不存在平局,两人约定先胜局者赢得比赛.若小明每局获胜的概率为,且各局之间相互独立,设比赛局后结束,求随机变量的分布列及期望.参考数据(其中):
1750 0.37 0.55
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为
【变式5-3】(2021·全国高三课时练习)某芯片公司为制订下一年的研发投入计划,需了解年研发资金投入量(单位:亿元)对年销售额(单位:亿元)的影响,该公司对历史数据进行对比分析,建立了两个函数模型:①,②,其中,,,均为常数,为自然对数的底数.现该公司对收集的近12年的年研发资金投入量和年销售额()的数据作了初步处理,令,,经计算得到如下数据:
20 66 770 200 460 4.2
3125000 21500 0.308 14
(1)设和的样本相关系数为,和的样本相关系数为,请从样本相关系数(精确到0.01)的角度判断,哪个模型拟合效果更好;
(2)(i)根据(1)的选择及表中数据,建立关于的非线性经验回归方程;
(ii)若下一年销售额需达到90亿元,预测下一年的研发资金投入量约为多少亿元?
参考数据为,,.
考点6 独立性检验
【例6-1】(2021·河南高三月考)某外语学校要求学生从德语和日语中选择一种作为“第二外语”进行学习,为了解选择第二外语的倾向与性别的关系,随机抽取名学生,得到下面的数据表:
选择德语 选择日语
男生
女生
根据表中提供的数据可知( )
附:,.
A.在犯错误的概率不超过的前提下,认为选择第二外语的倾向与性别无关
B.在犯错误的概率不超过的前提下,认为选择第二外语的倾向与性别有关
C.有的把握认为选择第二外语的倾向与性别无关
D.有的把握认为选择第二外语的倾向与性别有关
【例6-2】(2021·山东省淄博实验中学高三月考)电子邮件是一种用电子手段提供信息交换的通信方式,是互联网应用最广的服务.我们在使用电子邮件时发现一个有趣的现象:中国人的邮箱名称里含有数字的比较多,而外国人邮箱名称里含有数字的比较少.为了研究邮箱名称里含有数字是否与国籍有关,随机调取了40个邮箱名称,得到如下2×2列联表:
中国人 外国人 总计
邮箱名称里有数字 15 5 20
邮箱名称里无数字 5 15 20
总计 20 20 40
(1)根据小概率值的独立性检验,分析“邮箱名称里含有数字与国籍”是否有关?
(2)用样本估计总体,将频率视为概率.在中国人邮箱名称里和外国人邮箱名称里各随机抽取6个邮箱名称,记“6个中国人邮箱名称里恰有3个含有数字”的概率为,“6个外国人邮箱名称里恰有3个含有数字”的概率为,试比较与的大小.
参考公式和数据:
0.10 0.05 0.025 0.010 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
【变式6-1】(2021·定远县育才学校高三开学考试)春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到列联表:
分类 做不到“光盘” 能做到“光盘”
男 45 10
女 30 15
由此列联表得到的正确结论是( )
A.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”
D.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别无关”
【变式6-2】(2021·云南昆明市·高三(理))一种配件的标准尺寸为,误差不超过均为合格品,其余为不合格品.科研人员在原有生产工艺的基础上,经过技术攻关,推出一种新的生产工艺.下面的表格分别给出了用两种工艺生产的20个配件的尺寸(单位:):
新工艺 500 499 503 500 505 500 502 499 500 498
502 496 498 501 500 497 498 503 500 499
旧工艺 497 502 499 495 502 494 500 496 506 503
499 496 505 498 503 502 496 498 501 505
(1)完成下面的列联表,并分别计算用新、旧两种工艺生产的配件的合格率;
合格品 不合格品 合计
新工艺
旧工艺
合计
(2)根据所得样本数据判断,能否有95%的把握认为用两种工艺生产的配件合格率有差异?
,
0.15 0.050 0.025 0.005
2.072 3.841 5.024 7.879
【变式6-3】(2021·全国高三月考)机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道时,应当停车让行,俗称“礼让行人”.下表是某市一主干道路口监控设备所抓拍的个月内驾驶员不“礼让行人”行为统计数据:
月份
违章驾驶人次
(1)由表中看出,可用线性回归模型拟合违章驾驶人次与月份之间的关系,求关于的回归直线方程,并预测该路口月份不“礼让行人”的违章驾驶人次;
(2)交警从这个月内通过该路口的驾驶员中随机抽查人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:
不“礼让行人” “礼让行人”
驾龄不超过年
驾龄年以上
能否据此判断有的把握认为“礼让行人”行为与驾龄有关?
附:,,(其中).
【变式6-4】(2021·贵州高三月考)某校八年级学生参加“史、地、生会考”,成绩分为、、、四个档次,随机抽取了名同学(男生占)的成绩,统计并制作了如图所示的条形图.已知档学生的人数占总人数的.
(1)求与的值;
(2)若将学生成绩在、档称为成绩优异,将学生成绩在、档称为成绩非优异.已知在、档中,女生与男生的比例为,以抽取的名学生作为研究对象,完成下面的列联表,并判断是否有的把握认为成绩是否优异与性别有关.
男生 女生 合计
成绩优异
成绩非优异
合计
附:,其中.苏教版(2019)高中数学一轮复习第24讲《统计》
(解析版)
【知识梳理】
统计 与统计案例 统计 随机抽样 简单抽样 从总体中逐个抽取且不放回抽取样本的方法 等概率抽样
分层抽样 将总体分层,按照比例从各层中独立抽取样本的方法
系统抽样 将总体均匀分段,每段抽取一个样本的方法
样本估计总体 频率分布 在样本中某个(范围)数据在总体中占有的比例成为这个(范围)数据的频率,使用频率分布表、频率分布直方图表达样本数据的频率分布。茎叶图也反映样本数据的分布 统计的基本思想是以样本的分布估计总体的分布。即以样本的频率分布估计总体的频率分布,以样本的特征数估计总体的特征数
众数 样本数据中出现次数最多的数据 样本特征数
中位数 从小到大排序后,中间的数或者中间两数的平均数
平均数 的平均数是
方差 的平均数为,
标准差
统计案例 回归分析 相关关系 两个变量之间的一种不确定性关系,有正相关和负相关
最小 二乘法 最小时得到回归直线方程的方法
独立性检验 对于值域分别是和的分类变量和,列出其样本频数列联表,通过计算卡方统计量判断两个分类变量是否有关的方法
二、【真题再现】
1、(2022全国甲卷)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:
则()
A. 讲座前问卷答题的正确率的中位数小于
B. 讲座后问卷答题的正确率的平均数大于
C. 讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D. 讲座后问卷答题的正确率的极差大于讲座前正确率的极差
【答案】B
【分析】由图表信息,结合中位数、平均数、标准差、极差的概念,逐项判断即可得解.
【详解】讲座前中位数为,所以错;
讲座后问卷答题的正确率只有一个是个,剩下全部大于等于,所以讲座后问卷答题的正确率的平均数大于,所以B对;
讲座前问卷答题的正确率更加分散,所以讲座前问卷答题的正确率的标准差大于讲座后正确率的标准差,所以C错;
讲座后问卷答题的正确率的极差为,
讲座前问卷答题的正确率的极差为,所以错.
故选:B.
2、(2022全国乙卷文)分别统计了甲、乙两位同学16周的各周课外体育运动时长(单位:h),得如下茎叶图:
则下列结论中错误的是()
A. 甲同学周课外体育运动时长的样本中位数为7.4
B. 乙同学周课外体育运动时长的样本平均数大于8
C. 甲同学周课外体育运动时长大于8的概率的估计值大于0.4
D. 乙同学周课外体育运动时长大于8的概率的估计值大于0.6
【答案】C
【分析】结合茎叶图、中位数、平均数、古典概型等知识确定正确答案.
【详解】对于A选项,甲同学周课外体育运动时长的样本中位数为,A选项结论正确.
对于B选项,乙同学课外体育运动时长的样本平均数为:
B选项结论正确.
对于C选项,甲同学周课外体育运动时长大于的概率的估计值,
C选项结论错误.
对于D选项,乙同学周课外体育运动时长大于的概率的估计值,
D选项结论正确.
故选:C
3、(2022新高考1卷)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好 良好
病例组 40 60
对照组 10 90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
附,
0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】(1)答案见解析
【分析】(1)由所给数据结合公式求出的值,将其与临界值比较大小,由此确定是否有99%的把握认为患该疾病群体与未黄该疾病群体的卫生习惯有差异
【小问1详解】
由已知,
又,,
所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
4、(2022新高考2卷)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图:
(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);
【答案】(1)岁;
【分析】(1)根据平均值等于各矩形的面积乘以对应区间的中点值的和即可求出;
【小问1详解】
平均年龄
(岁).
5、(2022全国甲卷文)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数 未准点班次数
A 240 20
B 210 30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:,
0.100 0.050 0.010
2.706 3.841 6.635
【答案】有
【分析】(2)根据表格中数据及公式计算,再利用临界值表比较即可得结论.
【小问2详解】
列联表
准点班次数 未准点班次数 合计
A 240 20 260
B 210 30 240
合计 450 50 500
=,
根据临界值表可知,有的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
6、(2022全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 034 0.36 0.46 0.42 0.40 3.9
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
【答案】(1);(2)(3)
【分析】(1)计算出样本的一棵根部横截面积的平均值及一棵材积量平均值,即可估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)代入题给相关系数公式去计算即可求得样本的相关系数值;
(3)依据树木的材积量与其根部横截面积近似成正比,列方程即可求得该林区这种树木的总材积量的估计值.
【小问1详解】
样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为,
平均一棵的材积量为
【小问2详解】
则
【小问3详解】
设该林区这种树木的总材积量的估计值为,又已知树木的材积量与其根部横截面积近似成正比,可得,解之得.
则该林区这种树木的总材积量估计为
三、【考点精讲】
考点1 抽样方法
【例1-1】(2021·陕西西北工业大学附属中学)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法:从随机数表第1行的第5列和第6列数字开始由左到右一次选取两个数字,则选出来的第4个个体的编号为( )
7816 6572 0802 6314 0702 4369 9728 0198
3204 9234 4935 8200 3623 4869 6938 7481
A.08 B.07 C.02 D.01
【答案】B
【解析】从随机数表第1行的第5列和第6列数字开始由左到右一次选取两个数字开始向右读,数字依次为:65,72,08,02,63,14,07,02,…,而符合条件的数字有08,02,14,07,02,…,故第4个个体编号为07.故选:B
【例1-2】(2021·北京房山区·高三开学考试)某中学高一、高二和高三各年级人数见表,采用分层抽样的方法调查学生的视力状况,在抽取的样本中,高二年级有20人,那么该样本中高三年级的人数为( )
年级 人数
高一 550
高二 500
高三 m
合计 1500
A.16 B.18 C.22 D.40
【答案】B
【解析】由题意得高三学生人数为,
因为在抽取的样本中,高二年级有20人,所以样本容量满足,得所以样本中高三年级的人数为,故选:B
【变式1-1】(2021·全国高三专题练习)下面抽样中是简单随机抽样的个数是( )
①从无数个个体中抽取30个个体作为样本
②从100部手机中一次抽取5部进行检测
③某班有45名同指定个子最高的5名同学参加学校组织的篮球比赛
④一彩民买彩票选号,从装有36个大小、形状都相同的号签的盒子中无放回地抽取6个号签
A.1 B.2 C.3 D.4
【答案】A
【解析】①总体个数无限,不是简单的随机抽样;②不是逐个抽取,不是简单的随机抽样;③指定了5名同学参赛,不满足每个个体被抽到的可能性相同,不是简单的随机抽样;④满足简单的随机抽样的定义.
故选:A.
【变式1-2】(2021·广东惠州·高三)某工厂利用随机数表对生产的50个零件进行抽样测试,先将50个零件进行编号,编号分别为01,02,…,50,从中抽取5个样本,下面提供随机数表的第1行到第2行:
若从表中第1行第9列开始向右依次读取数据,则得到的第4个样本编号是( )
A.10 B.09 C.71 D.20
【答案】B
【解析】从随机数表第1行的第9列数字开始由左向右每次连续读取2个数字,删除超出范围及重复的编号,符合条件的编号有14,05,11,09,所以选出来的第4个个体的编号为09,故选:B
【变式1-3】(2021·陕西高三)某乡政府对甲、乙、丙三个村的扶贫对象进行抽样调查,其中甲村30人,乙村25人,丙村40人,用分层抽样的方法抽取19人,则从甲、丙两村共抽取的人数为( )
A.8 B.11 C.13 D.14
【答案】D
【解析】设甲、丙两村抽取的人数分别为、.
依题意得,解得,,所以.故选:D.
考点2 用样本估计总体
【例2-1】(2021·全国高三开学考试)在五场篮球比赛中,甲、乙两名运动员得分的茎叶图如图所示.下列说法正确的是( )
A.甲得分的中位数和极差都比乙大
B.甲得分的中位数比乙小,但极差比乙大
C.甲得分的中位数和极差都比乙小
D.甲得分的中位数比乙大,但极差比乙小
【答案】B
【解析】甲得分依次为、、、、,
中位数是,极差为,
乙得分依次为、、、、,
中位数是,极差为,
则甲得分的中位数比乙小,极差比乙大,故选:B.
【例2-2】(2021·贵州贵阳)2021年4月8日,教育部办公厅“关于进一步加强中小学生体质健康管理工作的通知”中指出,各地要加强对学生体质健康重要性的宣传,中小学校要通过体育与健康课程、大课间、课外体育锻炼、体育竞赛、班团队活动、家校协同联动等多种形式加强教育引导,让家长和中小学生科学认识体质健康的影响因素.了解运动在增强体质、促进健康、预防肥胖与近视、锤炼意志、健全人格等方面的重要作用,提高学生体育与健康素养.增强体质健康管理的意识和能力.某高中学校共有2000名男生,为了了解这部分学生的身体发育情况,学校抽查了100 名男生的体重情况.根据所得数据绘制样本的频率分布直方图如图所示.根据此图,下列说法中错误的是( )
A.样本的众数约为
B.样本的中位数约为
C.样本的平均值约为66
D.为确保学生体质健康,学校将对体重超过的学生进行健康监测,该校男生中需要监测的学生频数约为200人
【答案】C
【解析】对于A,样本的众数为,A对;
对于B,设样本的中位数为,,解得,B对;
对于C,由直方图估计样本平均值为
,C错误;对于D,2000名男生中体重大于的人数大约为,D对.故选:C.
【例2-3】(2021·重庆市江津中学校高三月考)某北方村庄4个草莓基地,采用水培阳光栽培方式种植的草莓个大味美,一上市便成为消费者争相购买的对象.光照是影响草莓生长的关键因素,过去50年的资料显示,该村庄一年当中12个月份的月光照量(小时)的频率分布直方图如下图所示(注:月光照量指的是当月阳光照射总时长).
(1)求月光照量(小时)的平均数和中位数;(取各组数据的中点值)
(2)现准备按照月光照量来分层抽样,抽取一年中的4个月份来比较草莓的生长状况,问:应在月光照量,,的区间内各抽取多少个月份?
(3)假设每年中最热的5,6,7,8,9,10月的月光照量是大于等于240小时,且6,7,8月的月光照量是大于等于320小时,那么,从该村庄2018年的5,6,7,8,9,10这6个月份之中随机抽取2个月份的月光照量进行调查,求抽取到的2个月份的月光照量(小时)都不低于320的概率.
【答案】(1)平均数为260(小时),中位数为240(小时);(2)月份数分别为2、1、1;(3).
【解析】(1)根据各频率之和为1,则,解得.
月光照量(小时)的平均数为
所以(小时)
设月光照量(小时)的中位数为,则.根据中位数的定义,其左右两边的频率相等,都为0.5,可得,解得.
所以月光照量(小时)的中位数为240(小时).
(2)因为月光照量、、的频率之比为,所以若准备按照月光照量来分层抽样,
抽取一年中的4个月份来比较草莓的生长状况,
那么,抽取的月光照量,,的月份数分别为,,.
(3)由题意,月光照量的有5,9,10月,月光照量的有6,7,8月,
故从该村庄2018年的5,6,7,8,9,10月份,之中随机抽取2个月份的月光照量(小时)
进行调查,所有的情况有:,,,,;,,,;,,;,;共15种;
其中,抽取到的2个月份的月光照量(小时)都不低于320的情况有:,;共3种;
故所抽取到的2个月份的月光照量(小时)都不低于320的概率.
【变式2-1】(2021·全国高三专题练习)为了从甲 乙两人中选一人参加数学竞赛,老师将二人最近的6次数学测试的分数进行统计,甲 乙两人的得分情况如茎叶图所示,若甲 乙两人的平均成绩分别是,则下列说法正确的是( )
A.,乙比甲成绩稳定,应选乙参加比赛
B.,甲比乙成绩稳定,应选甲参加比赛
C.,甲比乙成绩稳定,应选甲参加比赛
D.,乙比甲成绩稳定,应选乙参加比赛
【答案】D
【解析】由茎叶图可知,甲的平均数是,
乙的平均数是,
所以乙的平均数大于甲的平均数,即,
从茎叶图可以看出乙的成绩比较稳定,应选乙参加比赛.
故选:D.
【变式2-2】(2021·辽宁高三月考)某大学共有名学生,为了了解学生课外图书阅读量情况,该校随机地从全校学生中抽取名,统计他们每年阅读的书籍数量,由此来估计全体学生当年的阅读书籍数量的情况,下列估计中正确的是(注:同一组数据用该组区间的中点值作为代表)( )
A.中位数为 B.众数为
C.平均数为 D.该校读书不低于本的人数约为人
【答案】C
【解析】A:由图知:中位数在,所以,解得,错误;
B:由图知:众数在,故众数为,错误;
C:平均数为,正确;
D:由图知:该校读书不低于本的频率之和为,所以该校读书不低于本的人数约为人.故选:C
【变式2-3】(2021·四川省资阳中学高三月考)某歌手电视大奖赛中,七位评委对某选手打出如下分数:,则其百分位数为________.
【答案】
【解析】由题意可知,共有个数据并且已经按照从小到大的顺序排列,其百分位数即为这组数据的中位数,所以其百分位数是第个数据为.
故答案为:
考点3 特征数的运用
【例3-1】(2021·广东高三开学考试)四名同学各掷骰子五次,分别记录每次骰子出现的点数.根据四名同学的统计结果,可以判断出一定没有出现点数6的是( ).
A.平均数为3,中位数为2 B.中位数为3,众数为2
C.平均数为2,方差为2.4 D.中位数为3,方差为2.8
【答案】C
【解析】对于A,当投掷骰子出现结果为1,1,2,5,6时,满足平均数为3,中位数为2,可以出现点数6,故A错误;
对于B,当投掷骰子出现结果为2,2,3,4,6时,满足中位数为3,众数为2,可以出现点数6,故B错误;
对于C,若平均数为2,且出现6点,则方差S2>(6﹣2)2=3.2>2.4,
∴平均数为2,方差为2.4时,一定没有出现点数6,故C正确;
对于D,当投掷骰子出现结果为1,2,3,3,6时,满足中位数为3,
平均数为:=(1+2+3+3+6)=3
方差为S2=[(1﹣3)2+(2﹣3)2+(3﹣3)2+(3﹣3)2+(6﹣3)2]=2.8,可以出现点数6,故D错误.
故选:C.
【例3-2】(2021·全国高三(理))在某次射击比赛中,甲、乙两人各射击5次,射中的环数如图,则下列说法正确的是( )
A., B.,
C., D.,
【答案】C
【解析】由图可知,甲射击5次所得环数分别为:9,8,10,9,10;
乙射击5次所得环数分别为:6,9, 9,8,10;
故,
,
,
,
故选:C.
【例3-3】(2021·辽宁高三开学考试)一样本的频率分布直方图如图所示,样本数据共分3组,分别为[5,10),[10,15),[15,20].估计样本数据的第60百分位数是( )
A.14 B.15 C.16 D.17
【答案】A
【解析】由题图知,数据落在区间[5,10)上的频率为0.04×(10-5)=0.20,数据落在区间[10,15)上的频率为0.10×5=0.50,所以第60百分位数是10+5×=14.
故选:A
【变式3-1】(2021·山东青岛·高三开学考试)已知一个样本,样本容量为10,平均数为15,方差为3,现从样本中去掉一个数据,此时样本的平均数为,方差为,则( )
A., B.,
C., D.,
【答案】C
【解析】设个数据为,因为,所以;
又因为,且,所以,
故选:C.
【变式3-2】(2021·安徽高三)某公司计划招收500名新员工,共报名了2000人,远超计划,故该公司采用笔试的方法进行选拔,并按照笔试成绩择优录取.现采用随机抽样的方法抽取200名报名者的笔试成绩,绘制频率分布直方图如下:
则录取分数线可估计为( )
A.70.5 B.72.5 C.75.5 D.77.5
【答案】D
【解析】.因此的人不能录取.
由频率分布直方图得70分以下的频率为,80分以下的频率为,
设录取分数线为,则,解得.
故选:D.
【变式3-3】(多选)(2021·广东高三月考)某高中有学生人,其中男生人,女生人,希望获得全体学生的身高信息,按照分层抽样的原则抽取了容量为的样本.经计算得到男生身高样本均值为,方差为;女生身高样本均值为,方差为.下列说法中正确的是( )
A.男生样本量为 B.每个女生入样的概率均为
C.所有样本的均值为 D.所有样本的方差为
【答案】AC
【解析】对于A:抽样比为,所以样本中男生有人,故选项A正确;
对于B:每个女生入样的概率等于抽样比,故选项B不正确;
对于C:由分层抽样知,样本中男生有人,男生有人,所有的样本均值为:,故选项C正确;
对于D:设男生分别为,,,,平均数,,女生分别为,,,,平均数,,总体的平均数为,方差为,
因为
,
而,
所以,
同理可得,
所以,
故选项D不正确;
故选:AC
【变式3-4】(2021·全国高三)某地为践行“绿水青山就是金山银山”的人与自然和谐共生的发展理念,对境内企业产生的废水进行实施监测,如图所示茎叶图是对,两家企业10天内产生废水的某项指标值的检测结果,下列说法正确的是( )
A.,两家企业指标值的极差相等
B.企业的指标值的中位数较大
C.企业的指标值众数与中位数相等
D.,企业的指标值的平均数相等
【答案】C
【解析】企业的极差是,企业的极差是,两者不相等,故A选项错误;
企业的中位数是,企业的中位数是68,故企业的中位数较大,故B选项错误;
企业的众数为68,与中位数相同,故C选项正确;
企业的平均数是,企业的平均数是
,不相等,故D选项错误,
故选:C.
考点4 线性回归方程
【例4-1】(2021·江苏徐州·高三)对于数据组,如果由线性回归方程得到的对应于自变量的估计值是,那么将称为相应于点的残差.某工厂为研究某种产品产量(吨)与所需某种原材料吨)的相关性,在生产过程中收集4组对应数据如下表所示:
3 4 5 6
2.5 3 4
根据表中数据,得出关于的线性回归方程为,据此计算出样本点处的残差为-0.15,则表中的值为( )
A.3.3 B.4.5 C.5 D.5.5
【答案】B
【解析】由题意可知,在样本(4,3)处的残差-0.15,则,即,
解得,即,
又,且线性方程过样本中心点(,),
则,则,解得.
故答案为:B
【例4-2】(2021·全国高三月考)击鼓传花,也称传彩球,是中国民间游戏,数人或几十人围成圆圈坐下,其中一人拿花(或一小物件);另有一人背着大家或蒙眼击鼓(桌子、黑板或其他能发出声音的物体),鼓响时众人开始传花(顺序不定),至鼓停止为止.此时花在谁手中(或其座位前),谁就上台表演节目,某单位组织团建活动,9人一组,共10组,玩击鼓传花,(前五组)组号与组内女性人数统计结果如表:
1 2 3 4 5
2 2 3 3 4
(Ⅰ)女性人数与组号(组号变量依次为1,2,3,4,5,…)具有线性相关关系,请预测从第几组开始女性人数不低于男性人数;
参考公式:
(Ⅱ)从10组中随机抽取3组,求若3组中女性人数不低于5人的有组,求的分布列与期望;
(Ⅲ)游戏开始后,若传给相邻的人得1分,间隔人传得2分,每击一次鼓传一次花,得1分的概率为0.2,得2分的概率为0.8.记鼓声停止后得分恰为分的概率为,求.
【答案】(Ⅰ)从第8组开始女性人数不低于男性人数;(Ⅱ)分布列见解析,;(Ⅲ).
【解析】(Ⅰ)由题可得,
,.
则,,
∴,当时,,
∴预测从第8组开始女性人数不低于男性人数.
(Ⅱ)由题可知的所有可能取值为0,1,2,3,
,,
,,
则的分布列为
0 1 2 3
∴.
(Ⅲ)在得分为分的基础上再传一次,则得分可能为分或分,记“合计得分”为事件,“合计得分”为事件,事件与为对立事件.
∵,,∴,
∴.
【变式4-1】(2021·全国高三专题练习(文))某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价(元) 4 5 6 7 8 9
销量(件) 90 84 83 80 75 68
由表中数据,求得线性回归方程=-4x+a,若在这些样本点中任取一点,则它在回归直线右上方的概率为( )
A. B. C. D.
【答案】C
【解析】因为,,
所以,即满足的点有,共3个
所以在这些样本点中任取一点,则它在回归直线右上方的概率为,
故选:C
【变式4-2】(2021·贵州贵阳·(理))据贵州省气候中心报,2021年6月上旬,我省降水量在15.2-170.3mm之间,毕节市局地、遵义市北部、铜仁市局地和黔东南州东南部不足50mm,其余均在50mmm以上,局地超过100mm.若我省某地区2021年端午节前后3天,每一天下雨的概率均为.通过模拟实验的方法来估计该地区这3天中恰好有2天下雨的概率,利用计算机或计算器可以产生0到9之间取整数值的随机数(,且)表示是否下雨:当时表示该地区下雨,当时,表示该地区不下雨.因为是3天,所以每三个随机数作为一组,从随机数表中随机取得20组数如下:
332 714 740 945 593 468 491 272 073 445
992 772 951 431 169 332 435 027 898 719
(1)求出k的值,使得该地区每一天下雨的概率均为;并根据上述20组随机数估计该地区这3天中恰好有2天下雨的概率;
(2)2016年到2020年该地区端午节当天降雨量(单位:mm)如表:
时间 2016年 2017年 2018年 2019年 2020年
年份 1 2 3 4 5
降雨量 28 27 25 23 22
经研究表明:从2016年到2020年,该地区端午节有降雨的年份的降雨量与年份具有线性相关关系,求回归直线方程.并预测该地区2022年端午节有降雨的话,降雨量约为多少?
参考公式:,.
【答案】(1)4, ;(2),.
【解析】(1)由题意可知,,解得,即表示下雨,表示不下雨.
所给的20组数据中,,,,,,,,共组表示天中恰好有天下雨,故所求的概率为.
(2)由题中所给的数据可得,,
所以,,
所以回归方程为,当时,.
所以该地区年端午节有降雨的话,降雨量约为.
【变式4-3】(2021·孟津县第一高级中学)西部某深度贫困村,从2014—2019年的人均纯收入(单位:千元)情况如下表,时间变量从2014-2019年的值依次为1,2,……6.
2014—2019年的人均纯收入情况表:
年份 2014 2015 2016 2017 2018 2019
人均纯收入(千元) 2.6 3.0 3.6 3.9 4.4 5.1
(1)在图中画出表中数据的散点图,根据散点图,是否可用线性回归模型拟合与的关系,请用相关系数加以说明;
(2)建立关于的回归方程(保留两位小数),预测该村2020年的人均纯收入为多少?
附注:参考数据:,,,,.
参考公式:相关系数,
回归方程中斜率和截距的最小二乘法估计公式分别为:,.
【答案】(1)散点图见解析;可以用线性回归方程拟合与的关系;说明见解析;(2);该村2020年人均收入约为5450元左右.
【解析】(1)作出散点图如图:
由散点图可知各点大致分布在一条直线附近,
,
因为与的相关系数约为0.99,说明与的相关程度是很高的,所以可以用线性回归方程拟合与的关系.
(2),所以回归直线方程,
,即该村2020年人均收入约为5450元左右.
考点5 非线性回归方程
【例5-1】(2021·安徽马鞍山·高三(理))2020年初,从非洲蔓延到东南亚的蝗虫灾害严重威胁了国际农业生产,影响了人民生活.世界性与区域性温度的异常 早涝频繁发生给蝗灾发生创造了机会.已知蝗虫的产卵量与温度的关系可以用模型拟合,设,其变换后得到一组数据:
由上表可得线性回归方程,则( )
A. B. C. D.
【答案】B
【解析】由表格数据知:,,
代入得:,,即,
,.
故选:B.
【例5-2】(2021·重庆市第十一中学校高三月考)某创业者计划在南山旅游景区附近租赁一套农房发展成特色“农家乐”,为了确定未来发展方向,此创业者对该景区附近五家“农家乐”跟踪调查了100天,这五家“农家乐”的收费标准互不相同,得到的统计数据如下表,x为收费标准(单位:元/日),t为入住天数(单位:天),以入住天数的频率作为各自的“入住率”,收费标准x与入住率y的散点图如图.
x 100 150 200 300 450
y 90 65 45 30 20
(1)若从以上五家“农家乐”中随机抽取两家深入调查,记为“入住率”超过的农家乐的个数,求的分布列;
(2)令,由散点图判断与哪个更合适于此模型(给出判断即可,不必说明理由)?并根据你的判断结果求回归方程;(,的结果精确到)
(3)根据第(2)问所求的回归方程,试估计收费标准为多少时,100天销售额Q最大?(100天销售额入住率收费标准x)
参考数据:,,,,,,,,,.
【答案】(1)分布列见解析;(2)更适合于此模型,回归方程为;(3)150(元/日).
【解析】(1)的所有可能取值为0,1,2,
则,,
∴的分布列是
0 1 2
(2)由散点图可知更适合于此模型.
依题意,,
则,,
所求的回归方程为.
(3)依题意,,则,
由,得,,由,得,,
∴在上递增,在上递减,∴当时,取到最大值.
∴当收费标准约为150(元/日)时,100天销售额L最大.
【变式5-1】(2021·山西高三)某公交公司推出扫码支付乘车优惠活动,活动为期两周,活动的前五天数据如下表:
第天 1 2 3 4 5
使用人数() 15 173 457 842 1333
由表中数据可得y关于x的回归方程为,则据此回归模型相应于点(2,173)的残差为( )
A. B. C.3 D.2
【答案】B
【解析】令,则,
1 4 9 16 25
使用人数() 15 173 457 842 1333
,,
所以,
所以,
当时,,
所以残差为.
故选:B
【变式5-2】(2021·贵州高三月考)数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行 每-列 每一个粗线宫(3×3)内的数字均含1~9,且不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛.
(1)赛前小明在某数独上进行了一段时间的训练,每天解题的平均速度(秒/题)与训练天数(天)有关,经统计得到如下数据:
(天) 1 2 3 4 5 6 7
(秒/题) 910 800 600 440 300 240 210
现用作为回归方程模型,请利用表中数据,求出该回归方程(,用分数表示).
(2)小明和小红在数独上玩“对战赛”,每局两人同时开始解一道数独题,先解出题的人获胜,不存在平局,两人约定先胜局者赢得比赛.若小明每局获胜的概率为,且各局之间相互独立,设比赛局后结束,求随机变量的分布列及期望.参考数据(其中):
1750 0.37 0.55
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为
【答案】(1);(2)分布列见解析,数学期望.
【解析】(1)因为,,所以.
因为,
所以,
所以,所以,
所以所求回归方程为;
(2)随机变量X的可能取值为3,4,5,,
,.
所以随机变量X的分布列为
.
【变式5-3】(2021·全国高三课时练习)某芯片公司为制订下一年的研发投入计划,需了解年研发资金投入量(单位:亿元)对年销售额(单位:亿元)的影响,该公司对历史数据进行对比分析,建立了两个函数模型:①,②,其中,,,均为常数,为自然对数的底数.现该公司对收集的近12年的年研发资金投入量和年销售额()的数据作了初步处理,令,,经计算得到如下数据:
20 66 770 200 460 4.2
3125000 21500 0.308 14
(1)设和的样本相关系数为,和的样本相关系数为,请从样本相关系数(精确到0.01)的角度判断,哪个模型拟合效果更好;
(2)(i)根据(1)的选择及表中数据,建立关于的非线性经验回归方程;
(ii)若下一年销售额需达到90亿元,预测下一年的研发资金投入量约为多少亿元?
参考数据为,,.
【答案】(1)模型的拟合效果更好;(2)(i);(ii)36.66亿元.
【解析】(1),
,
因为,所以从样本相关系数的角度判断,模型的拟合效果更好.
(2)(i)先建立关于的经验回归方程.
由,得,即.,
,所以关于的经验回归方程为,
所以,即.
(ii)若下一年销售额需达到90亿元,则由,得,
又,所以,所以,
所以预测下一年的研发资金投入量约为36.66亿元.
考点6 独立性检验
【例6-1】(2021·河南高三月考)某外语学校要求学生从德语和日语中选择一种作为“第二外语”进行学习,为了解选择第二外语的倾向与性别的关系,随机抽取名学生,得到下面的数据表:
选择德语 选择日语
男生
女生
根据表中提供的数据可知( )
附:,.
A.在犯错误的概率不超过的前提下,认为选择第二外语的倾向与性别无关
B.在犯错误的概率不超过的前提下,认为选择第二外语的倾向与性别有关
C.有的把握认为选择第二外语的倾向与性别无关
D.有的把握认为选择第二外语的倾向与性别有关
【答案】D
【解析】由题意得,
所以有的把握认为选择第二外语的倾向与性别有关,或在犯错误的概率不超过的前提下,认为选择第二外语的倾向与性别有关,
故选:D
【例6-2】(2021·山东省淄博实验中学高三月考)电子邮件是一种用电子手段提供信息交换的通信方式,是互联网应用最广的服务.我们在使用电子邮件时发现一个有趣的现象:中国人的邮箱名称里含有数字的比较多,而外国人邮箱名称里含有数字的比较少.为了研究邮箱名称里含有数字是否与国籍有关,随机调取了40个邮箱名称,得到如下2×2列联表:
中国人 外国人 总计
邮箱名称里有数字 15 5 20
邮箱名称里无数字 5 15 20
总计 20 20 40
(1)根据小概率值的独立性检验,分析“邮箱名称里含有数字与国籍”是否有关?
(2)用样本估计总体,将频率视为概率.在中国人邮箱名称里和外国人邮箱名称里各随机抽取6个邮箱名称,记“6个中国人邮箱名称里恰有3个含有数字”的概率为,“6个外国人邮箱名称里恰有3个含有数字”的概率为,试比较与的大小.
参考公式和数据:
0.10 0.05 0.025 0.010 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
【解析】(1)零假设:“邮箱名称里含有数字与国籍”无关.
,
故没有充分的依据推断零假设不成立,
因此可以认为成立,即认为“邮箱名称里含有数字与国籍”无关.
(3)用样本估计总体,将频率视为概率,
根据列联表,中国人邮箱名称里含数字的概率为,
外国人邮箱名称里含数字的概率为.
设“6个中国人邮箱名称里含数字”的人数为随机变量,
“6个外国人邮箱名称里含数字”的人数为随机变量,
根据题意得:,.
则,.
所以.
【变式6-1】(2021·定远县育才学校高三开学考试)春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到列联表:
分类 做不到“光盘” 能做到“光盘”
男 45 10
女 30 15
由此列联表得到的正确结论是( )
A.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”
D.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别无关”
【答案】C
【解析】列联表如下:
分类 做不到“光盘” 能做到“光盘” 总计
男 45 10 55
女 30 15 45
总计 75 25 100
所以,且,
所以在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”.
故选:C
【变式6-2】(2021·云南昆明市·高三(理))一种配件的标准尺寸为,误差不超过均为合格品,其余为不合格品.科研人员在原有生产工艺的基础上,经过技术攻关,推出一种新的生产工艺.下面的表格分别给出了用两种工艺生产的20个配件的尺寸(单位:):
新工艺 500 499 503 500 505 500 502 499 500 498
502 496 498 501 500 497 498 503 500 499
旧工艺 497 502 499 495 502 494 500 496 506 503
499 496 505 498 503 502 496 498 501 505
(1)完成下面的列联表,并分别计算用新、旧两种工艺生产的配件的合格率;
合格品 不合格品 合计
新工艺
旧工艺
合计
(2)根据所得样本数据判断,能否有95%的把握认为用两种工艺生产的配件合格率有差异?
,
0.15 0.050 0.025 0.005
2.072 3.841 5.024 7.879
【答案】(1)填表见解析;新工艺生产的配件的合格率:,用旧工艺生产的配件的合格率:;(2)有95%的把握认为用两种工艺生产的配件合格率有差异.
【解析】(1)列联表如下:
合格品 不合格品 合计
新工艺 18 2 20
旧工艺 12 8 20
合计 30 10 40
新工艺生产的配件的合格率:,
用旧工艺生产的配件的合格率:.
(2),
因为,
所以,根据所得样本数据判断,有95%的把握认为用两种工艺生产的配件合格率有差异.
【变式6-3】(2021·全国高三月考)机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道时,应当停车让行,俗称“礼让行人”.下表是某市一主干道路口监控设备所抓拍的个月内驾驶员不“礼让行人”行为统计数据:
月份
违章驾驶人次
(1)由表中看出,可用线性回归模型拟合违章驾驶人次与月份之间的关系,求关于的回归直线方程,并预测该路口月份不“礼让行人”的违章驾驶人次;
(2)交警从这个月内通过该路口的驾驶员中随机抽查人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:
不“礼让行人” “礼让行人”
驾龄不超过年
驾龄年以上
能否据此判断有的把握认为“礼让行人”行为与驾龄有关?
附:,,(其中).
【答案】(1),该路口月份不“礼让行人”的违章驾驶人次预测为人次;(2)有的把握认为“礼让行人”行为与驾龄有关.
【解析】(1)由表格数据得:,,
,
,
所求的回归直线方程为.
令,则,即该路口月份不“礼让行人”的违章驾驶人次预测为人次.
(2)由表中的数据可得:,
根据临界值可得:有的把握认为“礼让行人”行为与驾龄有关.
【变式6-4】(2021·贵州高三月考)某校八年级学生参加“史、地、生会考”,成绩分为、、、四个档次,随机抽取了名同学(男生占)的成绩,统计并制作了如图所示的条形图.已知档学生的人数占总人数的.
(1)求与的值;
(2)若将学生成绩在、档称为成绩优异,将学生成绩在、档称为成绩非优异.已知在、档中,女生与男生的比例为,以抽取的名学生作为研究对象,完成下面的列联表,并判断是否有的把握认为成绩是否优异与性别有关.
男生 女生 合计
成绩优异
成绩非优异
合计
附:,其中.
【答案】(1),;(2)列联表见解析,有把握.
【解析】(1)由题意,可得,所以,所以,;
(2)男生总人数为,、档中,女生的人数为,
所以,列联表如表所示:
男生 女生 合计
成绩优异
成绩非优异
合计
,
所以有的把握认为成绩是否优异与性别有关