(共80张PPT)
上篇 专题四 概率与统计
第1讲 统计与统计案例
高考定位
1.抽样方法、样本的数字特征、统计图表、回归分析与独立性检验主要以选择题、填空题形式命题,难度较小;2.注重知识的交汇渗透,统计与概率、统计案例是近年命题的热点,2019年、2020年和2021年在解答题中均有考查.
真题感悟 考点整合
热点聚焦 分类突破
专题训练 对接高考
内容索引
真题感悟 考点整合
1
AC
1.(多选)(2021·新高考Ⅱ卷)下列统计量中,能度量样本x1,x2,…,xn的离散程度
的是( )
A.样本x1,x2,…,xn的标准差 B.样本x1,x2,…,xn的中位数
C.样本x1,x2,…,xn的极差 D.样本x1,x2,…,xn的平均数
解析 由标准差的定义可知,标准差考查的是数据的离散程度;由中位数的定义可知,中位数考查的是数据的集中趋势;由极差的定义可知,极差考查的是数据的离散程度;由平均数的定义可知,平均数考查的是数据的集中趋势;故选AC.
2.(2021·全国乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7
新设备 10.1 10.4 10.1 10.0 10.1 10.3 10.6 10.5 10.4 10.5
所以新设备生产产品的该项指标的均值较旧设备有显著提高.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
解 样本(xi,yi)(i=1,2,…,20)的相关系数
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
解 分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关性.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
1.抽样方法
抽样方法包括简单随机抽样、分层抽样,两种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围.
2.统计中的四个数据特征
3.频率分布直方图的两个结论
4.回归分析与独立性检验
y1 y2 合计
x1 a b a+b
x2 c d c+d
合计 a+c b+d n
2
热点聚焦 分类突破
热点一 用样本估计总体
B
A.这14天中有4天空气质量为“良”
B.这14天中空气质量指数的中位数是103
C.从2日到5日空气质量越来越差
D.连续三天中空气质量指数方差最小的是9日到11日
解析 在这14天中,1日、3日、12日、13日的空气质量为良,共4天,故A正确.
从2日到5日,空气质量指数越来越高,故空气质量越来越差,C正确.
观察题图可得,9日至11日空气质量指数偏差最小,因此方差最小,D正确.
综上知,说法不正确的是B.
(2)2020年我国突发新冠肺炎疫情,疫情期间中小学生“停课不停学”.已知某地区中小学生人数情况如甲图所示,各学段学生在疫情期间“家务劳动”的参与率如乙图所示.为了进一步了解该地区中小学生参与“家务劳动”的情况,现用分层抽样的方法抽取4%的学生进行调查,则抽取的样本容量、抽取的高中生中参与“家务劳动”的人数分别为( )
C
A.2 750,200 B.2 750,110 C.1 120,110 D.1 120,200
解析 学生总数为15 500+5 000+7 500=28 000(人),由于抽取4%的学生进行调查,则抽取的样本容量为28 000×4%=1 120.
故高中生应抽取的人数为5 000×4%=200,而抽取的高中生中参与“家务劳动”的比率为0.55,故抽取的高中生中参与“家务劳动”的人数为200×0.55=110.
探究提高
【训练1】 (1)(多选)下列说法中,正确的是( )
BCD
根据众数、中位数、平均数的含义,B,C,D均正确.
(2)(多选)(2021·湖北名校联考)2020年上半年,中国养猪企业受猪价高位的利好影响,大多收获史上最佳半年报业绩,部分企业半年报营业收入同比增长超过1倍.某养猪场抓住机遇,加大了生猪养殖规模,为了检测生猪的养殖情况,该养猪场对2 000头生猪的体重(单位:kg)进行了统计,得到如图所示的频率分布直方图,则下列说法正确的是( )
BCD
A.这2 000头生猪体重的众数为160 kg
B.这2 000头生猪中体重不低于200 kg的有80头
C.这2 000头生猪体重的中位数落在区间[140,160)内
D.这2 000头生猪体重的平均数为152.8 kg
解析 由频率分布直方图可知,[140,160)这一组的数据对应的小长方形最高,所以这2 000头生猪的体重的众数为150 kg,A错误;这2 000头生猪中体重不低于200 kg的有0.002×20×2 000=80(头),B正确;因为生猪的体重在[80,140)内的频率为(0.001+0.004+0.01)×20=0.3,在[140,160)内的频率为0.016×20=0.32,且0.3+0.32=0.62>0.5,所以这2 000头生猪体重的中位数落在区间[140,160)内,C正确;这2 000头生猪体重的平均数为(0.001×90+0.004×110+0.01×130+0.016×150+0.012×170+0.005×190+0.002×210)×20=152.8(kg),D正确.
考向2 用样本的频率分布估计总体分布
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值;
解 由已知得0.70=a+0.20+0.15,
故a=0.35,
b=1-0.05-0.15-0.70=0.10.
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
解 甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
1.平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义.
2.在例2中,抓住频率分布直方图各小长方形的面积之和为1,这是求解的关键;本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.
探究提高
ABC
A.样本在区间[500,700]内的频数为18
B.如果规定年收入在300万元以内的企业才能享受减免税收政策,估计有30%的当地中小型企业能享受到减免税收政策
C.样本的中位数大于350万元
D.可估计当地中小型企业年收入的平均数超过400万元(同一组中的数据用该组区间的中点值作代表)
解析 依题意,(0.001+0.002+0.002 6×2+a+0.000 4)×100=1,
所以a=0.001 4.
对于A,样本在[500,700]内的频率为(0.001 4+0.000 4)×100=0.18,
故频数为0.18×100=18,故A正确.
对于B,年收入在300万元以内的频率为(0.001+0.002)×100=0.3,故B正确.
对于C,设样本的中位数为x,易知中位数位于[300,400]内,则0.3+(x-300)×0.002 6=0.5,解得x≈376.9,376.9>350,故C正确.
因为样本的平均数为150×0.1+250×0.2+350×0.26+450×0.26+550×0.14+650×0.04=376<400,
所以估计当地中小型企业年收入的平均数小于400万元,故D错误.
热点二 回归分析
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程.
故年宣传费为46.24千元时,年利润的预报值最大.
1.求回归直线方程的关键及实际应用
(1)关键:正确理解,的计算公式并准确地计算.
(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
2.相关系数
(1)当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.
(2)当|r|>0.75时,认为两个变量具有较强的线性相关关系.
探究提高
【训练3】 (多选)(2021·湖北十一校一联)我国5G技术研发试验在2016~2018年进行,分为5G关键技术试验、5G技术方案验证和5G系统验证三个阶段.2020年初以来,5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升.某手机商城统计了2021年5个月5G手机的实际销量,如下表所示:
月份 2021年1月 2021年2月 2021年3月 2021年4月 2021年5月
月份编号x 1 2 3 4 5
销量y/部 50 96 a 185 227
AB
热点三 独立性检验
SO2 PM2.5 [0,50) [50,150) [150,475]
[0,35] 32 18 4
(35,75] 6 8 12
(75,115] 3 7 10
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
SO2 PM2.5 [0,150) [150,475]
[0,75]
(75,115]
解 根据抽查数据,可得2×2列联表:
SO2 PM2.5 [0,150) [150,475]
[0,75] 64 16
(75,115] 10 10
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?
P(K2≥k0) 0.050 0.010 0.001
k0 3.841 6.635 10.828
由于7.484>6.635,
故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
探究提高
【训练4】 甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
解 根据2×2列联表知:
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
又P(K2≥6.635)=0.010,
故有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.
专题训练 对接高考
3
巩固提升
一、选择题
1.设一组样本数据x1,x2,…,xn的方差为0.01,则数据10x1,10x2,…,10xn的方差为( )
A.0.01 B.0.1 C.1 D.10
解析 10x1,10x2,…,10xn的方差为102×0.01=1.
C
A.160 B.163 C.166 D.170
C
B
解析 因为直径落在区间[5.43,5.47)内的频率为0.02×(6.25+5.00)=0.225,所以零件的个数为0.225×80=18.
4.某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )
D
A.各月的平均最低气温都在0 ℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于20 ℃的月份有5个
解析 由雷达图易知A,C正确;
七月的平均最高气温超过20 ℃,平均最低气温约为12 ℃,一月的平均最高气温约为6 ℃,平均最低气温约为2 ℃,所以七月的平均温差比一月的平均温差大,B正确;
由雷达图知平均最高气温超过20 ℃的月份有3个月,D错误.
5.(多选)(2021·南京市调研)5G时代已经到来,5G的发展将直接带动包括运营、制造、服务在内的通信行业整体的快速发展,进而对GDP增长产生直接贡献,并通过产业间的关联效应,间接带动国民经济各行业的发展,创造出更多的经济增加值.如图,某单位结合近年数据,对今后几年的5G经济产出作出预测.
由上图提供的信息可知( )
A.运营商的经济产出逐年增加
B.设备制造商的经济产出前期增长较快,后期放缓
C.设备制造商在各年的总经济产出中一直处于领先地位
D.信息服务商与运营商的经济产出的差距有逐步拉大的趋势
解析 对于A,由图知,运营商的经济产出逐年增加,故A正确;对于B,由图知,设备制造商的经济产出在2020~2023年间增长较快,后几年增长逐渐趋于平缓,故B正确;对于C,由图可知,设备制造商在各年的总经济产出中在前期处于领先地位,而后期是信息服务商处于领先地位,故C错误;对于D,由图知,在2020~2025年间信息服务商与运营商的经济产出的差距不大,后几年中信息服务商的经济产出增长速度明显高于运营商的经济产出增长速度,两者间的差距有逐步拉大的趋势,故D正确.综上所述,选ABD.
ABD
A
二、填空题
7.给出如下列联表:
患心脏病 患其他病 总计
高血压 20 10 30
非高血压 30 50 80
总计 50 60 110
99%
解析 由列联表中的数据可得K2的观测值
根据参考数据
P(K2≥6.635)≈0.01,P(K2≥10.828)≈0.001,
所以有99%以上的把握认为高血压与患心脏病有关.
解析 由图可知,30名学生的得分情况依次为得3分的有2人,得4分的有3人,得5分的有10人,得6分的有6人,得7分的有3人,得8分的有2人,得9分的有2人,得10分的有2人.
中位数为第15、16个数(分别为5、6)的平均数,即me=5.5.
5出现的次数最多,故m0=5,
①②③
解析 由题意可知,甲的标准差为2.04元,乙的标准差为9.63元,可知股票甲在这一年中波动相对较小,表现的更加稳定,故①正确;甲的极差是6.88元,乙的极差为27.47元,可知购买股票乙风险高但可能获得高回报,故②正确;通过折线图可知股票甲的走势相对平稳,股票乙的收盘价格波动较大,故③正确;通过折线图可得乙在6月到8月明显是下降趋势,故④错误.
三、解答题
10.某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意 不满意
男顾客 40 10
女顾客 30 20
(1)分别估计男、女顾客对该商场服务满意的概率;
P(K2≥k0) 0.050 0.010 0.001
k0 3.841 6.635 10.828
由于4.762>3.841,
故有95%的把握认为男、女顾客对该商场服务的评价有差异.
11.某互联网公司为了确定下季度的前期广告投入计划,收集了近6个月广告投入量x(单位:万元)和收益y(单位:万元)的数据如表:
月份 1 2 3 4 5 6
广告投入量 2 4 6 8 10 12
收益 14.21 20.31 31.8 31.18 37.83 44.67
(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由;
解 由于模型①残差波动小,应该选择模型①.
解 (ⅰ)剔除异常数据,即3月份的数据,
(ⅱ)若广告投入量x=18,
则该模型收益的预报值是3×18+8.04=62.04(万元).
能力突破
12.(多选)2020年7月国家统计局发布了我国2020年上半年国内经济数据,图1为国内三大产业生产总值的比重,图2为第三产业中各行业生产总值的比重.以下关于我国2020年上半年经济数据的说法正确的是( )
ABC
A.在第三产业中,“批发和零售业”与“金融业”的生产总值之和同“其他服务业”的生产总值基本持平
B.若“租赁和商务服务业”生产总值为15 000亿元,则“房地产业”生产总值为32 500亿元
C.若“金融业”的生产总值为42 000亿元,则第三产业生产总值为262 500亿元
D.若“金融业”的生产总值为42 000亿元,则第一产业生产总值为45 000亿元
解析 对于选项A,在第三产业中,“批发和零售业”与“金融业”的生产总值之和占比为16%+16%=32%,“其他服务业”的生产总值占比为32%,所以“批发和零售业”与“金融业”的生产总值之和同“其他服务业”的生产总值基本持平,故选项A正确.
13.由于受到网络电商的冲击,某品牌的洗衣机在线下的销售受到影响,承受了一定的经济损失,现将A地区200家实体店该品牌洗衣机的月经济损失统计如图所示,估算月经济损失的平均数为m,中位数为n,则m-n=________.
360
14.某公司为了预测下月产品销售情况,找出了近7个月的产品销售量y(单位:万件)的统计表:
月份代码t 1 2 3 4 5 6 7
销售量y(万件) y1 y2 y3 y4 y5 y6 y7
(1)请用相关系数说明销售量y与月份代码t有很强的线性相关关系;
解 由统计表中的数据和附注中的参考数据得
因为0.99>0.75,
所以销售量y与月份代码t有很强的线性相关关系.
(2)求y关于t的回归方程(系数精确到0.01);
由14.372<15,预测第8个月的毛利润不能突破15万元.