(共73张PPT)
第九章 统计与成对数据的统计分析
第3节 成对数据的统计分析
1.了解样本相关系数的统计含义.
2.了解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题.
目 录
CONTENTS
知识诊断自测
01
考点聚焦突破
02
课时分层精练
03
知识诊断自测
1
ZHISHIZHENDUANZICE
1.变量的相关关系
(1)相关关系的分类:正相关和负相关.
(2)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在__________附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
一条直线
正
负
[-1,1]
强
弱
大
小
(2)独立性检验
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立 ,可以认为X和Y独立.
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
常用结论与微点提醒
×
√
√
×
解析 (1)散点图是判断两个变量是否相关的一种重要方法和手段.
(4)χ2的值越大,相关性越强,关系越密切.
2.(选修三P139T3)根据分类变量x与y的观测数据,计算得到χ2=2.974.依据α=0.05的独立性检验,结论为( )
A.变量x与y不独立
B.变量x与y不独立,这个结论犯错误的概率不超过0.05
C.变量x与y独立
D.变量x与y独立,这个结论犯错误的概率不超过0.05
D
解析 由χ2=2.974<3.841=x0.05,可知x,y独立,这个结论犯错误的概率不超过0.05.
3.(选修三P103T1改编)两个变量的相关关系有:①正相关;②负相关;③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )
D
解析 第一个图大体趋势从左向右上升,故正相关,第二个图不相关,第三个图大体趋势从左向右下降,故负相关,故选D.
A.①②③ B.②③①
C.②①③ D.①③②
ABC
相关系数r的绝对值越接近于1,表示相关程度越强,越接近于0,相关程度越弱,故C正确;
用决定系数R2来刻画回归效果,R2越大,说明模型的拟合效果越好,故D错误.
考点聚焦突破
2
KAODIANJUJIAOTUPO
考点一 成对数据的相关性
例1 (1)(2023·天津卷)调查某种群花萼长度和花瓣长度,所得数据如图所示,其中相关系数r=0.824 5,下列说法正确的是( )
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈负相关
C.花瓣长度和花萼长度呈正相关
D.若从样本中抽取一部分,则这部分的相关系数一定是0.824 5
C
解析 因为相关系数r=0.824 5>0.75,所以花瓣长度和花萼长度的相关性较强,并且呈正相关,所以选项A,B错误,选项C正确;
因为相关系数与样本的数据有关,所以当样本发生变化时,相关系数也会发生变化,所以选项D错误.故选C.
(2)(2024·杭州质检)某兴趣小组研究光照时长x(h)和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,作如图所示的散点图.若去掉D(10,2),则下列说法正确的是( )
A.相关系数r变小
B.决定系数R2变小
C.残差平方和变大
D.解释变量x与预报变量y的相关性变强
D
解析 可知点D偏离程度较大,去掉点D后,相关系数r变大,决定系数R2变大,残差平方和变小,解释变量x与预报变量y的相关性变强.故选D.
感悟提升
判定两个变量相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强.
(3)决定系数法:利用决定系数判定,R2越接近1,模型的拟合效果越好,相关性越强.
训练1 (1)(2023·上海卷)已知某校50名学生的身高与体重的散点图如图所示,则下列说法正确的是( )
A.身高越高,体重越重
B.身高越高,体重越轻
C.身高与体重成正相关
D.身高与体重成负相关
C
解析 由题图可知,身高越高的体重不一定就越重或越轻,但总体上来说,样本学生的身高和体重之间具有明显的相关性,个子高的学生往往更重一些,所以身高与体重成正相关.故选C.
A
考点二 回归分析
角度1 线性回归分析
例2 为实施乡村振兴,科技兴农,某村建起了田园综合体,并从省城请来专家进行技术指导,根据统计,该田园综合体西红柿亩产量的增加量y(千克)与某种液体肥料每亩使用量x(千克)之间的对应数据如下:
x(千克) 2 4 5 6 8
y(千克) 300 400 400 400 500
(1)由上表数据可知,可用经验回归模型拟合y与x的关系,请计算样本相关系数r并加以说明(若|r|>0.75,则线性相关程度很高,可用经验回归模型拟合);
感悟提升
回归分析问题的类型及解题方法
(1)求经验回归方程
①当两个系数均未知时,可利用公式法求解;
②当两个系数已知一个求另一个时,可利用经验回归直线过样本点的中心求解.
(2)利用经验回归方程进行预测,把经验回归方程看作一次函数,求函数值.
(3)经验回归方程的拟合效果可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
训练2 (2024·西安调研)某商业银行对存款利率与日存款总量的关系进行调研,发现存款利率每上升一定的百分点,日均存款总额就会发生一定的变化,经过统计得到下表:
利率上升百分点x 0.1 0.2 0.3 0.4 0.5
日均存款总额
y(亿元) 0.2 0.35 0.5 0.65 0.8
(1)在给出的坐标系中画出上表数据的散点图;
解 如图所示.
解 由表格数据可得
解 设利率需上升x个百分点,
由(2)得,0.625×2=1.5x+0.05,解得x=0.8,
所以预测利率需上升0.8个百分点.
考点三 独立性检验
例4 (2023·全国甲卷改编)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).
试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8
26.5 27.5 30.1 32.6 34.3 34.8 35.6
35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5
18.0 18.8 19.2 19.8 20.2 21.6 22.8
23.6 23.9 25.1 28.2 32.3 36.5
(1)计算试验组的样本平均数;
(2)①求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表:
对照组
试验组
对照组 6 14
试验组 14 6
解 零假设为H0:小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量没有差异.
依据小概率值α=0.050的独立性检验,我们推断H0不成立,所以在犯错误的概率不超过0.050的前提下,即认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异.
感悟提升
训练3 某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次 空气质量等级 [0,200] (200,400] (400,600]
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
解 由所给数据,得该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:
空气质量等级 1 2 3 4
概率的估计值 0.43 0.27 0.21 0.09
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
解 根据所给数据,可得2×2列联表:
人次≤400 人次>400
空气质量好 33 37
空气质量不好 22 8
零假设为H0:一天中到该公园锻炼的人次与该市当天的空气质量无关.
根据小概率值α=0.050的独立性检验,可推断H0不成立,所以在犯错误的概率不超过0.050的前提下,可认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
课时分层精练
3
KESHIFENCENGJINGLIAN
1.某机构为调查网游爱好者是否有性别差异,通过调研数据统计:在500名男生中有200名爱玩网游,在400名女生中有50名爱玩网游.若要确定网游爱好是否与性别有关时,用下列最适合的统计方法是( )
A.均值 B.方差
C.独立性检验 D.回归分析
C
解析 由题意可知,“爱玩网游”与“性别”是两类变量,其是否有关,应用独立性检验判断.
D
解析 r的绝对值越大,m越小,线性相关性越强.
B
C
解析 根据题表中的数据,由题意得
A
ABC
解析 由题意可得
7.(多选)为了解阅读量多少与幸福感强弱之间的关系,一个调查机构根据所得到的数据,绘制了如下所示的2×2列联表(个别数据暂用字母表示):
幸福感强 幸福感弱 合计
阅读量多 m 18 72
阅读量少 36 n 78
合计 90 60 150
计算得:χ2≈12.981,参照下表:
α 0.10 0.05 0.025 0.010 0.005 0.001
xα 2.706 3.841 5.024 6.635 7.879 10.828
对于下面的选项,正确的是( )
A.根据小概率值α=0.010的独立性检验,可以认为“阅读量多少与幸福感强弱无关”
B.m=54
C.根据小概率值α=0.005的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关”
D.n=52
BC
解析 ∵χ2≈12.981>7.879>6.635,
∴根据小概率值α=0.010的独立性检验,可以在犯错误的概率不超过1%的前提下认为“阅读量多少与幸福感强弱有关”,
根据小概率值α=0.005的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关”,∴A错,C正确,
∵m+36=90,18+n=60,∴m=54,n=42,∴B正确,D错.
10
10.一项研究同年龄段的男、女生的注意力差别的脑功能实验,其实验数据如表所示:
性别 注意力 稳定 不稳定
男 29 7
女 33 5
0.538
则χ2=________(精确到小数点后三位),依据概率值α=0.05的独立性检验,该实验______该年龄段的学生在注意力的稳定性上对于性别没有显著差异(填拒绝或支持).
支持
解析 由表中数据可知a=29,b=7,c=33,d=5,n=a+b+c+d=74,
所以没有充分证据认为学生在注意力的稳定性上与性别有关,
即该实验支持该年龄段的学生在注意力的稳定性上对于性别没有显著差异.
(2)该企业改进生产工艺后,生产了批次乙的芯片.某手机厂商获得批次甲与批次乙的芯片,并在某款手机上使用.现对使用这款手机的100名用户回访,对开机速度进行调查.据统计,安装批次甲的有40名,其中对开机速度满意的有30名;安装批次乙的有60名,其中对开机速度满意的有55名.试整理出2×2列联表(单位:名),并依据小概率值α=0.05的独立性检验,分析芯片批次是否与用户对开机速度满意有关.
批次 是否满意 合计
满意 不满意 甲
乙
合计
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
解 零假设为H0:芯片批次与用户对开机速度满意无关,得2×2列联表如下:
批次 是否满意 合计
满意 不满意 甲 30 10 40
乙 55 5 60
合计 85 15 100
所以依据α=0.05的独立性检验,我们推断H0不成立,
所以认为芯片批次与用户对开机速度满意有关,此推断犯错误的概率不大于0.05.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
解 设该林区这种树木的总材积量的估计值为Y m3,
又已知树木的材积量与其根部横截面积近似成正比,
ACD
解析 对于A,由题图知,海拔高度越高,大气压强越小,所以大气压强与海拔高度负相关,故A正确;
对于B,经验回归直线得到的数据为估计值,而非精确值,故B错误;
14.(2024·厦门质检)移动物联网广泛应用于生产制造、公共服务、个人消费等领域.截至2023年底,我国移动物联网连接数达18.45亿户,成为全球主要经济体中首个实现“物超人”的国家.如图是2019~2023年移动物联网连接数W与年份代码t的散点图,其中年份2019~2023对应的t分别为1~5.
(1)根据散点图推断两个变量是否线性相关.计算样本相关系数(精确到0.01),并推断它们的相关程度;
解 由散点图可以看出样本点都集中在一条直线附近,
由此推断两个变量线性相关.(共61张PPT)
第九章 统计与成对数据的统计分析
第2节 用样本估计总体
1.会用统计图表对总体进行估计,会求n个数据的第p百分位数.
2.会用数字特征估计总体集中趋势和总体离散程度.
目 录
CONTENTS
知识诊断自测
01
考点聚焦突破
02
课时分层精练
03
知识诊断自测
1
ZHISHIZHENDUANZICE
1.百分位数
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有______的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
p%
2.众数、中位数、平均数
(1)众数:一组数据中______________的那个数据,叫做这组数据的众数.
(2)中位数:把n个数据按大小顺序排列,处于________位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(3)平均数:把________________称为a1,a2,…,an这n个数的平均数.
出现次数最多
最中间
常用结论与微点提醒
1.思考辨析(在括号内打“√”或“×”)
(1)对一组数据来说,平均数和中位数总是非常接近.( )
(2)一组数据的第p百分位数可以不唯一.( )
(3)方差与标准差具有相同的单位.( )
(4)如果一组数中每个数减去同一个非零常数,则这组数的平均数改变,方差不变.( )
×
√
×
√
解析 (1)平均数指的是这组数据的平均水平;中位数指的是这组数据的中间水平,它们之间没有必然联系,故该说法错误.
(3)方差是标准差的平方,故它们的单位不一样.
2.(必修二P180T1)为了合理调配电力资源,某市欲了解全市50 000户居民的日用电量.若通过简单随机抽样从中抽取了300户进行调查,得到其日用电量的平均数为5.5 kW·h,则可以推测全市居民用户日用电量的平均数( )
A.一定为5.5 kW·h B.高于5.5 kW·h
C.低于5.5 kW·h D.约为5.5 kW·h
D
解析 由样本的数字特征与总体的数字特征的关系,可知全市居民用户日用电量的平均数约为5.5 kW·h.
3.(必修二P213T2改编)若数据x1,x2,…,x9的方差为2,则数据2x1,2x2,…,2x9的方差为( )
A.2 B.4 C.6 D.8
D
解析 根据方差的性质可知,数据x1,x2,…,x9的方差s2=2,
那么数据2x1,2x2,…,2x9的方差为22s2=8.
4.某校体育节10名旗手的身高(单位:cm)分别为175,178,176,180,179,175,176,179,180,179,则中位数为________.
178.5
解析 把10名旗手的身高从小到大排列为175,175,176,176,178,179,179,179,180,180,
考点聚焦突破
2
KAODIANJUJIAOTUPO
考点一 总体百分位数的估计
例1 (1)一个容量为20的样本,其数据按从小到大的顺序排列为:1,2,2,3,5,6,6,7,8,8,9,10,13,13,14,15,17,17,18,18,则该组数据的第75百分位数为________,第86百分位数为________.
14.5
17
解析 ∵75%×20=15,
∵86%×20=17.2,
∴第86百分位数为第18个数据17.
(2)将高三某班60名学生参加某次数学模拟考试所得的成绩(成绩均为整数)整理后画出频率分布直方图如图,则此班的模拟考试成绩的80%分位数是________.(结果保留两位小数)
124.44
解析 由频率分布直方图可知,分数在120分以下的学生所占的比例为(0.01+0.015+0.015+0.03)×10×100%=70%,分数在130分以下的学生所占的比例为(0.01+0.015+0.015+0.03+0.022 5)×10×100%=92.5%,
因此,80%分位数一定位于[120,130)内.
感悟提升
1.计算一组数据的第p百分位数的步骤
2.直方图中可运用面积和求第p百分位数.
训练1 (1)(2024·唐山模拟)某校高三年级一共有1 200名同学参加数学测验,已知所有学生成绩的第80百分位数是103分,则数学成绩不小于103分的人数至少为( )
A.220 B.240 C.250 D.300
B
解析 ∵1 200×80%=960,
∴小于103分的学生最多有960人,
则数学成绩不小于103分的学生至少有1 200-960=240(人).
(2)若数据3.2,3.4,3.8,4.2,4.3,4.5,x,6.6的第65百分位数是4.5,则实数x的取值范围是______________.
[4.5,+∞)
解析 因为8×65%=5.2,所以这组数据的第65百分位数是第6个数据为4.5,
所以应该有5个数据不大于4.5,则x≥4.5.
考点二 总体集中趋势的估计
角度1 样本的数字特征
例2 (1)(多选)给定一组数据5,5,4,3,3,3,2,2,2,1,则这组数据( )
A.众数为2 B.平均数为3
C.方差为1.6 D.标准差为4
BC
解析 由题中数据可得,众数为2和3,故A错误;
(2)(多选)(2023·新高考Ⅰ卷)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则( )
A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数
B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数
C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差
D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差
BD
解析 取x1=1,x2=x3=x4=x5=2,x6=9,
则x2,x3,x4,x5的平均数等于2,标准差为0,
x1,x2,…,x6的平均数等于3,
根据中位数的定义,将x1,x2,…,x6按从小到大的顺序进行排列,中位数是中间两个数的算术平均数,
由于x1是最小值,x6是最大值,故x2,x3,x4,x5的中位数是将x2,x3,x4,x5按从小到大的顺序排列后中间两个数的算术平均数,与x1,x2,…,x6的中位数相等,故B正确;
根据极差的定义,知x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差,故D正确.
角度2 频率分布直方图中的数字特征
例3 在新疆某地收购的一批棉花中随机抽测了100根棉花的纤维长度(单位:mm),得到样本的频数分布表如下:
纤维长度 频数 频率
[0,50) 4 0.04
[50,100) 8 0.08
[100,150) 10 0.10
[150,200) 10 0.10
[200,250) 16 0.16
[250,300) 40 0.40
[300,350] 12 0.12
(1)在图中作出样本的频率分布直方图;
解 样本的频率分布直方图如图所示.
(2)根据(1)中作出的频率分布直方图求这一棉花样本的众数、中位数与平均数,并对这批棉花的众数、中位数和平均数进行估计.
设中位数为x,(x-250)×0.008=50%-48%,
解得x=252.5,即中位数为252.5 mm;
故平均数为222 mm.
由样本的这些数据,可得购进的这批棉花的众数、中位数和平均数分别约为
275 mm,252.5 mm和222 mm.
感悟提升
1.中位数、众数和平均数分别反映了一组数据的“中等水平”“多数水平”和“平均水平”,我们需根据实际需要选择使用.
2.频率分布直方图中的数字特征
(1)众数:最高的矩形底边中点的横坐标.
(2)中位数:中位数左边和右边的矩形的面积和是相等的.
(3)平均数:平均数是频率分布直方图的“重心”,等于频率分布直方图中每个矩形的面积乘以小长方形底边中点的横坐标之和.
训练2 (1)某大学共有12 000名学生,为了了解学生课外图书阅读量情况,该校随机地从全校学生中抽取1 000名,统计他们每年阅读的书籍数量,由此来估计全体学生当年的阅读书籍数量的情况,下列估计中正确的是(注:同一组数据用该组区间的中点值作为代表)( )
A.中位数为6
B.众数为10
C.平均数为6.88
D.该校读书不低于8本的人数约为3 600
C
解析 由图知,中位数x在[4,8)内,
所以0.06×4+0.1×(x-4)=0.5,解得x=6.6,A错误;
由图知,众数在[4,8)内,故众数为6,B错误;
平均数为4×(2×0.06+6×0.1+10×0.07+14×0.015+18×0.005)=6.88,C正确;
由图知,该校读书不低于8本的频率之和为1-0.16×4=0.36,
所以该校读书不低于8本的人数约为0.36×12 000=4 320,D错误.
(2)(2023·上海卷)国内生产总值(GDP)是衡量一个国家或地区经济状况和发展水平的重要指标.根据统计数据显示,某市在2020年间经济高质量增长,GDP稳定增长,第一季度和第四季度的GDP分别为232亿元和241亿元,且四个季度的GDP逐季度增长,中位数与平均数相等,则该市2020年的GDP总额为________亿元.
946
解析 依题意,将2020年四个季度的GDP数据分别记为a1,a2,a3,a4,
则a1=232,a4=241,
考点三 总体离散程度的估计
解 由表格中的数据易得:
感悟提升
标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)较大,数据的离散程度越大;标准差(方差)较小,数据的离散程度越小.
训练3 (2024·济南调研)甲、乙两名学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:
(1)求两位学生预赛成绩的平均数和方差;
(2)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪位学生参加合适?请说明理由.
课时分层精练
3
KESHIFENCENGJINGLIAN
1.(多选)(2021·新高考Ⅱ卷)下列统计量中,能度量样本x1,x2,…,xn的离散程度的是( )
A.样本x1,x2,…,xn的标准差 B.样本x1,x2,…,xn的中位数
C.样本x1,x2,…,xn的极差 D.样本x1,x2,…,xn的平均数
AC
解析 由标准差的定义可知,标准差考查的是数据的离散程度;
由中位数的定义可知,中位数考查的是数据的集中趋势;
由极差的定义可知,极差考查的是数据的离散程度;
由平均数的定义可知,平均数考查的是数据的集中趋势;故选AC.
2.从某中学抽取10名同学,他们的数学成绩如下:82,85,88,90,92,92,92,96,96,98(单位:分),则这10名同学数学成绩的众数、第25百分位数分别为( )
A.92,85 B.92,88
C.95,88 D.96,85
B
解析 数据92出现了3次,出现的次数最多,
所以众数是92;
这组数据已经按照由小到大的顺序排列,计算10×25%=2.5,取第三个数,
所以第25百分位数是88.
3.演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
A.中位数 B.平均数
C.方差 D.极差
A
解析 中位数是将9个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉1个最高分和1个最低分,不变的是中位数,平均数、方差、极差均受影响.
D
5.(多选)(2021·新高考Ⅰ卷)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则( )
A.两组样本数据的样本平均数相同 B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同 D.两组样本数据的样本极差相同
CD
6.(多选)(2024·江苏四市调研)某校1 000名学生在高三一模测试中数学成绩的频率分布直方图如图所示(同一组中的数据用该组区间的中点值作代表),分数不低于X即为优秀,已知优秀学生有80人,则( )
A.a=0.008
B.X=120
C.70分以下的人数约为6人
D.本次考试的平均分约为93.6
AD
解析 对于A,由题图可知20×(0.002+0.014+a+0.004+0.020+0.002)=1,
解得a=0.008,故A正确;
对于B,由题图可知成绩在[110,130)分的学生人数为1 000×0.008×20=160,
成绩在[130,150]分的学生人数为1 000×0.002×20=40,
对于C,70分以下的人数为1 000×20×(0.002+0.004)=120,故C错误;
对于D,平均分为(0.002×40+0.004×60+0.014×80+0.020×100+0.008×120+0.002×140)×20=93.6,故D正确.
7.(2024·T8联考)某同学掷骰子5次,分别记录每次骰子出现的点数,根据5次的统计结果,可以判断一定没有出现点数6的是( )
A.中位数是3,众数是2 B.平均数是3,中位数是2
C.方差是2.4,平均数是2 D.平均数是3,众数是2
C
解析 对于A,当掷骰子出现的结果为2,2,3,5,6时,满足中位数为3,众数为2,可以出现点数6,故选项A不正确;
对于B,当掷骰子出现结果为1,1,2,5,6时,满足平均数为3,中位数为2,可以出现点数6,故选项B不正确;
所以当平均数为2,方差为2.4时,一定不会出现点数6,故选项C正确;
对于D,当掷骰子出现结果为2,2,2,3,6时,满足平均数为3,众数为2,可以出现点数6,故选项D不正确.故选C.
8.已知30个数据的60%分位数是8.2,这30个数据从小到大排列后第18个数据是7.8,则第19个数据是________.
8.6
0
解析 根据众数的定义知,百分率最高的是0.
10.某年级120名学生在一次百米测试中,成绩全部介于13秒与18秒之间.将测试结果分成5组:[13,14),[14,15),[15,16),[16,17),[17,18],得到如图所示的频率分布直方图.如果从左到右的5个小矩形的面积之比为1∶3∶7∶6∶3,那么成绩的70%分位数约为______秒.
16.5
解析 设成绩的70%分位数为x,
解 由题意,求出zi的值如表所示,
所以可认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
12.某家水果店的店长为了解本店苹果的日销售情况,记录了近期连续120天苹果的日销售量(单位:kg),并绘制频率分布直方图如图所示.
(1)请根据频率分布直方图估计该水果店苹果日销售量的众数、中位数和平均数;(同一组中的数据以这组数据所在区间中点的值作代表)
解 由题图可知,区间[80,90)的频率最大,
所以众数为85.
设中位数为x,则0.025+0.1+(x-80)×0.04=0.5,可得x=89.375.
(2)一次进货太多,水果会变得不新鲜;进货太少,又不能满足顾客的需求.店长希望每天的苹果尽量新鲜,又能90%地满足顾客的需求(在10天中,大约有9天可以满足顾客的需求).请问每天应该进多少千克苹果?
解 日销售量在区间[60,100)的频率为0.875<0.9,
日销售量在区间[60,110)的频率为0.975>0.9,
故所求的量位于区间[100,110)内.
由0.9-0.025-0.1-0.4-0.35=0.025,
13.(多选)(2023·海南模拟)环境监测部门统计了甲、乙两个城市去年每天的AQI(空气质量指数),数据按照(0,50],(50,100],…,(200,250]进行分组得到下面的频率分布直方图,已知0<AQI≤50时空气质量等级为优,则( )
ABD
A.甲、乙两城市AQI的中位数的估计
值相等
B.甲、乙两城市AQI的平均数的估计
值相等
C.甲城市AQI的方差比乙城市AQI的
方差小
D.甲城市空气质量为优的天数比乙城市空气质量为优的天数多
解析 A中,根据两个频率分布直方图,甲、乙两个城市去年每天的AQI的中位数均为125,A正确;
B中,设甲、乙两频率分布直方图中小矩形的高度数值如图所示,
则a×50×2+b×50+c×50×2=1,
即50(2a+b+2c)=1,
同理,50(2x+z+2y)=1,
甲城市的AQI的平均数为50c×25.5+50a×75.5+50b×125.5+50a×175.5+50c×225.5=50(250c+250a+125.5b)=50×125.5×(2c+2a+b)=125.5,
乙城市的AQI的平均数为50x×25.5+50y×75.5+50z×125.5+50y×175.5+50x×225.5=50(250x+250y+125.5z)=50×125.5×(2x+2y+z)=125.5.
所以甲、乙两城市AQI的平均数的估计值相等,B正确;
C中,由图可知,乙城市AQI的数据更集中,即方差更小,C错误;
D中,由图可知甲城市AQI在(0,50]的频率大于乙城市AQI在(0,50]的频率,甲城市空气质量为优的天数比乙城市空气质量为优的天数多,故D正确.
14.甲、乙两人在相同条件下各射击10次,每次中靶环数情况如图所示.
解 由题图知,甲射击10次中靶环数分别为9,5,7,8,7,6,8,6,7,7.
将它们由小到大排列为5,6,6,7,7,7,7,8,8,9.
乙射击10次中靶环数分别为2,4,6,8,7,7,8,9,9,10.
将它们由小到大排列为2,4,6,7,7,8,8,9,9,10.
②∵平均数相同,甲命中9环及9环以上的次数比乙少,
∴乙的成绩比甲好些.
③∵甲的成绩在平均数附近上下波动,而乙的成绩处于上升趋势,且从第四次射击开始就没有比甲成绩低的情况发生,
∴乙更有潜力.(共58张PPT)
第九章 统计与成对数据的统计分析
第1节 随机抽样、统计图表
1.理解随机抽样的必要性和重要性.
2.会用简单随机抽样方法从总体中抽取样本,了解分层随机抽样方法,掌握分层随机抽样的样本均值和样本方差.
3.理解统计图表的含义.
目 录
CONTENTS
知识诊断自测
01
考点聚焦突破
02
课时分层精练
03
知识诊断自测
1
ZHISHIZHENDUANZICE
1.简单随机抽样
(1)简单随机抽样分为放回简单随机抽样和不放回简单随机抽样(除非特殊声明,本章所指的简单随机抽样是指不放回简单随机抽样).
(2)简单随机样本:通过简单随机抽样获得的样本称为简单随机样本.
(3)简单随机抽样的常用方法:________和随机数法.
抽签法
分层随机抽样
3.统计图表
(1)常见的统计图表有条形图、扇形图、折线图、频数分布直方图、频率分布直方图等.
(2)频率分布表、频率分布直方图的制作步骤及意义
常用结论与微点提醒
1.思考辨析(在括号内打“√”或“×”)
(1)简单随机抽样中,每个个体被抽到的机会不一样,与先后有关.( )
(2)抽签法和随机数法都是简单随机抽样的方法.( )
(3)分层随机抽样中,每个个体被抽到的可能性与层数及分层有关.( )
(4)频率分布直方图中,小长方形的面积越大,表示样本数据落在该区间的频率越大.( )
×
√
×
√
解析 (1)简单随机抽样中,每个个体被抽到的机会一样,与先后无关.
(3)分层随机抽样中,每个个体被抽到的可能性与层数及分层无关.
2.(必修二P222T1)为了了解某地参加计算机水平测试的5 000名学生的成绩,从中抽取了200名学生的成绩进行调查分析,在这个问题中,被抽取的200名学生成绩是( )
A.总体 B.个体
C.样本 D.样本量
C
解析 由题意可得200名学生成绩是样本.
3.(必修二P184T1改编)已知23名男生的平均身高是170.6 cm,27名女生的平均身高是160.6 cm,则这50名学生的平均身高为________cm.
165.2
4.已知某一段公路限速70千米/时,现抽取400辆通过这一段公路的汽车的速度,其频率分布直方图如图所示,则这400辆汽车中在该路段超速的有________辆.
80
解析 速度在(70,80]内的频率为1-(0.01+0.03+0.04)×10=0.2,
所以在(70,80]内的频数为0.2×400=80.
故这400辆汽车中在该路段超速的有80辆.
考点聚焦突破
2
KAODIANJUJIAOTUPO
考点一 简单随机抽样
例1 (1)(多选)下列抽样方法不是简单随机抽样的是( )
A.在机器传送带上抽取30件产品作为样本
B.从平面直角坐标系中抽取5个点作为样本
C.箱子里共有100个零件,今从中选取10个零件进行检验,在抽样操作时,每次任意地拿出1个零件进行质量检验,检验后不再把它放回箱子里,直到抽取10个零件为止
D.某可乐公司从仓库中的1 000箱可乐中一次性抽取20箱进行质量检查
AB
解析 A不是,因为传送带上的产品数量不确定;
B不是,因为个体的数量无限;
C是,因为满足简单随机抽样的定义;
D是,因为一次性抽取和逐个不放回地随机抽取是等价的.
(2)总体由编号01,02,…,29,30的30个个体组成.利用下面的随机数表选取6个个体,选取方法是从第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )
第1行 78 16 62 32 08 02 62 42
62 52 53 69 97 28 01 98
第2行 32 04 92 34 49 35 82 00
36 23 48 69 69 38 74 81
A.19 B.25 C.26 D.27
B
解析 由随机数法可知,样本的前5个个体的编号分别为23,20,26,24,25,
因此,选出的第5个个体的编号为25.
感悟提升
1.简单随机抽样需满足:(1)被抽取的样本总体的个体数有限;(2)逐个抽取;(3)是不放回抽取;(4)是等可能抽取.(一次性抽取和逐个不放回抽取是等价的)
2.简单随机抽样常有抽签法(适用于总体中个体数较少的情况)、随机数法(适用于个体数较多的情况).
训练1 (1)下列抽取样本的方式属于简单随机抽样的个数为( )
①从无限多个个体中抽取100个个体作为样本.
②盒子里共有80个零件,从中抽取5个零件进行质量检验.在抽样时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.
③从20件玩具中一次性抽取3件进行质量检验.
④某班有56名同学,指定其中个子最高的5名同学参加学校组织的篮球赛.
A.0 B.1 C.2 D.3
B
解析 ①不是简单随机抽样,因为被抽取样本的总体的个数是无限的,而不是有限的;
②不是简单随机抽样.因为它是有放回抽样;
③是简单随机抽样.因为这是“一次性”抽取,等价于“逐个不放回”抽取;
④不是简单随机抽样.因为不是等可能抽样.故选B.
A
考点二 分层随机抽样
例2 (1)(2023·新高考Ⅱ卷改编)某学校为了解学生参加体育运动的情况,用比例分配的分层随机抽样方法作抽样调查,拟从初中部和高中部两层共抽取60名学生,已知该校初中部和高中部分别有400名和200名学生,则在初中部和高中部抽取的人数分别为________.
40,20
(2)某学校高一年级共有3个班,1班有30人,优秀率为30%,2班有35人,优秀率为60%,3班有35人,优秀率为40%,则该校高一年级学生的优秀率为________.
44%
解析 某学校高一年级共有三个班,按优秀率进行评选:
1班30人,优秀率30%,2班35人,优秀率60%,三班35人,优秀率40%,
4
1.5
解析 由高中三个年级学生的总样本平均数为4.1,
感悟提升
训练2 (1)某社区为迎接中秋节,组织了隆重的庆祝活动,为全面了解社区居民的文娱喜好,已知参加活动的老年人、中年人、青年人的人数比为10∶13∶12,如果采用比例分配的分层随机抽样方法从所有人中抽取一个70人的样本进行调查,则应抽取的青年人的人数为( )
A.20 B.22 C.24 D.26
C
(2)某工厂新、旧两条生产线的产量比为7∶3,为了解该工厂生产的一批产品的质量情况,采用比例分配的分层随机抽样的方法从两条生产线抽取样本并计算得:新生产线生产的产品的质量指标的均值为10,方差为1;旧生产线生产的产品的质量指标的均值为9,方差为2,据此估计该批产品的质量指标的均值为________,方差为________.
9.7
1.51
解析 根据两条生产线的产量比为7∶3,且新生产线质量指标的均值为10,方差为1,旧生产线质量指标的均值为9,方差为2,
考点三 统计图表
角度1 扇形图、条形图
例3 (多选)某中学组织三个年级的学生进行禁毒知识竞赛.经统计,得到成绩排在前200名学生分布的扇形图(图1)和其中的高一学生排名分布的频率条形图(图2).则下列命题正确的是( )
AC
解析 对于A,成绩排在前200名的200人中,高二人数比高三人数多200×(30%-25%)=10,故A正确;
对于B,成绩排在第1~50名的50人中,高一人数为200×45%×20%=18,高二和高三的总人数为50-18=32,高二的具体人数不知道,故B错误;
角度2 折线图
例4 (多选)(2024·南京、盐城模拟)新能源汽车包括纯电动汽车、增程式电动汽车、混合动力汽车、燃料电池电动汽车、氢发动机汽车等.我国的新能源汽车发展开始于21世纪初,近年来发展迅速,连续8年产销量位居世界第一.下面两图分别是2018年至2023年我国新能源汽车年产量和占比(占我国汽车年总产量的比例)情况,则( )
A.2018~2023年我国新能源汽车年产量逐年增加
B.2018~2023年我国新能源汽车年产量的极差为626.4万辆
C.2023年我国汽车年总产量超过2 700万辆
D.2020年我国汽车年总产量低于2019年我国汽车年总产量
BCD
解析 对于A,题图1中2020年新能源汽车年产量低于2019年新能源汽车年产量,A错误;
对于B,极差为705.8-79.4=626.4(万辆),B正确;
对于C,2023年我国汽车年总产量为705.8÷25.6%≈2 757(万辆),C正确;
对于D,2020年我国汽车年总产量为124.2÷4.8%≈2 588(万辆),2019年我国汽车年总产量为127÷4.5%≈2 822(万辆),2 588<2 822,D正确.
角度3 频率分布直方图
例5 从某小区抽取100户居民进行月用电量调查,发现其用电量都在50度至350度之间,频率分布直方图如图.
(1)直方图中x的值为________;
(2)在这些用户中,月用电量落在区间[100,250)内的户数为________.
0.004 4
70
解析 (1)由频率分布直方图知数据落在[200,250)内的频率为1-(0.002 4+0.003 6+0.006 0+0.002 4+0.001 2)×50=0.22,
(2)因为数据落在[100,250)内的频率为
(0.003 6+0.006 0+0.004 4)×50=0.7,
所以所求户数为0.7×100=70.
感悟提升
1.通过扇形图可以很清楚地表示出各部分数量同总数之间的关系.
2.折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据变化的趋势.
3.频率分布直方图的数据特点:
(1)频率分布直方图中纵轴上的数据是各组的频率除以组距的结果,不要误以为纵轴上的数据是各组的频率,不要和条形图混淆.
(2)频率分布直方图中各小长方形的面积之和为1,这是解题的关键,常利用频率分布直方图估计总体分布.
训练3 (1)已知我市某居民小区户主人数和户主对户型结构的满意率分别如图1和图2所示,为了解该小区户主对户型结构的满意程度,用分层抽样的方法抽取30%的户主进行调查,则样本量和抽取的户主对四居室满意的人数分别为( )
A.240,18
B.200,20
C.240,20
D.200,18
A
解析 样本量n=(250+150+400)×30%=240,
抽取的户主对四居室满意的人数为150×30%×40%=18.
(2)(2024·潍坊调研)将某市高中数学建模竞赛的成绩分成5组:[50,60),[60,70),[70,80),[80,90),[90,100],并整理得到频率分布直方图(如图所示).现按成绩运用分层随机抽样的方法抽取100位同学进行学习方法的问卷调查,则成绩在区间[70,80)内应抽取的人数为( )
A.10 B.20
C.30 D.35
D
解析 由题图得,成绩在区间[70,80)内的频率为0.035×10=0.35,
所以成绩在区间[70,80)内应抽取的人数为0.35×100=35.
课时分层精练
3
KESHIFENCENGJINGLIAN
1.下列情况中,适合用全面调查的是( )
A.检查某人血液中的血脂含量
B.调查某地区的空气质量状况
C.乘客上飞机前的安检
D.调查某市市民对垃圾分类处理的意识
C
解析 乘客上飞机前的安检适合用全面调查,只有确认每一名乘客所携带的物品都安全才能保证航班安全.
A
解析 由题知,从随机数表的第1行第5列和第6列数字开始,依次选取43,36,47,46,24.
3.要完成下列两项调查:(1)某社区有100户高收入家庭,210户中等收入家庭,90户低收入家庭,从中抽取100户调查购买力的某项指标;(2)从某中学高二年级的10名体育特长生中抽取3人调查学习负担情况.应采取的抽样方法是( )
A.(1)(2)都用简单随机抽样法
B.(1)用分层随机抽样法,(2)用简单随机抽样法
C.(1)用简单随机抽样法,(2)用分层随机抽样法
D.(1)(2)都用分层随机抽样法
B
解析 (1)中收入差距较大,采用分层随机抽样法较合适;(2)中总体容量较小,采用简单随机抽样法较合适.
4.为了增强学生的主人翁意识,学校决定召开座谈会征求学生对学校建设的意见和建议,采用分层随机抽样的方法从高一1 200人、高二1 450人、高三n人中,抽取80人参加座谈会,已知高一年级被抽取的人数为24,那么高三年级人数n为( )
A.1 250 B.1 300 C.1 350 D.1 400
C
5.(2024·广州模拟)为调查某地区中学生每天睡眠时间,采用样本量比例分配的分层随机抽样,现抽取初中生800人,其每天睡眠时间均值为9小时,方差为1,抽取高中生1 200人,其每天睡眠时间均值为8小时,方差为0.5,则估计该地区中学生每天睡眠时间的方差为( )
A.0.96 B.0.94 C.0.79 D.0.75
B
6.(2024·浙江名校联考)某市中小学生人数和近视情况分别如图甲和图乙所示,为了解该地区中小学生近视形成的原因,现用分层随机抽样的方法抽取5%的学生进行调查,则样本量和抽取的高中生近视人数分别为( )
A.750,100
B.1 500,100
C.1 500,120
D.750,120
B
解析 由题意得,样本量为(18 500+7 500+4 000)×0.05=1 500,
抽取的高中生近视人数为4 000×0.05×0.5=100.
7.(多选)某学校为了调查学生在一周生活方面的支出情况,抽出了一个样本量为n的样本,其频率分布直方图如图所示,其中支出在[50,60)元的学生有60人,则下列说法正确的是( )
A.样本中支出在[50,60)元的频率为0.03
B.样本中支出不少于40元的人数为132
C.n的值为200
D.若该校有2 000名学生,则一定有600人
的支出在[50,60)元
BC
解析 在A中,样本中支出在[50,60)元的频率为
1-(0.010+0.024+0.036)×10=0.3,故A错误;
在B中,样本中支出不少于40元的人数为200×(0.030+0.036)×10=132,故B正确;
在D中,若该校有2 000名学生,则可能有600人的支出在[50,60)元,故D错误.
8.(多选)(2024·银川质检)某企业2023年12个月的收入与支出数据的折线图如图.
ABC
已知:利润=收入-支出,根据该折线图,下列说法正确的是( )
A.该企业2023年1月至6月的总利润低于2023年7月至12月的总利润
B.该企业2023年1月至6月的平均收入低于2023年7月至12月的平均收入
C.该企业2023年8月至12月的支出持续增长
D.该企业2023年11月份的月利润最大
解析 因为图中的实线与虚线的相对高度表示当月利润.由折线统计图可知1月至6月的相对高度的总量要比7月至12月的相对高度总量少,故A正确;
由折线统计图可知1月至6月的收入普遍低于7月至12月的收入,故B正确;
由折线统计图可知2023年8月至12月的虚线是上升的,所以支出持续增长,故C正确;
由折线统计图可知11月的相对高度比7月、8月都要小,故D错误.
9.某校高三共有10个班,编号分别为01,02,…,10,现用抽签法从中抽取3个班进行调查,设高三(5)班被抽到的概率为a,高三(6)班被抽到的概率为b,则a-b=________.
0
400
所以n=2 000,则z=2 000-100-300-150-450-600=400.
11.某中学初中部共有120名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为________.
144
解析 因为初中部女教师占70%,高中部女教师占40%,
所以该校女教师的人数为120×0.7+150×0.4=84+60=144.
40
13.(多选)某市为了解该地小微企业年收入的变化情况,对该地小微企业减免前和减免后的年收入进行了抽样调查.据整理,得到如图所示的频率分布直方图,则下列结论正确的是( )
BC
A.推行减免政策后,某市小微企业的年收入都有了明显的提高
B.推行减免政策后,某市小微企业的平均年收入有了明显的提高
C.推行减免政策后,某市小微企业的年收入更加均衡
D.推行减免政策后,某市小微企业的年收入没有变化
减免前
减免后
解析 对于A,年收入在[65,70]万元的,减免前的频率为0.011×5=0.055,减免后的频率为0.008×5=0.040,A错误;
对于B,减免前占比最多的年收入为[45,50]万元,其次是[40,45]万元,减免后占比最多的为[50,55]万元,其次是[55,60]万元,所以平均年收入也明显提高,B正确;
对于C,减免前年收入在[25,30]万元的占比为0.055,而减免后年收入最少的[25,30]万元没有了,变成[35,40]万元,减免前[65,70]万元的占比为0.055,而减免后年收入最多的[65,70]万元的占比为0.040,即减少了,所以年收入更加均衡,C正确;
对于D,从图上知年收入有所变化,如收入在[65,70]万元的减少了,而收入在[25,30]万元的减免后没有了,所以收入提高了,D错误.
14.(多选)(2024·武汉调研)某市2023年经过招商引资后,经济收入较前一年增加了一倍,实现翻番,为更好地了解该市的经济收入的变化情况,统计了该市招商引资前后的年经济收入构成比例,得到扇形图如图:
AD
解析 设招商引资前经济收入为M,则招商引资后经济收入为2M.
对于A,招商引资前工资性收入为M×60%=0.6M,而招商引资后的工资性收入为2M×37%=0.74M,∴工资性收入增加了,故A正确;
对于B,招商引资前转移净收入为M×4%=0.04M,招商引资后转移净收入为2M×5%=0.1M,∴招商引资后,转移净收入是前一年的2.5倍,故B错误;
对于C,招商引资后,转移净收入与财产净收入的总和为
对于D,招商引资前经营净收入M×30%=0.3M,招商引资后经营净收入为2M×30%=0.6M,∴招商引资后,经营净收入较前一年增加了一倍,故D正确.
15.某地各项事业取得令人瞩目的成就,以2023年为例,社会固定资产总投资约为3 730亿元,其中包括中央项目、省属项目、地(市)属项目、县(市)属项目和其他项目.图1、图2分别是这五个项目的投资额不完整的条形图和扇形图,请完成下列问题.
(1)地(市)属项目投资额为________亿元;
(2)在图2中,县(市)属项目部分所占百分比为m%,对应的圆心角为β,则m=________,β=________度(m,β均取整数).
830
18
65
解析 (1)因为该地社会固定资产总投资约为3 730亿元,所以地(市)属项目投资额为3 730-(200+530+670+1 500)=830(亿元).
14
解析 假设从1月开始每月抽查1人,编号依次为1,2,3,4,…,