(共21张PPT)
第六章 统计
章末知识梳理
知识体系构建
要点专项突破
●要点一 分层随机抽样的理解
1.分层随机抽样中分多少层,如何分层要视具体情况而定,总的原则是:层内个体的差异要小,层间的个体差异要大,且层与层之间互不交叉.
2.分层随机抽样也称“按比例抽样”,这里的“按比例”是指:
3.如果总体是由差异明显的几类个体组成,并且知道每一类个体在总体中所占的百分比,那么按照这个比例抽取每一类个体,样本就能很好地反映总体的规律,也会提高对总体推断的准确性.
例1:为了了解学生学习的情况,某校采用分层随机抽样的方法从高一1 200人、高二1 000人、高三n人中,抽取90人进行问卷调查.已知高一被抽取的人数为36,那么高三被抽取的人数为( )
A.20 B.24
C.30 D.32
[分析] 各层中抽样比例相同.
●要点二 频率分布直方图
1.已知频率分布直方图中的部分数据,求其他数据,可利用频率和等于1求解.
2.已知频率分布直方图,求某种范围内的数据,可利用图形及某范围结合求解.
例2:下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高资料(单位:cm):
(1)列出样本的频率分布表(频率保留两位小数);
(2)画出频率分布直方图;
(3)估计身高低于134 cm的人数占总人数的百分比.
区间界限 [122,126) [126,130) [130,134) [134,138) [138,142)
人数 5 8 10 22 33
区间界限 [142,146) [146,150) [150,154) [154,158]
人数 20 11 6 5
[解析] (1)列出样本频率分布表:
分组 频数 频率
[122,126) 5 0.04
[126,130) 8 0.07
[130,134) 10 0.08
[134,138) 22 0.18
[138,142) 33 0.28
[142,146) 20 0.17
[146,150) 11 0.09
[150,154) 6 0.05
[154,158] 5 0.04
合计 120 1.00
(2)画出频率分布直方图,如图所示.
所以估计身高低于134 cm的人数约占总人数的19%.
●要点三 百分位数
1.四分位数:第25百分位数,第50百分位数,第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
2.由频率分布直方图求百分位数时,一般采用方程的思想,设出第p百分位数,根据其意义列出方程求解.
例3:数学兴趣小组调查了12位大学毕业生的起始月薪,具体如表:
学生编号 起始月薪
1 3 850
2 3 950
3 4 050
4 3 880
5 3 755
6 3 710
7 3 890
试确定第85百分位数.
学生编号 起始月薪
8 4 130
9 3 940
10 4 325
11 3 920
12 3 880
[分析] 首先从小到大排列各数,再计算i.
[解析] 将数据从小到大排列:3 710,3 755,3 850,3 880,3 880,3 890,3 920,3 940,3 950,4 050,4 130,4 325.计算i=n×p%=12×85%=10.2,显然i不是整数,所以将i=10.2向上取整,大于i的比邻整数11即为第85百分位数的位置,所以第85百分位数是4 130.
●要点四 样本的离散程度
例4:根据某市所在地区的收入水平、消费水平等情况,拟将家庭年收入低于1.5万元的家庭确定为“贫困户”,家庭年收入在[6.5,7.5)万元的家庭确定为“小康户”,家庭年收入在[7.5,8.5]万元的家庭确定为“富裕户”,该市扶贫办为了打好精准脱贫攻坚战,在所辖某县的100万户家庭中随机抽取200户家庭,对其2019年的全年收入进行调查,抽查结果的频率分布直方图如图所示.
(2)用样本的频率分布估计总体分布,估计该县100万户家庭中“贫困户”的数量.
方差s2=(-3)2×0.06+(-2)2×0.10+(-1)2×0.14+02×0.31+12× 0.30+22×0.06+32×0.02+42×0.01=1.96.
(2)由频率分布直方图可知,样本中“贫困户”的频率为0.06,所以估计该县100万户家庭中“贫困户”的数量为100×0.06=6(万户).素养等级测评六
考试时间:120分钟 满分:150分
一、单项选择题:本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.
1.教学研究院想了解某所中学的学生是否赞成该学校的某个新政策,由于条件限制,教学研究院不能询问每位学生的意见,所以需要选择一个合适的样本.最好的方法是询问( D )
A.由该学校推选的学生
B.在课间遇见的学生
C.在图书馆学习的学生
D.从学校名单中随机选取的学生
[解析] 按照随机的原则,即保证总体中每一个对象都有已知的、非零的概率被选入作为研究的对象,保证样本的代表性.随机抽样法就是调查对象总体中每个部分都有同等被抽中的可能,是一种完全依照机会均等的原则进行的抽样调查,ABC三个抽样方法,不能保证机会均等,D选项可以保证等可能,所以最好的方法是D.故选D.
2.下列两个抽样:
①一个城市有210家某商品的代理商,其中大型代理商有20家,中型代理商有40家,小型代理商有150家,为了掌握该商品的销售情况,要从中抽取一个容量为21的样本;②某市质量检查人员从一食品生产企业生产的两箱(每箱12盒)牛奶中抽取4盒进行质量检查.
则应采用的抽样方法依次为( C )
A.简单随机抽样;简单随机抽样
B.分层随机抽样;分层随机抽样
C.分层随机抽样;简单随机抽样
D.简单随机抽样;分层随机抽样
[解析] ①中商店的规模不同,所以应采用分层随机抽样;②中总体没有差异性,容量较小,样本容量也较小,所以应采用简单随机抽样.故选C.
3.甲、乙两组各八名学生在一次英语听力测试中的成绩(单位:分)如下:
甲:9,16,25,18,24,x,27,24.
乙:8,17,y,13,24,28,20,22.
已知甲组数据的25%分位数为14,乙组数据的平均数为18.5,则x,y的值分别为( A )
A.12,16 B.12,18
C.14,16 D.14,18
[解析] 将甲组剩余7个数据从小到大排列:9,16,18,24,24,25,27,因为8×25%=2,所以14×2=16+x,所以x=12.因为18.5=(8+17+y+13+24+28+20+22),所以y=16.故选A.
4.某校高三年级共有学生1 500人,在某次数学测验后,学校为分析学生试卷情况,需从中抽取一个容量为500的样本,按分层随机抽样的方法,成绩在120分以上的抽取100人,90分~120分的抽取250人,则该次测验中90分以下的人数是( B )
A.600 B.450
C.300 D.150
[解析] 样本容量为500 ,按分层随机抽样的方法,120分以上抽取100人,90分~120分抽取250人,
∴该次测验中90分以下抽取的人数是500- 100- 250= 150,则该次测验中90分以下的人数是1 500×=450.故选B.
5.某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图(如图).图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( D )
A.各月的平均最低气温都在0 ℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于20 ℃的月份有5个
[解析] 由图可知0 ℃在虚线框内,所以各月的平均最低气温都在0 ℃以上,A正确;由图可知七月的平均温差大于5 ℃,而一月的平均温差小于5 ℃,所以七月的平均温差比一月的平均温差大,B正确;由图可知三月和十一月的平均最高气温都约为10 ℃,基本相同,故C正确;由图可知平均最高气温高于20 ℃的月份只有3个,所以D不正确.故选D.
6.为了学习、宣传和践行党的二十大精神,某班组织全班学生开展了以“学党史、知国情、圆梦想”为主题的党史暨时政知识竞赛活动.已知该班男生20人,女生30人,根据统计分析,男生组成绩和女生组成绩的方差分别为s,s.记该班成绩的方差为s2,则下列判断正确的是( D )
A.s2= B.s2≥
C.s2= D.s2≥
[解析] 记男生组成绩和女生组成绩的平均分分别为,,则
s=[(x1-)2+(x2-)2+…+(x20-)2],
=[x+x+…+x-2(x1+x2+…+x20)+202]
=[x+x+…+x-402+202]
=[x+x+…+x-202]=-2,
同理s=y-2,
∴x=20s+202,y=30s+302,=(20+30)=,
∴s2=(x+y)-′2=+2+2-2
=+(-)2≥.故选D.
7.某市举行“中学生诗词大赛”,分初赛和复赛两个阶段进行,规定:初赛成绩大于90分的具有复赛资格,某校有800名学生参加了初赛,所有学生的成绩均在区间(30,150]内,其频率分布直方图如图.则获得复赛资格的人数为( B )
A.640 B.520
C.280 D.240
[解析] 由频率分布直方图,得初赛成绩大于90分的频率为1-(0.002 5+0.007 5+0.007 5)×20=0.65.所以获得复赛资格的人数为0.65×800=520.故选B.
8.已知x1,x2,x3,x4,x5是互不相等的自然数,且x+x+x+x+x=265,标准差为2,则该样本数据的极差为( B )
A.4 B.6
C.7 D.8
[解析] 不妨设x1<x2<x3<x4<x5,平均数为,方差为s2,则s2=(x+x+x+x+x)-2,解得=7,即x1+x2+x3+x4+x5=35,
所以[(x1-7)2+(x2-7)2+(x3-7)2+(x4-7)2+(x5-7)2]=4,则9≤x5≤11.当x5=9时,数据依次为5,6,7,8,9,则样本的方差为×[(5-7)2+(6-7)2+(7-7)2+(8-7)2+(9-7)2]=2,不满足题意;
当x5=10时,数据依次为4,6,7,8,10,则样本的方差为×[(4-7)2+(6-7)2+(7-7)2+(8-7)2+(10-7)2]=4满足题意;
当x5=11时,x1+x2+x3+x4=24,则x1≤4,(x1-7)2+(x5-7)2>20,
此时,方差大于4,不合题意.故样本中最大的数为10,最小的数为4,极差为6.故选B.
二、多项选择题:本题共3小题,每小题6分,共18分.在每小题给出的选项中,有多项符合题目要求.全部选对的得6分,部分选对的得部分分,有选错的得0分.
9.一组数据的平均数是2.8,方差是3.6,若将这组数据中的每一个数据都加上60,得到一组新数据,则所得新数据的平均数和方差分别是( )
A.57.2 B.62.8
C.63.6 D.3.6
[解析] 当一组数据中的每个数同时加上一个数后,平均数相应增加,但方差不变,可知新数据的平均数为62.8,方差为3.6.故选BD.
10.(2023·新高考Ⅰ卷)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则( )
A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数
B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数
C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差
D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差
[解析] 设x2,x3,x4,x5的平均数为m,x1,x2,…,x6的平均数为n,则n-m=-=,
因为没有确定2(x1+x6),x5+x2+x3+x4的大小关系,所以无法判断m,n的大小,
例如:1,2,3,4,5,6,可得m=n=3.5;
例如1,1,1,1,1,7,可得m=1,n=2;
例如1,2,2,2,2,2,可得m=2,n=;故A错误;
不妨设x1≤x2≤x3≤x4≤x5≤x6,
可知x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数均为,故B正确;
因为x1是最小值,x6是最大值,
则x2,x3,x4,x5的波动性不大于x1,x2,…,x6的波动性,即x2,x3,x4,x5的标准差不大于x1,x2,…,x6的标准差,
例如:2,4,6,8,10,12,则平均数n=(2+4+6+8+10+12)=7,
标准差s1=
=,
4,6,8,10,则平均数m=(4+6+8+10)=7,
标准差s2==,
显然>,即s1>s2;故C错误;不妨设x1≤x2≤x3≤x4≤x5≤x6,
则x6-x1≥x5-x2,当且仅当x1=x2,x5=x6时,等号成立,故D正确.故选BD.
11.已知采用分层抽样得到的样本数据由两部分组成,第一部分样本数据xi(i=1,2,…,m)的平均数为,方差为s;第二部分样本数据yi(i=1,2,…,n)的平均数为,方差为s,设≤,s≤s,则以下命题正确的是( )
A.设总样本的平均数为,则≤≤
B.设总样本的平均数为,则≥·
C.设总样本的方差为s2,则s≤s2≤s
D.若m=n,=,则s2=
[解析] 因为≤,所以=+≤+=,=+≥+=,即≤≤,A正确;取第一部分数据为1,1,1,1,1,则=1,s=0,取第二部分数据为-3,9,则=3,s=36,则2=2=<3=·,B不正确;取第一部分数据为-2,-1,0,1,2,则=0,s=2,取第二部分数据为1,2,3,4,5,则=3,s=2,则=+=×0+×3=,s2=[s+(-)2]+[s+(-)2]=+=>2=s,C不正确;若m=n,=,则==,s2=[s+(-)2]+[s+(-)2]=,D正确.故选AD.
三、填空题:本题共3小题,每小题5分,共15分.
12.某同学4次三级跳远成绩(单位:米)分别为x,y,11,9,已知这4次成绩的平均数为10,标准差为,则xy的值为_97__.
[解析] 数据x,y,11,9的平均数为10,标准差为,
则
化简得所以xy=97.
13.从甲、乙、丙三个厂家生产的同一种产品中各抽取8件产品,对其使用寿命(单位:年)跟踪调查结果如下:
甲:3,4,5,6,8,8,8,10;
乙:4,6,6,6,8,9,12,13;
丙:3,3,4,7,9,10,11,12.
三个厂家在广告中都称该产品的使用寿命是8年,请根据结果判断厂家在广告中分别运用了平均数、众数、中位数中的哪一种集中趋势的特征数:
甲_众数__,乙_平均数__,丙_中位数__.
[解析] 甲、乙、丙三个厂家从不同角度描述了一组数据的特征.甲:该组数据8出现的次数最多;乙:该组数据的平均数==8;丙:该组数据的中位数是=8.
14.现统计出甲、乙两人在8次测验中的数学成绩如下(其中乙的一个成绩被污损,设为x):
甲:86,79,82,91,83,89,94,89
乙:90,92,x,80,84,95,94,90
已知乙成绩的平均数恰好等于甲成绩的60%分位数,则乙成绩的平均数为_89__,x的值为_87__.
[解析] 甲同学的成绩从小到大排列为79,82,83,86,89,89,91,94,
因为8×60%=4.8,所以甲成绩的60%分位数为89,即乙成绩的平均数为89,
因为=89,所以x=87.
四、解答题:本题共5小题,共77分.解答应写出文字说明、证明过程或演算步骤.
15.(13分)某学校高二学生有500人,其中男生320人,女生180人.为获得该校高二学生身高(单位:cm)的信息,按照分层随机抽样的原则抽取了25个样本,通过计算得到男生身高样本平均数为173.5 cm,方差为17,女生身高样本平均数为163.83 cm,方差为30.03.
(1)求样本中男生、女生的人数;
(2)用样本估计总体的思想估计该校高二学生身高的平均数和方差.
[解析] (1)样本中男生的人数为25×=16,女生的人数为25-16=9.
(2)记男生身高的平均数为男,方差为s,女生身高的平均数为女,方差为s.因为男生所占的权重为ω男=0.64,女生所占的权重为ω女=0.36,
所以估计该校高二学生身高的平均数总=ω男男+ω女女≈170.02(cm).
该校高二学生身高的方差为s=ω男[s+(男-总)2]+ω女[s+(女-总)2]≈43.24.
16.(15分)我们国家正处于轻度老龄化阶段,“老有所依”也是政府的民生工程.某市共有户籍人口400万,其中老人约有66万.为了了解老人们的健康状况,政府从老人中随机抽取600人并委托医疗机构免费为他们进行健康评估,健康状况共分为不能自理、不健康尚能自理、基本健康、健康四个等级,并以80岁为界限分成两个群体进行统计,制作成如图所示的统计图.
(1)若采用分层随机抽样的方法从样本中的不能自理的老人中抽取8人进一步了解他们的生活状况,则两个群体中各应抽取多少人?
(2)估算该市80岁及以上老人占全市户籍人口的百分比.
[解析] (1)整理数据如下表:
健康情况 健康 基本健康 不健康尚能自理 不能自理
80岁及以上人数 20 45 20 15
80岁以下人数 200 225 50 25
从图表中知,
80岁及以上老人应抽取8×=3(人),
80岁以下老人应抽取8×=5(人).
(2)在600人中80岁及以上老人所占比为=,用样本估计总体,80岁及以上老人占全市户籍人口的百分比为××100%=2.75%.
17.(15分)(2023·全国Ⅰ卷) 某厂为比较甲乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率.甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为xi,yi(i=1,2,…,10).试验结果如下:
试验序号i 1 2 3 4 5 6 7 8 9 10
伸缩率xi 545 533 551 522 575 544 541 568 596 548
伸缩率yi 536 527 543 530 560 533 522 550 576 536
记zi=xi-yi(i=1,2,…,10),记z1,z2,…,z10的样本平均数为,样本方差为s2.
(1)求,s2;
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(如果≥2,则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否则不认为有显著提高)
[解析] (1)∵zi=xi-yi 的值分别为:9,6,8,-8,15,11,19,18,20,12,
∴=[9+6+8+(-8)+15+11+19+18+20+12]=11,
故s2=
=61.
(2)由(1)知:=11,2=2=,故有≥2,
所以认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
18.(17分)某学校为了解学校食堂的服务情况,随机调查了50名前来就餐的教师和学生.根据这50名师生对食堂服务质量的评分,绘制出了如图所示的频率分布直方图,其中样本数据分组为[40,50),[50,60),…,[90,100].
(1)求频率分布直方图中a的值;
(2)若采用分层随机抽样的方式从评分在[40,60),[60,80),[80,100]内的师生中抽取10人,则从评分在[60,80)内的师生中应抽取多少人?
(3)学校规定:若师生对食堂服务质量的评分低于75分,则食堂将进行内部整顿.用每组数据的中点值代替该组数据,试估计该校师生对食堂服务质量评分的平均数,并据此回答食堂是否需要进行内部整顿.
[解析] (1)由(0.004+a+0.022+0.028+0.022+0.018)×10=1,解得a=0.006.
(2)由频率分布直方图可知,评分在[40,60),[60,80),[80,100]内的师生人数之比为(0.004+0.006)∶(0.022+0.028)∶(0.022+0.018)=1∶5∶4,所以从评分在[60,80)内的师生中应抽取10×=5(人).
(3)由题中数据可得师生对食堂服务质量评分的平均数为=45×0.004×10+55×0.006×10+65×0.022×10+75×0.028×10+85×0.022×10+95×0.018 ×10=76.2(分).
因为76.2>75,所以食堂不需要进行内部整顿.
19.(17分)从2022年秋季学期起,某省启动实施高考综合改革,实行高考科目“3+1+2”模式.“3”指语文、数学、外语三门统考学科,以原始分数计入高考成绩;“1”指考生从物理、历史两门学科中“首选”一门学科,以原始分数计入高考成绩;“2”指考生从政法、地理、化学、生物四门学科中“再选”两门学科,以等级分计入高考成绩.按照方案,再选学科的等级分赋分规则如下,将考生原始成绩从高到低划分为A,B,C,D,E五个等级,各等级人数所占比例及赋分区间如下表:
等级 A B C D E
人数比例 15% 35% 35% 13% 2%
赋分区间 [86,100] [71,85] [56,70] [41,55] [30,40]
将各等级内考生的原始分依照等比例转换法分别转换到赋分区间内,得到等级分,转换公式为=,其中Y1,Y2分别表示原始分区间的最低分和最高分,T1,T2分别表示等级赋分区间的最低分和最高分,Y表示考生的原始分,T表示考生的等级分,规定原始分为Y1时,等级分为T1,计算结果四舍五入取整.某次化学考试的原始分最低分为50,最高分为98,呈连续分布,其频率分布直方图如下:
(1)求实数a的值;
(2)根据频率分布直方图,估计原始成绩分数的90%分位数X(不取整);
(3)用估计的结果近似代替原始分区间,估计此次考试化学成绩A等级的原始分区间,并按照等级分赋分规则,把(2)中估计的原始分X转化为对应的等级分。
[解析] (1)由10(a+0.04+0.03+0.02+a)=1,可得a=0.005.
(2)原始分成绩位于区间[50,80]的占比为10(0.005+0.04+0.03)=0.75=75%,
位于区间[50,90]的占比为10(0.005+0.04+0.03+0.02)=0.95=95%,
则原始成绩分数的90%分位数X在区间[80,90],
由0.75+(X-80)×0.02=0.9,解得X=87.5.
(3)由频率分布直方图知,原始分成绩位于区间[90,100]的占比为5%,位于区间[80,90)的占比为20%,
估计等级A的原始分区间的最低分为90-×10=85,
所以估计此次考试化学成绩A等级的原始分区间为[85,98],
由=,解得T=≈88.7,
则该学生的等级分约为89分.
21世纪教育网(www.21cnjy.com)