习题课 统计与回归分析
课后篇巩固提升
1.登山族为了了解某山高与气温之间的关系,随机统计了4次山高与相应的气温,并制作了对照表:
气温x/℃
18
13
10
-1
山高y/km
24
34
38
64
由表中数据,得到线性回归方程
??
^
=-2x+
a
^
(
??
^
∈R),由此请估计出山高为72 km处气温的度数为( )
A.-10 B.-8 C.-4 D.-6
解析由题意可得
??
=10,
??
=40,
所以
??
^
=
??
+2
??
=40+2×10=60.
所以
??
^
=-2x+60,当
??
^
=72时,有-2x+60=72,解得x=-6,故选D.
答案D
2.甲、乙两名同学在五次数学测试中的成绩统计用茎叶图表示如下,若甲、乙两人的平均成绩分别用
??
甲
,
??
乙
表示,则下列结论正确的是( )
/
A.
??
甲
>
??
乙
,甲比乙成绩稳定
B.
??
甲
>
??
乙
,乙比甲成绩稳定
C.
??
甲
<
??
乙
,甲比乙成绩稳定
D.
??
甲
<
??
乙
,乙比甲成绩稳定
解析由茎叶图知,
??
甲
=
1
5
×(68+69+70+71+72)=70,
??
乙
=
1
5
×(63+68+69+69+71)=68,∴
??
甲
>
??
乙
,且甲比乙成绩稳定.
答案A
3.如图所示的是某地区参加2018年高考的学生身高(单位:cm)统计图,从左到右各小长方形表示的学生人数依次记为A1,A2,…,A10(如A2表示身高在[150,155)内的学生人数).如图甲所示的是统计图乙中身高在一定范围内学生人数的一个程序框图.现要统计身高在[160,180)内的学生人数,那么在程序框图中的判断框内应填写的条件是( )
/
甲
/
乙
A.i<6? B.i<7?
C.i<8? D.i<9?
解析因为要统计身高在[160,180)内的学生人数,由统计图可知即统计A4,A5,A6,A7的和.程序框图中要填入的是一个判断条件,当满足条件时,循环求和;当不满足条件时,便跳出循环,输出和.依题意,当i=7时,符合条件;当i=8时,需跳出循环,所以应填写的条件为“i<8?”.
答案C
4.某高中在校学生有2 000人.为了响应“阳光体育运动”的号召,学校开展了跑步和登山比赛活动.每人都参与且只参与其中一项,各年级参与比赛的人数(单位:人)情况如下表:
高一年级
高二年级
高三年级
跑 步
a
b
c
登 山
x
y
z
其中a∶b∶c=2∶3∶5,全校参与登山的人数占总人数的
2
5
.为了了解学生对本次活动的满意程度,从中抽取一个200人的样本进行调查,则从高二年级参与跑步的学生中应抽取 人.?
解析由题意可知,样本中参与跑步的人数为200×
3
5
=120人,所以从高二年级参与跑步的学生中应抽取的人数为120×
3
2+3+5
=36人.
答案36
5.某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图:
/
记x表示1台机器在三年使用期内需更换的易损零件数,y表示1台机器在购买易损零件上所需的费用(单位:元),n表示购机的同时购买的易损零件数.
(1)若n=19,求y与x的函数解析式;
(2)若要求“需更换的易损零件数不大于n”的频率不小于0.5,求n的最小值;
(3)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件?
解(1)当x≤19时,y=3 800;
当x>19时,y=3 800+500(x-19)=500x-5 700.所以y与x的函数解析式为
y=
3 800,??≤19,
500??-5 700,??>19,
(x∈N).
(2)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n的最小值为19.
(3)若每台机器在购机同时都购买19个易损零件,则这100台机器中有70台在购买易损零件上的费用为3 800,20台的费用为4 300,10台的费用为4 800,因此这100台机器在购买易损零件上所需费用的平均数为
1
100
(3 800×70+4 300×20+4 800×10)=4 000.
若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4 000,10台的费用为4 500,因此这100台机器在购买易损零件上所需费用的平均数为
1
100
(4 000×90+4 500×10)=4 050.
比较两个平均数可知,购买1台机器的同时应购买19个易损零件.
6.PM2.5是指空气中直径小于或等于2.5微米的细颗粒物,它对人体健康和大气环境质量的影响很大.2012年2月,中国发布了《环境空气质量标准》,开始大力治理空气污染.用x=1,2,3,4依次表示2014年到2017年这四年的年份代号,用y表示每年3月份的PM2.5指数的平均值(单位:μg/m3).已知某市2014年到2017年每年3月份的PM2.5指数的平均值的折线图如下:
/
(1)根据折线图中的数据,完成下列表格:
年份
2014
2015
2016
2017
年份代号x
1
2
3
4
PM2.5指数y
(2)建立y关于x的线性回归方程;
(3)在当前治理空气污染的力度下,预测该市2019年3月份的PM2.5指数的平均值.
附:回归直线方程
??
^
=
??
^
x+
??
^
中参数的最小二乘估计公式为
??
^
=
∑
??=1
??
(
??
??
-
??
)(
??
??
-
??
)
∑
??=1
??
(
??
??
-
??
)
2
,
??
^
=
??
?
??
^
??
.
解(1)
年份
2014
2015
2016
2017
年份代号x
1
2
3
4
PM2.5指数y
90
88
70
64
(2)
??
=2.5,
??
=78,
??
^
=
-48
5
=-9.6,
a
^
=
y
?
??
^
??
=102.
则y关于x的线性回归方程为
??
^
=-9.6x+102.
(3)2019年的年份代号为6,当x=6时,
??
^
=-9.6×6+102=44.4.故该市2019年3月份的PM2.5指数平均值的预测值为44.4 μg/m3.
课件40张PPT。习题课 统计与回归分析1.填空:
(1)三种抽样方法的比较(2)作频率分布直方图的步骤
(3)频率分布折线图
把频率分布直方图中各个长方形上边的中点用线段连接起来,就得到频率分布折线图.(4)茎叶图是统计中用来表示数据的一种图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数.对于样本数据较少,且分布较为集中的一组数据:若数据是两位整数,则将十位数字作茎,个位数字作叶;若数据是三位整数,则将百位、十位数字作茎,个位数字作叶.样本数据为小数时做类似处理.对于样本数据较少,且分布较为集中的两组数据,关键是找到两组数据共有的茎.(5)样本的数字特征 (6)散点图
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.做一做1:为了检查某超市货架上的饮料是否含有塑化剂,要从编号依次为1到50的塑料瓶装饮料中抽取5瓶进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5瓶饮料的编号可能是( )
A.5,10,15,20,25
B.2,4,8,16,32
C.1,2,3,4,5
D.7,17,27,37,47
答案:D3.做一做2:某雷达测速区规定:凡车速大于或等于70 km/h的汽车视为“超速”,并将受到处罚,某路段的一个检测点对200辆汽车的车速进行检测所得结果的频率分布直方图如图所示,则从图中可以看出被处罚的汽车大约有( )
A.30辆 B.40辆 C.60辆 D.80辆
解析:由题图可知,车速大于或等于70 km/h的汽车的频率为0.02×10=0.2,则将被处罚的汽车大约有200×0.2=40(辆).故选B.
答案:B4.
做一做3:对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图如图所示,则该样本的中位数、众数、极差分别是( )
A.46,45,56 B.46,45,53
C.47,45,56 D.45,47,53
解析:茎叶图中共有30个数据,所以中位数是第15个和第16个数据的平均数,即 ×(45+47)=46,排除C,D;再计算极差,最小数据是12,最大数据是68,所以68-12=56,故选A.
答案:A5.做一做4:总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法
是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为 ( )
A.08 B.07 C.02 D.01
解析:从随机数表第1行的第5列和第6列数字开始向右读,每次读取两位,凡不在01~20中的数跳过去不读,前面已经读过的数也跳过去不读,得到08,02,14,07,01.所以第5个个体的编号是01.
答案:D答案:2.6 探究一探究二探究三规范解答抽样方法
例1 (1)问题①某小区有800户家庭,其中高收入家庭200户,中等收入家庭480户,低收入家庭120户,为了了解有关家用轿车购买力的某个指标,要从中抽取一个容量为100的样本;②从10名学生中抽取3人参加座谈会.方法:(1)简单随机抽样;(2)系统抽样;(3)分层抽样.则问题与方法配对正确的是( )
A.①(1),②(2) B.①(3),②(2)
C.①(2),②(3) D.①(3),②(1)
(2)某市有大型超市200家, 中型超市400家,小型超市1 400家.为掌握各类超市的营业情况,现按分层抽样的方法抽取一个容量为100的样本,应抽取中型超市 家.?当堂检测探究一探究二探究三规范解答解析:(1)问题①中的总体是由差异明显的几部分组成的,故可采用分层抽样方法;问题②中总体的个数较少,故可采用简单随机抽样.故匹配正确的是D.
答案:(1)D (2)20当堂检测探究一探究二探究三规范解答反思感悟1.理解三种抽样方法的特征,根据适用范围选择抽样方法进行计算.
2.三种抽样方法的异同点当堂检测探究一探究二探究三规范解答变式训练1①学校为了了解高一(120个班)学生情况,从每班抽2人进行座谈;②一次数学竞赛中,某班有10人成绩在110分以上,40人成绩在90~100分,12人成绩低于90分.现从中抽取12人了解有关情况;③运动会服务人员为参加400 m决赛的6名同学安排跑道.就这三件事,合适的抽样方法为( )
A.分层抽样,分层抽样,简单随机抽样
B.系统抽样,系统抽样,简单随机抽样
C.分层抽样,简单随机抽样,简单随机抽样
D.系统抽样,分层抽样,简单随机抽样
(2)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )
A.11 B.12 C.13 D.14当堂检测探究一探究二探究三规范解答解析:(1)①中高一年级学生数较多,所以应采用系统抽样;
②中学生成绩分布不同,所以应采用分层抽样;
③中总体没有差异,总体容量较小,样本容量也较小,所以采用简单随机抽样.
所以k的值共有35-24+1=12(个),即所求人数为12.
答案:(1)D (2)B当堂检测探究一探究二探究三规范解答用样本估计总体
例2某示范农场的鱼塘放养鱼苗8万条,根据这几年的经验知道,鱼苗的成活率为95%,一段时间后准备打捞出售.第一网捞出40条,称得平均每条鱼的质量为2.5 kg;第二网捞出25条,称得平均每条鱼的质量为2.2 kg,第三网捞出35条,称得平均每条鱼的质量为2.8 kg.试估计鱼塘中鱼的总质量为 kg.?
答案:192 280当堂检测探究一探究二探究三规范解答反思感悟1.反映样本数据分布的主要方式有:频率分布表、频率分布直方图、频率分布折线图、茎叶图.关于频率分布直方图要明确每个小矩形的面积即为对应的频率,明确频率分布直方图的几何意义.
2.能够借助于统计图表,根据公式求解数据的众数、中位数、平均数和方差等.注意由样本数据估计总体时,样本方差越小,数据越稳定,波动越小.当堂检测探究一探究二探究三规范解答变式训练2(1)学校为了解学生在课外读物方面的支出情况,抽取了n个同学进行调查,结果显示这些同学的支出(单位:元)都在[10,50]内,其中支出在[30,50]内的同学有67人,其频率分布直方图如图所示,则n=( )
A.100 B.120 C.130 D.390(2)已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中的m,n的比值 =( )当堂检测探究一探究二探究三规范解答答案:(1)A (2)D 当堂检测探究一探究二探究三规范解答回归直线方程的求法及应用
例3 某地连续十年粮食需求量逐年上升,下表是部分统计数据:
(1)利用所给数据求年需求量与年份之间的回归方程
(2)利用(1)中所求出的直线方程预测该地2020年的粮食需求量.
分析因为所给数据比较大,所以可以对数据进行初步处理,减少计算量.然后代入公式求解回归系数,利用回归直线方程预测时,也要注意数据的处理.当堂检测探究一探究二探究三规范解答解(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求回归方程.为此对数据预处理如下:
(2)利用直线方程①,可预测2020年的粮食需求量为
6.5×(2 020-2 010)+260.2=6.5×10+260.2=325.2(万吨).当堂检测探究一探究二探究三规范解答当堂检测探究一探究二探究三规范解答变式训练3下表提供了某厂节能降耗技术改造后,生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,求出y关于x的回归方程;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?当堂检测探究一探究二探究三规范解答解:(1)散点图如图: 当堂检测探究一探究二探究三规范解答统计图表与数字特征的综合问题
典例 为从甲、乙两名运动员中选拔一人参加全运会跳水项目,对甲、乙两名运动员进行培训.现分别从他们在培训期间参加的若干次预赛成绩中随机抽取6次,得出茎叶图如图所示.
从平均成绩及发挥稳定性的角度考虑,你认为选派哪名运动员合适?
【审题策略】 用样本特征数据评估、比较不同事物的优劣势时,可从平均数、方差等方面作比较,平均数的大小、方差的大小能说明事物的不同问题.当堂检测探究一探究二探究三规范解答【规范展示】 解:根据茎叶图,可得甲、乙两名运动员的6次预赛成绩如下:
甲:78 79 81 84 93 95
乙:75 80 83 85 92 95
派甲运动员参赛比较合适.
理由如下:当堂检测探究一探究二探究三规范解答当堂检测探究一探究二探究三规范解答失误警示通过阅卷统计分析,造成失分的原因如下:
(1)只对甲、乙两名运动员的平均成绩作了比较,而忽视了方差的比较.
(2)计算能力不过关,将方差算错.
(3)方差公式记不住,不知道如何计算方差.当堂检测探究一探究二探究三规范解答变式训练从甲、乙两种玉米苗中各抽10株,分别测得它们的株高(单位:cm)如下茎叶图:
问:(1)哪种玉米的苗长得高?
(2)哪种玉米的苗长得齐?当堂检测探究一探究二探究三规范解答当堂检测探究一探究二探究三规范解答当堂检测1.利用简单随机抽样,从n个个体中抽取一个容量为10的样本.若第二次抽取时,余下的每个个体被抽到的概率为 ,则在整个抽样过程中,每个个体被抽到的概率为 ( )答案:B 探究一探究二探究三规范解答当堂检测2.为迎接2022年卡塔尔世界杯,某校从选修足球课程的学生中选取部分学生参加中学生足球联赛,高一年级有30名,高二年级有40名,现用分层抽样的方法在这70名学生中抽取一个样本,已知在高一年级的学生中抽取了6名,则在高二年级的学生中应抽取的人数为( )
A.6 B.8 C.10 D.12
解析:设从高二年级抽取的学生数为n,
答案:B探究一探究二探究三规范解答当堂检测探究一探究二探究三规范解答当堂检测3.某地教育部门为了调查学生在数学考试中的有关信息,从上次考试的10 000名考生中用分层抽样的方法抽取500人,并根据这500人的数学成绩画出样本的频率分布直方图(如图),则这10 000名考生的数学成绩在[140,150]内的约有 人.?
解析:由样本的频率分布直方图知数学成绩在[140,150]内的频率是0.008×10=0.08,因此这10 000名考生中数学成绩在[140,150]内的约有10 000×0.08=800(人).
答案:8004.已知某单位有40名职工,现要从中抽取5名职工,将全体职工随机按1~40编号,并按编号顺序平均分成5组.按系统抽样方法在各组内抽取一个号码.
(1)若第1组抽出的号码为2,则所有被抽出职工的号码为 ;?
(2)分别统计这5名职工的体重(单位:千克),获得体重数据的茎叶图如图所示,则该样本的方差为 .?探究一探究二探究三规范解答当堂检测解析:(1)由题意知被抽出职工的号码为2,10,18,26,34.答案:(1)2,10,18,26,34 (2)62 探究一探究二探究三规范解答当堂检测