1 从普查到抽样
考 纲 定 位
重 难 突 破
1.了解普查与抽样调查的概念.
重点:体会常见的随机抽样的统计方法,会对一些实际问题进行合理的抽样调查.
难点:结合具体的实际问题,理解随机抽样的必要性与重要性.
2.明确两种调查的优缺点.
授课提示:对应学生用书第01页
[自主梳理]
1.普查
普查是为了了解总体的一般情况,对所有的对象都无一例外地进行调查,也称整体调查或全面调查.当普查的对象较少时,普查是一项非常好的调查方式,所取得的资料全面、系统;当普查的对象较多时,普查的工作量很大,要耗费大量的人力、物力与财力,并且组织工作繁重、时间长.更值得注意的是,在很多情况下,普查工作难以实现.
2.抽样调查及相关概念
[双基自测]
1.下列调查中,必须采用“普查”的是( )
A.调查某品牌电视机的市场占有率
B.调查某电视连续剧在全国的收视率
C.调查高一一班的男女同学的比例
D.调查某型号炮弹的射程
解析:C项中调查高一一班的男女同学的比例,必须每位同学都考虑到,所以必须采用“普查”.
答案:C
2.下列调查的样本不合理的是( )
①在校内发出一千张印有全校各班级的选票,要求被调查学生在其中一个班级旁画“√”,以了解最受欢迎的教师是谁;
②首先从一万多名工人中经过选举,确定100名代表,然后投票表决,了解工人们对厂长的信任情况;
③到老年公寓进行调查,了解全市老年人的健康状况;
④为了了解全班同学每天的睡眠时间,在每个小组中各选取3名学生进行调查.
A.①② B.①③
C.③④
D.②④
解析:①中样本不具有有效性,在班级旁画“√”与了解最受欢迎的教师没有关系;③中样本缺乏代表性;②④中抽取的都是合理样本.
答案:B
3.为了调查全国城镇居民的寿命,抽查了十一个省(市)的2
500名城镇居民.这个问题中“2
500名城镇居民的寿命”是________.
解析:全国每个城镇居民的寿命都是个体,抽出的2
500名城镇居民的寿命是从总体中抽取的一个样本.
答案:样本
授课提示:对应学生用书第02页
探究一 总体、样本等概念的辨析题
[典例1] 为了了解全年级240名学生的身高情况,从中抽取40名学生进行测量,下列说法正确的是________(填序号).
①总体是240;②个体是每一个学生;③样本容量是40名学生;④样本容量是40.
[解析] 本题调查的对象是“学生的身高”这一项指标,故①,②不正确.而样本容量是数量,故③不正确.由此可见,研究此类问题首先要弄清楚所要调查的对象是什么.
[答案] ④
此类题目要正确理解总体与个体的概念,要弄明白概念的实质,并注意样本与样本容量的不同,其中样本容量为数目,无单位.
1.若对某校1
200名学生的耐力做调查,抽取其中120名学生,测试他们1
500米跑的成绩,得出相应的数值,在这项调查中,样本是指( )
A.120名学生
B.1
200名学生
C.120名学生的成绩
D.1
200名学生的成绩
解析:本题抽取的是120名学生的成绩,因此每个学生的成绩是个体,这120名学生的成绩构成一个样本.
答案:C
探究二 普查与抽样调查的选取
[典例2] 下列调查中哪些是用普查方式,哪些是用抽样调查方式来收集数据的?
(1)为了了解我们班级的每个学生穿几号鞋,向全班同学作调查;
(2)为了了解我们学校高一年级学生穿几号鞋,向我们所在班的全体同学作调查;
(3)为了了解我们班的同学每天的睡眠时间,在每个小组中各选取2名学生作调查;
(4)为了了解我们班的同学每天的睡眠时间,选取班级中学号为双数的所有学生作调查.
[解析] (1)因为调查的是班级的每个学生,所以用的是普查.
(2)通过我们班的全体同学穿几号鞋来了解学校高一年级学生穿几号鞋,这是抽样调查,样本是我们班的全体同学穿几号鞋,总体是学校高一年级学生穿几号鞋.
(3)(4)也都是抽样调查,样本分别是:每小组中选取的2名学生的睡眠时间、学号为双数的所有学生的睡眠时间,总体都是我们班的同学每天的睡眠时间.
选择普查与抽样调查的标准:
选用普查还是抽样调查的方法,主要判断是否是对所有对象进行调查;若需要调查所有对象,一般选用普查的方式;若虽然需要调查所有对象,但是调查具有破坏性或无法实现,这时一般选用抽样调查的方法.
2.下列问题可以用普查的方式进行调查的是( )
A.检验一批日光灯的使用寿命
B.检验10件坯件产品的尺寸
C.检验一批钢材的抗拉强度
D.检验流水生产线上生产的饮料的容量
解析:选项A、C都是破坏性检验,不适合用普查的方法;选项D由于生产的饮料的总体容量很大,用普查的方法浪费人力、物力,故不适合用普查的方法;选项B适合用普查的方式.
答案:B
探究三 抽样调查设计
[典例3] 某校高中学生有3
000人,校医务室想对全校高中学生的身高情况作一次调查.为了不影响正常的教学活动,准备抽取50名学生作为调查对象.校医务室若从高一年级中选出50名学生的身高来估计全校高中学生的身高,你认为这样的调查结果可靠吗?
[解析] 由于学生的身高会随着年龄的增长而增高,校医务室想了解在校高中学生的身高情况,在抽样时应关注高中各年级的身高,既要抽取高一的学生,也要抽取高二和高三的学生.如果只抽取高一的学生,结果一定是片面的,不能代表全校高中学生的身高情况.因此,在调查时,要对高一、高二和高三的所有学生进行随机抽样调查,不要只关注高一学生的身高.
根据调查问题的特点设计抽样调查的不同方案,应遵循的原则是:抽取的部分个体具有广泛的代表性,能很好地代表总体.否则,调查结果与实际情况不相符.
3.中央电视台希望在春节晚会播出10天后获得当年春节晚会的收视率.下面是两位同学为电视台设计的调查方案:
同学甲:我把这一张“春节晚会收视调查表”放在互联网上,只要上网登录该网站的人就可以看到此调查表,他们填表的信息可以很快地反映到我的电脑中,这样我们就可以很快地统计收视率了.
同学乙:根据各大电信公司发放的手机号码,随机抽取一定数量的手机号,然后逐个给他们打电话,问一下他们是否收看了春节联欢晚会,我不出家门就可以很快地统计出春节晚会的收视率.
请思考:他们的设计方案能获得比较准确的春节晚会的收视率吗?为什么?
解析:他们的设计方案不能获得比较准确的春节晚会的收视率.这是因为他们的设计方案中只局限于两个群体:家中安装了互联网和有手机的人群,而实际中,虽然互联网在普及,但在我国仍然有很多的家庭没有安装互联网,手机用户也有一定的局限性,这些都会影响到收视率的准确性.
因未理解普查的实质致误
[典例] 某位食品检验员说:“今天我们对某食品厂的食品进行了普查”,你认为这位检验员的说法对吗?
[解析] 不对.若这位检验员对产品进行普查,就要对全部食品逐一品尝,显然厂家不会同意.
[错因与防范] 误认为检查的个数多就是普查,判断是普查还是抽样调查,先要确定总体,如果每一个个体均被查到就是普查,否则就是抽样调查.
[随堂训练] 对应学生用书第03页
1.某校有40个班,每班50人,要求每班随机选派3人参加“学生代表大会”.在这个问题中样本容量是( )
A.40
B.50
C.120
D.150
解析:由于样本容量即样本的个数,抽取的样本的个数为40×3=120.
答案:C
2.下列调查方式合适的是( )
A.为了了解炮弹的杀伤力,采用普查的方式
B.为了了解全国中学生的睡眠状况,采用普查的方式
C.为了了解人们保护水资源的意识,采用抽样调查的方式
D.对嫦娥二号探月卫星零部件的检查,采用抽样调查的方式
解析:了解炮弹的杀伤力,具有破坏性,应采用抽样调查的方式;全国中学生人数较多,应采用抽样调查的方式;对嫦娥二号探月卫星零部件应全部进行检查,应采用普查方式.
答案:C
3.抽样调查在抽取调查对象时( )
A.按一定的方法抽取
B.随便抽取
C.全部抽取
D.根据个人的爱好抽取
解析:抽样调查在抽取调查对象时必须要能保证所抽取的样本具有代表性,使每个个体被抽到的可能性相等,因此抽样时一定要注意事先设计好抽样的程序,按既定的程序进行抽样.
答案:A
4.体育老师要调查高一全体学生的平均身高,本校高一学生男女生比例大约为1∶1.问采取什么方法既省力又合理,应注意什么问题?
解析:因为高一学生中,有男生,有女生,如果直接编号抽取,或隔一定数从学号中抽取,都有可能产生绝大部分是男生(或女生),因此采取分类抽取的方法.因为高一学生中男女生比例大约为1∶1,所以可以采取抽取n个男生和n个女生的抽样调查方法.
PAGE2 抽样方法
2.1 简单随机抽样
考 纲 定 位
重 难 突 破
1.理解简单随机抽样的概念.2.掌握常见的两种简单随机抽样的方法.3.能合理地由实际问题的个体中抽取样本.
重点:简单随机抽样的概念及最常见的两种简单随机抽样的应用.
难点:针对实际问题合理选择简单随机抽样.
授课提示:对应学生用书第03页
[自主梳理]
1.简单随机抽样的定义
设一个总体含有N个个体,随机抽取n个个体作为样本(n2.简单随机抽样的分类
简单随机抽样
3.简单随机抽样的优点及适用类型
简单随机抽样有操作简便易行的优点,在总体个体数不多的情况下是行之有效的.
[双基自测]
1.对于简单随机抽样,每个个体每次被抽到的机会都( )
A.相等 B.不相等
C.无法确定
D.无关系
解析:由定义可知选A.
答案:A
2.已知下列抽取样本的方式:
①从无限多个个体中抽取100个个体作为样本;
②盒子里共有80个零件,从中选出5个零件进行质量检验,在抽样操作时,从中任意拿出1个零件进行质量检验后再把它放回盒子里;
③从20件玩具中一次性抽取3件进行质量检验;
④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.
其中,不是简单随机抽样的个数是( )
A.1
B.2
C.3
D.4
解析:①不是简单随机抽样,原因是简单随机抽样中总体的个数是有限的,而题中是无限的;②不是简单随机抽样,原因是简单随机抽样是不放回地抽取,而题中是有放回;③不是简单随机抽样,原因是简单随机抽样是逐个抽取,而题中是一次性抽取;④不是简单随机抽样,原因是个子最高的5名同学是56名同学中特定的,不存在随机性,不是等可能抽样,选择D.
答案:D
3.下列抽样实验中,适合用抽签法的有( )
A.从某厂生产的3
000件产品中抽取600件进行质量检验
B.从某厂生产的两箱(每箱15件)产品中抽取6件进行质量检验
C.从甲、乙两厂各生产的10箱(每箱15件)产品中各抽取6件进行质量检验
D.从某厂生产的3
000件产品中抽取10件进行质量检验
解析:B选项总体中的个体数相对较少,适合用抽签法.
答案:B
授课提示:对应学生用书第03页
探究一 简单随机抽样的概念和特点理解
[典例1] 下面的抽样方法是简单随机抽样吗?为什么?
(1)从无数个个体中抽取50个个体作为样本;
(2)质量监督部门从180种儿童玩具中选出18种玩具进行质量检验,在抽样操作过程中,从中任取一种玩具检验后再放回;
(3)国家跳水队挑出最优秀的10名跳水队员,备战2012年伦敦奥运会;
(4)一彩民选号,从装有36个大小、形状都相同的号签的盒子中无放回地抽出6个号签.
[解析] (1)不是简单随机抽样.因为简单随机抽样要求被抽取的样本总体的个数是有限的.
(2)不是简单随机抽样,因为简单随机抽样要求逐个不放回地抽取样本.
(3)不是简单随机抽样.因为这10名跳水队员是挑选出来的最优秀的,每个个体被抽到的可能性不同,不符合简单随机抽样中“等可能抽样”的要求.
(4)是简单随机抽样.因为总体中的个体数是有限的,并且是从总体中逐个进行抽取的,是不放回、等可能的抽样.
简单随机抽样的判断策略
判断一个抽样能否用简单随机抽样,关键是看它是否满足四个特点:①总体的个体数目有限;②从总体中逐个进行抽取;③是不放回抽样;④是等可能抽样.同时还要注意以下几点:①总体的个体性质相似,无明显的层次;②总体的个体数目较少,尤其是样本容量较小;③用简单随机抽样法抽出的样本带有随机性,个体间无固定的距离.
1.下面的抽样方法是简单随机抽样吗?为什么?
(1)某班45名同学,指定个子最高的5名同学参加学校组织的某项活动;
(2)从20个零件中一次性抽出3个进行质量检验;
(3)一儿童从玩具箱中的20件玩具中随意拿出一件来玩,玩后放回再拿出一件,连续玩了5件;
(4)从无限个个体中抽取80个个体作为样本.
解析:(1)不是简单随机抽样.因为这不是等可能抽样.
(2)不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取.
(3)不是简单随机抽样.因为这是有放回抽样.
(4)不是简单随机抽样.因为总体个数不是有限个.
探究二 抽签法的应用
[典例2] 省环保局收到各县市报送的环保案例28件,为了了解全省环保工作的情况,要从这28件案例中抽取7件作为样本研究,试确定抽取方法并写出操作步骤.
[解析] 总体容量小,样本容量也小,可用抽签法.步骤如下:
(1)将28件环保案例用随机方式编号,号码是1,2,3,…,28;
(2)将以上28个号码分别写在28张相同的小纸条上,制成形状、大小均相同的号签;
(3)把号签放入一个不透明的容器中,充分搅拌均匀;
(4)从容器中无放回地逐个抽取7个号签,并记录上面的号码;
(5)找出和所得号码对应的7件案例,组成样本.
利用抽签法抽取样本时应注意的问题:
(1)编号时,如果已有编号(如学号、标号等)可不必重新编号.
(2)号签要求大小、形状完全相同.
(3)号签要搅拌均匀.
(4)要逐一、不放回抽取.
2.从20架钢琴中抽取5架进行质量检查,请用抽签法确定这5架钢琴.
解析:第一步,将20架钢琴编号,号码是0,1,…,19.
第二步,将号码分别写在一张纸条上,揉成团,制成号签.
第三步,将得到的号签放入一个不透明的袋子中,并充分搅匀.
第四步,从袋子中逐个抽取5个号签,并记录上面的编号.
第五步,所得号码对应的5架钢琴就是要抽取的对象.
探究三 随机数法的应用
[典例3] 假设我们要考察某公司生产的500克袋装牛奶的质量是否达标.现从800袋牛奶中抽取60袋进行检验,利用随机数法抽样,写出抽样过程.
[解析] 第一步,先将800袋牛奶编号,可以编为000,001,…,799.
第二步,在随机数表中任选一个数,例如选出第8行第7列的数9(随机数表参见教材表1?2).
第三步,从选定的数9开始向右读(读数的方向也可以是向左、向上、向下等),得到一个三位数987,由于987>799,将它去掉,继续向右读,得到164,由于164<799,说明号码164在总体内,将它取出.按照这种方法继续向右读,又取出414,207,477,…,依次下去,如果取到前面已取过的数,跳过,继续取数,直到样本的60个号码全部取出.这样我们就得到一个容量为60的样本.
利用随机数表法抽取个体时,关键是确定以表中的哪个数(哪行哪列)作为起点,以哪个方向作为读数的方向.需注意读数时应结合编号特点进行读取,如:编号为两位,则一次读取两个数字,组成两位数;编号为三位,则一次读取三个数字,组成三位数.
3.假设要考察某公司生产的500克袋装牛奶的三聚氰胺是否超标,现从800袋牛奶中抽取60袋进行检验,利用随机数表抽取样本时,先将800袋牛奶按000,001,…,799进行编号.若从随机数表第7行第8列的数开始向右读,则最先抽取的5袋牛奶的编号为________.(下面摘取了随机数表第7行至第9行)
84
42
17
53
31 57
24
55
06
88 77
04
74
47
67
21
76
33
50
25
83
92
12
06
76
63
01
63
78
59
16
95
56
67
19
98
10
50
71
75
12
86
73
58
07
44
39
52
38
79
33
21
12
34
29
78
64
56
07
82
52
42
07
44
38
15
51
00
13
42
99
66
02
79
54
解析:找到第7行第8列的数开始向右读,第一个符合条件的数是331,第二个数是572,第三个数是455,第四个数是068,第五个数是877,它大于799,故舍去,第五个数是047.故答案为331,572,455,068,047.
答案:331,572,455,068,047
简单随机抽样在生活中的应用
[典例] (本题满分12分)某市通过电话进行民意调查.该市的电话号码有7位,其中前两位为区域代码,只能为2,3,5,7的任意两位数组成(数字可重复),后5位取自0~9十个数字,现在任意选择3个区域,每个区域随机选取5个号码进行调查,请你设计一种抽取方案选出这15个电话号码.
[规范解答] 第一步:列出只能由含2,3,5,7的任意两位数组成的区域代码,共16个,①
用抽签法随机抽取3个.3分
第二步:制作一张00000~99999的随机数,方法是用抽签法或计算机生成法产生若干个0~9之间的随机整数,5个一组,构成00000~99999之间随机数.6分
第三步:用随机数表产生随机数的方法选出15个5位数码即为所选号码,分成3组.②9分
第四步:一组前加上用抽签法选出的第一个区域代码,第2,3组前分别加上选出的第2,3个区域代码.③12分
[规范与警示] ①可先确定十位上数字,再确定个位数字,且数字可重复.
②要将15个号码分成三组,因要选择3个区域,易错点也是失分点.
③每组号码加上区域代码后,再合成得到抽取样本.
用随机数表产生随机数的方法进行抽样时,将总体中个体编号时可视具体情况选择编号的位数,任选一个数作为开始,读数的方向可以向左,也可以向右、向上、向下等等,因此并不是唯一的.
[随堂训练] 对应学生用书第05页
1.抽签法中确保样本代表性的关键是( )
A.制签
B.搅拌均匀
C.逐一抽取
D.抽取不放回
解析:逐一抽取、抽取不放回是简单随机抽样的特点,但不是确保代表性的关键.要使样本具有代表性,则应保证总体中每个个体被抽到的机会均等,而“搅拌均匀”是每个个体被抽到的机会均等的关键.
答案:B
2.下列问题中,最适合用简单随机抽样方法抽样的是( )
A.某电影院有32排座位,每排有40个座位,座位号是1~40,有一次报告会坐满了听众,报告会结束后为听取意见,要留下32名听众进行座谈
B.从10台冰箱中抽出3台进行质量检查
C.某学校有在编人员200人,其中管理人员20人,教师138人,后勤人员42人,教育部门为了解学校机构改革意见,要从中抽取一个容量为20的样本
D.某乡农田有山地800公顷,丘陵1
200公顷,平地2
400
公顷,洼地400公顷,现抽取农田48公顷估计全乡农田平均每公顷产量
解析:
A项总体容量较大,用简单随机抽样法比较麻烦;B项总体容量较少,用简单随机抽样法比较方便;C项由于学校各类人员对这一问题的看法可能差异很大,不宜采用简单随机抽样法;D项总体容量大,且各类田地的差别很大,也不宜采用简单随机抽样法.
答案:B
3.已知容量为160,若用随机数法抽取一个容量为10的样本.下面对总体的编号正确的是
( )
A.1,2,…,160
B.0,1,…,159
C.00,01,…,159
D.000,001,…,159
解析:用随机数法抽样时,要保证每个个体的编号的位数一致.
答案:D
4.要从10架钢琴中抽取4架进行质量检验,请你设计抽样方案.
解析:法一(随机数法)
第一步,将10架钢琴编号,号码是0,1,…,9.
第二步,在随机数表中任选一数作为开始,任选一方向作为读数方向.比如,选第3行第6列数“4”,向右读.
第三步,从数“4”开始,向右读,每次读取1位,依次可得到4,1,3,2.
第四步,以上号码对应的4架钢琴就是要抽取的对象.
法二(抽签法)
第一步,将10架钢琴编号,号码是0,1,…,9.
第二步,将号码分别写在一张纸条上,揉成团,制成号签.
第三步,将得到的号签放入一个不透明的袋子中,并充分搅匀.
第四步,从袋子中逐个抽取4个号签,并记录上面的编号.
第五步,所得号码对应的4架钢琴就是要抽取的对象.
PAGE2.2 分层抽样与系统抽样
考 纲 定 位
重 难 突 破
1.理解、掌握分层抽样、系统抽样.2.会用分层抽样、系统抽样从总体中抽取样本.3.了解三种抽样方法的联系与区别.
重点:两种抽样方法的步骤和使用范围.
难点:1.三种抽样方法的选择.2.两种抽样方法的具体应用.
授课提示:对应学生用书第05页
[自主梳理]
1.分层抽样
将总体按其属性特征分成若干类型(有时称作层),然后在每个类型中按照所占比例随机抽取一定的样本.这种抽样方法通常叫作分层抽样,有时也称为类型抽样.
2.系统抽样
系统抽样是将总体的个体进行编号,等距分组,在第一组中按照简单随机抽样抽取第一个样本.然后按相同间隔(称为抽样距)抽取其他样本.这种抽样方法有时也叫等距抽样或机械抽样.
[双基自测]
1.某市为了了解职工家庭生活状况,先把职工按所从事的行业分为8类(每类家庭数不完全相同),再对每个行业抽取的职工家庭进行调查,这种抽样方法是( )
A.简单随机抽样
B.系统抽样
C.分层抽样
D.不属于以上几类抽样
解析:因为职工所从事的行业有明显差异,所以适合用分层抽样.
答案:C
2.某报告厅有50排座位,每排有60个座号,一次报告会坐满了听众,会后留下座位号为18,78,138,198,…的50位听众进行座谈,这种抽取样本的方法是( )
A.抽签法 B.随机数表法
C.系统抽样
D.有放回抽样
解析:总体容量(3
000)较大,抽取间隔相等,符合系统抽样的特点,是系统抽样.
答案:C
3.若总体中含有1
645个个体,采用系统抽样的方法从中抽取容量为35的样本,则编号后确定编号分为______段,分段间隔k=______,每段有______个个体.
解析:因为N=1
645,n=35,则编号后确定编号分为35段,且k===47,则分段间隔k=47,每段有47个个体.
答案:35 47 47
授课提示:对应学生用书第06页
探究一 分层抽样
[典例1] 某政府机关现有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人,上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,并写出具体实施过程.
[解析] 因为机构改革关系到各种人的不同利益,故采用分层抽样方法为妥.
(1)因为每个人的地位不一样,我们按类别分为3层.
(2)计算总体的个数与样本容量的比:=5.
(3)按照样本容量的比例随机抽取各层应抽取的样本.因为=5,所以=2,=14,=4.
所以从副处级以上干部中抽取2人,从一般干部中抽取14人,从工人中抽取4人.
(4)因副处以上干部与工人人数较少,他们分别按1~10编号与1~20编号,然后采用抽签法分别抽取2人和4人,对一般干部70人采用00,01,02,…,69编号,然后用随机数法抽取14人.
1.如果总体中的个体有差异时,就用分层抽样抽取样本.用分层抽样抽取样本时,要把性质、结构相同的个体,组成一层.
2.在实际操作中,应先计算出抽样比k=,获得各层入样数的百分比,再按抽样比确定每层需要抽取的个体数:抽样比×该层个体数目=×该层个体数目.
1.某电视台在因特网上就观众对某一节目的喜爱程度进行调查,参加调查的总人数为12
000人,其中持各种态度的人数如下表所示:
很喜爱
喜爱
一般
不喜爱
2
435
4
567
3
926
1
072
电视台为了进一步了解观众的具体想法和意见,打算从中再抽取60人进行更为详细的调查,应怎样进行抽样?
解析:采用分层抽样的方法,抽样比为.
“很喜爱”的有2
435人,应抽取2
435×≈12(人);
“喜爱”的有4
567人,应抽取4
567×≈23(人);
“一般”的有3
926人,应抽取3
926×≈20(人);
“不喜爱”的有1
072人,应抽取1
072×≈5(人).
因此,采用分层抽样的方法在“很喜爱”、“喜爱”、“一般”和“不喜爱”的人中分别抽取12人、23人、20人和5人.
探究二 系统抽样
[典例2] 某单位共有在岗职工624人,为了调查职工上班时从离开家到来到单位的平均用时,决定抽取10%的工人进行调查,如何采用系统抽样完成这一抽样?
[解析] 第一步 由题意知,应抽取在岗职工62人作为样本,即分成62组,由于的商是10,余数是4,所以每组有10人,还剩4人.这时,抽样距是10;
第二步 用随机数法从这些职工中抽取4人,不进行调查;
第三步 将余下的在岗职工620人进行编号,编号分别为000,001,002,…,619;
第四步 在第一组000,001,002,…,009这10个编号中,随机选定一个起始编号.每间隔10抽取一个编号,共抽62个编号,这样就抽取了容量为62的一个样本.
1.解决系统抽样问题的关键步骤:
(1)分组的方法应依据抽取比例而定,即根据定义每组抽取一个样本.
(2)起始编号的确定应用随机抽样的方法,一旦起始编号确定,其他编号便随之确定了.
2.当总体容量不能被样本容量整除时,可以先从总体中随机剔除几个个体.但要注意的是剔除过程必须是随机的,也就是总体中的每个个体被剔除的机会均等,剔除几个个体后使总体中剩余的个体数能被样本容量整除.
2.为了了解参加某种知识竞赛的1
003名学生的成绩,抽取一个容量为50的样本,选用什么抽样方法比较恰当?简述抽样过程.
解析:适宜选用系统抽样,抽样过程如下:
(1)随机地将这1
003个个体编号为1,2,3,…,1
003.
(2)利用简单随机抽样,先从总体中随机剔除3个个体,剩下的个体数1
000能被样本容量50整除,然后将1
000个个体重新编号为1,2,3,…,1
000.
(3)将总体按编号顺序均分成50部分,每部分包含20个个体.
(4)在编号为1,2,3,…,20的第一部分个体中,利用简单随机抽样抽取一个号码,比如抽取的号码是18.
(5)以18为起始号码,这样得到一个容量为50的样本:18,38,58,…,978,998.
探究三 三种抽样方法的综合应用
[典例3] 已知某工厂共有20个生产车间,并且每个生产车间内的工人已经按随机方式编好了序号,假定该厂每车间工人数都相同.为了考查工人对技术水平的熟练程度,采取以下三种方式进行抽查:
①从全厂20个车间中任意抽取一个车间,再从该车间中任意抽取20人,考查这20个工人的技术水平.
②每个车间都抽取1人,共计20人,考查这20个工人的技术水平.
③把工人按技术等级分成高级工、一级工、初级工三个级别,从中抽取100名工人进行调查(已知按技术等级分,该厂工人中高级工共150人,一级工共600人,初级工共250人).
根据上面的叙述,试回答下列问题:
(1)上面三种抽取方式中,各自采用何种抽取样本的方法?
(2)试分别写出上面三种抽取方式各自抽取样本的步骤.
[解析] (1)上面三种抽取方式中,第一种方式采用的是简单随机抽样法;第二种方式采用的是系统抽样法和简单随机抽样法;第三种方式采用的是分层抽样法和简单随机抽样法.
(2)第一种方式抽样的步骤如下:
第一步,在这20个车间中用抽签法任意抽取一个车间.
第二步,从这个车间中按编号用随机数法或抽签法抽取20名工人,考查其技术水平.
第二种方式抽样的步骤如下:
第一步,在第一个车间中,用简单随机抽样法任意抽取某一工人,记其编号为x.
第二步,在其余的19个车间中,选取编号为x的工人,共计20人.
第三种方式抽样的步骤如下:
第一步,分层,因为若按技术水平等级分,其中高级工共150人,一级工共600人,初级工共250人,所以在抽取样本中,应该把全体工人分成三个层次.
第二步,确定各个层次抽取的人数,因为样本容量与总体的个数比为100∶1
000=1∶10,所以在每个层次抽取的个体数依次为,,,即15,60,25.
第三步,按层次分别抽取:在高级工中用简单随机抽样法取15人;在一级工中用简单随机抽样法抽取60人;在初级工中用简单随机抽样法抽取25人.
解决此类问题的关键是灵活运用统计中的一些基本概念和基本方法,对照简单随机抽样、系统抽样、分层抽样的概念得出抽样过程.三种抽样方法有各自的适用范围,在抽样时要分析实际情况,抓住总体的本质特点,灵活选择合适的方法,有时要综合运用几种不同的抽样方法.三种抽样方法,关系密切,对抽取样本来说,可谓异曲同工.
3.为了考察某校的教学水平,对这个学校高三年级的部分学生的本年度考试成绩进行考察.为了全面地反映实际情况,采取以下三种方式进行抽查(已知该校高三年级共有20个教学班,并且每个班内的学生已经按随机方式编好了学号,假定该校每班学生人数都相等):
①从全年级20个班中任意抽取一个班,再从该班任意抽取20名学生,考察他们的学习成绩;
②每个班都抽取1人,共计20人,考察这20名学生的成绩;
③把学生成绩分成优秀、良好、普通三个级别.从其中共抽取100名学生进行考察.(已知该校高三学生共1
000人,若按成绩分,其中优秀生共150人,良好生共600人,普通生共250人).
根据上面的叙述,试回答下列问题:
(1)上面三种抽取方式的总体、个体、样本分别是什么?每一种抽取方式抽取的样本中,样本容量分别是多少?
(2)上面三种抽取方式各自采用的是何种抽取样本的方法?
(3)试分别写出上面三种抽取方式各自抽取样本的步骤.
解析:(1)上面三种抽取方式中,总体都是高三全体学生本学年的考试成绩,个体都是指高三年级每个学生本学年的考试成绩.其中第一种抽取方式中样本为所抽取的20名学生本学年的考试成绩,样本容量为20;
第二种抽取方式中样本为所抽取的20名学生本学年的考试成绩,样本容量为20;
第三种抽取方式中样本为所抽取的100名学生本学年的考试成绩,样本容量为100.
(2)上面三种抽取方式中,第一种方式采用的是简单随机抽样;第二种方式采用的是系统抽样和简单随机抽样;第三种方式采用的是分层抽样和系统抽样.
(3)第一种方式抽样的步骤如下:
第一步,在这20个班中用抽签法任意抽取1个班;
第二步,从这个班中用简单随机抽样法抽取20名学生,考察其考试成绩.
第二种方式抽样的步骤如下:
第一步,在第1个班中,用简单随机抽样法抽取某一学生(其学号为a).
第二步,在其余的19个班中,选取学号为a的学生,共计20人.
第三种方式抽样的步骤如下:
第一步,分层,因为若按成绩分,其中优秀生共150人,良好生共600人,普通生共250人,所以在抽取样本时,应把全体学生分成三层.
第二步,确定各层抽取的人数,因为样本容量与总体的个体数的比为100∶1
000=1∶10,所以在每层抽取的个体数依次为,,,即15,60,25.
第三步,按层次分别抽取,分别在优秀生、良好生、普通生中用系统抽样的方法各抽取15人、60人、25人.
因选取抽样方法不当致误
[典例] 某校共有教师302名,其中老年教师30名,中年教师150名,青年教师122名.为调查他们对新课程改革的看法,从中抽取一个60人的样本.请写出抽样过程.
[解析] (1)把122名青年教师编号,利用随机数法剔除2个个体.
(2)因为=,30×=6,150×=30,120×=24,所以可将老年教师30名,中年教师150名,青年教师120名编号后,运用随机数法,分别从中抽取6,30,24个个体,合在一起即为要抽取的60人样本.
[错因与防范] 本题的一种错误解法是从总人数中,利用随机数法剔除2个个体,再将剩余的300名教师重新编号,分成60段.从每段抽一人,共抽取60人,以上抽样方法对该问题抽取的样本代表性不强,因3个层次的教师对新课程改革的看法是有较大差别的,因此应采用分层抽样,又因为教师总人数和青年教师人数均不能被60整除,此时就需先从青年教师中剔除2个个体,再进行抽样.
[随堂训练] 对应学生用书第07页
1.某社区有400个家庭,其中高等收入家庭120个,中等收入家庭180个,低等收入家庭100个.为了调查社会购买力的某项指标,要从中抽取一个容量为100的样本,记作①.某校高一年级有13名排球运动员,要从中选出3人调查学习负担情况,记作②.那么,完成上述两项调查宜采用的抽样方法分别是( )
A.①用简单随机抽样,②用系统抽样
B.①用分层抽样,②用简单随机抽样
C.①用系统抽样,②用分层抽样
D.①用分层抽样,②用系统抽样
解析:由于①中总体的个体数量较多,不同个体的差异较大,∴应采用分层抽样方法;由于②中总体的个体数量较少,个体之间差异不大,∴应采用简单随机抽样,故选B.
答案:B
2.某厂从50件产品中,依次抽取到编号为4,8,12,16,20,24,28,32,36,40,44,48的产品进行质检,这种抽样方法最有可能是( )
A.随机数法 B.抽签法
C.系统抽样
D.以上都不是
解析:系统抽样的显著特点是抽出个体的编号是等距的.
答案:C
3.某市有大型超市200家、中型超市400家、小型超市1
400家,为掌握各类超市的营业情况,现按分层抽样方法抽取一个容量为100的样本,应抽取中型超市________家.
解析:根据题意,可得抽样比为=,故应抽取中型超市400×=20(家).
答案:20
4.某企业三月中旬生产A,B,C三种产品共3
000件,根据分层抽样的结果,企业统计员制作了如下的统计表格:
产品类别
A
B
C
产品数量
1
300
样本中的数量
130
由于不小心,表格中A,C产品的有关数据已被污染得看不清楚,统计员只记得样本中A产品的数量比样本中C产品的数量多10,根据以上信息,求该企业生产C产品的数量.
解析:设样本的容量为x,则×1
300=130,
∴x=300.
∴在样本中A产品和C产品共有300-130=170(件).
设样本中C产品数量为y,
则y+y+10=170,
∴y=80.
∴该企业生产C产品的数量为×80=800.
PAGE3 统计图表
考 纲 定 位
重 难 突 破
1.进一步理解统计图表的作用和意义.2.掌握茎叶图的概念与应用.3.会利用合适的统计图表研究生活中的例子.
重点:1.理解统计图表的作用与意义.
2.掌握茎叶图的概念与应用.难点:恰当地利用统计图表研究样本的分布.
授课提示:对应学生用书第08页
[自主梳理]
[双基自测]
1.如图所示是某校八年级学生到校方式的条形统计图,根据图形可得出骑自行车人数占八年级学生总人数的( )
A.20%
B.30%
C.50%
D.60%
解析:由题图可知,步行的学生有60人,骑自行车的有90人,坐公共汽车的有150人,所以骑自行车的人数占八年级学生总人数的=30%.
答案:B
2.如图为某校高三(1)班的男女比例图表,已知该班共有学生55人,则该班男生比女生约多( )
A.13人
B.21人
C.24人
D.34人
解析:55×(62%-38%)=55×24%≈13(人).
答案:A
3.如图表示8位销售员一个月销售商品数量的茎叶图,则销售数据分别为______(单位:百件).
解析:由茎叶图可知销售数据都是两位数,分别为45,45,52,56,57,58,60,63.
答案:45,45,52,56,57,58,60,63
授课提示:对应学生用书第08页
探究一 条件统计图
[典例1] “国际无烟日”来临之际,小彬就公众在餐厅吸烟的态度进行了调查,并将调查结果制作成如图所示的统计图,请根据图中的信息回答下列问题:
(1)被调查者中,不吸烟者中赞成在餐厅彻底禁烟的人数是多少?
(2)被调查者中,希望在餐厅设立吸烟室的人数是多少?
(3)求被调查者中赞成在餐厅彻底禁烟的频率;
(4)某市现有人口370万,根据图中的信息估计这个城市现有人口中赞成在餐厅彻底禁烟的人数.
[解析] (1)由条形图可知,被调查者中,不吸烟者中赞成在餐厅彻底禁烟的有97人.
(2)由条形图可知,被调查者中,希望在餐厅设立吸烟室的人共有35+28=63人.
(3)由=0.6,可知被调查者中赞成在餐厅彻底禁烟的频率为0.6.
(4)因为370×0.6=222,所以此城市现有人口中赞成在餐厅彻底禁烟的约有222万人.
条形统计图分两种,一种是频数条形图(纵轴为频数),另一种是频率条形图(纵轴为频率).
1.为了丰富校园文化生活,某校计划在午间校园广播台播放“百家讲坛”的部分内容.为了了解学生的喜好,抽取若干名学生进行问卷调查(每人只选一项内容),整理调查结果,绘制统计图如图所示.
请根据统计图提供的信息回答以下问题:
(1)求抽取的学生数;
(2)若该校有3
000名学生,估计喜欢收听易中天《品三国》的学生人数;
(3)估计该校喜欢收听刘心武评《红楼梦》的女学生人数占全校学生人数的百分比.
解析:(1)从统计图上可以看出,
喜欢收听于丹析《庄子》的男生有20人,女生有10人,
喜欢收听《故宫博物馆》的男生有30人,女生有15人,
喜欢收听于丹析《论语》的男生有30人,女生有38人,
喜欢收听易中天《品三国》的男生有64人,女生有42人,
喜欢收听刘心武评《红楼梦》的男生有6人,女生有45人,
所以抽取的学生数为20+10+30+15+30+38+64+42+6+45=300(人).
(2)喜欢收听易中天《品三国》的男生有64人,女生有42人,共有106人,占所抽取总人数的比例为,由于该校有3
000名学生,因此可以估计喜欢收听易中天《品三国》的学生有×3
000=1
060(名).
(3)该校喜欢收听刘心武评《红楼梦》的女学生人数约占全校学生人数的比例为×100%=15%.
探究二 折线统计图与扇形统计图
[典例2] 右图是根据某市3月1日至3月10日的最低气温(单位:℃)的情况绘制的折线统计图,试根据折线统计图反应的信息,绘制该市3月1日到10日最低气温(单位:℃)的条形统计图和扇形统计图.
[解析] 该城市3月1日至10日的最低气温(单位:℃)情况如下表:
日期
1
2
3
4
5
6
7
8
9
10
最低气温
-3
-2
0
-1
1
2
0
-1
2
2
条形统计图如图所示.
扇形统计图如图所示.
1.折线统计图是用一个单位长度表示一定的数量,根据数量的多少描出各点,然后把各点用线段顺次连接起来.折线统计图不但可以表示出数量的多少,而且能够清楚地表示数量增减变化的情况,即折线统计图能够清晰地反映数据的变化情况.
2.扇形统计图中,用圆面代表总体,圆面中的各个扇形分别代表总体中的不同部分,扇形的大小反映部分占总体的百分比的大小.扇形统计图可以很清楚地表示各部分数量同总数之间的关系,即扇形统计图能清楚地表示出各部分在总体中所占的百分比.
2.某摩托车厂
2015年第三、四季度各月产量如下表:
月份
7
8
9
10
11
12
月产量(辆)
300
350
450
540
700
600
根据图表绘制折线统计图,在相邻的两个月里,哪两个月的月产量增长幅度最大?
解析:建立直角坐标系,用横坐标表示月份,用纵坐标表示月产量,描出每个月份的对应点,连成折线,得到折线统计图如图,由图可知,10月和11月这两个相邻月的月产量增长幅度最大.
探究三 茎叶图
[典例3] 某中学高二(2)班甲、乙两名学生自进入高中以来,每次数学考试成绩情况如下:
甲:95,81,75,91,86,89,71,65,76,88,94,110,107;
乙:83,86,93,99,88,103,98,114,98,79,78,106,101.
画出两人数学成绩的茎叶图,并根据茎叶图对两人的成绩进行比较.
[解析] 甲、乙两人数学成绩的茎叶图如图所示.
从这个茎叶图上可以看出,乙同学的得分情况是大致对称的,中位数是98;甲同学的得分情况也大致对称,中位数是88.因此乙同学的成绩比较稳定,总体情况比甲同学好.
画茎叶图的步骤
第一步,将数据分为“茎”(高位)和“叶”(低位)两部分.
第二步,将表示“茎”的数字按大小顺序由上到下排成一列.
第三步,将各个数据的“叶”按次序写在其茎的左、右两侧.
3.某市各地中小学每年都要进行学生体质健康测试,测试总成绩满分为100分,规定测试成绩在[85,100]之间为体质优秀;在[75,85)之间为体质良好;在[60,75)之间为体质合格;在[0,60)之间为体质不合格.现从某校高三年级的300名学生中随机抽取30名学生的体质健康测试成绩,其茎叶图如下:
(1)试估计该校高三年级体质为优秀的学生人数;
(2)根据以上30名学生的体质健康测试成绩,现采用分层抽样的方法,从体质为优秀和良好的学生中抽取5名,则优秀与良好的学生应各抽多少名?
解析:(1)根据题意,样本中体质为优秀的学生人数为10,故该校高三年级体质为优秀的学生人数为×300=100.
(2)依题意,体质为良好和优秀的学生人数之比为15∶10=3∶2,
所以从体质为良好的学生中抽取的人数为×5=3,
从体质为优秀的学生中抽取的人数为×5=2.
三种统计图的综合应用
[典例] 1957年世界人口30亿,17年后(即1974年)增加了10亿,即达到40亿;又过了13年达到50亿;到1999年全世界总人口达60亿.以此速度,人口学专家预测到2025年,世界人口将达到80亿;而到2050年人口将超过90亿,其中亚洲人口最多,将达到52.68亿,北美洲3.92亿,欧洲8.28亿,拉丁美洲及加勒比地区8.09亿,非洲17.68亿.有一位同学根据以上提供的数据制作了三幅统计图(如图(1)(2)(3)),请根据这些统计图完成下列问题.
(1)三幅统计图分别表示了什么内容?
(2)从哪幅统计图中最能看出世界人口的总体变化情况?
(3)2050年非洲人口大约将达到多少亿?你是从哪幅统计图中得到这个数据的?
(4)2050年亚洲人口比其他各洲人口的总和还要多,你从哪幅统计图中可以明显地得到这个结论?
[解析] (1)世界人口变化情况折线统计图清楚地反映了世界人口的变化情况;2050年世界人口分布预测扇形统计图反映了各洲人口在世界人口分布中所占的百分比;2050年世界人口分布预测条形统计图反映了各洲2050年的具体人口数.
(2)从世界人口变化情况折线统计图中看出.
(3)从2050年世界人口分布预测条形统计图中可得到,2050年非洲人口大约为17.68亿.
(4)从2050年世界人口分布预测扇形统计图中得到.
[感悟提高] 同一问题用不同的统计图表表示出来,可根据各统计图表的特点、应用范围反映出不同的问题.针对需解决的问题及统计图表的功能,可选择画出相应的统计图表或用三种统计图综合解释现实生活中的问题.
[随堂训练] 对应学生用书第10页
1.如图是甲、乙、丙、丁四组人数的扇形统计图的部分结果,
根据扇形统计图的情况可以知道丙、丁两组人数和为( )
A.250
B.150
C.400
D.300
解析:甲组人数是120,占30%,则总人数是=400,则乙组人数是400×7.5%=30,则丙、丁两组人数和为400-120-30=250.
答案:A
2.对“小康县”的经济评价标准:①年人均收入不低于7
000元;②年人均食品支出不高于年人均收入的35%.某县有40万人,年人均收入如下表如示,年人均食品支出如图所示,则该县( )
年人均收入/元
0
2
000
4
000
6
000
8
000
10
000
12
000
16
000
人数/万人
6
3
5
5
6
7
5
3
A.是小康县
B.达到标准①,未达到标准②,不是小康县
C.达到标准②,未达到标准①,不是小康县
D.两个标准都未达到,不是小康县
解析:由题中图表可知年人均收入为(2
000×3+4
000×5+6
000×5+8
000×6+10
000×7+12
000×5+16
000×3)÷40=7
050(元),达到了标准①;年人均食品支出为(1
400×3+2
000×5+2
400×13+3
000×10+3
600×9)÷40=2
695(元),则年人均食品支出占年人均收入的×100%≈38.2%>35%,未达到标准②.所以不是小康县.
答案:B
3.如图是某市5月1日至5月7日每天最高、最低气温的折线统计图,在这7天中,日温差最大的一天是________.
解析:由图可知5月1日的温差为12
℃,5月2日的温差为12
℃,5月3日的温差为11
℃,5月4日的温差为10.5
℃,5月5日的温差为12.5
℃,5月6日的温差为10
℃,5月7日的温差为10
℃.
答案:5月5日
PAGE4 数据的数字特征
考 纲 定 位
重 难 突 破
1.掌握各种基本数字特征的概念、意义以及它们各自的特点.2.要重视数据的计算,体会统计思想.
重点:各种数据特征的意义以及计算.
难点:根据问题的需要选择不同的统计量表达数据的信息.
授课提示:对应学生用书第11页
[自主梳理]
[双基自测]
1.下列能刻画一组数据离散程度的是( )
A.平均数
B.方差
C.中位数
D.众数
解析:方差能刻画一组数据离散程度的大小.
答案:B
2.下列说法中,错误的是( )
A.数据2,4,6,8的中位数是4,6
B.数据1,2,2,3,4,4的众数是2,4
C.一组数据的众数、中位数、平均数有可能是同一个数据
D.8个数据的平均数为5,另3个数据的平均数为7,则这11个数据的平均数是
解析:由中位数的特征,知A中的中位数有两个是错误的,其中位数应为=5.
答案:A
3.一个样本的方差s2=[(x1-15)2+(x2-15)2+…+(x10-15)2],则这个样本的平均数与样本容量分别是________.
解析:由方差的计算公式知=15,n=10.故这个样本的平均数为15,样本容量为10.
答案:15,10
授课提示:对应学生用书第11页
探究一 中位数、众数、平均数的计算及应用
[典例1] 据报道,某公司的33名职工的月工资(单位:元)如下:
职务
董事长
副董事长
董事
总经理
经理
管理员
职员
人数
1
1
2
1
5
3
20
工资
5
500
5
000
3
500
3
000
2
500
2
000
1
500
(1)求该公司职工月工资的平均数、中位数、众数;
(2)假设副董事长的工资从5
000元提升到20
000元,董事长的工资从5
500元提升到30
000元,那么新的平均数、中位数、众数又是什么?(精确到元)
(3)你认为哪个统计量更能反映这个公司员工的工资水平?结合此问题谈一谈你的看法.
[解析] (1)平均数是
=1
500+
≈1
500+591=2
091(元).
中位数是1
500元,众数是1
500元.
(2)新的平均数是′=1
500+
≈1
500+1
788=3
288(元).
中位数是1
500元,众数是1
500元.
(3)在这个问题中,中位数或众数均能反映该公司员工的工资水平,因为公司中少数人的工资额与大多数人的工资额差别较大,这样导致平均数与中位数偏差较大,所以平均数不能反映这个公司员工的工资水平.
理解并掌握平均数、众数、中位数的概念,平均数、众数、中位数可能相同,也可能不同,注意某几个数据的平均数就是这些数的算术平均数,样本平均数代表了数据更多的信息,在实际问题中计算时,应按照实际要求进行计算.
1.某学校对高一年级经过初步比较后,决定从高一年级(1)(4)(8)班这三个班中推荐一个班为市级先进班集体的候选班,现对这三个班进行综合素质考评,下表是它们五项素质考评的得分表:(以分为单位,每项满分为10分)
班级
行为规范
学习成绩
校运动会
艺术获奖
劳动卫生
高一(1)班
10
10
6
10
7
高一(4)班
10
8
8
9
8
高一(8)班
9
10
9
6
9
请问各班五项考评分的平均数、中位数和众数中哪个统计量不能反映三个班的考评结果的差异?并从中选择一个能反映差异的统计量将它们的得分进行排序.
解析:设P1、P4、P8顺次为三个班考评分的平均数;
W1、W4、W8顺次为三个班考评分的中位数;
Z1、Z4、Z8顺次为三个班考评分的众数.
则P1=(10+10+6+10+7)=8.6(分),
P4=(10+8+8+9+8)=8.6(分),
P8=(9+10+9+6+9)=8.6(分);
W1=10(分),W4=8(分),W8=9(分);
Z1=10(分),Z4=8(分),Z8=9(分).
所以平均数不能反映这三个班的考评结果的差异,而用中位数(或众数)能反映差异,且W1>W8>W4(或Z1>Z8>Z4).
探究二 方差、标准差与应用
[典例2] 甲、乙两支篮球队在一次联赛中,各进行10次比赛,得分如下:
甲队:100,97,99,96,102,103,104,101,101,100.
乙队:97,97,99,95,102,100,104,104,103,102.
请计算甲、乙两队的方差与标准差,并判断哪支球队发挥更为稳定.
[解析] 甲=(100+97+…+100)=100.3,
乙=(97+97+…+102)=100.3,
则s=[(100-100.3)2+…+(100-100.3)2]=5.61,
则s=[(97-100.3)2+…+(102-100.3)2]=9.21,
所以甲队的标准差为s甲=≈2.37,乙队的标准差为s乙=≈3.03.
由此可以判断甲队的得分方差小,标准差也相应较小,因此甲队在联赛中发挥更为稳定一些.
在实际问题中,仅靠平均数不能完全反映问题,还要研究方差,方差描述了数据相对平均数的离散程度.在平均数相同的情况下,方差越大,离散程度越大,数据波动性越大,稳定性越差;方差越小,数据越集中、越稳定.
2.某工厂甲、乙两名工人参加操作技能培训,他们在培训期间参加的8次测试成绩记录如下:
甲 95 82 88 81 93 79 84 78
乙 83 92 80 95 90 80 85 75
试比较哪个工人的成绩较好.
解析:甲=×(78+79+81+82+84+88+93+95)=85,
乙=×(75+80+80+83+85+90+92+95)=85.
s=×[(78-85)2+(79-85)2+(81-85)2+(82-85)2+(84-85)2+(88-85)2+(93-85)2+(95-85)2]=35.5,
s=×[(75-85)2+(80-85)2+(80-85)2+(83-85)2+(85-85)2+(90-85)2+(92-85)2+(95-85)2]=41.
∵甲=乙,s∴甲的成绩较稳定.
综上可知,甲的成绩较好.
探究三 数字特征的综合应用
[典例3] 甲、乙两人在相同条件下各射靶10次,每次射靶的成绩情况如图所示:
(1)请填写下表:
平均数
方差
中位数
命中9环及9环以上次数
甲
乙
(2)请从下列四个不同的角度对这次测试结果进行分析:
①从平均数和方差相结合看,分析谁的成绩稳定;
②从平均数和中位数相结合看,分析谁的成绩好些;
③从平均数和命中9环及9环以上的次数相结合看,分析谁的成绩好些;
④从折线图上两人射击命中环数的走势看,分析谁更有潜力.
[解析] (1)观察折线图可得甲射击10次中靶环数分别为:
9,5,7,8,7,6,8,6,7,7.
将它们由小到大重排为:
5,6,6,7,7,7,7,8,8,9.
乙射击10次中靶环数分别为:
2,4,6,8,7,7,8,9,9,10.
将它们由小到大重排为:
2,4,6,7,7,8,8,9,9,10.
甲=(5+6×2+7×4+8×2+9)=7,
乙=(2+4+6+7×2+8×2+9×2+10)=7,
s=[(5-7)2+(6-7)2×2+(7-7)2×4+(8-7)2×2+(9-7)2]
=(4+2+0+2+4)=1.2,
s=×[(2-7)2+(4-7)2+(6-7)2+(7-7)2×2+(8-7)2×2+(9-7)2×2+(10-7)2]
=(25+9+1+0+2+8+9)=5.4.
根据以上的分析与计算填表如下:
平均数
方差
中位数
命中9环及9环以上次数
甲
7
1.2
7
1
乙
7
5.4
7.5
3
(2)①因为平均数相同,且s所以甲的成绩比乙稳定.
②因为平均数相同,甲的中位数<乙的中位数,
所以乙的成绩比甲好些.
③因为平均数相同,命中9环及9环以上的次数甲比乙少,所以乙的成绩比甲好些.
④甲成绩在平均数上下波动,而乙的成绩处于上升势头,从第四次以后就没有比甲少的情况发生,所以乙较有潜力.
1.计算标准差的方法:
(1)算出样本数据的平均数.
(2)算出每个样本数据与样本平均数的差xi-
(i=1,2,…,n).
(3)算出(xi-)2(i=1,2,…,n).
(4)算出(xi-)2(i=1,2,…,n)这n个数的平均数,即为样本方差s2.
(5)算出方差的算术平方根,即为样本标准差s.
2.方差的计算公式:
(1)s2=[(x1-)2+(x2-)2+…+(xn-)2].
(2)s2=(x+x+…+x-n
2).
(3)s2=(x+x+…+x)-2.
3.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分的中位数为me,众数为mo,平均值为,则( )
A.me=mo= B.me=mo<
C.meD.mo解析:由题意知mo=5,me==5.5,
=
=,
显然>me>mo,故选D.
答案:D
样本数据的数字特征的综合应用
[典例] (本题满分12分)在一次科技知识竞赛中,两组学生的成绩如下表:
分数
50
60
70
80
90
100
人数
甲组
2
5
10
13
14
6
乙组
4
4
16
2
12
12
已经算得两个组的平均分都是80分.请根据你所学过的统计知识,进一步判断这两个组在这次竞赛中的成绩谁优谁劣,并说明理由.
[规范解答] (1)甲组成绩的众数为90分,乙组成绩的众数为70分,从成绩的众数看,甲组成绩较好.2分
(2)甲、乙两组成绩的中位数、平均数都是80分.其中,甲组成绩在80分以上(包括80分)的有33人,乙组成绩在80分以上(包括80分)的有26人,从这一角度看,甲组成绩较好.5分
(3)s=×[2×(50-80)2+5×(60-80)2+10×(70-80)2+13×(80-80)2+14×(90-80)2+6×(100-80)2]=172.
s=×[4×(50-80)2+4×(60-80)2+16×(70-80)2+2×(80-80)2+12×(90-80)2+12×(100-80)2]=256.
因为s<s,所以甲组成绩比乙组成绩稳定,从这一角度看,甲组成绩较好.9分
(4)从成绩统计表看,甲组成绩大于或等于90分的有20人,乙组成绩大于或等于90分的有24人,所以乙组成绩分布在高分段的人数较多.同时,乙组得满分的人数比甲组得满分的人数多6,从这一角度看,乙组成绩较好.12分
[规范与警示] (1)对实际问题的分析评价,不仅要依据单个样本数字特征,还要综合考虑样本分布的影响,养成从多角度看问题的习惯.
(2)本题仅涉及一些简单的样本数字特征的计算,但在没有任何提示的情况下,要根据这些数据进行分析和判断,会令人束手无策.要正确解答这道题,首先要抓住问题中的关键词语,全方位地进行评价,如本题中的“满分人数”.注意要在恰当的评估后,组织正确的语言作出结论.
[随堂训练] 对应学生用书第13页
1.已知一组数据从小到大的排列顺序为-1,0,4,x,6,15且这组数据的中位数为5,那么数据的众数为( )
A.5 B.6
C.4
D.5.5
解析:由中位数定义得=5,∴x=6,∴数据的众数为6.
答案:B
2.某学习小组在一次数学测验中,得100分的有1人,95分的有1人,90分的有2人,85分的有4人,80分和75分的各有1人,则该小组成绩的平均数、众数、中位数分别是( )
A.85,85,85
B.87,85,86
C.87,85,85
D.87,85,90
解析:由平均数、中位数、众数的定义可知,平均数==87;因为得85分的有4人,所以众数是85;把成绩由大到小排列为100,95,90,90,85,85,85,85,80,75,故中位数是85.
答案:C
3.已知数据a,a,b,c,d,b,c,c,且a解析:这8个数据按从小到大的顺序排列为a,a,b,b,c,c,c,d.c出现的次数最多,故众数为c,中间的两个数为b,c,故中位数为,平均数为.
答案:c
PAGE5 用样本估计总体
6 统计活动:结婚年龄的变化
考 纲 定 位
重 难 突 破
1.理解频率分布直方图,频率分布折线图的概念.2.会用样本的频率分布估计总体分布.3.会用样本的基本数字特征估计总体的基本数字特征.
重点:用样本的频率分布、数字特征估计总体.
难点:1.对频率分布直方图、频率分布折线图的理解与应用.2.根据数字特征,分析、比较总体差异.
授课提示:对应学生用书第13页
[自主梳理]
1.一般地,总体分布是指总体中个体所占的比例.
2.频率分布直方图和频率折线图
频率分布直方图
频率折线图
定义
频率分布直方图由一些小矩形来表示,每个小矩形的宽度为Δxi(分组的宽度),高为fi/Δxi,小矩形的面积恰为相应的频率fi,图中所有小矩形的面积之和为1
在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间.从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线,我们称之为频率折线图
当样本容量很大时
样本中落在每个区间内的样本数的频率会稳定于总体在相应区间内取值的概率,因此我们就可以用样本的频率分布直方图来估计总体在任意区间内取值的概率
所划分的区间数也可以随之增多,而每个区间的长度则会相应随之减小,相应的频率折线图就会越来越接近于一条光滑曲线
作用
用样本分布去估计总体分布情况
3.样本平均数和样本标准差
假设通过随机抽样得到的样本为x1,x2,…,xn,则样本平均数=.
样本标准差
s==
.
4.估计总体的数字特征
样本平均数和样本标准差可分别用来估计总体的平均数和标准差,如果抽样的方法比较合理,那么样本可以反映总体的信息,从样本中所得到的有关总体的估计可能互不相同,这一现象是由抽样的随机性引起的,当样本容量很大时,样本数据确实反映了总体的信息.
5.统计活动的步骤
(1)明确调查的目的,确定调查的对象.
(2)利用随机抽样抽取样本,收集数据.
(3)整理数据.用表格来表示数据.
(4)分析数据.其方法有两种:一是用统计图表来分析,二是计算平均数和标准差,并比较它们的大小.
(5)作出推断.通过分析数据作出推断.
[双基自测]
1.一个容量为100的样本,已知某组的频率为0.3,则该组的频数为( )
A.3
B.7
C.30
D.70
解析:根据样本容量与频数、频率的关系,得该组的频数为100×0.3=30.
答案:C
2.将容量为100的样本数据分为8个组,如下表:
组号
1
2
3
4
5
6
7
8
频数
10
13
x
14
15
13
12
9
则第3组的频率为( )
A.0.03
B.0.07
C.0.14
D.0.21
解析:由题意得x=100-(10+13+14+15+13+12+9)=14,所以第3组的频率为=0.14.
答案:C
3.一个容量为32的样本,已知某组样本的频率为0.125,则该组样本的频数为________.
解析:频数=样本容量×频率=32×0.125=4.
答案:4
授课提示:对应学生用书第14页
探究一 画频率分布直方图、折线图
[典例1] 已知一个样本:30,29,26,24,25,27,26,22,24,25,26,28,25,21,23,25,27,29,25,28.
(1)列出样本的频率分布表;
(2)画出频率分布直方图和频率折线图;
(3)根据频率分布直方图,估计总体出现在23~28内的频率是多少?
[解析] (1)计算极差:30-21=9.
决定组距和组数:取组距为2,
∵=4,
∴共分5组.
决定分点,使分点比数据多一位小数,
并把第1小组的分点减小0.5,即分成如下5组:
20.5~22.5,22.5~24.5,24.5~26.5,26.5~28.5,28.5~30.5.
列出频率分布表如下:
分组
个数累计
频数
频率
频率/组距
20.5~22.5
丅
2
0.1
0.05
22.5~24.5
3
0.15
0.075
24.5~26.5
正
8
0.4
0.2
26.5~28.5
4
0.2
0.1
28.5~30.5
3
0.15
0.075
合计
20
20
1.00
(2)作出频率分布直方图如图:
取各小长方形上的中点并用线段连接就构成了频率折线图,如图.
(3)由频率分布表和频率分布直方图观察得:
样本值出现在23~28之间的频率为0.15+0.40+0.2=0.75,所以可以估计总体中出现在23~28之间的数的频率约为0.75.
(1)通过频率分布表、频率分布直方图可以将大量数据包含的信息比较清楚地反映出来,便于掌握数字特征.
(2)作图时小矩形的高易错用该组的频率的大小来表示,其原因是不清楚频率分布直方图的意义.
1.某中学同年级40名男生的体重数据如下(单位:千克):
61 60 59 59 59 58 58 57 57 57 57 56
56 56 56 56 56 56 55 55 55 55 54 54
54 54 53 53 52 52 52 52 52 51 51 51
50 50 49 48
列出样本的频率分布表,画出频率分布直方图,画出频率分布折线图.
解析:(1)计算极差:61-48=13;
(2)决定组距与组数,取组距为2,
∵=6,∴共分7组;
(3)决定分点,使分点比数据多一位小数,并把第1小组的分点减小0.5,即分成如下7组:
47.5~49.5,49.5~51.5,51.5~53.5,53.5~55.5,55.5~57.5,57.5~59.5,59.5~61.5.
(4)列出频率分布表如下:
分组
频数累计
频数
频率
47.5~49.5
丅
2
0.05
49.5~51.5
正
5
0.125
51.5~53.5
正丅
7
0.175
53.5~55.5
正
8
0.20
55.5~57.5
正正一
11
0.275
57.5~59.5
正
5
0.125
59.5~61.5
丅
2
0.05
合计
40
40
1.00
(5)作出频率分布直方图如图:
(6)取各小长方形上边的中点并用线段连接就构成了频率分布折线图,如图.
探究二 用样本的频率分布估计总体
[典例2] 为了了解小学生的体能情况,抽取某小学同年级部分学生进行跳绳测试,将所得数据整理后,画出频率分布直方图,已知图中从左到右的前三个小组的频率分别是0.1,0.3,0.4,第一小组的频数为5.
(1)求第四小组的频率;
(2)参加这次测试的学生人数是多少?
(3)在这次测试中,学生跳绳次数的中位数落在第几小组内?
[解析] (1)第四小组的频率为1-(0.1+0.3+0.4)=0.2.
(2)参加测试的人数为5÷0.1=50(人).
(3)由题意可得,0.1×50=5,0.3×50=15,0.4×50=20,0.2×50=10.
则第一、第二、第三、第四小组的频数分别是5,15,20,10,所以中位数应在第三小组.
1.利用频率分布直方图求数字特征:
(1)众数是最高的矩形的底边的中点;
(2)中位数左右两侧直方图的面积相等;
(3)平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标.
2.利用直方图求众数、中位数、平均数均为近似值,往往与实际数据得出的不一致.但它们能粗略估计其众数、中位数和平均数.
2.从某小学随机抽取100名同学,将他们的身高(单位:cm)数据绘制成频率分布直方图(如图).由图中数据可知a=________.若要从身高在[120,130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在[140,150]内的学生中选取的人数应为________.
解析:∵小矩形的面积等于频率,
∴除[120,130)之外的频率和为0.70,
∴a==0.030.由题意知,身高在[120,130),[130,140),[140,150]内的学生分别为30人,20人,10人,∴由分层抽样可知,抽样比为=,∴在[140,150]中选取的学生应为3人.
答案:0.030 3
探究三 用样本的数字特征估计总体
[典例3] 为迎接5月31日世界无烟日的到来,小华对10名戒烟成功者戒烟前和戒烟5个星期后的体重作了认真统计,并记录如下表所示(单位:kg):
人员
A
B
C
D
E
F
G
H
I
J
戒烟前
67
80
69
52
52
60
55
55
64
60
戒烟后
70
81
68
55
57
62
54
52
67
58
(1)求这10人在戒烟前和戒烟后的体重的平均数;
(2)求这10人在戒烟前和戒烟后的体重的方差;
(3)通过上述数据,你能得到什么结论?
[解析] (1)将数据按从小到大的顺序重新排列:
戒烟前:
52,52,55,55,60,60,64,67,69,80;
戒烟后:
52,54,55,57,58,62,67,68,70,81.
求得戒烟前=61.4(kg),戒烟后=62.4(kg).
(2)s=70.44,s=73.84.
(3)从戒烟前后两组数据的统计量知:从平均数看戒烟后这10人的平均体重增加了1
kg;从方差看,戒烟后数据的波动比戒烟前数据波动大,说明戒烟对不同的人所发生的变化程度是不同的,通过对这两组数据的统计分析,得出结论:吸烟有害健康,戒烟对身体健康是有益的.
样本的平均数和方差是两个重要的数字特征.在应用平均数和方差解决实际问题时,若平均数不同,则直接应用平均数比较优劣,若平均数相同,则要由方差研究其与平均数的偏离程度.
3.某医院门诊部关于病人等待挂号的时间记录如下:
等待时间(min)
[0,5)
[5,10)
[10,15)
[15,20)
[20,25]
频数
4
8
5
2
1
试用上述分组资料求病人平均等待时间的估计值及平均等待时间标准差的估计值s.
解析:等待时间取各组的中点值,代表等待时间.
=(2.5×4+7.5×8+12.5×5+17.5×2+22.5×1)=9.5(min).
s2=[(2.5-9.5)2×4+(7.5-9.5)2×8+(12.5-9.5)2×5+(17.5-9.5)2×2+(22.5-9.5)2×1]=28.5(min2).
s=≈5.34(min).
∴病人平均等待时间约9.5
min,标准差约为5.34
min.
分类讨论思想在解决统计问题中的应用
[典例] 某班4个小组的人数分别为10,10,x,8,已知这组数据的中位数与平均数相等,求这组数据的中位数.
[解析] 该组数据的平均数为(x+28),中位数一定是其中两个数的平均数,由于x不知是多少,所以要分几种情况讨论.
(1)当x≤8时,原数据按从小到大的顺序排列为x,8,10,10,其中位数为×(10+8)=9.若(x+28)=9,则x=8,此时中位数为9.
(2)当8<x≤10时,原数据按从小到大的顺序排列为8,x,10,10,其中位数为(x+10).若(x+28)=(x+10),则x=8,而8不在8<x≤10的范围内,所以舍去.
(3)当x>10时,原数据按从小到大的顺序排列为8,10,10,x,其中位数为×(10+10)=10.若(x+28)=10,
则x=12,此时中位数为10.
综上所述,这组数据的中位数为9或10.
[感悟提高] 在解决问题时,由于条件的变化,问题的结果有多种情况,不能用同一标准或同一种方法解决,这就需要对条件进行分类讨论.
当在数据中有未知数x求其中位数时,因x的取值不同,所以数据由大到小(或由小到大)的排列顺序不同,故中位数也不同,这就是本题分类讨论的原因.
[随堂训练] 对应学生用书第15页
1.在频率分布直方图中,①一定是中间高,两边低;②各矩形的高度等于各组对应的频率;③各矩形高度和为1;④各矩形的面积和为1.以上结论正确的有( )
A.0个
B.1个
C.2个
D.3个
解析:①②③错误,只有④正确.
答案:B
2.一组样本数据,容量为150,按从小到大的顺序分成5个组,其频数如表所示:
组号
1
2
3
4
5
频数
28
32
28
32
x
那么第5组的频率为( )
A.120
B.30
C.0.8
D.0.2
解析:根据频数分布表,得第5组的频数为150-28-32-28-32=30,则第5组的频率为=0.2.故选D.
答案:D
3.在样本的频率分布直方图中共有n个小矩形,若中间一个小矩形的面积等于其余(n-1)个小矩形面积的,且样本容量为3
200,则中间一组的频数为________.
解析:因为中间一个小矩形的面积等于其余(n-1)个小矩形面积的,所以中间一个小矩形的面积为所有矩形面积和的,因此中间一组的频数为3
200×=400.
答案:400
PAGE7 相关性
8 最小二乘估计
考 纲 定 位
重 难 突 破
1.会作散点图,并利用散点图直观认识变量间的相关关系.2.知道最小二乘法的思想,能够根据给出的线性回归系数公式建立线性回归方程.
重点:作散点图,会建立线性回归方程.
难点:准确理解变量的相关关系并求线性回归方程.
授课提示:对应学生用书第16页
[自主梳理]
1.散点图
在考虑两个量的关系时,为了对变量之间的关系有一个大致的了解,人们通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.
2.变量之间的相关关系
从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样近似的过程称为曲线拟合.若两个变量x和y的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的,而若所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关为非线性相关.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.
3.最小二乘法与线性回归方程
如果有n个点(x1,y1),(x2,y2),…,(xn,yn),可以用下面的表达式来刻画这些点与直线y=a+bx的接近程度:
[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2使得上式达到最小值的直线y=a+bx就是我们所要求的直线,这种方法称为最小二乘法.
说明:
线性回归方程y=a+bx中,
b=eq
\f(x1y1+x2y2+…+xnyn-n\o(x,\s\up6(-))
\o(y,\s\up6(-)),x+x+…+x-n\o(x,\s\up6(-))2)(其中=,
=);
a=-b__.
[双基自测]
1.下列两个变量之间的关系是相关关系的是( )
A.正方体的棱长与体积
B.单位圆中圆心角的度数与所对弧长
C.单位面积的产量为常数时,土地面积与总产量
D.日照时间与水稻的亩产量
解析:选项A,B,C均为函数关系,日照时间与水稻的亩产量有一定的关系,日照时间长,水稻的亩产量就高,但这种情况也不是绝对的,二者是相关关系.
答案:D
2.已知x,y之间的一组数据如下:
x
0
1
2
3
4
5
y
1
3
5
5
7
9
则y关于x的回归直线必经过点( )
A.(2,2)
B.(1,3)
C.(2.5,5)
D.(4,6)
解析:因为==2.5,==5,所以y关于x的回归直线必经过样本点的中心(2.5,5).故选C.
答案:C
3.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的线性回归方程:y=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
解析:由y=0.254x+0.321知,当x增加1万元时,年饮食支出y增加0.254万元.
答案:0.254
授课提示:对应学生用书第16页
探究一 变量之间的相关关系的判断
[典例1] 下面是随机抽取的9位15岁男生的身高、体重表:
编号
1
2
3
4
5
6
7
8
9
身高/cm
165
157
155
175
168
157
178
160
163
体重/kg
52
44
45
55
54
47
62
50
53
判断所给的两个变量是否存在相关关系.
[解析] 法一:根据经验可知,人的身高和体重之间存在相关关系.
法二:观察表格数据可知,人的体重随着身高的增高而增加,因此人的身高和体重之间存在相关关系.
法三:以x轴表示身高,以y轴表示体重,得到相应的散点图如图所示.
我们会发现,随着身高的增高,体重基本上呈增加的趋势.所以体重与身高之间存在相关关系.
两个变量x和y相关关系的确定方法
(1)散点图法:通过散点图,观察它们的分布是否存在一定规律,直观地判断.
(2)如果发现点的分布从整体上看大致在一条线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
1.某化妆品公司2013~2018年的年利润x(单位:百万元)与年广告支出y(单位:百万元)的统计资料如下表所示:
年份
2013
2014
2015
2016
2017
2018
利润x
12.2
14.6
16.2
18.4
20.4
22.3
支出y
0.62
0.74
0.81
0.89
1.00
1.11
根据统计资料,可知( )
A.利润的中位数是16.2,x与y有正相关关系
B.利润的中位数是17.3,x与y有正相关关系
C.利润的中位数是17.3,x与y有负相关关系
D.利润的中位数是18.4,x与y有负相关关系
解析:年利润的6个数据的中间两个为16.2,18.4,则中位数为17.3;又x增加时,y也随之增加,因此x与y成正相关.故选B.
答案:B
探究二 求线性回归方程
[典例2] 关于人体的脂肪含量(百分比)和年龄关系的研究中,得到如下一组数:
年龄x
23
27
39
41
45
49
50
53
脂肪y
9.5
17.8
21.2
25.9
27.5
26.3
28.2
29.6
(1)判断它们是否有相关关系,若有相关关系,请作一条拟合直线;
(2)用最小二乘法求出年龄关于脂肪的线性回归方程.
[解析] (1)以x轴表示年龄,y轴表示脂肪含量(百分比)画出散点图,如图.
进一步观察,发现上图中的点分布在一条直线附近,这说明这一正相关可以用这一直线来逼近,根据图中分析,人体的脂肪含量(百分比)和年龄具有相关关系.
(2)设回归直线为y=bx+a,
那么结合题中数据,可得
=40.875,=23.25,
xiyi=8
092.8,x=14
195,
则b=eq
\f(\o(∑,\s\up6(8),\s\do4(i=1))xiyi-8\o(x,\s\up6(-))
\o(y,\s\up6(-)),\o(∑,\s\up6(8),\s\do4(i=1))x-8\o(x,\s\up6(-))2),
=≈0.591
2,
a=-b=23.25-0.591
2×40.875=-0.915
3,
所以所求的线性回归方程是y=0.591
2x-0.915
3.
(1)最小二乘法的适用条件:两个变量必须具有线性相关性,若题目没有说明相关性,必须对两个变量进行相关性检验.
(2)注意事项:
①利用求回归方程的步骤求线性回归方程的方法实质是一种待定系数法.
②计算a,b的值时,用列表法理清计算思路,减少计算失误.同时,计算时,尽量使用计算机或科学计算器.
2.某研究机构对中学生记忆能力x和识图能力y进行统计分析,得到如下数据:
记忆能力x
4
6
8
10
识图能力y
3
6
8
由于某些原因,识图能力的一个数据丢失,但已知识图能力样本的平均值是5.5.
(1)经过分析,知道记忆能力x和识图能力y之间具有线性相关关系,请用最小二乘法求出y关于x的线性回归方程y=bx+a;
(2)已知某一学生记忆能力值为12,请预测他的识图能力值.
解析:(1)设丢失的数据为m,依题意,得=5.5,解得m=5,即丢失的数据值是5.
由表中的数据,得==7,=5.5,
xiyi=4×3+6×5+8×6+10×8=170,
x=42+62+82+102=216,
b=eq
\f(\o(∑,\s\up6(4),\s\do4(i=1))xiyi-4\a\vs4\al(\o(x,\s\up6(-))
)
\a\vs4\al(\o(y,\s\up6(-))
),\o(∑,\s\up6(4),\s\do4(i=1))x-4\o(x,\s\up6(-))2)==0.8,
a=-b=5.5-0.8×7=-0.1,
所以所求线性回归方程为y=0.8x-0.1.
(2)由(1),得当x=12时,y=0.8×12-0.1=9.5,
即预测他的识图能力值是9.5.
探究三 线性回归方程的应用
[典例3] 某5名学生的总成绩和数学成绩(单位:分)如下表所示:
学生
A
B
C
D
E
总成绩(x)
482
383
421
364
362
数学成绩(y)
78
65
71
64
61
(1)作出散点图;
(2)求数学成绩y对总成绩x的线性回归方程;
(3)如果一个学生的总成绩为450分,试预测这个学生的数学成绩.
[解析] (1)散点图如图所示:
(2)列表如下:
i
1
2
3
4
5
xi
482
383
421
364
362
yi
78
65
71
64
61
xiyi
37
596
24
895
29
891
23
296
22
082
=,=,
x=819
794,xiyi=137
760.
b=eq
\f(\o(∑,\s\up6(5),\s\do4(i=1))xiyi-5\o(x,\s\up6(-))
\o(y,\s\up6(-)),\o(∑,\s\up6(5),\s\do4(i=1))x-5\o(x,\s\up6(-))2)
=≈0.132,
a=-b≈-0.132×≈14.683.
所以线性回归方程为y=0.132x+14.683.
(3)当x=450时,y≈74,
即当一个学生的总成绩为450分时,他的数学成绩约为74分.
回归方程的应用体现在以下几个方面:
(1)描述两变量之间的依赖关系:利用线性回归方程可定量地描述两个变量间的依赖关系.
(2)利用回归方程可以进行预测,把预报因子(相当于随机变量x)代入回归方程对预报量(相当于因变量y)进行估计,即可得到个体y值的允许区间.
(3)利用回归方程进行统计控制,规定y值的变化,通过控制x的范围来实现统计控制的目标.
3.下表是某地收集到的新房屋的销售价格y(单位:万元)和房屋的面积x(单位:m2)的数据:
x
115
110
80
135
105
y
44.8
41.6
38.4
49.2
42
(1)画出散点图;
(2)求线性回归方程;
(3)根据(2)的结果估计当房屋面积为150
m2时的销售价格.
解析:(1)散点图如图所示.
(2)由散点图可以看出,这些点大致分布在一条直线的附近,可求线性回归方程.由表中的数据,得=109,=43.2,x=60
975,xiyi=23
852.
则b=eq
\f(\o(∑,\s\up6(5),\s\do4(i=1))xiyi-5\o(x,\s\up6(-))\o(y,\s\up6(-)),\o(∑,\s\up6(5),\s\do4(i=1))x-5\o(x,\s\up6(-))2)==≈0.196,
a=-b≈43.2-0.196×109=21.836.
故所求线性回归方程为y=0.196x+21.836.
(3)根据上面求得的回归方程知,当房屋面积为150
m2时,销售价格的估计值为0.196×150+21.836=51.236(万元).
利用线性回归方程对总体进行预测
[典例] (本题满分12分)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
[规范解答] (1)散点图,如图所示.①
………………………………………………………………………………………2分
(2)由题意,得xiyi=3×2.5+4×3+5×4+6×4.5=66.5,
==4.5,==3.5,
x=32+42+52+62=86,………………………………………………………6分
所以b===0.7,②
………………………………………………………………………………………8分
a=-b=3.5-0.7×4.5=0.35,…………………………………………………9分
故线性回归方程为y=0.7x+0.35.
………………………………………………10分
(3)根据回归方程预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35,………………………………………………………………………11分
故耗能约降低了90-70.35=19.65(吨标准煤).③
……………………………………………………………………………………12分
[规范与警示] ①处散点图的画法中,纵、横坐标的刻度选取要适当.
②处计算量较大易出错,失分点.
③处由回归方程计算的该值只是一个预测值,是实际问题的一个估计值,因此最后应进行回答.
用线性回归方程预测的一般步骤为:(1)作出散点图,判断散点是否在一条直线附近;(2)如果散点在一条直线附近,用公式求a、b并写出线性回归方程;(3)根据线性回归方程对总体进行预测.
[随堂训练] 对应学生用书第18页
1.根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为y=bx+a,则( )
A.a>0,b>0 B.a>0,b<0
C.a<0,b>0
D.a<0,b<0
解析:画出散点图,知a>0,b<0.
答案:B
2.下图各选项中的两个变量具有相关关系的是( )
解析:选项A、C中变量x与变量y之间是确定的函数关系,选项D中,点不在某条直线附近波动,因此两变量非线性相关,而点也不在某条曲线附近波动,故两变量不具有相关关系.选项B中所有点都在某条直线附近波动,故选B.
答案:B
3.已知高三学生高考成绩y(单位:分)与高三期间有效复习时间x(单位:天)正相关,且回归直线方程是y=3x+50.若期望甲同学高考成绩不低于500分,那么他的有效复习时间应不低于________天.
解析:由3x+50≥500,得x≥150.
答案:150
4.某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:
x
2
4
5
6
8
y
30
40
60
50
70
(1)画出散点图;
(2)如果x与y具有线性相关关系,求线性回归方程,并说明b的意义.
解析:(1)散点图如图所示.
(2)由散点图知x与y具有线性相关关系.
=5,=50,xiyi=1
380,x=145,
所以b=eq
\f(\o(∑,\s\up6(5),\s\do4(i=1))xiyi-5\o(x,\s\up6(-))\o(y,\s\up6(-)),\o(∑,\s\up6(5),\s\do4(i=1))x-5\o(x,\s\up6(-))2)==6.5,
a=-b=50-6.5×5=17.5.
所求线性回归方程为y=6.5x+17.5.
b表示广告费每增加100万元,销售额平均增加650万元.
PAGE