(共163张PPT)
第九章
统
计
9.1.1
简单随机抽样
9.1
随机抽样
问题提出
1.我们生活在一个数字化时代,时刻都在和数据打交道,例如,产品的合格率,农作物的产量,商品的销售量,电视台的收视率等.这些数据常常是通过抽样调查而获得的,如何从总体中抽取具有代表性的样本,是我们需要研究的课题.
2.要判断一锅汤的味道需要把整锅汤都喝完吗?应该怎样判断?
将锅里的汤“搅拌均匀”,品尝一小勺就知道汤的味道,这是一个简单随机抽样问题,对这种抽样方法,我们从理论上作些分析.
知识探究(一):简单随机抽样的基本思想
思考1:从5件产品中任意抽取一件,则每一件产品被抽到的概率是多少?一般地,从N个个体中任意抽取一个,则每一个个体被抽到的概率是多少?
思考2:从6件产品中随机抽取一个容量为3的样本,可以分三次进行,每次从中随机抽取一件,抽取的产品不放回,这叫做逐个不放回抽取.
思考3:食品卫生工作人员,要对校园食品店的一批小包装饼干进行卫生达标检验,打算从中抽取一定数量的饼干作为检验的样本.其抽样方法是,将这批小包装饼干放在一个麻袋中搅拌均匀,然后逐个不放回抽取若干包,这种抽样方法就是简单随机抽样.那么简单随机抽样的含义如何?
一般地,设一个总体有N个个体,
从中逐个不放回地抽取n个个体作为样本(n≤N),
如果每次抽取时总体内的各个个体被抽到的机会都相等,
则这种抽样方法叫做简单随机抽样.
简单随机抽样的含义:
思考4:根据你的理解,简单随机抽样有哪些主要特点?
(4)每个个体被抽到的机会都相等,抽样具有公平性.
(3)抽取的样本不放回,样本中无重复个体;
(2)样本的抽取是逐个进行的,每次
只抽取一个个体;
(1)总体的个体数有限;
思考5:在1936年美国总统选举前,一份颇有名气的杂志的工作人员对兰顿和罗斯福两位候选人做了一次民意测验.调查者通过电话簿和车辆登记簿上的名单给一大批人发了调查表.调查结果表明,兰顿当选的可能性大(57%),但实际选举结果正好相反,最后罗斯福当选(62%).你认为预测结果出错的原因是什么?
方便样本
知识探究(二):简单随机抽样的方法
思考1:假设要在我们班选派5个人去参加某项活动,为了体现选派的公平性,你有什么办法确定具体人选?
思考2:用抽签法(抓阄法)确定人选,具体如何操作?
用小纸条把每个同学的学号写下来放在盒子里,并搅拌均匀,然后随机从中逐个抽出5个学号,被抽到学号的同学即为参加活动的人选.
思考3:一般地,抽签法的操作步骤如何?
第一步,将总体中的所有个体编号,并把号码写在形状、大小相同的号签上.
第三步,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本.
第二步,将号签放在一个容器中,并搅拌均匀.
思考4:你认为抽签法有哪些优点和缺点?
缺点:当总体个数较多时很难搅拌均匀,产生的样本代表性差的可能性很大.
优点:简单易行,当总体个数不多的时候搅拌均匀很容易,个体有均等的机会被抽中,从而能保证样本的代表性.
思考5:从0,1,2,…,9十个数中每次随机抽取一个数,依次排列成一个数表称为随机数表(见教材P103页),每个数每次被抽取的概率是多少?
思考6:假设我们要考察某公司生产的500克袋装牛奶的质量是否达标,现从800袋牛奶中抽取60袋进行检验,利用随机数表抽取样本时应如何操作?
第一步,将800袋牛奶编号为000,001,002,…,799.
第三步,从选定的数7开始依次向右读(读数的方向也可以是向左、向上、向下等),将编号范围内的数取出,编号范围外的数去掉,直到取满60个号码为止,就得到一个容量为60的样本.
第二步,在随机数表中任选一个数作为起始数(例如选出第8行第7列的数7为起始数).
思考7:如果从100个个体中抽取一个容量为10的样本,你认为对这100个个体进行怎样编号为宜?
思考8:一般地,利用随机数表法从含有N个个体的总体中抽取一个容量为n的样本,其抽样步骤如何?
第一步,将总体中的所有个体编号.
第二步,在随机数表中任选一个数作为起始数.
第三步,从选定的数开始依次向右(向左、向上、向下)读,将编号范围内的数取出,编号范围外的数去掉,直到取满n个号码为止,就得到一个容量为n的样本.
理论迁移
例1
为调查央视春节联欢晚会的收视率,有如下三种调查方案:
方案一:通过互联网调查.
方案二:通过居民小区调查.
方案三:通过电话调查.
上述三种调查方案能获得比较准确的收视率吗?为什么?
例2
为了检验某种产品的质量,决定从40件产品中抽取10件进行检查,试利用简单随机抽样法抽取样本,并简述其抽样过程.
方法一:抽签法;
方法二:随机数表法.
例3
利用随机数表法从500件产品中抽取40件进行质检.
(1)这500件产品可以怎样编号?
(2)如果从随机数表第10行第8列的数开始往左读数,则最先抽取的5件产品的编号依次是什么?
1.简单随机抽样包括抽签法和随机数表法,它们都是等概率抽样,从而保证了抽样的公平性.
3.
抽签法和随机数表法各有其操作步骤,首先都要对总体中的所有个体编号,编号的起点不是惟一的.
2.简单随机抽样有操作简便易行的优点,在总体个数较小的情况下是行之有效的抽样方法.
小结作业
问题提出
1.简单随机抽样有哪两种常用方法?其操作步骤分别如何?
第二步,将号签放在一个容器中,并搅拌均匀.
抽签法:
第一步,将总体中的所有个体编号,并把号码写在形状、大小相同的号签上.
第三步,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本.
第一步,将总体中的所有个体编号.
第三步,从选定的数开始依次向右(向左、向上、向下)读,将编号范围内的数取出,编号范围外的数去掉,直到取满n个号码为止,就得到一个容量为n的样本.
第二步,在随机数表中任选一个数作为起始数.
随机数表法:
9.1.2
系统抽样
如果从600件产品中抽取60件进行质量检查.
第二步,将总体平均分成60部分,每一部分含10个个体.
第四步,从该号码起,每隔10个号码取一个号码,就得到一个容量为60的样本.
(如8,18,28,…,598)
第三步,在第1部分中用简单随机抽样抽取一个号码(如8号).
第一步,将这600件产品编号为1,2,3,…,600.
上述抽样方法称为系统抽样,一般地,怎样理解系统抽样的含义?
将总体分成均衡的n个部分,再按照预先定出的规则,从每一部分中抽取1个个体,即得到容量为n的样本.
知识探究(二):系统抽样的操作步骤
思考1:用系统抽样从总体中抽取样本时,首先要做的工作是什么?
将总体中的所有个体编号.
思考2:如果用系统抽样从605件产品中抽取60件进行质量检查,由于605件产品不能均衡分成60部分,对此应如何处理?
先从总体中随机剔除5个个体,再均衡分成60部分.
思考3:用系统抽样从含有N个个体的总体中抽取一个容量为n的样本,要平均分成多少段,每段各有多少个号码?
思考4:如果N不能被n整除怎么办?
从总体中随机剔除N除以n的余数个个体后再分段.
思考5:将含有N个个体的总体平均分成n段,每段的号码个数称为分段间隔,那么分段间隔k的值如何确定?
总体中的个体数N除以样本容量n所得的商.
用简单随机抽样抽取第1段的个体编号.在抽取第1段的号码之前,自定义规则确定以后各段的个体编号,通常是将第1段抽取的号码依次累加间隔k.
思考6:用系统抽样抽取样本时,每段各取一个号码,其中第1段的个体编号怎样抽取?以后各段的个体编号怎样抽取?
思考7:一般地,用系统抽样从含有N个个体的总体中抽取一个容量为n的样本,其操作步骤如何?
第四步,按照一定的规则抽取样本.
第一步,将总体的N个个体编号.
第三步,在第1段用简单随机抽样确定起始个体编号l.
第二步,确定分段间隔k,对编号进行分段.
思考8:系统抽样适合在哪种情况下使用?与简单随机抽样比较,哪种抽样方法更使样本具有代表性?
总体中个体数比较多;系统抽样更使样本具有代表性.
思考9:在数字化时代,各种各样的统计数字和图表充斥着媒体,由于数字给人的印象直观、具体,所以让数据说话是许多广告的常用手法.下列广告中的数据可靠吗?
“现代研究证明,99%以上的人皮肤感染有螨虫…….”
“……美丽润肤膏,含有多种中药成分,可以彻底清除脸部皱纹,只需10天,就能让你的肌肤得到改善.”
“……瘦体减肥灵真的灵,其减肥的有效率为75%.”
理论迁移
例1
某中学有高一学生322名,为了了解学生的身体状况,要抽取一个容量为40的样本,用系统抽样法如何抽样?
第一步,随机剔除2名学生,把余下的320名学生编号为1,2,3,…320.
第四步,从该号码起,每间隔8个号码抽取1个号码,就可得到一个容量为40的样本.
第三步,在第1部分用抽签法确定起始编号.
第二步,把总体分成40个部分,每个部分有8个个体.
例2一个总体中有100个个体,随机编号为0,1,2,…,99,依编号顺序平均分成10组,组号依次为1,2,3,…,10,现用系统抽样抽取一个容量为10的样本,并规定:如果在第一组随机抽取的号码为m,那么在第k(k=2,3,…,10)组中抽取的号码的个位数字与m+k的个位数字相同.若m=6,求该样本的全部号码.
6,18,29,30,41,
52,63,74,85,96.
2.系统抽样适合于总体的个体数较多的情形,操作上分四个步骤进行,除了剔除余数个体和确定起始号需要随机抽样外,其余样本号码由事先定下的规则自动生成,从而使得系统抽样操作简单、方便.
小结作业
1.系统抽样也是等概率抽样,即每个个体被抽到的概率是相等的,从而保证了抽样的公平性.
9.1.3
分层抽样
设计科学、合理的抽样方法,其核心问题是保证抽样公平,并且样本具有好的代表性.如果要调查我校高一学生的平均身高,由于男生一般比女生高,故用简单随机抽样或系统抽样,都可能使样本不具有好的代表性.对于此类抽样问题,我们需要一个更好的抽样方法来解决.
知识探究(一):分层抽样的基本思想
某地区有高中生2400人,初中生10800人,小学生11100人.当地教育部门为了了解本地区中小学生的近视率及其形成原因,要从本地区的中小学生中抽取1%的学生进行调查.
样本容量与总体个数的比例为1:100,则
高中应抽取人数为2400
1/100=24人,
初中应抽取人数为10800
1/100=108人,
小学应抽取人数为11100
1/100=111人.
思考1:具体在三类学生中抽取样本时(如在10800名初中生中抽取108人),可以用哪种抽样方法进行抽样?
思考2:上述抽样方法不仅保证了抽样的公平性,而且抽取的样本具有较好的代表性,从而是一种科学、合理的抽样方法,这种抽样方法称为分层抽样.一般地,分层抽样的基本思想是什么?
若总体由差异明显的几部分组成,抽样时,先将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,再将各层取出的个体合在一起作为样本.
思考3:若用分层抽样从该地区抽取81名学生调查身体发育状况,那么高中生、初中生和小学生应分别抽取多少人?
高中生8人,初中生36人,小学生37人.
知识探究(一):分层抽样的操作步骤
某单位有职工500人,其中35岁以下的有125人,35岁~49岁的有280人,50岁以上的有95人.为了调查职工的身体状况,要从中抽取一个容量为100的样本.
思考1:该项调查应采用哪种抽样方法进行?
思考2:按比例,三个年龄层次的职
工分别抽取多少人?
35岁以下25人,35岁~49岁56人,
50岁以上19人.
思考3:在各年龄段具体如何抽样?怎样获得所需样本?
思考4:一般地,分层抽样的操作步骤如何?
第一步,计算样本容量与总体的个体数之比.
第四步,将各层抽取的个体合在一起,就得到所取样本.
第三步,用简单随机抽样或系统抽样在各层中抽取相应数量的个体.
第二步,将总体分成互不交叉的层,按比例确定各层要抽取的个体数.
思考5:在分层抽样中,如果总体的个体数为N,样本容量为n,第i层的个体数为k,则在第i层应抽取的个体数如何计算?
思考6:样本容量与总体的个体数之比是分层抽样的比例常数,按这个比例可以确定各层应抽取的个体数,如果各层应抽取的个体数不都是整数该如何处理?
调节样本容量,剔除个体.
思考7:简单随机抽样、系统抽样和分层抽样既有其共性,又有其个性,根据下表,你能对三种抽样方法作一个比较吗?
方法
类别
共同
特点
抽样特征
相互联系
适应范围
简单随
机抽样
系统
抽样
分层
抽样
抽样过程中每个个体被抽取的概率相等
将总体分成均衡几部分,按规则关联抽取
将总体分成几层,按比例分层抽取
用简单随机抽样抽取起始号码
总体中的个体数较少
总体中的个体数较多
总体由差异明显的几部分组成
从总体中逐个不放回抽取
用简单随机抽样或系统抽样对各层抽样
例1
某公司共有1000名员工,下设若干部门,现用分层抽样法,从全体员工中抽取一个容量为80的样本,已知策划部被抽取4个员工,求策划部的员工人数是多少?
50人.
理论迁移
例2
某中学有180名教职员工,其中教学人员144人,管理人员12人,后勤服务人员24人,设计一个抽样方案,从中选取15人去参观旅游.
用分层抽样,抽取教学人员12人,管理人员1人,后勤服务人员2人.
例3
某公司在甲、乙、丙、丁四个地区分别有150个、120个、180个、150个销售点,公司为了调查产品的销售情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区中有20个特大型销售点,要从中抽取7个调查其销售收入和售后服务等情况,记这项调查为②,完成这两项调查宜分别采用什么方法?
①用分层抽样,②用简单随机抽样.
小结作业
2.分层抽样是按比例分别对各层进行抽样,再将各个子样本合并在一起构成所需样本.其中正确计算各层应抽取的个体数,是分层抽样过程中的重要环节.
1.分层抽样利用了调查者对调查对象事先掌握的各种信息,考虑了保持样本结构与总体结构的一致性,从而使样本更具有代表性,在实际调查中被广泛应用.
3.简单随机抽样是基础,系统抽样与分层抽样是补充和发展,三者相辅相成,对立统一.
9.2.1用样本的频率分布估计总体分布
(一)
(1)统计的核心问题:
如何根据样本的情况对总体的情况作出推断
复习引入:
简单随机抽样
系统抽样
分层抽样
(3)通过抽样方法收集数据的目的是什么?
从中寻找所包含的信息,用样本去估计总体
(2)随机抽样的几种常用方法
:
我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费。如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢
?
探究:
你认为,为了较为合理地确定出这个标准,需要做哪些工作?
我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费。如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢
?
探究:
①采用抽样调查的方式获得样本数据
②分析样本数据来估计全市居民用水量的分布情况
下表给出100位居民的月均用水量表
分析数据的一种基本方法是用图将它们画出来,或者用紧凑的表格改变数据的排列方式,作图可以达到两个目的,一是从数据中提取信息,二是利用图形传递信息。表格则是通过改变数据的构成形式,为我们提供解释数据的新方式
讨论:如何分析数据?
根据这些数据你能得出用水量其他信息吗?
为此我们要对这些数据进行整理与分析
〈一〉频率分布的概念:
频率分布是指一个样本数据在各个小范围内所占比例的大小。一般用频率分布直方图反映样本的频率分布
〈二〉画频率分布直方图其一般步骤为:
(1)计算一组数据中最大值与最小值的差,即求极差
(2)决定组距与组数
(3)将数据分组
(4)列频率分布表
(5)画频率分布直方图
第一步:
求极差:
(数据组中最大值与最小值的差距)
最大值=
4.3
最小值=
0.2
所以极差=
4.3-0.2
=
4.1
第二步:
决定组距与组数:
(强调取整)
当样本容量不超过100时,
按照数据的多少,
常分成5~12组.
为方便组距的选择应力求“取整”.
本题如果组距为0.5(t).
则
第三步:
将数据分组:(
给出组的界限)
所以将数据分成9组较合适.
[0,
0.5),
[0.5,
1),
[1,
1.5),……[4,
4.5)
共9组.
第四步:
列频率分布表.
分组
频数
频率
频率/组距
[0-0.5)
4
[0.5-1)
8
[1-1.5)
15
[1.5-2)
22
[2-2.5)
25
[2.5-3)
15
[3-3.5)
5
[3.5-4)
4
[4-4.5)
2
合计
100
组距=0.5
0.04
0.08
0.08
0.16
0.3
0.15
0.44
0.22
0.25
0.5
1
2.00
0.02
0.04
0.04
0.08
0.1
0.3
0.15
0.05
0
0.1
0.2
0.3
0.4
0.5
0.6
0.5
1
1.5
2
2.5
3
3.5
4
4.5
第五步:
画出频率分布直方图.
频率/组距
月均用水量/t
(组距=0.5)
0.08
0.16
0.3
0.44
0.5
0.3
0.1
0.08
0.04
小长方形的面积=?
小长方形的面积总和=?
月均用水量最多的在哪个区间?
请大家阅读第68页,直方图有哪些优点和缺点?
频率分布直方图的特征:
从频率分布直方图可以清楚的看出数据分布的总体趋势。
从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了。
思考:
1.频率分布表与频率分布直方图的区别?
频率分布表列出的是在各个不同区间内取值的频率。
频率分布直方图是用小长方形面积的大小来表示在各个区间内取值的频率。
2.如果当地政府希望使85%以上的居民每月的用水量不超出标准,根据频率分布表2-2和频率分布直方图2.2-1,
你能对制定月用水量标准提出建议吗
?
3.将组距确定为1,作出教材P66页
居民月均用水量的频率分布直方图
4.谈谈两种组距下,你对图的印象?同一个样本数据,绘制出来的分布图是唯一的吗?
(同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图和形状也会不同。不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断
)
练
习:
1.有一个容量为50的样本数据的分组的频数如下:
[12.5,
15.5)
3
[15.5,
18.5)
8
[18.5,
21.5)
9
[21.5,
24.5)
11
[24.5,
27.5)
10
[27.5,
30.5)
5
[30.5,
33.5)
4
(1)列出样本的频率分布表;
(2)画出频率分布直方图;
(3)根据频率分布直方图估计,数据落在[15.5,
24.5)的百分比是多少?
解:组距为3
分组
频数
频率
频率/
组距
[12.5,
15.5)
3
[15.5,
18.5)
8
[18.5,
21.5)
9
[21.5,
24.5)
11
[24.5,
27.5)
10
[27.5,
30.5)
5
[30.5,
33.5)
4
0.06
0.16
0.18
0.22
0.20
0.10
0.08
0.020
0.053
0.060
0.073
0.067
0.033
0.027
频率分布直方图如下:
频率
组距
0.010
0.020
0.030
0.040
0.050
12.5
15.5
0.060
0.070
练习:2
.投掷一枚均匀骰子44次的记录是:
3
2
4
1
5
1
3
4
5
6
5
4
2
5
3
1
3
4
1
4
5
1
6
3
3
1
2
4
2
6
3
4
6
6
1
6
2
2
5
2
6
5
4
3
现对这些数据进行整理,试画出频数分布直方图.
第一步:写出样本可能出现的一切数值,即:
1,2,3,4,5,6
共6个数.(数据分组)
第二步:列出频率分布表:
样本
1
2
3
4
5
6
频数
7
7
8
8
7
7
频率
0.16
0.16
0.18
0.18
0.16
0.16
组距=1
第三步:
画频率分布直方图
小结:
画频率分布直方图的步骤:
第一步:
求极差:
(数据组中最大值与最小值的差距)
第二步:
决定组距与组数:
(强调取整)
第三步:
将数据分组
(
给出组的界限)
第四步:
列频率分布表.
(包括分组、频数、频率、频率/组距)
第五步:
画频率分布直方图(在频率分布表的基础上绘制,横坐标为样本数据尺寸,纵坐标为频率/组距.)
组距:指每个小组的两个端点的距离,组距
组数:将数据分组,当数据在100个以内时,
按数据多少常分5-12组。
注意
(2)纵坐标为:
9.2.1用样本的频率分布估计总体分布
(二)
画频率分布直方图的步骤:
第一步:
求极差:
(数据组中最大值与最小值的差距)
第二步:
决定组距与组数:
(强调取整)
第三步:
将数据分组
(
给出组的界限)
第四步:
列频率分布表.
(包括分组、频数、频率、频率/组距)
第五步:
画频率分布直方图(在频率分布表的基础上绘制,横坐标为样本数据尺寸,纵坐标为频率/组距.)
组距:指每个小组的两个端点的距离,组距
组数:将数据分组,当数据在100个以内时,
按数据多少常分5-12组。
回忆:
绘制频率分布直方图有哪几个步骤呢?
(一)频率分布折线图:
画好频率分布图后,我们把频率分布直方图中各小长方形上端连接起来,得到的图形.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.5
1
1.5
2
2.5
3
3.5
4
4.5
画出频率分布折线图.
频率/组距
月均用水量/t
(取组距中点,
并连线
)
0.08
0.16
0.3
0.44
0.5
0.3
0.1
0.08
0.04
在样本频率分布直方图中,当样本容量增加,作图时所分的组数增加,组距减少,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
它能够精确地反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息.
总体密度曲线:
月均用水量/t
频率
组距
0
a
b
1.对于任何一个总体,它的密度曲线是不是一定存在?它的密度曲线是否可以被非常准确地画出来?
思考
实际上,尽管有些总体密度曲线是客观存在的,但一般很难像函数图象那样准确地画出来,我们只能用样本的频率分布对它进行估计,一般来说,样本容量越大,这种估计就越精确。
2.图中阴影部分的面积表示什么?
月均用水量/t
频率
组距
0
a
b
2.总体在范围(a,b)内取值的百分比
月均用水量/t
频率
组距
0
a
b
例:
甲乙两人比赛得分记录如下:
甲:13,
51,
23,
8,
26,
38,
16,
33,
14,
28,
39
乙:49,
24,
12,
31,
50,
31,
44,
36,
15,
37,
25,
36,
39
用茎叶图表示两人成绩,说明哪一个成绩好.
甲
乙
0
1
2
3
4
5
2,
5
5,
4
1,
6,
1,
6,
7,
9
4,
9
0
8
4,
6,
3
3,
6,
8
3,
8,
9
1
叶
茎
叶
(二).
茎叶图
(一种被用来表示数据的图)
茎叶图
当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图
画茎叶图的步骤:
1.将每个数据分为茎(高位)和叶(低位)两部分,在此例中,茎为十位上的数字,叶为个位上的数字;
2.将最小茎和最大茎之间的数按大小次序排成一列,写在左(右)侧;
3.将各个数据的叶写在其茎右(左)侧.
茎
叶
0
8
1
3
4
5
2
3
6
8
3
3
8
9
4
5
1
(1)用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示。
(2)茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰。
茎叶图的特征:
频数
茎
叶
2
10
7,
8
11
11
2,
7,
6,
3,
6,
8,
6,
7,
2,
2,0
13
12
6,
8,
4,
2,
7,
8,
6,
1,
0,
4,
3,
2,
0
4
13
4,
2,
3,
0
下表一组数据是某车间30名工人加工零件的个数,
设计一个茎叶图表示这组数据,并说明这一车间的生产情况.
134
112
117
126
128
124
122
116
113
107
116
132
127
128
126
121
120
118
108
110
133
130
124
116
117
123
122
120
112
112
练习:
小结:
1.不易知一个总体的分布情况时,往往从总体中抽取一个样本,用样本的频率分布去估计总体的频率分布,样本容量越大,估计就越精确.
2.
目前有:频率分布表、直方图、茎叶图.
3.当总体中的个体取值很少时,用茎叶图估计总体的分布;当总体中的个体取值较多时,将样本数据恰当分组,用各组的频率分布描述总体的分布,方法是用频率分布表或频率分布直方图。
9.2.2用样本的数字特征估计总体的
数字特征
第一课时
问题提出
1.对一个未知总体,我们常用样本的频率分布估计总体的分布,其中表示样本数据的频率分布的基本方法有哪些?
2.美国NBA在2006——2007年度赛季中,甲、乙两名篮球运动员在随机抽取的12场比赛中的得分情况如下:
甲运动员得分:12,15,20,25,31,31,
36,36,37,39,44,49.
乙运动员得分:8,13,14,16,23,26,
28,38,39,51,31,29.
如果要求我们根据上面的数据,估计、比较甲,乙两名运动员哪一位发挥得比较稳定,就得有相应的数据作为比较依据,即通过样本数据对总体的数字特征进行研究,用样本的数字特征估计总体的数字特征.
甲运动员得分:12,15,20,25,31,31,
36,36,37,39,44,49.
乙运动员得分:8,13,14,16,23,26,
28,38,39,51,31,29.
知识探究(一):众数、中位数和平均数
思考1:在初中我们学过众数、中位数和平均数的概念,这些数据都是反映样本信息的数字特征,对一组样本数据如何求众数、中位数和平均数?
思考2:在城市居民月均用水量样本数据的频率分布直方图中,你认为众数应在哪个小矩形内?由此估计总体的众数是什么?
月均用水量/t
频率
组距
0.5
0.4
0.3
0.2
0.1
0.5
1
1.5
2
2.5
3
3.5
4
4.5
O
思考3:在频率分布直方图中,每个小矩形的面积表示什么?中位数左右两侧的直方图的面积应有什么关系?
取最高矩形下端中点的横坐标2.25作为众数.
思考4:在城市居民月均用水量样本数据的频率分布直方图中,从左至右各个小矩形的面积分别是0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02.由此估计总体的中位数是什么?
月均用水量/t
频率
组距
0.5
0.4
0.3
0.2
0.1
0.5
1
1.5
2
2.5
3
3.5
4
4.5
O
0.5-0.04-0.08-0.15-0.22=0.01,0.01÷0.5=0.02,中位数是2+0.02=2.02.
思考5:平均数是频率分布直方图的“重心”,在城市居民月均用水量样本数据的频率分布直方图中,各个小矩形的重心在哪里?从直方图估计总体在各组数据内的平均数分别为多少?
0.25,0.75,1.25,1.75,2.25,
2.75,3.25,3.75,4.25.
月均用水量/t
频率
组距
0.5
0.4
0.3
0.2
0.1
0.5
1
1.5
2
2.5
3
3.5
4
4.5
O
思考6:根据统计学中数学期望原理,将频率分布直方图中每个小矩形的面积与小矩形底边中点的横坐标之积相加,就是样本数据的估值平均数.
由此估计总体的平均数是什么?
0.25×0.04+0.75×0.08+1.25×0.15+1.75×0.22+2.25×0.25+2.75×0.14+3.25×
0.06+3.75×0.04+4.25×0.02=2.02(t).
平均数是2.02.
思考7:从居民月均用水量样本数据可知,该样本的众数是2.3,中位数是2.0,平均数是1.973,这与我们从样本频率分布直方图得出的结论有偏差,你能解释一下原因吗?
频率分布直方图损失了一些样本数据,得到的是一个估计值,且所得估值与数据分组有关.
注:在只有样本频率分布直方图的情况下,我们可以按上述方法估计众数、中位数和平均数,并由此估计总体特征.
思考8:一组数据的中位数一般不受少数几个极端值的影响,这在某些情况下是一个优点,但它对极端值的不敏感有时也会成为缺点,你能举例说明吗?样本数据的平均数大于(或小于)中位数说明什么问题?你怎样理解“我们单位的收入水平比别的单位高”这句话的含义?
如:样本数据收集有个别差错不影响中位数;大学毕业生凭工资中位数找单位可能收入较低.
平均数大于(或小于)中位数,说明样本数据中存在许多较大(或较小)的极端值.
这句话具有模糊性甚至蒙骗性,其中收入水平是员工工资的某个中心点,它可以是众数、中位数或平均数.
知识探究(二):标准差
样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息.
平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.当样本数据质量比较差时,使用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本数据的实际状况,因此,我们需要一个统计数字刻画样本数据的离散程度.
思考1:在一次射击选拔赛中,甲、乙两名运动员各射击10次,每次命中的环数如下:
甲:7
8
7
9
5
4
9
10
7
4
乙:9
5
7
8
7
6
8
6
7
7
甲、乙两人本次射击的平均成绩分别为多少环?
思考2:甲、乙两人射击的平均成绩相等,观察两人成绩的频率分布条形图,你能说明其水平差异在那里吗?
环数
频率
0.4
0.3
0.2
0.1
4
5
6
7
8
9
10
O
(甲)
环数
频率
0.4
0.3
0.2
0.1
4
5
6
7
8
9
10
O
(乙)
甲的成绩比较分散,极差较大,乙的成绩相对集中,比较稳定.
环数
思考3:对于样本数据x1,x2,…,xn,设想通过各数据到其平均数的平均距离来反映样本数据的分散程度,那么这个平均距离如何计算?
思考4:反映样本数据的分散程度的大小,最常用的统计量是标准差,一般用s表示.假设样本数据x1,x2,…,xn的平均数为
,则标准差的计算公式是:
那么标准差的取值范围是什么?标准差为0的样本数据有何特点?
s≥0,标准差为0的样本数据都相等.
思考5:对于一个容量为2的样本:x1,
x2(x1,
在数轴上,这两个统计数据有什么几何意义?由此说明标准差的大小对数据的离散程度有何影响?
标准差越大离散程度越大,数据较分散;标准差越小离散程度越小,数据较集中在平均数周围.
知识迁移
s甲=2,s乙=1.095.
计算甲、乙两名运动员的射击成绩的标准差,比较其射击水平的稳定性.
甲:7
8
7
9
5
4
9
10
7
4
乙:9
5
7
8
7
6
8
6
7
7
9.2.2用样本的数字特征估计总体的
数字特征
第二课时
知识回顾
1.如何根据样本频率分布直方图,分别估计总体的众数、中位数和平均数?
(1)众数:最高矩形下端中点的横坐标.
(2)中位数:直方图面积平分线与横轴交点的横坐标.
(3)平均数:每个小矩形的面积与小矩形底边中点的横坐标的乘积之和.
2.对于样本数据x1,x2,…,xn,其标准差如何计算?
知识补充
1.标准差的平方
称为方差,有时用方差代替标准差测量样本数据的离散度.方差与标准差的测量效果是一致的,在实际应用中一般多采用标准差.
2.现实中的总体所包含的个体数往往很多,总体的平均数与标准差是未知的,我们通常用样本的平均数和标准差去估计总体的平均数与标准差,但要求样本有较好的代表性.
例题分析
例1
画出下列四组样本数据的条形图,
说明他们的异同点.
(1)
5,5,5,5,5,5,5,5,5;
(2)
4,4,4,5,5,5,6,6,6;
O
频率
1.0
0.8
0.6
0.4
0.2
1
2
3
4
5
6
7
8
(1)
O
频率
1.0
0.8
0.6
0.4
0.2
1
2
3
4
5
6
7
8
(2)
(3)
3,3,4,4,5,6,6,7,7;
(4)
2,2,2,2,5,8,8,8,8.
频率
1.0
0.8
0.6
0.4
0.2
1
2
3
4
5
6
7
8
O
(3)
频率
1.0
0.8
0.6
0.4
0.2
1
2
3
4
5
6
7
8
O
(4)
例2
甲、乙两人同时生产内径为25.40mm的一种零件,为了对两人的生产质量进行评比,从他们生产的零件中各随机抽取20件,量得其内径尺寸如下(单位:mm):
甲
:
25.46
25.32
25.45
25.39
25.36
25.34
25.42
25.45
25.38
25.42
25.39
25.43
25.39
25.40
25.44
25.40
25.42
25.35
25.41
25.39
乙:
25.40
25.43
25.44
25.48
25.48
25.47
25.49
25.49
26.36
25.34
25.33
25.43
25.43
25.32
25.47
25.31
25.32
25.32
25.32
25.48
从生产零件内径的尺寸看,谁生产的零件质量较高?
甲生产的零件内径更接近内径标准,且稳定程度较高,故甲生产的零件质量较高.
说明:1.生产质量可以从总体的平均数与标准差两个角度来衡量,但甲、乙两个总体的平均数与标准差都是不知道的,我们就用样本的平均数与标准差估计总体的平均数与标准差.
2.问题中25.40mm是内径的标准值,而不是总体的平均数.
例3
以往招生统计显示,某所大学录取的新生高考总分的中位数基本稳定在550分,若某同学今年高考得了520分,他想报考这所大学还需收集哪些信息?
要点:(1)查往年录取的新生的平均分数.若平均数小于中位数很多,说明最低录取线较低,可以报考;
(2)查往年录取的新生高考总分的标准差.若标准差较大,说明新生的录取分数较分散,最低录取线可能较低,可以考虑报考.
例4
在去年的足球甲A联赛中,甲队每场比赛平均失球数是1.5,全年比赛失球个数的标准差为1.1;乙队每场比赛平均失球数是2.1,全年比赛失球个数的标准差为0.4.你认为下列说法是否正确,为什么?
(1)平均来说甲队比乙队防守技术好;
(2)乙队比甲队技术水平更稳定;
(3)甲队有时表现很差,有时表现又非常
好;
(4)乙队很少不失球.
例5
有20种不同的零食,它们的热量含量如下:
110
120
123
165
432
190
174
235
428
318
249
280
162
146
210
120
123
120
150
140
(1)以上20个数据组成总体,求总体平均数与总体标准差;
(2)设计一个适当的随机抽样方法,从总体中抽取一个容量为7的样本,计算样本的平均数和标准差.
(1)总体平均数为199.75,总体标准差为95.26.
(1)以上20个数据组成总体,求总体平均数与总体标准差;
(2)设计一个适当的随机抽样方法,从总体中抽取一个容量为7的样本,计算样本的平均数和标准差.
(2)可以用抽签法抽取样本,样本的平均数和标准差与抽取的样本有关.
小结作业
1.对同一个总体,可以抽取不同的样本,相应的平均数与标准差都会发生改变.如果样本的代表性差,则对总体所作的估计就会产生偏差;如果样本没有代表性,则对总体作出错误估计的可能性就非常大,由此可见抽样方法的重要性.
2.在抽样过程中,抽取的样本是具有随机性的,如从一个包含6个个体的总体中抽取一个容量为3的样本就有20中可能抽样,因此样本的数字特征也有随机性.
用样本的数字特征估计总体的数字特征,是一种统计思想,没有惟一答案.
第一课时
9.3
变量间的相关关系
9.3.1
变量之间的相关关系
9.3.2
两个变量的线性相关
问题提出
1.函数是研究两个变量之间的依存关系的一种数量形式.对于两个变量,如果当一个变量的取值一定时,另一个变量的取值被惟一确定,则这两个变量之间的关系就是一个函数关系.
2.在中学校园里,有这样一种说法:“如果你的数学成绩好,那么你的物理学习就不会有什么大问题.”按照这种说法,似乎学生的物理成绩与数学成绩之间存在着某种关系,我们把数学成绩和物理成绩看成是两个变量,那么这两个变量之间的关系是函数关系吗?
3.我们不能通过一个人的数学成绩是多少就准确地断定其物理成绩能达到多少,学习兴趣、学习时间、教学水平等,也是影响物理成绩的一些因素,但这两个变量是有一定关系的,它们之间是一种不确定性的关系.类似于这样的两个变量之间的关系,有必要从理论上作些探讨,如果能通过数学成绩对物理成绩进行合理估计,将有着非常重要的现实意义.
知识探究(一):变量之间的相关关系
思考1:考察下列问题中两个变量之间的关系:
(1)商品销售收入与广告支出经费;
(2)粮食产量与施肥量;
(3)人体内的脂肪含量与年龄.
这些问题中两个变量之间的关系是函数关系吗?
思考2:“名师出高徒”可以解释为教师的水平越高,学生的水平就越高,那么学生的学业成绩与教师的教学水平之间的关系是函数关系吗?
思考3:上述两个变量之间的关系是一种非确定性关系,称之为相关关系,那么相关关系的含义如何?
自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系,叫做相关关系.
思考4:对于一个变量,可以控制其数量大小的变量称为可控变量,否则称为随机变量,那么相关关系中的两个变量有哪几种类型?
(1)一个为可控变量,另一个为随机变量;
(2)两个都是随机变量.
知识探究(二):散点图
【问题】在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:
其中各年龄对应的脂肪数据是这个年龄人群脂肪含量的样本平均数.
年龄
23
27
39
41
45
49
50
脂肪
9.5
17.8
21.2
25.9
27.5
26.3
28.2
年龄
53
54
56
57
58
60
61
脂肪
29.6
30.2
31.4
30.8
33.5
35.2
34.6
思考1:对某一个人来说,他的体内脂肪含量不一定随年龄增长而增加或减少,但是如果把很多个体放在一起,就可能表现出一定的规律性.观察上表中的数据,大体上看,随着年龄的增加,人体脂肪含量怎样变化?
年龄
23
27
39
41
45
49
50
脂肪
9.5
17.8
21.2
25.9
27.5
26.3
28.2
年龄
53
54
56
57
58
60
61
脂肪
29.6
30.2
31.4
30.8
33.5
35.2
34.6
思考2:为了确定年龄和人体脂肪含量之间的更明确的关系,我们需要对数据进行分析,通过作图可以对两个变量之间的关系有一个直观的印象.以x轴表示年龄,y轴表示脂肪含量,你能在直角坐标系中描出样本数据对应的图形吗?
年龄
23
27
39
41
45
49
50
脂肪
9.5
17.8
21.2
25.9
27.5
26.3
28.2
年龄
53
54
56
57
58
60
61
脂肪
29.6
30.2
31.4
30.8
33.5
35.2
34.6
思考3:上图叫做散点图,你能描述一下散点图的含义吗?
在平面直角坐标系中,表示具有相关关系的两个变量的一组数据图形,称为散点图.
思考4:观察散点图的大致趋势,人的年龄与人体脂肪含量具有什么相关关系?
思考5:在上面的散点图中,这些点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.一般地,如果两个变量成正相关,那么这两个变量的变化趋势如何?
思考6:如果两个变量成负相关,从整体上看这两个变量的变化趋势如何?其散点图有什么特点?
一个变量随另一个变量的变大而变小,散点图中的点散布在从左上角到右下角的区域.
思考7:你能列举一些生活中的变量成正相关或负相关的实例吗?
理论迁移
例1
在下列两个变量的关系中,哪些是相关关系?
①正方形边长与面积之间的关系;
②作文水平与课外阅读量之间的关系;
③人的身高与年龄之间的关系;
④降雪量与交通事故的发生率之间的关系.
例2
以下是某地搜集到的新房屋的销售价格和房屋的面积的数据:
房屋面积
(平方米)
61
70
115
110
80
135
105
销售价格
(万元)
12.2
15.3
24.8
21.6
18.4
29.2
22
画出数据对应的散点图,并指出销售价格与房屋面积这两个变量是正相关还是负相关.
1.对于两个变量之间的关系,有函数关系和相关关系两种,其中函数关系是一种确定性关系,相关关系是一种非确定性关系.
3.一般情况下两个变量之间的相关关系成正相关或负相关,类似于函数的单调性.
2.散点图能直观反映两个相关变量之间的大致变化趋势,利用计算机作散点图是简单可行的办法.
小结作业
9.3
变量间的相关关系
9.3.1
变量之间的相关关系
9.3.2
两个变量的线性相关
第二课时
问题提出
1.
两个变量之间的相关关系的含义如何?成正相关和负相关的两个相关变量的散点图分别有什么特点?
自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系.
正相关的散点图中的点散布在从左下角到右上角的区域,负相关的散点图中的点散布在从左上角到右下角的区域
2.观察人体的脂肪含量百分比和年龄的样本数据的散点图,这两个相关变量成正相关.我们需要进一步考虑的问题是,当人的年龄增加时,体内脂肪含量到底是以什么方式增加呢?对此,我们从理论上作些研究.
知识探究(一):回归直线
思考1:一组样本数据的平均数是样本数据的中心,那么散点图中样本点的中心如何确定?它一定是散点图中的点吗?
思考2:在各种各样的散点图中,有些散点图中的点是杂乱分布的,有些散点图中的点的分布有一定的规律性,年龄和人体脂肪含量的样本数据的散点图中的点的分布有什么特点?
这些点大致分布在一条直线附近.
思考3:如果散点图中的点的分布,从整体上看大致在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线.对具有线性相关关系的两个变量,其回归直线一定通过样本点的中心吗?
思考4:对一组具有线性相关关系的样本数据,你认为其回归直线是一条还是几条?
思考5:在样本数据的散点图中,能否用直尺准确画出回归直线?借助计算机怎样画出回归直线?
知识探究(二):回归方程
在直角坐标系中,任何一条直线都有相应的方程,回归直线的方程称为回归方程.对一组具有线性相关关系的样本数据,如果能够求出它的回归方程,那么我们就可以比较具体、清楚地了解两个相关变量的内在联系,并根据回归方程对总体进行估计.
思考1:回归直线与散点图中各点的位置应具有怎样的关系?
整体上最接近
思考2:对于求回归直线方程,你有哪些想法?
(x1,
y1)
(x2,y2)
(xi,yi)
(xn,yn)
可以用
或
,
其中
.
思考3:对一组具有线性相关关系的样本数据:(x1,y1),(x2,y2),…,(xn,yn),设其回归方程为
可以用哪些数量关系来刻画各样本点与回归直线的接近程度?
思考4:为了从整体上反映n个样本数据与回归直线的接近程度,你认为选用哪个数量关系来刻画比较合适?
(x1,
y1)
(x2,y2)
(xi,yi)
(xn,yn)
思考5:根据有关数学原理分析,当
时,总体偏差
为最小,这样
就得到了回归方程,这种求回归方程的方法叫做最小二乘法.回归方程
中,
的几何意义分别是什么?
思考6:利用计算器或计算机可求得年龄和人体脂肪含量的样本数据的回归方程为
,由此我们可以根据一个人个年龄预测其体内脂肪含量的百分比的回归值.若某人37岁,则其体内脂肪含量的百分比约为多少?
20.9%
理论迁移
例
有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的饮料杯数与当天气温的对比表:
摄氏温度(℃)
-5
0
4
7
12
热饮杯数
156
150
132
128
130
15
19
23
27
31
36
116
104
89
93
76
54
摄氏温度(℃)
-5
0
4
7
12
热饮杯数
156
150
132
128
130
15
19
23
27
31
36
116
104
89
93
76
54
(1)画出散点图;
(2)从散点图中发现气温与热饮杯数之
间关系的一般规律;
(3)求回归方程;
(4)如果某天的气温是2℃,预测这天卖出的热饮杯数.
当x=2时,y=143.063.
小结作业
1.求样本数据的线性回归方程,可按下列步骤进行:
第一步,计算平均数
,
第二步,求和
,
第三步,计算
第四步,写出回归方程
2.回归方程被样本数据惟一确定,各样本点大致分布在回归直线附近.对同一个总体,不同的样本数据对应不同的回归直线,所以回归直线也具有随机性.
3.对于任意一组样本数据,利用上述公式都可以求得“回归方程”,如果这组数据不具有线性相关关系,即不存在回归直线,那么所得的“回归方程”是没有实际意义的.因此,对一组样本数据,应先作散点图,在具有线性相关关系的前提下再求回归方程.