9.1.3 获取数据的途径 (24张PPT)

文档属性

名称 9.1.3 获取数据的途径 (24张PPT)
格式 ppt
文件大小 2.7MB
资源类型 试卷
版本资源 人教A版(2019)
科目 数学
更新时间 2021-05-07 08:46:15

图片预览

文档简介

09人教A版 必修二
7.1复数的概念
9. 1 随机抽样
9.1.3 获取数据的途径
统计学是通过收集数据和分析数据来认识未知现象的,因此如何收集数据,是统计学研究的重要内容.
在实践中,获取数据的途径多种多样,像统计报表和年鉴、社会调查、普查和抽样、互联网、试验设计等等都是常见的.下面介绍获取数据的一些基本途径.
1.通过调查获取数据
对于有限总体问题,如人口总数、城乡就业状况、农村贫困人口脱贫状况、生态环境改善状况、青少年受教育状况、高中生近视的比例、产品合格率、高中生日平均上网时间等问题,我们一般通过抽样调查或普查的方法获取数据.
针对不同问题的特点,为了有效收集所需数据,专家发明了各种不同的抽样方法.除了我们已经学过的简单随机抽样和分层随机抽样,还有系统抽样、整群抽样、不等概率抽样、自适应抽样、两阶段抽样等很多其他的方法.在实际应用中,关键在于是否能充分有效地利用背景信息选择或创建更好的抽样方法,并有效避免抽样过程中的人为错误.在前面的学习中,我们对此有了一定的认识.
2.通过试验获取数据
试验是获取样本观测数据的另一种重要途径.例如,要判断研制的新药是否有效、培育的小麦新品种是否具有更高的产量等情况,没有现存的数据可以查询,就需要通过对比试验的方法去获取样本观测数据.又如特种钢、轮胎的配方和产品质量等,也需要通过试验获取样本观测数据.
通过试验获取数据时,我们需要严格控制试验环境,通过精心的设计安排试验,以提高数据质量,为获得好的分析结果奠定基础.在统计学中,这种安排试验的学问叫做“试验设计”,感兴趣的同学可以查阅试验设计教科书.
3.通过观察获取数据
在现实生活中,我们感兴趣的很多自然现象都不能被人类所控制,如地震、降水、大气污染、宇宙射线等.自然现象会随着时间的变化而变化,不能用我们已经学过的有限总体来刻画,也就不能用抽样的方法获取观测数据,另一方面,由于自然现象不能被人为控制,也不能通过试验获取观测数据.研究这类现象,只能通过长久的持续观察获取数据.
对于各个不同的行业,往往需要专业测量设备获取观测数据.随着科技水平的提高,专业测量设备的自动化程度越来越高,通过观测获取和存储数据的成本越来越低,这成为大数据产生的根源.一般地,通过观察自然现象所获取的数据性质比较复杂,其中蕴含着所观察现象的本质信息,这些信息十分宝贵,统计学理论和方法是挖掘这些信息的强有力的工具之一.
4.通过查询获得数据
我们感兴趣的问题,可能有众多专家研究过,他们在研究中所收集的样本观测数据可能存储于学术论文、专著、新闻稿、公报或互联网上.这些数据是宝贵的财富,我们可以收集前人的劳动成果并加以利用,从而减少收集数据的成本.我们往往把这样获得的数据叫做二手数据.国家统计局是我国最主要的统计数据收集和发布的部门,调查统计的数据涉及经济、社会、民生的方方面面.国家统计局的统计数据通过多种形式进行公布,例如定期发布新闻稿、举办新闻发布会、发布统计公报、出版各类统计资料等.统计公报有年度统计公报、经济普查公报、人口普查公报、农业普查公报等;统计资料出版物有《中国统计摘要》、以《中国统计年鉴》为代表的统计年鉴系列等.
例如,我们想了解2014年全国的交通事故情况,通过查找《中国统计年鉴》可以得到如表9.1-3所示的数据.如果我们关心机动车交通事故逐年变化的情况,那么需要通过查找每年的数据表,并把它们合并整理.
类型
发生数/起
死亡人数/人
受伤人数/人
直接财产损失/万元
机动车
180 321
54 944
194 887
103 386.0
非机动车
14 175
2311
15 737
2719.4
行人乘车人
2242
1247
1 167
1403.5
其他
74
21
91
34.1
总计
196 812
58 523
211 882
107 543
随着信息技术的发展,通过互联网获取数据越来越成为获取二手数据的主要方式.例如,可以从国家统计局的官方网站查询得到国家统计局公布的各种统计数据.在网络上,也有专门提供数据服务的公司,它们提供政府部门允许公开的各类数据.
当然,互联网的最大优势是,人们可以利用强大的搜索功能,在整个网络上查找所需要的数据.但从网络上查找的数据,因为数据来历和渠道多样,所以质量会参差不齐,必须根据问题背景知识“清洗”数据,去伪存真,为进一步的数据分析奠定基础.
练习(第187页)
1.请从国家统计局网站上查找我国水资源及其使用情况的一些数据,根据数据谈谈当前保护水资源的重要性.
2.近视是青少年存在的普遍问题,你能查找相关数据,并利用数据说说近几年我国在防治青少年近视上取得的成效吗?
习题9.1(第188页)
1.下列情况中哪些适合用全面调查,哪些适合用抽样调查?说明理由.
(1)了解某城市居民的食品消费结构;
(2)调查一个县各村的粮食播种面积;
(3)了解某地区小学生中患沙眼的人数;
(4)了解一批玉米种子的发芽率;
(5)调查一条河流的水质;
(5)某企业想了解其产品在市场的占有率.
解:(1)适合抽样调查,因为调查对象较多
(2)适台全面调查,因为调查对象较少;
(3)适合抽样调查,因为调查对象较多;
(4)适合抽样调查,因为调查具有破坏性;
(5)适合抽样调查,因为调查对象较多;
(6)适合抽样调查,因为调查对象多而且不易操作.
2.某刊物对其读者进行满意度调查,调查表随刊物送到读者手中,对寄回的调查表进行分析,这是不是一项抽样调查?样本抽取是不是属于简单随机抽样?为什么?
解:是抽样调查,样本的抽取不是简单随机抽样,因为每个个体被抽到的可能性不同.
3.中央电视台希望在春节联欢晚会播出后一周内获得该节目的收视率下面是三名同学为电视台设计的调查方案.
同学A:我把这张《春节联欢晚会收视率调查表》放在互联网上,只要上网登录该网址的人就可以看到这张表,他们填表的信息可以很快地反馈到我的电脑中,这样,我就可以很快统计出收视率了.
同学B:我给我们居民小区的每一个住户发一份是否在除夕晚上看过中央电视台春节联欢晚会的调查表,只要一两天就可以统计出收视率.
同学C:我在电话号码本上随机地选出一定数量的电话号码,然后逐个给他们打电话,问一下他们是否收看了中央电视台春节联欢晚会,我不出家门就可以统计出中央电视台春节联欢晚会的收视率.
请问:上述三名同学设计的调查方案获得比较准确的收视率的可能性大吗?为什么?
解:可能性不大,调查的总体是所有可能看电视的人群学生A的设计方案考虑的人群是:上网而且登录某网址的人群,那些不能上网的人群,或者不登录某网址的人群就被排除在外了.因此A方案抽取的样本的代表性差.
学生B的设计方案考虑的人群是小区内的居民,有一定的片面性,因此B方案抽取的样本的代表性差.
学生C的设计方案考虑的人群是那些有电话的人群,电话号码本上的号码有限且有一定的片面性,因此C方案抽取的样本的代表性差所以,这三种调查方案都有一定的片面性,得到比较准确的收视率的可能性不大.
解:(1)是简单随机样本
(2)不是简单随机样本
(3)是简单随机样本
5.一支田径队有男运动员56人,女运动员42人,按性别进行分层,用分层随机抽样的方法从全体运动员中抽出一个容量为28的样本.如果样本按比例分配,那么男、女运动员应各抽取多少名?
8.校学生会希望调查学生对本学期学生活动计划的意见.你自愿担任调查员,并打算在学校里抽取10%的同学作为样本.
(1)怎样安排抽样,可以提高样本的代表性?
(2)在调查抽样中你可能遇到哪些问题?
(3)这些问题可能会影响什么?
(4)你打算怎样解决这些问题?
解:(1)因为各个年级学习任务和学生年龄等因素的不同,影响各年级学生对学生活动的看法,所以按年级分层进行抽样调查,可以得到更有代表性的样本;
(2)在抽样的过程中可能遇到的问题如敏感性问题:有些学生担心提出意见对自己不利;又如不响应问题:由于种种原因,有些学生不能发表意见等;
8.校学生会希望调查学生对本学期学生活动计划的意见.你自愿担任调查员,并打算在学校里抽取10%的同学作为样本.
(1)怎样安排抽样,可以提高样本的代表性?
(2)在调查抽样中你可能遇到哪些问题?
(3)这些问题可能会影响什么?
(4)你打算怎样解决这些问题?
(3)前面列举的两个问题都可能导致样本的统计推断结果的误差;
(4)为解决敏感性问题,可以采用阅读与思考栏目“如何得到敏感性间题的诚实反应”中的方法设计调查问卷;为解决不响应问题,可以事先向全体学生宣传调查的意义,并安排专人负责发放和催收调查问卷,最大程度地回收有效调查问卷.
9.一般来说,影响农作物收成的因素有气候、土质、田间管理水平等.如果你是一个农村调查队成员,要在麦收季节对你所在地区的小麦进行估产调查,你将如何设计调查方案?
解:可以采用分层随机抽样的方法进行抽样,将麦田按气候、土质、田间管理水平等不同因素分为不同的层,然后按照各层麦田的面积比例及样本量确定各层抽取的面积,再在各层中抽取个体(这里的个体是单位面积的一块麦地)
10.如果调查目的是要确定被调查者的收入水平,请设计一种提问方法.
解:您每年的纳税额是多少?您每年缴纳的所得税额是多少?
11.你可能想了解全校同学生活、学习中的一些情况,例如,全校同学比较喜欢哪门课程,每月的零花钱平均是多少,喜欢看《新闻联播》的同学的比例是多少,每天大约什么时间起床,每天睡眠的平均时间是多少,等.选一些自己关心的问题,设计一份调查问卷,利用简单随机抽样方法调查你们学校同学的情况,并解释你所得到的结论.
解:可以按年级分层随机抽样的方法设计方案,调查问卷由学生所关心的问题组成、例如:
(1)你最喜欢哪一门课程?
(2)你每月的零花钱平均是多少?
(3)你喜欢看《新闻联播》吗?
(4)你每天早上几点起床?
(5)你每天晚上几点睡觉?
12.查询中央电视台最近五年春节联欢晚会的收视率,从中你能发现一些什么信息?查阅一些收视率调查所用的方法,在分析这些方法的合理性和不足的基础上,请你自行设计一个调查收视率的方案.
解:发现的信息:不同年龄段的观众收视率差别大提示:这里利用分层随机抽样来设计抽样方案的效果应该比较好,可以按照年龄分层,也可以按职业,或者环境(城、镇、乡等)分层.