3.3.1 数据分析 课件(39张ppt)+教案+练习+任务单

文档属性

名称 3.3.1 数据分析 课件(39张ppt)+教案+练习+任务单
格式 zip
文件大小 2.8MB
资源类型 教案
版本资源 中图版(2019)
科目 信息技术(信息科技)
更新时间 2020-12-09 20:41:46

文档简介

(共39张PPT)
数据分析(第二十四课时)
回顾
数据处理一般过程
数据采集
数据整理
数据分析
数据呈现
1.数据分析概念
数据分析是为了获取有价值的信息,使用适当的计算方法与工具对收集来的数据进行处理,提取有用信息,形成结论从而支持决策。
2.数据分析作用:了解事物的现状
2.数据分析作用:剖析事物的发展历程
2.数据分析作用:预测事物未来走向
3.数据分析
金山银山不如绿水青山,最近这些年,国家落实严控环境污染、修复生态环境等政策。随着政策落实,你所在家乡的空气质量是否有所改善?
我们需要数据来做出分析。
上节课,我们对空气质量原始数据做了整理。本节课,我们要分析之前整理的数据,从而做出判断。
课堂任务1:计算每日AQI平均值
怎样判断一天的空气质量如何?
计算一天中24小时的空气质量指数(AQI)的平均值。
平均分析法。
平均分析法:是指运用计算平均数的方法来反映总体在一定时间、地点条件下某一数量特征的一般水平。多用于比较同类现象在不同地区、不同行业、不同类型单位等之间的差异程度,分析现象之间的依存关系;也可以对某一现象在不同时间的水平进行比较,以说明现象的发展规律及趋势。
平均工资、平均年龄、平均身高、平均分
平均分析法
课堂任务1:计算每日AQI平均值
所需数据:
每天空气质量指数的平均值
计算一天中24小时的空气质量指数(AQI)的平均值
DataFrame筛选用法
DataFrame筛选数据
df.loc[条件,列索引号]筛选数据
df.loc[
df['北京']<50,['北京']
]
筛选北京这一列值小于50的数据
DataFrame按日期筛选
DataFrame按日期筛选数据
df.loc[日期索引][列索引号]筛选
df.loc['2014-05-13']['北京']
筛选2014-05-13的行,显示出北京这列的数据
课堂任务1:计算每日AQI平均值
下载
课堂活动1(每日AQI平均值).py
文件,和上节课生成的补全数据.csv放在同目录。
根据自己选择的城市,修改代码中城市名和文件名。
课堂任务1:计算每日AQI平均值
课堂任务1:计算每日AQI平均值
课堂任务1:计算每日AQI平均值
暂停视频
运行
课堂活动1(每日AQI平均值).py
文件
观察同目录下的结果数据文件
课堂任务1:计算每日AQI平均值
课堂任务2:统计每年AQI为优的天数
怎样判断现在的空气质量和过去比是否有了改善?
可以对比空气质量为优的天数在过去几年间的变化趋势
这里用到了对比分析法
对比分析法:也叫比较分析法,通常用于从数量上展示
和说明研究对象规模大小,水平高低等。
对比分析法分为横向和纵向对比两大类。
对比分析法
对比分析法——横向对比
对比分析法——纵向对比
课堂任务2:统计每年AQI为优的天数
所需数据:
每年空气质量为优的天数(AQI<=50)
需求:
对比空气质量为优的天数在过去几年间的变化趋势。
课堂任务2:统计每年AQI为优的天数
下载
课堂活动2(统计AQI为优数据).py
文件,和活动1生成的AQI每日平均值文件放在同目录。
注意:根据自己选择的城市,修改代码中城市名和文件名。
课堂任务2:统计每年AQI为优的天数
课堂任务2:统计每年AQI为优的天数
课堂任务2:统计每年AQI为优的天数
暂停视频
运行
课堂活动2(统计AQI为优数据).py
文件
观察同目录下的结果数据文件
课堂任务2:统计每年AQI为优的天数
课堂任务3:统计每年AQI各类情况的天数
怎样了解某一年某城市的空气质量整体情况?
可以呈现一年中空气质量为优、良好、轻度污染、中度污染、重度污染的天数占比比例。
这里用到结构分析法。
结构分析法
结构分析法:也称构成分析法,是将各个部分与总体进行对比,是分析事物内部的结构和部分与整体之间关系的方法。
课堂任务3:统计每年AQI各类情况的天数
所需数据:
每年空气质量为优(0-50)、良好(51-100)、轻度污染(101-150)、中度污染(151-200)、重度污染(>200)的天数。
需求:
呈现一年中空气质量为优、良好、轻度污染、中度污染、重度污染的天数占比比例。
DataFrame多条件筛选用法
DataFrame多条件筛选数据
df.loc[(条件1)&(条件2),列索引号]筛选数据
df.loc[(df['北京']>=50)
&(df['北京']<=100),['北京']
]
筛选北京这一列值在50-100之间的数据
课堂任务3:统计每年AQI各类情况的天数
下载
课堂活动3(统计AQI各类数据)-待补全.py
文件,和活动1生成的AQI每日平均值文件放在同目录。
注意:可根据自己选择的城市,修改代码中城市名和文件名。
课堂任务3:统计每年AQI各类情况的天数
课堂任务3:统计每年AQI各类情况的天数
请补全代码,将5种空气质量类别都统计出来。
课堂任务3:统计每年AQI各类情况的天数
请补全代码后,暂停视频,运行程序,查看生成的结果文件。
课堂任务3:统计每年AQI各类情况的天数
同学们,你是否成功统计出了2015到2019年的各类空气质量天数?
课堂活动总结
1、计算每日AQI平均值
2、统计每年AQI为优的天数
3、统计每年AQI各类情况的天数
平均分析法
对比分析法
结构分析法
4.课堂小结
数据分析
作用
了解事物现状
剖析事物发展历程
预测事物未来走向
方法
对比分析法
平均分析法
结构分析法
5.课后作业
各位同学针对身边同学们的课余时间安排做了调查问卷,并且对采集的原始数据做了数据整理。请利用整理好的数据,做出1-2项具体的分析。(比如高中生的课余时间都在做什么?游戏娱乐的时间占比如何?学业压力是否过大?运动方式有哪些?运动时间有多久?)
请参考学习资料中的Pandas使用说明和示例,完成利用Python实现数据分析。自主学习任务单
学习指南
课题名称:数据分析
学习目标:
了解数据分析的作用,掌握三种数据分析方法,根据需求选择恰当的方法进行数据分析。
本节知识点思维导图:
学习任务
课前测验:
李明老师是一名高一班主任。全班45个学生每次考试的成绩他都会细心保存下来。本学期末,李明老师打算对学生的6门成绩做数据分析。请帮他一起想一想该如何整理数据吧!
需求1:分析出全班每个同学的成绩概况,可以采用什么方法?
需求2:分析出每位同学学习是否有进步,可以采用什么方法?
需求3:分析出每位同学的成绩弱项科目,可以采用什么方法?
金山银山不如绿水青山,最近这些年,国家落实严控环境污染、修复生态环境等政策。随着政策落实,你所在家乡的空气质量是否有所改善?上节课,我们对空气质量原始数据做了整理。下面,我们要对之前整理的数据进行数据分析。
任务1:
【目标】计算一天中24小时的空气质量指数(AQI)的平均值。
【实践】下载
课堂活动1(每日AQI平均值).py
,和上节课生成的补全数据.csv放在同目录。根据自己选择的城市,修改代码中城市名和文件名。运行程序,观察生成的结果文件
北京_AQI每日平均值.csv。
【回顾】本任务中,用到的数据分析方法是

任务2:
【目标】为对比空气质量为优的天数在过去几年间的变化趋势,统计出每年度空气质量指数(AQI)为优的天数。
【实践】下载“课堂活动2(统计AQI为优数据).py”
文件,和活动1生成的AQI每日平均值文件放在同目录。(注意:根据自己选择的城市,修改代码中城市名和文件名。)
【回顾】本任务中,用到的数据分析方法是

任务3:
【目标】了解某一年某城市的空气质量整体情况。呈现一年中空气质量为优、良好、轻度污染、中度污染、重度污染的天数占比比例。
【实践】请下载“课堂活动3(统计AQI各类数据)-待补全.py”
文件,和活动1生成的AQI每日平均值文件放在同目录。参考微课讲解、pandas使用说明和以下代码,补全代码,统计出所有5种空气质量情况的天数。补全后,请运行,查看生成的结果文件,观察数据。
【回顾】本任务中,用到的数据分析方法是

评测反思
知识小测:结合微课资源,完成以下题目:
数据分析的作用有:



数据分析的三种方法:


学习评价:
评价指标评价等级及分值得分优秀
9-10分良好
5-8分一般
3-4分
自评互评老师评任务1(30%)任务2(30%)任务3(30%)任务单(10%)
学习反思:
通过本节课的学习,你最大的收获是什么?
在实践操作环节,遇到了哪些困难?你是如何解决的?
关于本节课的学习内容,列出你最想进一步研究的内容。课程基本信息
课题
数据分析
教科书
书名:信息技术必修1数据与计算
出版社:人民教育出版社&中国地图出版社
出版日期:2019年6月
学生信息
姓名
学校
班级
学号
课后练习
各位同学针对身边同学们的课余时间安排做了调查问卷,并且对采集的原始数据做了数据整理。请利用整理好的数据,做出1-2项具体的分析。(比如高中生的课余时间都在做什么?游戏娱乐的时间占比如何?学业压力是否过大?运动方式有哪些?运动时间有多久?)请参考学习资料中的Pandas使用说明和示例,完成利用Python实现数据分析。课程基本信息
课题
数据分析
教科书
书名:信息技术必修1数据与计算
出版社:人民教育出版社&中国地图出版社
出版日期:2019年6月
教学目标
教学目标:了解数据分析的作用,掌握三种数据分析方法,根据需求选择恰当的方法进行数据分析。教学重点:三种数据分析方法:对比分析法、平均分析法、结构分析法。教学难点:三种数据分析方法。
教学过程
时间
教学环节
主要师生活动
1分钟
课堂引入新知讲授课堂小结课后练习
1、课堂引入教师:首先,让我们一起来回顾一下之前本单元学习的内容。通过之前的学习,我们已经了解到数据处理的一般过程包含数据采集、数据整理、数据分析和数据呈现四个过程。我们已经学习了数据采集,数据整理,并通过体验活动体验了数据采集和数据整理的过程。这节课我们来了解第三个步骤数据分析。2、数据分析的概念教师:那么什么是数据分析?数据分析是为了获取有价值的信息,使用适当的计算方法与工具对收集来的数据进行处理,提取有用信息,形成结论从而支持决策。那么数据分析到底有哪些有哪些作用?教师:首先,我们来看这张图,这是一张新冠肺炎疫情当前的数据。通过对数据的分析,我们可以发现当前我国现有确诊人数较少,疫情控制良好,主要风险来自境外输入。而且境外的疫情数据可以展示出目前全球疫情的严峻现状。故,数据分析可以帮助我们了解事物的现状。这就是数据分析的第一个作用。教师:我们来看这张图,这是一张我国新冠肺炎疫情的数据图表。通过表中的病死率和治愈率,我们可以清晰观察到治愈率的变化过程,在疫情初期是有一段由高到低,到了拐点后快速攀升的过程。这也符合我国疫情初期的实际情况。而致死率基本在低位徘徊,也显示出疫情的总体控制情况良好。显然图中的数据可以帮助我们了解疫情发展和变化的过程。故,数据分析的第二个作用是了解事物的发展历程,从而进一步探究问题产生的原因。教师:我们来看这张图,这是一张2020到2050哈尔滨老年人口占比的预测图。通过已有数据,可以预测出未来哈尔滨老年人口的占比会高达38%,也就是极度老龄化。这就是数据分析的第三个作用——预测事物未来走向3、数据分析教师:在了解了数据分析的作用后,我们一起来通过课堂活动一起体验下数据分析的过程吧!金山银山不如绿水青山,最近这些年,国家落实严控环境污染、修复生态环境等政策。随着政策落实,你所在家乡的空气质量是否有所改善?上节课,我们对空气质量数据做了整理,本节课,我们要分析之前整理好的数据,从而做出判断。【三种数据分析方法】3.1课堂任务1(平均分析法)教师:依据现有数据,我们怎样判断一天的空气质量情况如何呢?请大家想一想。或许你和我想的一样呢。现有的数据是每小时的空气质量数据,我们可以计算一天24小时的AQI平均值,从而判断这一天的基本空气质量。在这里通过计算平均值来分析就是平均分析法。教师:什么是平均分析法呢?平均分析法是指运用计算平均数的方法来反映总体在一定时间、地点条件下某一数量特征的一般水平。多用于比较同类现象在不同地区、不同行业、不同类型单位等之间的差异程度,分析现象之间的依存关系;也可以对某一现象在不同时间的水平进行比较,以说明现象的发展规律及趋势。比如我们平均工资反应整体薪酬水平、平均年龄、平均身高、平均分等。教师:我们的这个课堂任务需要我们计算一天中24小时的AQI平均值,所以我们需要计算出每一天的AQI平均值。【DataFrame筛选方法】df.loc[条件,列索引号]筛选数据教师:要计算出每一天的数据平均值,首先需要我们筛选数据。我们今天依然使用pandas这个库来对数据进行处理和分析。Pandas库中的DataFrame如何筛选数据呢?我们还可以使用df.loc[
df['北京']<50,['北京']
]实现筛选,方括号内,第一个参数是条件,第二个参数是要筛选显示的列索引号。【DataFrame按日期筛选数据】df.loc[日期索引][列索引号]筛选教师:我们还需要按照日期来筛选。那么在把日期列作为索引后,我们可以直接使用df.loc['2014-05-13']['北京']筛选出满足日期的数据。教师:下面,请各位同学下载课堂活动1(每日AQI平均值).py
文件,和上节课生成的补全数据csv文件放在同目录。打开代码后,可以根据自己所在城市,修改代码中的城市名和文件名。教师:下面,我们一起来看看代码是如何实现计算每日AQI平均值的吧!第一句代码,依然是导入了pandas库。紧接着三句代码,我们定义了要操作的数据列索引,也就是城市名称,处理的文件名、处理后数据保存文件名。第五句,还是读取文件,只是这里我们多写了一个参数index_col把date这列作为了默认行索引。最后一句,就是返回该表的行索引组成的列表。而且去除重复值后的唯一值。教师:下面,我们定义新数据表的第一行数据,也就是未来的列索引。分别是date,type,和城市名称。接着,我们是用for循环对刚才得到的不重复的日期进行挨个筛选和计算平均值。这里需要注意这句语句是筛选出指定日期的AQI数据,然后通过mean()这个方法计算平均值,使用round函数将结果数据的精度修改为一位小数,最后把计算出的平均值赋值给变量meandata。接着,我们组成新的一行数据,存放到临时新表data这个列表里。然后,循环完后,我们将拼凑好的新数据转换成一个DataFrame结构。赋值给变量newdf,最后将这个表另存即可。教师:下面,请暂停视频,请大家运行
课堂活动1的程序文件,看看生成的结果文件吧!学生:完成体验活动。3.2课堂任务2对比分析法教师:通过现有数据,我们如何分析现在的空气质量和过去比是否有了改善?大家想一想?学生:思考回答教师:嗯,我想或许有人会这么想,可以对比下空气质量为优的天数在过去几年的变化趋势。这里我们通过对比的方法来分析问题,用到了对比分析法!教师:什么是对比分析法?对比分析法也叫比较分析法,通常用于从数量上展示
和说明研究对象规模大小,水平高低等。对比分析法分为横向和纵向对比两大类。教师:同类数据在地区之间或部门之间对比是横向对比。如图,老龄化也是这几年一个很热门的话题,这张图表呈现了不同省份同一时期的老龄人口抚养比。通过对比,可以分析出不同省份的养老压力是不同的。显然,这也是一种横向对比分析。教师:同类数据在不同时期的对比,就是纵向对比。如图,我国的平均预期寿命在不同年份是不同的,显然随着时间推移,人均预期寿命是逐步提高的。这就是纵向对比。教师:我们回顾下要做的课堂任务,我们需要对比空气质量为优的天数在过去几年间的变化趋势。那么我们需要什么数据呢?学生:思考教师:我们需要每一年空气质量为优的天数,也就是AQI小于等于50的天数。教师:下面我们一起来体验下统计过程。请下载课堂活动2(统计AQI为优数据).py
文件,和活动1生成的AQI每日平均值文件放在同目录。注意:根据自己选择的城市,修改代码中城市名和文件名。教师:让我们看看代码是如何实现统计的。首先还是导入库,接着定义了城市、处理文件、结果文件名称。这里多了而两个变量表示开始统计的年份和结束的年份。为什么要定义?因为我们发现采集的2014年和2020年数据不完整,不是全年的数据。所以,我们只统计2015-2019的年度数据。接着,我们打开文件。将date这一列转换为时间日期格式,转换后重新存回df这个表中。接着,我们设置行索引为date这列的数据。我们就可以根据这列的日期来筛选数据了。最后,我们新建结果数据,先建立第一行,也就是新表的列索引,就是我们熟悉的列标题。教师:接着,我们使用for循环依次对每年的数据进行统计。注意,我们使用年份来筛选出行,存到变量datas。然后,我们在这些行组成的表中筛选出值<=50的数据,再使用count方法进行计数。计数结果存到count这个变量中。最后,拼凑新的数据行,存到data变量中。接着,完成数据列表转换成DataFrame表,另存到新文件。教师:下面,请暂停视频,请大家打开下载的课堂活动2(统计AQI为优数据).py,运行程序,观察同目录下的结果数据吧学生:完成体验活动。教师:我想大家运行完后,应该也会生成这样一个统计结果。看起来,北京的优质天数逐年递增,显然是空气质量在逐年改善!3.3课堂任务3结构分析法教师:刚才的任务,我们计算出一年中空气质量为优的天数。但是质量优的天数和重度污染的天数在一年中占比如何呢?我们如果想了解某一年某城市的整体情况,该怎么做?大家想一想。学生:思考教师:我想,也许有同学这样想了,我们可以把空气质量为优、良好、轻度污染、中度污染、重度污染的天数占比比例呈现出来啊。多直观啊!没错,是个好方法!这里我们用到的是结构分析法。教师:结构分析法也称构成分析法,是将各个部分与总体进行对比,是分析事物内部的结构和部分与整体之间关系的方法。如图,是一张支出统计图表。可以清晰直观地对比各个部分在整体中的占比。教师:回顾我们的任务,我们需要呈现一年中空气质量为优、良好、轻度污染、中度污染、重度污染的天数占比比例。我们需要统计出每年各种情况的天数。优(0-50)、良好(51-100)、轻度污染(101-150)、中度污染(151-200)、重度污染(>200)。【DataFrame多条件筛选数据】df.loc[(条件1)&(条件2),列索引号]筛选数据教师:上个任务中,我们使用单个条件筛选数据,这种方法在这里显然不行了。这里我们需要同时多条件筛选数据。如图所示,在表格软件中,筛选空气良好的数据,可以筛选北京这列AQI值满足大于50且小于等于100的数据。这里使用python编程筛选多个条件的数据,怎么实现呢?我们可以用圆括号括起每个条件,然后用&符号连接组成复合条件。比如df.loc[(df['北京']>=50)
&(df['北京']<=100),['北京']
],这样就可以筛选出北京这一列符合两个条件的数据。教师:让我们打开代码,一起看看,前面几部分和任务2相同需要注意的是我们依然需要将date这列数据转换为时间日期格式,并且这列的数据设置为行索引。接着,我们依然拼凑出新表格的第一行数据,也就是未来表格的列标题,存放到data这个列表里。教师:接着,我们依然使用for循环,对数据按日期进行筛选。接着对筛选出的数据表,进行统计。注意,这一行统计出了AQI<=50的数据,使用count方法统计出筛选出的数据,也就是AQI为优的天数。下面,请暂停视频,请大家参考已有代码,自行补全缺失代码,将5种空气质量类别都统计出来。教师:最后依然是新数据表的构建和保存过程。请大家完成代码后,暂停视频,运行程序,查看生成的结果文件。教师:我猜想,大家都顺利完成了吧!通过统计,我们发现北京市的优质天逐年递增,良好天也逐年递增。轻度污染、中度污染、重度污染天数逐年减少。显然,北京的空气质量的确是改善了!3.4活动总结教师:刚才的活动中,我们完成了三个小任务。1、计算每天的AQI平均值,2、统计出每年AQI为优的天数,3、统计出每年AQI各类情况的天数。这个过程分别使用了数据分析的三种方法——平均分析法(利用求平均值来分析)、对比分析法(对比同类数据不同年份的情况)、结构分析法(通过各部分在整体中的分布进行分析)。4、课堂总结5、课后作业教师:最后,还是给大家留一个课后作业。之前,各位同学针对身边同学们的课余时间安排做了调查问卷,并且对调查来的原始数据做了基本的数据整理。请利用整理好的数据,做出1-2项具体的分析。这里,请参考学习资料来完成Python编程实现的数据分析。教师:今天我们的课就学习到这里,谢谢大家!