(共35张PPT)
第3章
算法与程序实现
人教版(2019版)
信息技术(高中)
必修1
数据与计算
3.2
数据采集与整理
学习目标
1
2
掌握数据采集和整理的基本方法,能根据需求选择适当的工具采集与整理数据。
应用恰当的方法保护数据,理解对敫据进行保护的重要意义,增强教据安全意识。
体验探究
你能找到这些数据吗?
参照黄河流域水资源数据汇总表(2014-2016年),见表3.2.1,收集并填写其他流域(如长江流域、珠江流域、松花冮流堿等)的水资源数据汇总表,见P91表3.2.2。
思考:
获取表中数据,可采用哪些方法,怎样才能确保数据的准确性?
3.2.1数据采集
数据采集,即根据需求采用适当的方法和工具获取所需要的数据。
例如,采集交通出行数据用以预测交通情况,采集全国不同流域水资源数据用以分析水资源分布状况等。根据需求获取数据,为进行数据分析及获取有价值的信息奠定基础。
数据采集的主要环节有:
明确数据需求
确定数据来源
选择采集方法
实施数据采集
明确数据需求
为提高数据采集的针对性,采集数据前要明确数据需求。可以从需要分析的问题、研究的内容、期望达成的目标等方面来考虑,然后列出需要采集的数据目录。
思考活动:确定“研究我国水资源分布情况”的数据需求
黄淮海流域是我国水资源承载能力与经济社会发展矛盾最为突出的地区,为缓解该流域日益严重的水资源短缺问题,促进经济发展和社会进步,在深入研究和科学分析的基础上,政府做出实施南水北调工程的重大决策。其中,分析各地区水资源总量、人均水资源量等水资源数据,是掌握我国水资源分布情况必不可少的研究之一。
思考:
阅读以上材料,思考研究我国水资源分布情况需要获取哪些方面数据,并用思维导图呈现。
B.
确定数据来源
在信息社会,数据来源途径广泛,社会调查、公众媒体、科学实验与实践活动等都可以提供大量数据。伴随着互联网的快速发展,政府机构的官方网络平台已成为获取权威数据的重要渠道。此外,物联网和社交网络中也拥有巨量数据。
通常,数据来源越可靠、收集渠道越多,就越容易收集到真实有效的数据。因此,在明确数据需求后,为了更好地应用数据解决问题,就需要在众多的数据来源中根据实际情况恰当地选择。
C.
选择采集方法
①
传感器采集数据
传感器是一种检测装置,能感受到被测量的信息,并能将信息按一定规律转换成电信号或其他所需形式的信息输出。常用的传感器有温度传感器、压力传感器、红外传感器、距离传感器和声音传感器等。
图3.2.1
常用传感器
图3.2.2
远程智能抄表系统
传感器是物联网中的一种重要设备。在物联网中,通过传感设备,按约定的协议,将相关物体与网络连接,进行信息采集和通信,实现智能化识别、定位、跟踪、监控和管理。
物联网传感器获取的监测数据通过自动化控制设备或直接连接网络实现定时的数据采集、信息转换和信息上传。传感器不仅应用在日常生活中,而且在工业生产中也应用广泛。
实践活动:体验手机传感器的数据采集
智能手机内置了多种传感器,通过手机应用软件可以读取相关传感器的数据,实现相应的功能。例如,重力传感器使手机能够自动在横竖屏间切换,温度传感器可用于监测手机发热情况,指纹传感器可用来识别身份等。图3.2.3呈现的即为手机中的传感器采集的数据器采集的数据。
思考:
体验智能手机中的传感器应用,举例说出手机中还采用了哪些传感器来采集数据?采集到的数据帮助手机实现了哪些功能?
②
网络获取数据
随着移动互联网的日益普及和数字化媒体的迅速崛起,网络成为人们快捷获取数据的重要渠道。目前,使用网络爬虫采集互联网上的数据成为获取网络信息的一种有效方式。
网络爬虫,是按照一定的规则,自动抓取互联网内容的程序。网络爬虫的主要功能是自动采集其可以访问到的网页内容,这种技术已被广泛用于搜索引擎或其他类似网站。
搜索引擎的一般工作原理:网络爬虫通过网络链接进入网站,采集网站页面内容,采集到的内容经过处理后得到的索引结果被存放到搜索引擎的索引库中,当用户发起搜索请求时,搜索引擎检索索引库后,将结果返回给用户,从而实现快速检索
图3.2.4
搜索引擎的一般工作原理
在线问卷是通过网络采集数据的另一种方式。这种方式通过在线调查问卷网站完成问卷的设计、发放、回收和分析等工作。
例如,通过“高中生信息安全问卷”调查,可以了解学生对信息安全知识的掌握情况;通过“家庭用水情况问卷”调查,可以了解一般家庭用水和节水情况等。
实践活动:通过网络获取水资源数据
1.
在前面的思考活动中,我们已经确定了“研究我国水资源分布情况”需要获取的数据,利用搜索引擎搜索我国不同地区水资源数据,并记录获取数据的网址。
分析提供水资源数据的网站可信度如何?网站发布的数据是否真实准确?试说明理由。
2.
为监测长江水资源生态环境,保障水资源质量,长江流域水资源保护局定期发布“长江流域水资源质量公报”,每份公报中通常包含5张表格,部分内容如P96图3.2.5所示。
3.2.2数据整理
数据整理的目的是对数据进行校验和标准化。采集到的数据可能是非标准化的、不完整或重复的。通常,将这样的数据形象地称作“脏数据”。而用于分析的数据必须保证数据质量,即保证数据的完整性、统一性和准确性。其中,完整性指数据不能有缺失统一性要求数据符合统一的标准;准确性要求数据不能有错误。
数据整理就是通过去重、补漏和勘误等方法,删除重复数据、补全缺失数据和校正错误数据,并对数据进行统一性和标准化处理以确保数据是相关和准确的,从而将“脏数据”变为“清洁数据”。
采集到的数据可以保存为不同的文件,如CSV文件等。
其中,CSV文件将数据表格存储为纯文本,每一行代表一条数据,每条数据包含了一个或由逗号分隔的多个值。整理数据可以使用现成的软件或平台,也可以通过编写程序实现
Python语言丰富的标准模块和扩展库提供了许多高效灵活的函数,可以帮助我们较好地进行数据整理。
例:编写程序检测用水量为负值的数据
采集到的全国各地区2007-2016年用水量数据,存储为“yongshui.csv”文件,如图3.2.8所示。采集的数据由于误输入、传输错误等可能存在问题。例如,河北省2013年用水量中的-191.29和-219.99两个值,不属于正常用水量,需要检测出所有类似的异常数据,并提示用户对数据进行检查和修改。
图3.2.8
“全国各地区2007-2016年用水量数据”示例
例:编写程序检测用水量为负值的数据
(1)分析问题
已知条件:“yongshui”文件中保存了各地区207—2016年用水总量,如果其中的数据为负值,则认为数据异常;
求解目标:检测出异常数据,提醒用户核对;
已知与未知的关系:可通过检测每个用水量数据是否为负值,发现异常的数据
(2)规划问题求解流程
首先读取CSV文件中的全部数据。经观察发现从第3行开始,每行的第4列之后是各年用水量数据,因此从第4列开始逐行依次检查每个数据,判断其值是否为负值;如果为负值,则提示“数据异常,请核对!”。
import
pandas
as
pd
#用pandas中的函教read_csv打开敷据文件,指定文件的文字编矸方式,指定包含列标题
df=pd.read_csv(“yongshui.csv“,encoding=“gbK“,header=1)
For
i
in
range(3,len(df.columns)):
current_col=df.columns[i]
displ1ay_cols=[“地区“,current_col]
error_data=df.loc[df[current_col<0,display_cols]
error_rows_count,__=error_data.shape
If
error_rows_cCount>0:
print(error_data,“叠据异常,请核对!“)
Print(“\n”)
(3)编程实现与调试
(4)保存文件,调试运行程序
程序运行结果如下所示:
图3.2.9
程序运行结果
3.2.3数据安全
思考活动:我们的网上数据是否安全
网络的使用已经非常普遍,我们经常在网上学习、购物、交流、娱乐……不少互联网平台会记录用户使用其平台的情况,比如学习网站记录学生学习的课程、学习时长;购物平台记录用户购买的商品、消费的全额;聊天款件记录用户与他人聊天的频率,聊天的话题,等等。
思考:
我们的网上行为数据可能存储在哪里?如果这些数据被泄露可能会带来哪些风险和问题?
小组同学讨论,通过哪些措施可以使我们的网络行为数据更安全?
中国互联网络信息中心发布的第43次《中国互联网络发展状况统计报告》显示,2018年我国网民所遭遇的网络安全事件中,个人数据安全问题占了很大比重。据统计,2018年,27.3%的网民遭遇过个人信息泄露事件,17.7%的网民遭遇过账号密码被盗事件。国家计算机网络应急技术处理协调中心发布的《2017年中国互联网网络安全报告》指出,2017年我国境内约有2万个网站的数据被篡改,严重影响了正常的工作秩序和社会秩序。
由于数据安全面临的风险有日益加剧的趋势,因此,我们要具备一定的数据保护能力,提高数据安全意识,做好数据安全保障。
数据安全的威胁
数据存储介质损坏
2
计算机病毒
1
黑客
攻击
5
个人
失误
4
......
3
计算机病毒能影响计算机软件、硬件的正常运行,破坏数据的正确与完整,甚至导致系统崩溃,对数据安全的威胁很大。
黑客攻击主要表现为入侵他人计算机系统、扰乱系统运行、盗窃系统保密信息和破环目标系统等。
数据存储介质的损坏包括物理损坏、设备故障等
个人失误例如口令设置过于简单易破解,将个人账号随意转借他人等行为,也会给数据安全带来威胁。
图3.2.10
2007-2017年移动互联网恶意程序数量走势
数据保护的方法
①
数据备份
数据备份是将需要备份的数据从应用主机的硬盘或磁盘阵列复制到其他的存储介质或不同位置存储空间的过程,其目的是在设备发生故障或发生其他威胁数据安全的灾害后,利用备份进行恢复,从而达到保护数据的目的。数据备份常见的方法有可移动存储设备备份和网络备份等。
云存储将数据存储在网络上的服务器中,是网络备份的一种重要方式。它具有成本低、管理方便和可扩展性高等优势,但也存在安全性不足等缺点。
图3.2.11
云存储示意图
②
数据加密
数据加密是使用特定算法把敏感的明文数据变换成难以识别的密文数据。数据加密是保护数据传输安全的实用方法,也是保护数据存储安全的有效方法。实际应用中,为防止数据泄露,可以为数据文件设置密码,加密系统利用设定的密码将整个文件进行加密处理。这样没有正确的密码就无法打开文件查看内容。
为保护数据安全,在使用各种信息设备时,应具有数据安全意识,注意以下几方面:
●
连接可信的无线网络;
●
合理配置智能终端的数据采集功能,保护个人隐私数据;
●
连接其他设备时,认真阅读操作提示和安全事项。
练习提升
1.
搜索引擎通常提供高级搜索指令,帮助使用者更有效地进行检索。上网学习搜索引擎使用技巧,了解在指定的网站内进行检索的指令,并使用该指令检索数据。例如,搜索有关南水北调中线工程的内容。
2.
小明同学非常喜欢打篮球,经常登录体育网站了解球队、球员及赛事情况。学校研究性学习课程布置了研究任务,小明选择中国男篮作为研究课题,需要收集中国男篮相关数据,如球员的身体素质情况、球员特长、场上位置及表现等数据。试使用一款网络爬虫软件或某个平台帮助小明采集球员数据,整理并保存数据。
3.
在信息技术课上,学生通过签到系统记录出勤情况,但是经常有学生重复签到,导致签到记录中的学生数据出现重复,学生签到记录P104如表3.2.5所示。试使用
Python语言编写程序删除签到记录中的重复数据。
4.
小明同学准备参加一门网络课程的学习,但是在注册账号时,系统提示密码安全强度低。试分析安全强度低的原因,并说明小明应如何重新设计密码,写出设计方案和依据。
5.
某些压缩软件不仅具有压缩文件的功能,还可以用密码对文件加密。查找并下载一款带加密功能的压缩软件,试用文件加密功能,并了解其加密原理,写出使用心得。
谢谢
21世纪教育网(www.21cnjy.com)
中小学教育资源网站
有大把高质量资料?一线教师?一线教研员?
欢迎加入21世纪教育网教师合作团队!!月薪过万不是梦!!
详情请看:
https://www.21cnjy.com/help/help_extract.php