数据处理与应用(一)
LOGO
制作:000
GRADUATION THESIS DEFENSE
LOGO
学习目标
1.认识数据处理,了解数据处理的一般过程。掌握数据采集和整理的一般方法。了解数据安全,学会保护数据。
2.感受数据处理对日常生活的影响,能通过数据处理获取有价值的信息。理解数据保护的重要意义,增强数据安全意识。
3.学会利用计算机去处理问题,增强计算机意识。
LOGO
02. 数据采集与整理
01. 数据处理的一般过程
目录
CONTENTS
导入
用水分析助决策
主题学习项目
南水北调工程是缓解我国北方地区水资源短缺局面,优化我国水资源配置,促进经济和社会可持续发展的重大战略性基础工程。围绕南水北调工程的实施情况开展项目学习。建议从供水、节水和水污染防治等方面确定项目研究主题,处理水资源数据,提交项目报告。
1,通过项目活动,学会救据采集、分析和可视化的方法。
2,能够从数据中提炼出有用的信息,提出合理的用水建议。
3,合理选用数据处理工具,完成数据分析报告
3.1
数据处理的一般过程
思考:
1.通过对比能从图中获取哪些信息?这些信息对制定用水政策有什么帮助?
2.了解我国水资源分布的特点,思考实施南水北调工程的原因。
日常生活和社会生产都有数据的产生与传播 这此数据经过处理后,就有可能发现其中包含的信息,挖掘其内在价值,更好地为我们服务。数据处理广泛应用于日常生活和社会生产的各个领域。
3.1.1数据处理
采集
整理
分析
可视化表达
3.1.1数据处理
数据采集可为数据处理准备必要的数据。例如,为科学决策南水北调工程,论证我国北方地区是否缺水、缺多少水、水源地能调出多少水等问题,研究者就需要在采集多年的相关水资源数据的基础上,深入分析、严格论证,为分析问题、做出决策提供有力支撑。
用一定的方法对收集来的数据进行整理、分析、提取有用信息,形成结论,可以指导决策。例如,南水北调中线工程在计划加高调水源头的水库大坝的论证中,设计人员分析测算调水量、发电量、移民量等数据,经过反复比较论证、综合评估,最终确定了将水坝加高到176.6 m的方案。
借助数据可视化呈现方式能够更好地表达数据所蕴含的信息。例如,南水北调工程线路示意图以地图形式形象地展现了中线调水线路的走向和途经地区,为决策者和工程建设者们提供了帮助。
数据采集
分析·整理
可视化表达
可见,在数据处理过程中,从大量的、无序的、难以理解的数据中,提取有价值、有意义的数据,分析这些数据,获得有用的信息,有助于做出正确的判断和决策。
3.1.2数据处理的过程
数据采集
数据整理
数据分析
数据呈现
数据有不同的表现形式,数据的来源也多种多样,因此数据采集的方法、采集的工具和采集后的存储方式也不尽相同。通过官方网站获取,也可以通过网络调查的方式获取。
数据分析指运用适当的分析方法和工具,对整理后的数据加以详细研究和概括总结,从中提取有价值的信息,最终形成结论的过程。
数据整理通常指对数据进行校验和标准。由于采集到的数据可能有缺失、重复或错误,因而需要进行必要的整理。通常,数据整理是开展数据分析前的重要准备工作,整理后的数据按照一定的标准进行储。
数据呈现是将数据分析结果以恰当的方式呈现出来,以便于人们理解和使用。可视化表达具有直观生动和易于理解的优势。被广泛应用于数据和数据分析结果的表示和呈现。
01
02
03
04
3.2
数据采集与整理
你能找到这些数据吗?
参照黄河流域水资源数据汇总表,收集并填写其他流域,如长江流域,珠江流域,松花江流域等。的水资源数据汇总表。
思考:获取上述数据可采用哪些方法?怎样才能确保数据的准确性?
3.2.1数据采集
数据采集,即根据需求采用适当的方法和工具获取所需要的数据。例如,采集交通出行数据用以预测交通情况,采集全国不同流域水资源数据用以分析水资源分布状况等据需求获取数据,为进行数据分析及获取有价值的信息奠定基础。
数据采集的主要环节包括明确数据需求,确定数据来源,选择采集方法和实施数据采集。
明确数据需求
为提高数据采集的针对性,采集数据前要明确数据需求,可以从分析的问题。研究的内容,期望达成的目标等方面来考虑,然后列出需要采集的数据目录。
3.2.1数据采集
数据采集的主要环节包括明确数据需求,确定数据来源,选择采集方法和实施数据采集。
确定数据来源
在信息社会,数据来源途径广泛,社会调查、公众媒体、科学实验与实践活动等都可以提供大量数据。伴随着互联网的快速发展,政府机构的官方网络平台已成为获取权威数据的重要渠道。此外,物联网和社交网络中也拥有巨量数据。例如,在利用物联网实现的智能家居系统中,涉及温度、湿度、空气中挥发性有机化合物等多种数据。庞大的社交网络用户每天通过即时通信、微博、微信等社交应用,不断地产生出文字、图像、视频等各类数据。
3.2.1数据采集
数据采集的主要环节包括明确数据需求,确定数据来源,选择采集方法和实施数据采集。
选择采集方法
1.传感器数据采集
2.网络获取数据
3.在线问卷
3.2.1数据采集
数据采集的主要环节包括明确数据需求,确定数据来源,选择采集方法和实施数据采集。
数据采集
3.2.2数据整理
数据整理的目的是对数据进行校验和标准化。采集到的数据可能是非标准化的、不完整或重复的。通常,将这样的数据形象地称作“脏数据"。而用于分析的数据必须保证数据质量,即保证数据的完整性、统一性和准确性。其中,完整性指数据不能有缺失;统一性要求数据符合统一的标准; 准确性要求数据不能有错误。
数据整理就是通过去重、补漏和勘误等方法,删除重复数据、补全缺失数据和校正错误数据,并对数据进行统一性和标准化处理,以确保数据是相关和准确的,从而将“脏数据”变为“清洁数据”。
3.2.2数据整理
采集到的数据可以保存为不同的文件,如CSV 文件等。其中,CSV文件将数据表格存储为纯文本,每行代表条数据, 每条数据包含了一个或由逗号分隔的多个值。整理数据可以使用现成的软件或平台,也可以通过编写程序实现。Python 语言丰富的标准模块和扩展库提供了许多高效灵活的函数,可以帮助我们较好地进行数据整理。
例
问题:采集到的全国各地区2007 -2016 年用水量数据,存储为"yongshui.csv" 文件,如图所示。采集的数据由于误输入,传输错误等可能存在问题。例如,河北省2013年用水量中的-191.29和-219.99两个值,不属于正常用水量,需要检测出所有类似的异常数据,并提示用户对数据进行检查和修改。
编写程序检测用水量为负值的数据
3.2.2
已知条件: “yonghui.csv” 文件中保存了各地区2007- 2016 年用水总量,如果其中的数据为负值,则认为数据异常;
求解目标:检测出异常数据,提醒用户核对;
已知与未知的关系:可通过检测每个用水量数据是否为负值,发现异常的数据。
(1)分析问题
(2)规划问题求解流程
首先读人CSV文件中的全部数据:经观察发现,从第3行开始,每行的第4列之后是各年用水量数据,因此从第4列开始逐行依次检查每个数据,判断其值是否为负值:如果为负值,则提示“数据异常,请核对!”
3
编程实现与调试
#导入pandas并设置别名为pd
import?pandas?as?pd
#用pandas中的品数read_?csv打开数据文件,指定文件的文字编码方式,指定包含列标题df?=?pd.read_CSV("yongshui.csv",?encoding="gbk",?header=1)
#按年份生成数据序列
for?i?in?range(3,?len(df.?columns)):
#指定当前列
current_col?=?df.columns[i]
#最终显示的列
display_cols?.?[”地区”,current?col]
#查找符合条件的行
error_data。df.loc[df[current_col]?0,?display_cols]
#通过函数shape获得行数和列数,列数对本程序无用,使用Python?约定的“_”变量忽略error_rows_count,_?=?error_data.?shape
#按年份选择符合条件的行,并显示
if?error_rows_count?>?0:
print(error_data,?“数据异常,请核对!?")
print("\n")
用python语言编写程序,删除其中重复的数据。
云存储
为了更好地使用数据,整理后的数据可存储在本地或云存储空间。云存储是种新兴的网络存储技术,它将网络中大量不同类型的存储设备通过应用软件集合起来协同协作,共同对外提供数据存储和业务访问功能。使用者可通过互联网设备连接到云存储空间方便地存取数据。
3.2.3
数据安全
数据安全
的威胁?
LOGO
主要威胁
数据存储介质的损坏包括物理损坏,设备故障等。
个人损失也会给数据安全带来危险,例如口令设置过于简单一破解。将个人账号随意转借他人等行为都将给数据安全造成危险。
计算机病毒能影响计算机软件硬件的正常运行,破坏数据的正确与完整。甚至导致系统崩溃,对数据安全的危险很大。
黑客攻击主要表现为入侵他人计算机系统扰乱系统运行。盗窃系统保密信息和破坏目标系统等。
计算机病毒
数据存储介质损坏
黑客攻击
个人失误
除了上述威胁以外,非法数据交易已严重影响着数据安全。例如,某电商员工因其涉嫌盗取并贩卖50多一条个人信息而被捕。
数据保护的方法
数据加密是使用特定算法把敏感的明文数据变换成难以识别的密文数据。数据加密是保护数据传输安全的实用方法,也是保护数据存储安全的有效方法。实际应用中,为防止数据泄露,可以为数据文件设置密码,加密系统利用设定的密码将整个文件进行加密处理。这样没有正确的密码就无法打开文件查看内容。
数据备份是将需要备份的数据从应用主机的硬盘或磁盘阵列复制到其他的存储介质或不同位置存储空间的过程,其目的是在设备发生故障或发生其他威胁数据安全的灾害后,利用备份进行恢复,从而达到保护数据的目的。数据备份常见的方法有可移动存储设备备份和网络备份等。
数据加密
数据备份
谢谢观看
LOGO
GRADUATION THESIS DEFENSE