第5章 数据处理和可视化表达
信息技术 必修1
1、认识大数据及其特征。
2、了解数据采集的基本方法。
3、理解数据对日常生活的影响。
4、理解对数据进行保护的意义。
5、了解数据分析的基本方法。
6、学会选用恰当工具处理数据。
7、了解数据可视化表达的基本方法。
8、学会选用恰当工具可视化表达数据。
本章主要内容
第5章 数据处理和可视化表达
随着移动互联网和物联网的飞速发展,人类社会产生的数据以惊人的速度增长。如何高效地对这些数据进行采集、存储、处理,并从中发掘到有价值的信息,是数据分析处理需要解决的问题。
本章将认识大数据及其特征,了解大数据对人们日常生活的影响,了解数据采集、分析和可视化表达的基本方法;学会选用恰当的软件工具或平台处理数据,完成分析报告;理解对数据进行保护的意义,从而促进信息技术学科核心素养达成。
前言
第5章 数据处理和可视化表达
第5章 数据处理和可视化表达
每天三分钟 信考更轻松
5.1 认识大数据
【了解】大数据的基本概念
(1)大数据:指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
(2)数据的承载方式:物联网、云计算、移动互联网、车联网、手机、电脑以及各种各样的传感器。
(3)数据的作用:人们提取信息、做出决策的重要依据,是推动信息社会发展的重要资源。
5.1 认识大数据
第5章 数据处理和可视化表达
【了解】大数据的特征
5.1 认识大数据
第5章 数据处理和可视化表达
不同的维度
特征
具体表现
互联网产生大数据
大量(Volume)
数据体量巨大,从TB级别跃升到PB级别。
多样(Variety)
数据类型繁多,如网络日志、视频、图片、地理位置信息等。
低价值密度(Value)
价值密度低,以视频为例,在连续不间断的监控过程中,有用的数据可能仅仅一两秒。
高速(Velocity)
变化速度快,数据来自世界各地的网络终端,且以秒为单位快速变化。
互联网思维
样本渐趋于总体
数据要全量而不是抽样,即强调数据规模全量,而不是强调数量巨大。
精确让位于模糊
大数据时代追求的不是精确性,而是模糊性,适当忽略微观层面上的精确度,在宏观层面拥有更好的洞察力。
相关性重于因果
大数据时代应该寻找事物之间的相关关系,无须再紧盯事物之间的因果关系。
大数据存储与计算
分布式存储
大数据存储在互联网不同的服务器与各客户终端。
分布式并行计算
应用分布式并行计算处理互联网的大数据。
【了解】大数据的与传统数据的区别
5.1 认识大数据
第5章 数据处理和可视化表达
传统数据
大数据
依赖模型以及算法
数据本身保证了数据分析结果的有效性
强调数据之间的因果关系
当数据足够多的时候,不需要了解具体的因果关系就能够得出结论
数据都需要前期进行结构化处理,并记录在相应的数据库中
数据的结构的要求大大降低,各种维度的信息勾勒出每一个个体的各种特征。
传统数据挖掘方式,采集方法,内容分类,采信标准等都已存在既有规则,方法论完整
大数据挖掘为新鲜事物,还没有形成清晰的方法、路径、以及评判标准。
传统数据诠释宏观、整体的状况,用于影响政策决策
大数据可以分析微观、个体的状况,用于调整行为与实现个性化。
传统数据来源于阶段性的,针对性的评估,其采样过程可能有系统误差
大数据来源于过程性的,即时性的行为与现象记录,第三方、技术型的观察采样的方式误差较小
传统数据分析所需要的人才、专业技能以及设施设备都较为普通,易获得
大数据挖掘需要的人才,专业技能以及设施设备要求较高,并且从业者需要有创新意识与挖掘数据的灵感而不是按部就班者,这样的人才十分稀缺
【了解】大数据对日常生活的影响
5.1 认识大数据
第5章 数据处理和可视化表达
正面影响
方便支付。移动支付发展得特别快。应用场所:医院、餐厅、菜市场、加油站等
方便出行。网络约车出行、智能导航行车避免堵车、无人驾驶、智能地图方便寻路
方便购物与产品推介。节省人们出行购物的时间,帮助企业有效判断用户的信息需求和消费需求,对客户进行产品推介,方便人们选购产品。
方便看病与诊病。网络预约挂号,减轻与节省患者排队挂号看病的辛劳与时间;方便医生提前分析患者的病史数据,以便更科学诊病。
负面影响
个人信息泄露。手机、计算机、网络、信用卡等都可能导致数据泄露的风险
信息伤害与诈骗。网络信息可能被不法分子窃取,并对我们及身边的亲人造成伤害。
第5章 数据处理和可视化表达
每天三分钟 信考更轻松
5.2 数据的采集
【了解】数据采集的基本步骤
(1)明确数据应用项目的需求,选定的项目主题。
(2)制订数据采集的需求清单和内容大纲。
(3)采用适当的方法和工具进行采集。
5.2.1 数据采集的方法和工具
第5章 数据处理和可视化表达
【了解】数据采集的方法
(1)系统日志采集法
系统日志是记录系统中硬件、软件和系统问题的信息文件。
系统日志包括操作系统日志、应用程序日志和安全日志。
系统日志采集数据的方法通常是在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。
5.2.1 数据采集的方法和工具
第5章 数据处理和可视化表达
【了解】数据采集的方法
(2)网络数据采集法
网络数据采集:指通过网络爬虫或网站公开API(Application Programming Interface, 应用程序接口)等方式从网站上获取数据信息。
5.2.1 数据采集的方法和工具
第5章 数据处理和可视化表达
【了解】数据采集的方法
(2)网络数据采集法
5.2.1 数据采集的方法和工具
第5章 数据处理和可视化表达
网络爬虫的过程
工作过程:
(1)从一个或若干初始网页的URL(Uniform Resource Locator,统一资源定位符)开始,获得初始网页上的URL。
(2)在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列, 直到满足系统的一定停止条件。
采集类型:支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。
【了解】Python网络数据采集程序使用的扩展库。
在众多的数据采集工具中,Python以其简洁、开源和包容的特性在数据采集和分析领域独树一帜。由于Python可以安装第三方扩展库模块来扩展功能,因此使用Python进行网络数据采集和分析显得简单易用。以下是使用Python进行网络数据采集和分析所需要的一些第三方扩展库。
5.2.1 数据采集的方法和工具
第5章 数据处理和可视化表达
【了解】Python网络数据采集程序使用的扩展库。
(1)NumPy。
NumPy(Numerical Python)是构建科学计算最基础的软件库,为Python中的n维数组和矩阵的操作提供了大量有用的功能。该库还提供了NumPy数组类型的数学运算向量化,可以提升性能,加快执行速度。
5.2.1 数据采集的方法和工具
第5章 数据处理和可视化表达
【了解】Python网络数据采集程序使用的扩展库。
(2)SciPy。
SciPy是一个工程和科学软件库,包含线性代数、优化、集成和统计的模块。SciPy库的主要功能建立在 NumPy 的基础之上,因此它的数组大量使用了NumPy。它通过其特定的子模块提供高效的数值例程操作,如数值积分等。SciPy的所有子模块中的函数都有详细的介绍文档。
5.2.1 数据采集的方法和工具
第5章 数据处理和可视化表达
【了解】Python网络数据采集程序使用的扩展库。
(3)Pandas。
Pandas是一个Python包,旨在通过标记(labeled)和关系(relational)数据进行工作,简单直观。Pandas是data wrangling的完美工具。它设计用于快速简单的数据操作、聚合和可视化。库中有两个主要的数据结构,一维数组(Series)和二维数组(DataFrame)结构。
5.2.1 数据采集的方法和工具
第5章 数据处理和可视化表达
【了解】Python网络数据采集程序使用的扩展库。
(4)Matplotlib。
Matplotlib是Python的一个2D绘图库,以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。在NumPy、SciPy和Pandas的帮助下,通过 Matplotlib,开发者仅需输入几行代码,便可以生成绘图、直方图、功率谱、条形图、散点图等。
5.2.1 数据采集的方法和工具
第5章 数据处理和可视化表达
【了解】Python模块库。
在Python模块库中有大量模块可供使用,要想使用这些文件,就需要用import语句把指定模块导入当前程序中。使用import语句导入模块的语法如下:
from import语句也是导入模块的一种方法,是导入指定模块内的指定函数方法。使用from import语句导入模块内指定方法的语法如下:
5.2.1 数据采集的方法和工具
第5章 数据处理和可视化表达
【了解】数据采集的方法
(3)其他数据采集法
应用领域:企业生产经营或科学研究等保密性要求较高的数据。
使用方法:与企业或研究机构合作,使用特定系统接口等相关方式收集数据
例如:科学研究的数据是通过科学实验的各种传感器采集,并传输到数据库管理系统中的。
5.2.1 数据采集的方法和工具
第5章 数据处理和可视化表达
【了解】数据的存储的方式
第一种是把数据存在本地内部。
第二种是把数据放在第三方公共或私有的“云端”存储。
5.2.2 数据的存储和保护
第5章 数据处理和可视化表达
【了解】云存储的相关知识
云存储是把各类数据存储在虚拟的逻辑模型里,其物理空间存储在跨越多个地域放置的众多服务器中,为用户提供统一、灵活、安全的“云存储服务”。
云存储供应商的作用:拥有并管理这些服务器,负责管理数据的使用和访问权限,以及云存储环境的日常运营和维护。
云存储用户而言,无须关注云存储系统的具体运行,仅需获取存储空间,把自己的数据存储进去。
数据的存储的方式:采用分布式文件存储或NoSQL数据库存储。
第5章 数据处理和可视化表达
5.2.2 数据的存储和保护
【了解】数据安全保护技术
数据安全保护指数据不被破坏、更改、泄露或丢失。
防备数据安全隐患的常规方法:杀毒软件和防火墙。
数据保护的有效方法:拷贝、备份、复制、镜像、持续备份。
第5章 数据处理和可视化表达
5.2.2 数据的存储和保护
【了解】一般的数据安全保护技术的使用特点
第5章 数据处理和可视化表达
数据安全保护技术
适用场合
备份介质
备份距离
管理
拷贝/FTP
简单小数据量备份,个人不定期的文件保护等。
磁盘。
近。
手动执行,占用人力资源。
?
备份
?
有归档需求的用户等。
磁带机、磁带库、磁盘。
近,以本地备份为主。
备份软件对使用者要求较高,需要掌握数据库、文件系统等综合知识。
复制技术
?企业等。
?磁盘。
?远近皆可。
设定策略后无须人工干预,复制与恢复的过程都很简单。
?镜像技术
企业等。
?磁盘。
近,带宽和距离影响延迟时间和性能,因此多以本地为主
?简单。
持续备份
企业等。
磁盘。
远近皆可。
连续备份,可以实现过去任意一个时间点的数据恢复。
5.2.2 数据的存储和保护
【了解】隐私泄露的途径
第5章 数据处理和可视化表达
5.2.2 数据的存储和保护
【理解】数据的隐私保护方法
(1)技术手段
常用的隐私保护有:
① 数据收集时进行数据精度处理;
② 数据共享时进行访问控制;
③ 数据发布时进行人工加扰;
④ 数据分析时进行数据匿名处理等。
(2)提高自身的保护意识。
(3)要对数据使用者进行道德和法律上的约束。
第5章 数据处理和可视化表达
5.2.2 数据的存储和保护
【了解】数据的隐私的实践
(1)了解cookies
Cookies是指用户浏览网页时,网络服务器以文本格式存储在用户电脑硬盘上的少量数据。
Cookies的主要目的是帮助网站记忆用户之前可能进行的操作
网站通过获取并分析属于用户的Cookies,为用户提供设置或推送服务,使得网站更人性化,操作更方便快捷。
第5章 数据处理和可视化表达
5.2.2 数据的存储和保护
【了解】数据的隐私的实践
(2)设置cookies
① 选择网页浏览器,右键选择“属性”。
② 在弹出的“Internet选项”窗口选择“设置”按钮
第5章 数据处理和可视化表达
5.2.2 数据的存储和保护
【了解】数据的隐私的实践
(2)设置cookies
③ 在弹出的新窗口“网站数据设置”中,当前位置就是Cookies所在的位置,可以选择“查看文件”按钮找到文件所在处。
第5章 数据处理和可视化表达
5.2.2 数据的存储和保护
第5章 数据处理和可视化表达
每天三分钟 信考更轻松
5.3 数据的分析
【了解】数据分析的内容
数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模型评价。
【了解】特征探索的任务
数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
第5章 数据处理和可视化表达
5.3.1 特征探索
【了解】数据预处理的关键过程
(1)数据清理,发现缺失值。
第5章 数据处理和可视化表达
5.3.1 特征探索
x=0
data["price"][(data["price"]==0)]=None
For i in data.columns:
? for j in range(len(data)):
?? if(data[i].isnull())[j]:
??? data[i][j]="64"
??? x+=1
print(x)??
【了解】数据预处理的关键过程
(2)异常值处理中,利用画散点图发现异常值部分。
第5章 数据处理和可视化表达
5.3.1 特征探索
data2=data.T
price=data2.values[2]
comt=data2.values[3]
pyl.plot(price,comt,"o")
pyl.show( )
【了解】数据预处理的关键过程
(3)求最大值和最小值。
第5章 数据处理和可视化表达
5.3.1 特征探索
pricemax=da2[2].max(?)
pricemin=da2[2].min(?)
commentmax=da2[3].max(?)
commentmin=da2[3].min(?)
【了解】数据预处理的关键过程
(4)求极差。
第5章 数据处理和可视化表达
5.3.1 特征探索
pricerg=pricemax-pricemin
commentrg=commentmax-commentmin
(5)求组距。
pricedst=pricerg/13
commentdst=commentrg/13
【了解】数据预处理的关键过程
(6)绘制价格直方图。
第5章 数据处理和可视化表达
5.3.1 特征探索
pricesty=npy.arange(pricemin,pricemax,pricedst)
pyl.hist(da2[2],pricesty)
pyl.show(?)
(7)绘制评论数直方图。
commentsty=npy.arange(commentmin,commentmax,commentdst)
pyl.hist(da2[2],commentsty)
pyl.show(?)
【了解】关联分析的定义
关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
第5章 数据处理和可视化表达
5.3.2 关联分析
【了解】关联分析的基本算法
(1)扫描历史数据,并对每项数据进行频率次数统计。
(2)构建候选项集C1,并计算其支持度,即数据出现频率次数与总数的比。
(3)对候选项集的支持度进行筛选,筛选的数据项支持度应当不小于最小支持度, 从而形成频繁项集L1。
(4)对频繁项集L2进行连接生成候选项集C2,重复上述步骤,最终形成频繁K项集或 者最大频繁项集。
第5章 数据处理和可视化表达
5.3.2 关联分析
【了解】关联分析的关键过程
(1)自定义连接函数,用于实现L_{k-1}到C_k的连接。
第5章 数据处理和可视化表达
5.3.2 关联分析
Def connect_string(x,ms):
??x=list(map(lambda i:sorted(i.split(ms)),x))
??l=len(x[0])
??r=[]
??for?i?in?range(len(x)):
????for?j?in?range(i,len(x)):
??????if?x[i][:l-1]==x[j][:l-1]?and?x[i][l-1]!=x[j][l-1]:
???????r.append(x[i][:l-1]+sorted([x[j][l-1],x[i][l-1]]))
????return?r
【了解】关联分析的关键过程
(2)寻找关联规则。
第5章 数据处理和可视化表达
5.3.2 关联分析
result=pd.DataFrame(index=['support','confidence'])??#?定义输出结果
?support_series=1.0*d.sum()/len(d)??#?支持度序列
?column=list(support_series[support_series>support].index)??#?初步根据支持度筛选
?k=0
?while?len(column)>1:
??k=k+1
??print(u'\n正在进行第%s次搜索...'%k)
??column=connect_string(column,ms)
??print(u'数目:%s...'%len(column))
??sf=lambda?i:d[i].prod(axis=1,numeric_only=True)??#?新一批支持度的计算函数
【了解】关联分析的关键过程
(3)创建连接数据。
第5章 数据处理和可视化表达
5.3.2 关联分析
d_2=pd.DataFrame(list(map(sf,column)),index=[ms.join(i)for?i?in?column]).T
support_series_2=1.0*d_2[[ms.join(i)?for?i?in?column]].sum()/len(d)?
column=list(support_series_2[support_series_2>support].index)?
support_series=support_series.append(support_series_2)
?column2=[]
【了解】关联分析的关键过程
(4)遍历可能的推理。
第5章 数据处理和可视化表达
5.3.2 关联分析
for?i?in?column:??, ?
??????i=i.split(ms)
??????for?j?in?range(len(i)):
??????column2.append(i[:j]+i[j+1:]+i[j:j+1])
【了解】关联分析的关键过程
(4)计算置信度序列。
第5章 数据处理和可视化表达
5.3.2 关联分析
for?i?in?column2:????cofidence_series[ms.join(i)]=support_series[ms.join(sorted(i))]/support_series[ms.join(i[:len(i)?-?1])]
【了解】关联分析的关键过程
(6)计算置信度序列。
第5章 数据处理和可视化表达
5.3.2 关联分析
for?i?in?cofidence_series[cofidence_series>confidence].index:??
????result[i]=0.0
????result[i]['confidence']=cofidence_series[i]????????result[i]['support']=support_series[ms.join(sorted(i.split(ms))) ]
【了解】聚类分析的定义
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
第5章 数据处理和可视化表达
5.3.3 聚类分析
【了解】K-平均算法的基本思想
K-平均算法的基本思想就是在空间N个点中,初始选择K个点作为中心聚类点,然后将N个点分别与K个点计算距离,选择自己最近的点作为自己的中心点,再不断更新中心聚集点,以达到“物以类聚,人以群分”的效果。
第5章 数据处理和可视化表达
5.3.3 聚类分析
聚类分析K-平均算法
【了解】聚类分析的基本算法
(1)从数据点集合中随机选择K个点作为初始的聚集中心,每个中心点代表着每个聚集中心的平均值。
(2)对其余的每个数据点,依次判断其与K个中心点的距离,距离最近的表明它属于这项聚类。
(3)重新计算新的聚簇集合的平均值即中心点。整个过程不断迭代计算,直到达到预先设定的迭代次数或中心点不再频繁波动。
第5章 数据处理和可视化表达
5.3.3 聚类分析
【掌握】聚类分析的关键程序段。
第5章 数据处理和可视化表达
5.3.3 聚类分析
from?sklearn.cluster?import?KMeans
kms=KMeans(n_clusters=3)
y=kms.fit_predict(x)
print(y)
【了解】聚类分析的基本算法
第5章 数据处理和可视化表达
5.3.4 数据分类
谢 谢 聆 听
第5章 数据处理和可视化表达