(共15张PPT)
粤教版信息技术
必修一《数据与计算》
高二学业水平考试复习
授课教师:YY
一【知识结构体系】
第五章 数据处理与可视化
二【知识梳理】
一、认识大数据
(一)大数据的概念
大数据:无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
(二)大数据的特征
1.从互联网产生大数据的角度来看(具有“4V”特征):
大量(Volume),多样(Variety)
低价值密度(Value),高速(Velocity)。
2.从互联网思维的角度来看:
样本渐趋于总体,精确让位于模糊,相关性重于因果
3.从大数据存储与计算的角度来看:
分布式存储,分布式并行计算。
(三)大数据的影响
1.大数据使人们日常生活更为便捷:
方便支付、方便出行、方便购物与产品推荐、方便看病与诊病。
2.大数据对人们日常生活产生的负面影响:
个人信息泄露、信息伤害与诈骗。
二【知识梳理】
二、数据的采集
(一)数据采集的方法与工具
1.系统日志采集法:
监视系统中发生的事情
检查错误发生的原因
寻找攻击时攻击者留下的痕迹
2.网络数据采集法:
网络爬虫:从初始网页的URL(统一资源定位器)获取对应的数据
网络公开API
补充注意:Python网络数据采集程序使用扩展库时导入模块的方法:
import module 关键字 模块名
from module import name 关键字 模块名 关键字 方法名
3.其他数据采集法。
二【知识梳理】
拓展:Python网络数据采集程序使用的扩展库
(1)NumPy(NumericalPython)
是构建科学计算最基础的软件库;
(2)SciPy
是一个工程和科学软件库,包含线性代数、优化、集成和统计的模块;
(3)Pandas
是一个Python包,旨在通过标记(labeled)和关系(relational)数据进行工作;
(4)Matplotlib
是Python的一个2D绘图库。
二【知识梳理】
(二)数据的存储
1.本地存储:把数据存在本地内部
2.云存储:把数据放在第三方公共或者私有的“云端”存储
分布式文件存储
Nosql数据库存储
(三)数据的保护
1.数据安全保护技术:拷贝、备份、复制、镜像、持续备份,加密…
2.数据的隐私保护
(1)技术手段
数据收集时:精度处理
数据共享时:访问控制
数据发布时:人工干扰
数据分析时:匿名处理
(2)提高自身意识
(3)进行道德和法律约束
二【知识梳理】
三、数据的分析
常见数据分析方法:特征探索,关联分析,聚类与分类,建立模型,模型评价
(一)特征探索
特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
(二)关联分析
关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
(三)聚类分析
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
K-平均算法是一种经典的自下而上的聚类分析方法。
(四)数据分类
数据分类是数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。
贝叶斯分类技术在众多分类技术中占有重要地位。
二【知识梳理】
四、数据的可视化
1. 数据可视化表达方式
(见右边表5-5)
二【知识梳理】
2. 数据可视化工具
Python语言嵌入了大量数据可视化的工具,如绘图工具模块Matplotlib、Seaborn和Bokeh等。
(1)Seaborn主要关注统计模型的可视化。
(2)Bokeh也是一个很好的可视化库,可实现交互式可视化。
三【典型例题-------学业测试】
一、单选题
1.从互联网产生大数据的角度,大数据具有的特征( )
A.4V特征:大量(Volume)、多样(Variety)、低价值密度(Value)、高速(Velocity)
B.样本渐趋于总体,精确让位于模糊,相关性重于因果
C.分布式存储,分布式并行计算
D.没有特征
【答案】:A
【解析】:见教材P102,从互联网产生大数的角度来看,大数据的4V特征。
2.下列可以用于分析数据趋势的是( )
A.饼图 B.折线图 C.动力热力图 D.词云图
【答案】:B
【解析】:见教材P119页,有关趋势的分析为拆线图,饼图表示比例的分析,动态热力图是关于空间关系的,词云图是逻辑关系分析。
3.数据分析的方法不包括( )。
A.线性分析 B.关联分析 C.聚类分析 D.数据分类
【答案】:A
【解析】:见教材P111,数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模型评价,不含线性分析。
三【典型例题-------学业测试】
4.下列关于大数据的特征,说法正确的是( )
A.数据价值密度高 B.数据类型少 C.数据基本无变化 D.数据体量巨大
【答案】:D【解析】:见教材P102,从互联网产生大数的角度来看,大数据的4V特征是:数据体量巨大、数据类型繁多、价值密度低、变化速度快。
5.数据特征探索的主要任务是对数据进行预处理,以下不属于该过程的是( )
A.数据清洗 B.异常数据处理 C.数据缺失处理 D.数据分类处理
【答案】:D【解析】:见教材P112,数据特征探索的预处理主要有数据清洗、发现缺失值、异常数据处理、求最大值和最小值、求极差、求组距、绘制价格直方图、绘制评论数直方图等。不含D项。
6.海军军官通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的( )
A.在数据基础上倾向于全体数据而不是抽样数据
B.在分析方法上更注重相关分析而不是因果分析
C.在分析效果上更追究效率而不是绝对精确
D.在数据规模上强调相对数据而不是绝对数据
【答案】:B【解析】:见教材P102,A项强调数据规模;B项对前人航海数据的分析,不是分析为什么走某条航线,不是分析为什么会发生洋流,而是强调数据的相互联系,注重数据的相关性分析,所以选B项;C项是讲分析数据的走势和发展方向,与题干不符;D项强调数据规模,题干中也未涉及。
三【典型例题-------学业测试】
7.大数据时代已经在悄悄地改变我们的日常生活,也使人们日常生活更为便捷,如移动支付、网络约车出行、网络购物、网络预约挂号等。以下不属于大数据分析的是( )
A.特征探索 B.关联分析 C.聚类与分类 D.建模分析
【答案】:D
【解析】:见教材P111,数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模型评价,不含线性分析。不含D项。
8.电子警察采用拍照的方式来约束车辆的行为,其拍照的过程属于( )
A.数据分析 B.数据采集 C.数据分类 D.数据可视化表达
【答案】:B
【解析】:拍照的过程属于数据的采集,选B项。
9.某超市曾经研究销售数据,发现买商品A的人购买商品B的概率很大,这种属于数据的( )
A.聚类分析 B.关联分析 C.分类分析 D.回归分析
【答案】:B
【解析】:见教材P113,关联分析就是发现存在于大数据之间的关联性或相关性,即A与B的相关性,符合题意。
10.数据采集的基本方法包括( )、网络数据采集法和其他数据采集法。
A.数据库采集法 B.访问记录采集法 C.数据目录采集法 D.系统日志采集法
【答案】:D
【解析】:数据采集的基本方法包括系统日志采集法、网络数据采集法、其他数据采集法,所以选D项。
三【典型例题-------学业测试】
11.下列关于聚类分析的说法,错误的是( )
A.可以从数据点集合中随机选择K个点作为初始的聚集中心
B对其他的每个数据点,以此判断其与K个中心点的距离,距离最近的表明它属于这项聚类
C.聚类分析,必须先设定分类的标准,否则无法准确分类
D.重新计算新的聚簇集合的平均值既中心点
【答案】:C
【解析】:见教材P115,K-平均算法中包括ABD,而明确指出聚类分析不性事先给出一个分类标准。
12.K-平均算法属于( )分析方法。
A.聚类 B.关联 C.分类 D.回归
【答案】:A
【解析】:见教材P115,K-平均算法是一种聚类分析法。
13.网络数据采集法,主要通过网络爬虫或网站公开API的方式获取,网络爬虫从网页的( )开始获取。
A.HTML B.WWW C.URL D.XML
【答案】:C
【解析】:见教材P104页,网络爬虫从一个或若干网页的URL开始。
三【典型例题-------学业测试】
14.大数据时代,数据应用的关键是( )
A.数据收集 B.数据存储 C.数据分析 D.数据再利用
【答案】:D
【解析】:大数据时代,数据随时产生,随时收集并存储,要利用大数,必须分析出数据的相关性、发展方向等特征,才能对数据进行利用,所以数据分析是关键。
15.为了弘扬和传承中华民族勤俭节约的传统美德,引导同学们进一步深化节约粮食的意识和行为习惯,学生会开展了“我为食堂提建议”的活动。请根据学生会开展该活动的几个步骤,排出最合理的顺序( )
①根据数据分析结果,撰写数据分析报告,对食堂提出合理化建议
②学生会成员去学校食堂收集数据,并制作调查问卷的题目
③利用图表形式直观展示分析数据
④对问卷进行回收整理,将无效的问卷进行剔除
⑤学生会成员对就餐同学们进行问卷调查
⑥对调查数据和食堂数据进行分析与处理
A.②⑤④⑥③① B.②④⑤③⑥① C.⑤②④⑥③① D.⑤④②③⑥①
【答案】:A
【解析】:搞调查,写报告的合理逻辑应为:确定活动的主题,然后收集数据,制作问卷,发放问卷,回收问卷,录入回收数据,对数据进行分析,呈现分析结果,写出报告,所以A项符合题意。
一起向未来,加油!