(共29张PPT)
粤教版普通高中教科书
信息技术 必修1
5.2 数据的采集
信息技术 王凤龙
数据处理的过程
得到上述的数据处理结果需要经过哪些过程呢?
2025中央一号文件词云图
近5年国内生产总值(GDP)变化图
数据来源:国家统计局
数据来源:中国政府网
数据处理的过程(以问卷星为例)
练习成绩阶段统计图
答案来源分布图
数据来自全国各地答题用户
数据处理的过程(以问卷星为例)
1、采集数据
2、存储数据
利用问卷星制作练习题目,然后通过网络分发问卷
答题者提交问卷后,存储到问卷星的后台服务器上
3、分析数据
4、可视化数据
后台通过程序分析得出各分数段人数、平均分等数据
将分析后的数据转换为生动、易于理解的可视化图表
数据处理的过程(以问卷星为例)
数据处理的过程
数据分析
数据可视化
数据存储
数据采集
系统日志采集法
网络数据采集法
……
本地存储
云端存储
……
对比分析法
结构分析法
……
折线图
词云图
……
01
02
03
04
数据保护
灵璧县第二中学 王凤龙
1、数据的采集
根据需求采用适当的方法和工具获取所需要的数据
P104
1、系统日志采集法
在信息系统中,系统日志是记录系统中硬件、软件和系统问题的信息文件。系统日志包括操作系统日志、应用程序日志和安全日志。
操作系统日志
记录操作系统的相关数据,如系统运行状态,硬件和设备信息、CPU、内存、磁盘和网络的使用率等。
应用程序日志
记录应用程序的相关数据,如用户登录和登出,用户权限变更、数据增加、删除、修改、查询等。
安全日志
记录系统或应用程序的相关安全数据,如系统报错、告警、非法登录、恶意攻击等安全事件数据。
通过日志服务器可以监视系统中发生的事件,可以检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。
1、系统日志采集法
通过日志服务器可以监视系统中发生的事件,可以检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。
2、网络数据采集法
网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。网络爬虫是通过编写程序从互联网上自动提取信息的过程。
网页数据
本地数据文件
爬虫程序
1、发送 HTTP 请求
2、解析 HTML 内容
3、提取数据
4、存储数据
2、网络数据采集法
Python 丰富的生态使其成为开发爬虫的热门语言,其拥有众多强大的库支持。如 发送HTTP 请求的requests库、解析 HTML的BeautifulSoup库、处理Excel的openpyxl库。
https://book.douban.com/tag/名著
python爬虫程序
爬虫有风险,操作需谨慎
2、网络数据采集法
Python 丰富的生态使其成为开发爬虫的热门语言,其拥有众多强大的库支持。如 发送HTTP 请求的requests库、解析 HTML的BeautifulSoup库、处理Excel的openpyxl库。
https://book.douban.com/tag/名著
爬取完成的本地数据文件(Excel+图片)
3、其他数据采集法
API接口
传感器
摄像头
实地调查
网络问卷
实地调查
……
灵璧县第二中学 王凤龙
2、数据的存储和保护
如今,无论是政府部门、企业还是个人,对数据的依赖性已越来越强
P104
数据的存储
本地存储
云存储
是指将数据存储在用户本地的设备上,用户可以直接控制和管理这些存储设备。
是指将数据存储在远程的数据中心,用户通过网络进行访问和管理。
优点
容量有限、成本高、访问不便
安全性高 、访问速度快
缺点
优点
数据安全性问题、 依赖网络环境
方便快捷 、扩展性强、成本较低 、易于访问
缺点
硬盘
U盘
光盘
SD卡
百度网盘
阿里云盘
腾讯微云
WPS云文档
数据的保护
案例一:2023年8月17日,南昌公安网安部门发现南昌某高校3万余条师生个人信息数据在境外互联网上被公开售卖。经查,涉案高校未建立全流程数据安全管理制度,未采取技术措施保障数据安全,未履行数据安全保护义务,导致学校存储教职工信息、学生信息、缴费信息等3000余万条信息的数据库被黑客非法入侵,
根据《中华人民共和国数据安全法》第四十五条规定,对该学校作出责令改正、警告并处80万元罚款的处罚,对主要责任人作出5万元罚款的处罚。
案例二:2021年2月19日,A公司员工上班后发现,A公司存储服务器的海量数据一夜之间被全部删除,数据丢失直接影响相关研发项目推进和产品交付,还存在商业秘密泄露风险。A公司迅速组织多名网络工程师进行数据恢复,恢复工作持续近五日,但仍有大量数据无法恢复,涉及多个芯片研发项目。经过排查,A公司通过IP地址锁定了前员工王某。王某在数据丢失期间,曾远程侵入该公司服务网络,利用在职时的操作权限登入存储服务器执行了操作。
2022年12月30日,大兴区法院作出一审判决,被告人王某触犯《中华人民共和国刑法》第二百八十六条第一款规定的规定破坏计算机信息系统罪,判处有期徒刑五年,同时宣告从业禁止。
数据的保护
案例一:2023年8月17日,南昌公安网安部门发现南昌某高校3万余条师生个人信息数据在境外互联网上被公开售卖。经查,涉案高校未建立全流程数据安全管理制度,未采取技术措施保障数据安全,未履行数据安全保护义务,导致学校存储教职工信息、学生信息、缴费信息等3000余万条信息的数据库被黑客非法入侵,
根据《中华人民共和国数据安全法》第四十五条规定,对该学校作出责令改正、警告并处80万元罚款的处罚,对主要责任人作出5万元罚款的处罚。
研究表明,如果在发生数据灾难后的两个星期内无法恢复公司的业务系统,75%的公司业务将会完全停顿,43%的公司将再也无法开业。因此,在信息化社会,对数据的保护刻不容缓。
一、数据安全保护技术
二、数据的隐私保护
1、数据安全技术保护
安装杀毒软件
360安全卫士、金山毒霸
腾讯电脑管家、火绒安全
防火墙技术
一种位于内部网络与外部网络之间的网络安全系统
数据备份技术
完全备份、增量备份
差异备份 、 镜像备份
数据加密技术
对称式加密技术
非对称式加密技术
身份认证技术、用户操作权限控制、网络安全漏洞扫描、系统审计技术……
2、数据的隐私保护
① 数据收集时进行数据精度处理
降低数据精度,只收集必要的数据
安徽省宿州市灵璧县灵城镇
安徽省
② 数据共享时进行访问控制
通过角色或用户组限制数据访问权限
查看本班学生数据
查看年级学生数据
班主任
年级主任
③ 数据发布时进行人工加扰
增加了数据的模糊性,确保个体信息无法被识别
王凤龙,男,20岁
青年男子王某
④ 数据分析时进行数据匿名处理
替换或删除敏感数据
用户A
12****10
王凤龙
12345678910
一、技术手段
2、数据的隐私保护
二、提高自身的保护意识
三、对数据使用者进行道德和法律上的约束
谨慎授权,关闭不必要的权限;
避免在社交媒体上公开过多的个人信息;
进行社交媒体的隐私设置;
警惕可疑电子邮件、链接和软件;
学习隐私知识,了解隐私法规……
《中华人民共和国个人信息保护法》
《中华人民共和国数据安全法》
《个人信息保护合规审计管理办法》
《中华人民共和国网络安全法》
……
信息技术王凤龙
信息技术王凤龙
总结
信息技术王凤龙
D. 数据加工
A. 数据存储
B. 数据呈现
C. 数据采集
A. ①②③④
B. ②③④①
C. ②④①③
C. ④③②①
1、数据处理的一般流程是 ( )
2、为了调查高中生心理压力的来源,张老师设计如图所示的调查问卷。学生填写该问卷的过程属于 ( )
信息技术王凤龙
24年会考真题练习(1/2)
B
① 数据可视化
② 数据采集
③ 数据分析
④数据存储
C
D. 要不断提高个人的数据保护意识
A. 可以对重要的数据要进行加密和备份处理
B. 避免随意向他人透露个人敏感信息
C. 敏感数据在共享时不需要做任何权限控制
3、智能手机通过调用相关网站公开API(应用程序接口)实时获取天气信息,该过程属于 ( )
4、关于数据保护,下列说法错误的是 ( )
信息技术王凤龙
24年会考真题练习(2/2)
B
C
A. 数据可视化
B. 数据采集
C. 数据存储
D. 数据分析
作业
榜单链接:https://piaofang.maoyan.com/i/globalBox/historyRank
《哪吒之魔童闹海》自上映以来,票房成绩一路高歌猛进,成为了电影市场上的一颗璀璨明星。为中国影史首部百亿元票房影片,全球动画电影票房第1名,并同时位居全球影史票房榜前10名。
王老师要做一份数据分析,需要用到右侧的票房数据,你能将右侧网页里利用爬虫技术将数据保存到Excel表格中吗?
附页:操作系统日志 - 信息课机房
机房上课时的系统相关数据
附页:应用程序日志 - 信息课机房
机房上下课日志
附页:安全日志 - 信息课机房
机房安全告警日志
拓展:HTML
HTML即超文本标记语言,它包括一系列标签,如文字、图形、表格等。我们所看到的网页是由浏览器解析HTML后的结果。网页的本质就是超文本标记语言。
网页
HTML文本
浏览器解析
在浏览器中“右击→检查”可查看内容对应的HTML文本。
课件原创性证明(部分)
禁止将本人课件直接上传到其他平台售卖,侵权必究!