(共51张PPT)
制作人:XXX
第五章
数据处理和可视化表达
必修一 数据与计算
目录
CONTENTS
PART ONE
认识大数据
PART TWO
数据的采集
PART THREE
数据的分析
PART FOUR
数据的可视化表达
01
PART ONE
认识大数据
大数据
大数据:指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合。
大数据的特征
(1)从互联网产生大数据的角度
(2)从互联网思维的角度
(3)从大数据存储与计算的角度
大数据
2.大数据的特征
(1)从互联网产生大数据的角度
大量(数据体量大)
多样(数据类型繁多)
低价值密度(价值密度低)【例:在连续不间断的监控过程中,有用的数据可能仅仅一两秒】
高速(变化速度快)
大数据
2.大数据的特征
(2)从互联网思维的角度
样本渐趋于总体(数据全量而不是抽样)
精确让位于模糊(掌握大体发展方向,适当忽略微观精确度)
相关性让位于因果(寻找事物之间的相关关系)
大数据
2.大数据的特征
(3)从大数据存储与计算的角度
分布式存储
分布式并行计算
大数据
3.大数据对日常生活的影响
(1)正面影响
方便支付:移动支付
方便出行:交通系统、网约车、智能导航、智能地图
方便购物与产品推介:网络购物、个性化产品推荐
方便看病与诊病:网络预约挂号、分析患者病史数据
(2)负面影响
个人信息泄露;数据时刻存在泄露的风险。
信息伤害与诈骗:电信诈骗。
练习
1.(多选)2021年,某网约车公司在中国拥有3.77亿用户,其用户出行数据具有大数据特征。下列哪些属于大数据的特征?( )
A.数据体量巨大 B.数据类型繁多
C.价值密度低 D.变化速度快
A、B、C、D
练习
2.某品牌智能手环收集了大量用户运动、健康的数据。以下相关描述错误的是( )。
A.在大数据时代,我们的个人信息时刻存在泄露的风险
B.大数据时代的海量数据,使信息、机密、财富之间产生紧密关联,从而构成信息安全的重要因素
C.数据因素是造成信息安全的风险之一
D.隐私泄露的问题是大数据时代特有的
D
D.隐私泄露的问题是大数据时代特有的
练习
3.分析疫情大数据使用的是抽样数据,不是全体数据,但抽取的样本量要大。( )
×
4.当校内发生盗窃时,办案民警从学校24小时连续不间断的监控视频中提取出案发前后几分钟的视频数据。这体现了大数据价值密度高的特征。( )
×
02
PART TWO
数据的采集
数据采集方法
1.数据采集方法:
系统日志采集法
网络数据采集法
其他数据采集法
2.网络数据采集法:指通过网络爬虫或网站公开API等方式从网站上获取数据信息。
网络爬虫通过获得网页的URL(网址),从网络上获取数据。
数据存储和保护
1.数据的存储:把数据存在本地内部;
把数据放在第三方公共或私有的“云端” 存储。
2.数据的保护:数据安全保护技术;
数据的隐私保护(技术手段、自身意识、 道德法律)。
练习
1.通过爬虫程序可以采集某音乐平台上歌曲的评论内容。关于爬虫程序,以下说法错误的是( )。
A.爬虫程序,可以采集网络数据
B.只要是你想要的网络数据,都可以用爬虫程序去采集
C.爬虫程序开始执行时,需要一个URL列表作为起始位置
D.爬虫程序采集到的数据,可以保存为多种格式,如xls、csv等
B
B.只要是你想要的网络数据,都可以用爬虫程序去采集
练习
2.微信公众号中有大量的文章、数据信息,采集公众号中的数据资源应该通过( )实现。
系统日志 B.问卷调查
C.公众号官方API D.传感器
C
C.公众号官方API
练习
3.通过网络爬虫采集各地卫健委公布的数据并进行可视化处理后,可形成疫情大数据报告。网络爬虫是网络数据采集的基本方法。( )
√
4.如果要爬取第1至5页的疫情数据,可以用循环结构来实现遍历这5个页面。用变量i表示页面数,则循环语句可编写为:for i in range(1,5)。( )
×
03
PART THREE
数据的分析
数据分析
1.数据分析一般包括:
特征探索
关联分析
聚类与分类
建立模型
模型评价
数据分析
2.特征探索:对数据进行预处理,发现和处理缺失值、异常数据。
即:补全缺失数据、处理异常数据、校正错误数据
数据分析
3. 关联分析:分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
例:啤酒和尿不湿的故事
应用:指导商品位置摆放、
促销策略(捆绑销售、买a送b)、
精准推荐等。
数据分析
4.聚类分析:人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。【物以类聚、人以群分】
K-平均(K-means)算法:经典的聚类分析方法。
5.数据分类:数据分析处理中最基本的方法。
做法:基于样本数据先训练构建分类函数或分类模型(分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。
练习
1.对疫情数据分析之前,一般要先对数据进行预处理,以下不属于预处理的是( )。
A.补全缺失数据 B.处理异常数据
C.校正错误数据 D.处理数据关系
D
D.处理数据关系
练习
2.K-平均算法是一种经典的( )算法。
A.关联分析 B.数据分类
C.聚类分析 D.数据可视化
C
C.聚类分析
3.某超市曾经研究销售数据,发现买商品A的人购买商品B的概率很大,这种属于数据的( )
A.聚类分析 B.关联分析
C.分类分析 D.回归分析
B
B.关联分析
04
PART FOUR
数据的可视化表达
数据可视化
1.可视化呈现的主要方式:
数据可视化
1.可视化呈现的主要方式:
数据可视化
(1)柱形图:表示出每个项目的具体数目,用于比较两个及以上的数据。
(2)折线图:反映事物的变化情况,用于分析事物随时间或有序类别而变化的趋势。
(3)饼图:表示各部分在总体中所占的百分比,用于比较各分类的占比大小。
数据可视化
(4)散点图:也叫XY散点图,是表示两个变量或多个变量之间有无相关关系的统计图,它用点的密集程度和趋势表示两个变量之间的关系与变化趋势,从而选择合适的函数对数据点进行拟合;散点图中包含的数据越多,比较的效果也越好。
数据可视化
(5)雷达图:将不同维度数据展示在同一个维度上,用于比较数据的不同。当数据用雷达图展现出来的时候,能清晰地发现数据间的差异。
(6)词云图:将一篇文章中出现次数最多的词语显示在一个事先准备好的图形中,词语出现次数越多,在图形中该词就越大,它起到一种突出显示关键词的作用。
练习
1.以下适合表达搜题软件用户人群各年龄段人数对比的是( )。
A.柱形图 B.折线图 C.雷达图 D.词云图
A
A.柱形图
2.通过( )可以将歌曲评论内容可视化,评论词汇出现频率越高,字号越大。
A.词云图 B.折线图 C.柱形图 D.饼图
A
A.词云图
练习
3.(多选)对学生成绩数据进行可视化处理可以更好地进行成绩分析并制定更科学的学习方法。以下说法正确的是( )。
A.散点图可以清晰地呈现数据之间的空间关系
B.饼图可以直观地呈现各项数据所占比例
C.词云可以呈现数据之间的空间关系
D.趋势图可以直观地呈现数据变化趋势
B、D
练习
4.健康码有红黄绿三色,通过对我们活动轨迹、消费记录的追踪,为疫情防控提供追溯,健康码是大数据处理后的可视化表达。( )
√
5.如果要表达某地区新增病例数量变化的趋势,可采用折线图。( )
√
制作人:XXX
第六章
人工智能及其应用
必修一 数据与计算
目录
CONTENTS
PART ONE
认识人工智能
PART TWO
人工智能的应用
01
PART ONE
认识人工智能
人工智能
1.人工智能:是研究计算机模拟人的某些感知能力、思维过程和智能行为(如学习、推理、思考、规划等)的学科。
2.人工智能的诞生于发展
人工智能发展历程大致分为三个阶段:
第一阶段(20世纪50年代-80年代)
第二阶段(20世纪80年代-90年代末)
第三阶段(21世纪初至今)
人工智能
3.领域知识智能问答机器人:是在某一领域知识范围内实现人机自动问答的智能学习系统。
典型的智能问答系统主要包括:常见问题解答模块(FAQ)、问题理解、信息检索、文档库、答案抽取。
人工智能
4.自然语言处理技术:让电脑能够分析并处理人类的自然语言,从而使人机交互变得更加简单。
5.语言识别技术:收集声音,处理声音,显示结果。【听懂、理解、执行】
6.语言合成技术:将任意文字转化为语音朗读出来。
练习
1.下列关于智能客服问答系统的说法不正确的是( )。
A.智能客服问答系统属于领域知识智能问答机器人
B.智能客服问答系统主要包括常见问题解答和理解模块、信息检索模块、文档库模块、答案抽取模块
C.在与智能客服机器人交流时,人们采用的是自然语言
D.智能客服机器人能够回答用户提出的所有问题
D
D.智能客服机器人能够回答用户提出的所有问题
练习
2.在使用手机微信过程中,下列操作体现了人工智能技术的是( )。
①使用微信扫一扫功能,对准某个物品,可以搜到同款或者相似物品的信息
②使用拍照功能拍一张风景照
③使用语音输入法纠正错误的识别结果
④选中一条语音信息,进行播放
A. ①③ B. ②④ C. ③④ D. ①②③④
A
A. ①③
练习
3.小明听到一首好歌但不知歌曲名称,于是他打开某音乐平台使用“听歌识曲”功能,几秒钟后便得到识别结果。这应用了( )技术。
A.语音识别 B.指纹识别
C.语音合成 D.文字识别
A
A.语音识别
练习
4.(多选)某地ETC管理部门推出智能客服系统,该系统能够智能识别用户提供的语音信息,实现问答的精准匹配,解决ETC使用中的重复问题。该系统使用的语音技术,下面说法正确的是( )。
A.语音技术就是多媒体技术
B.语音识别是使计算机能识别人说的话
C.语音合成是将文字信息转变为语音数据
D.语音技术中的关键是语音识别和语音合成
B、C、D
02
PART TWO
人工智能的应用
人工应用
1.智能制造
智能装备、智能工厂、智能服务
2.智能家居
远程控制设备、设备间互联互通、设备自我学习等
人工应用
3.智能教育
由计算机模拟教师教学的经验和方法,对学生实施一对一的教学;
跟踪、记录和分析学习者的学习过程与结果;
为每一位学习者选择合适的学习资源,制订个性化的学习方案。
人工应用
4.智能交通
智能交通系统(ITS)
5.智能安防
车辆检测、人脸检测、人头检测等
6.智能医疗
辅助诊疗、疾病预测、医疗影像辅助诊断、药物开发等。
人工应用
7.智能物流
智能搬运机器人(如搬运机器人、货架穿梭车、分拣机器人等)
8. 生物特征识别技术:指纹识别、人脸识别、声纹识别等。
练习
1.随着人工智能的发展,“智能助教”成为教师教学和学生学习的得力助手,以下哪项不是智能导师的应用?( )
A.模拟教师对学生实施一对一教学
B.向具有不同需求和特征的学习者传递知识
C.陪全体学生一起玩在线娱乐游戏
D.根据学生的不同特点为其选择合适的学习资源
C
C.陪全体学生一起玩在线娱乐游戏
练习
2.(多选)人工智能使物流效率大大提高。以下属于人工智能在物流领域应用的有( )。
A.货架穿梭车 B.搬运机器人
C.智能快递柜 D.分拣机器人
A、B、C、D
练习
3.校门的人脸识别和车牌识别都属于人工智能技术在实际中的应用。( )
√
4.发展人工智能的目的是让机器具有像人一样的高级智能。( )
×