粤教版(2019)高中信息技术 必修1 第5章 5.3 数据的分析 课件(共27张PPT)

文档属性

名称 粤教版(2019)高中信息技术 必修1 第5章 5.3 数据的分析 课件(共27张PPT)
格式 pptx
文件大小 4.4MB
资源类型 教案
版本资源 粤教版(2019)
科目 信息技术(信息科技)
更新时间 2022-03-12 09:14:05

图片预览

文档简介

(共27张PPT)
粤教版普通高中教科书
信息技术 必修1
数据与计算
5.3 数据的分析
特征探索
关联分析
聚类分析
数据分类
第五章 数据处理与可视化表达
数据的分析

数据分析
-数据分析就是在一堆杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去,预测未来发挥作用。
数据分析
特征探索
关联分析
聚类与分类
建立模型
模型评价
5.3.1 特征探索
特征探索程序介绍
数据特征探索
数据预处理程序范例
第五章 数据处理与可视化表达
数据特征探索程序介绍

数据特征探索主要任务
-数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直
方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
第五章 数据处理与可视化表达
数据特征探索程序介绍

数据特征探索主要任务
-(1)数据清洗,发现缺失值
第五章 数据处理与可视化表达
数据特征探索程序介绍

数据特征探索主要任务
-(2)异常值处理中,利用画散点图发现异常值部分
第五章 数据处理与可视化表达
数据特征探索程序介绍

数据特征探索主要任务
-(3)求最大值、最小值、极差、组距,绘制价格直方图和评论数直方图
5.3.2 关联分析
关联分析程序介绍
关联分析
关联分析程序范例
第五章 数据处理与可视化表达
关联分析程序介绍

关联分析
-关联分析是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某
些属性同时出现的规律和模式。
第五章 数据处理与可视化表达
关联分析程序介绍

关联分析
-关联分析的基本算法如下:
(1)扫描历史数据,并对每项数据进行频率次数统计。
(2)构建候选项集C1,并计算其支持度,即数据出现频率次数与总数的比。
(3)对候选项集的支持度进行筛选,筛选的数据项支持度应当不小于最小支持度, 从而形成频繁项集L1。
(4)对频繁项集L2进行连接生成候选项集C2,重复上述步骤,最终形成频繁K项集或 者最大频繁项集。
订单 商品1 商品2 商品3 商品4
订单1 a c e
订单2 b d
订单3 b c
订单4 a b c d
订单5 a b
订单6 b c
订单7 a b
订单8 a b c e
订单9 a b c
订单10 a c e
第五章 数据处理与可视化表达
关联分析程序介绍

关联分析程序范例
-使用aprior(关联分析)算法。
a c e
b d
b c
a b c d
a b
b c
a b
a b c e
a b c
a c e
第五章 数据处理与可视化表达
关联分析程序介绍
-支持度:两个商品同时被购买发生的概率。
-置信度:前一个商品被购买的情况下后一个商品被购买的概率。
-最小支持度和最小置信度:人为规定的一个阈值,也就是我们规定商品之间这两种概率 分别发生的最小值。

关联分析程序范例
5.3.3 聚类分析
聚类分析程序介绍
聚类分析
聚类分析程序范例
第五章 数据处理与可视化表达
聚类分析程序介绍

聚类分析
-聚类分析是一种探索性的分析,在分类过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动对数据进行分类。
第五章 数据处理与可视化表达
聚类分析程序介绍

聚类分析
K-平均(K-Means)算法是一种经典的自下而上的聚类分析方法。
其基本思想就是在空间N个点中,初始选择K个点作为中心聚类点,然后将N个点分别与K个点计算距离,选择最近的点作为自己的中心点,再不断更新中心聚类点,以达到“物以聚类,人以群分”的效果。
第五章 数据处理与可视化表达
聚类分析程序介绍

聚类分析
-聚类分析的基本算法如下:
(1)从数据点集合中随机选择K个点作为初始的聚集中心,每个中心点代表着每个聚集中心的平均值。
(2)对其余的每个数据点,依次判断其与K个中心点的距离,距离最近的表明它属于这项聚类。
(3)重新计算新的聚簇集合的平均值即中心点。整个过程不断迭代计算,直到达到预先设定的迭代次数或中心点不再频繁波动。
年龄-消费金额图 消费时间-消费金额图 年龄-消费时间图
第五章 数据处理与可视化表达
聚类分析程序介绍

聚类分析
年龄-消费金额图 消费时间-消费金额图 年龄-消费时间图
5.3.4 数据分类
数据分类程序介绍
数据分类
数据分类程序范例
第五章 数据处理与可视化表达
数据分类程序介绍

数据分类
-数据分类是数据分析处理中最基本的方法,其通常的做法是基于样本数据先通过机器学 习训练构建分类器(分类函数或分类模型),该分类器具有将待分类数据项映射到某一 特点类别的功能,实现对未分类数据的分类。
第五章 数据处理与可视化表达
数据分类程序介绍

数据分类
-贝叶斯分类技术
通过对已分类的样本子集进行训练,学习归纳出分类函数(对离散变量的预测称作分类,对连续变量的分类称为回归),利用训练得到的分类器实现对未分类数据的分类。
第五章 数据处理与可视化表达
数据分类程序介绍

数据分类范例
客户 特征A 特征B 特征C
重要客户 182.8 81.6 30
重要客户 180.4 86.1 29
重要客户 170.0 77.1 30
重要客户 180.4 74.8 28
普通客户 152.4 45.3 24
普通客户 167.6 68.0 26
普通客户 165.2 58.9 25
普通客户 175.5 68.0 27
随堂作业
数据分析的方法不包括()
A.线性分析
B.关联分析
C.聚类分析
D.数据分类
第五章 数据处理和可视化表达
数据的分析