粤教版(2019)高中信息技术 必修1 第5章 5.3.2 数据的关联分析 课件(共16张PPT)

文档属性

名称 粤教版(2019)高中信息技术 必修1 第5章 5.3.2 数据的关联分析 课件(共16张PPT)
格式 pptx
文件大小 1.2MB
资源类型 教案
版本资源 粤教版(2019)
科目 信息技术(信息科技)
更新时间 2022-03-12 10:11:45

图片预览

文档简介

(共16张PPT)
5.3.2 关联分析
《数据与计算》P113-118
数据的特征探索
系统日志采集法
网络数据采集法(网络爬虫)
其他数据采集法
数据分析的步骤
1.概念:分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
2.常见案例:
价格和年龄之间的关系:个性化推荐
购买相关商品之间的关系:捆绑销售
3.常用的算法:aprior算法(关联规则挖掘算法)
一、关联分析
2.常见案例:捆绑销售
一、关联分析
3.关联分析的基本算法及流程图
扫描数据,并统计数据出现的频率次数
构建候选项集C1
计算支持度:数据出现的频率次数/总数
形成频繁项集L1:筛选候选项集C1,要求支持度不小于最小支持度
连接频繁项集L1,生成候选项集C2
重复步骤③-⑤,得到最大的频繁项集
一、关联分析
扫描数据库,统计数据出现的频率次数
构建候选项集Cn
支持度>最小支持度
形成频繁项集Ln
开始
结束


计算支持度:频率次数/总数
构建候选项集Cn+1
Aprioir-Gen运算
扫描数据库
统计数据出现的频率次数
4.案例分析
一、关联分析
原始数据集:
[面包,牛奶],
[面包,尿布,啤酒,鸡蛋]
[牛奶,尿布,啤酒,可乐]
[面包,牛奶,尿布,啤酒]
[面包,牛奶,尿布,可乐]
扫描数据库,统计每种食物出现的次数
候选项集C1 食物 数目
牛奶 4
面包 4
尿布 4
啤酒 3
鸡蛋 1
可乐 2
4.案例分析
一、关联分析
支持度大于2的频繁项集L1
候选项集C1 食物 数目
牛奶 4
面包 4
尿布 4
啤酒 3
鸡蛋 1
可乐 2
频繁项集L1 食物 数目
牛奶 4
面包 4
尿布 4
啤酒 3
候选项集C2
食物组合
牛奶、面包
牛奶、尿布
牛奶、啤酒
面包、尿布
面包、啤酒
尿布、啤酒
根据算法,
生成候选项集C2
4.案例分析
一、关联分析
原始数据集:
[面包,牛奶],
[面包,尿布,啤酒,鸡蛋]
[牛奶,尿布,啤酒,可乐]
[面包,牛奶,尿布,啤酒]
[面包,牛奶,尿布,可乐]
扫描数据库,统计候选项集C2食物组合出现的次数
候选项集C2
食物组合
[牛奶、面包]
[牛奶、尿布]
[牛奶、啤酒]
[面包、尿布]
[面包、啤酒]
[尿布、啤酒]
候选项集C2 食物组合 数目
[牛奶、面包] 3
[牛奶、尿布] 3
[牛奶、啤酒] 2
[面包、尿布] 3
[面包、啤酒] 2
[尿布、啤酒] 3
4.案例分析
一、关联分析
候选项集C2 食物组合 数目
[牛奶、面包] 3
[牛奶、尿布] 3
[牛奶、啤酒] 2
[面包、尿布] 3
[面包、啤酒] 2
[尿布、啤酒] 3
支持度大于2的
频繁项集L2
频繁项集L2 食物组合 数目
[牛奶、面包] 3
[牛奶、尿布] 3
[面包、尿布] 3
[尿布、啤酒] 3
候选项集C3
食物组合
[牛奶、面包、尿布]
[牛奶、面包、啤酒]
[牛奶、尿布、啤酒]
[面包、尿布、啤酒]
根据算法,
生成候选项集C3
4.案例分析
一、关联分析
根据算法,
生成候选项集C3
候选项集C3
食物组合
[牛奶、面包、尿布]
[牛奶、面包、啤酒]
[牛奶、尿布、啤酒]
[面包、尿布、啤酒]
候选项集C3 食物组合 数目
[牛奶、面包、尿布] 2
[牛奶、面包、啤酒] 1
[牛奶、尿布、啤酒] 2
[面包、尿布、啤酒] 2
原始数据集:
[面包,牛奶],
[面包,尿布,啤酒,鸡蛋]
[牛奶,尿布,啤酒,可乐]
[面包,牛奶,尿布,啤酒]
[面包,牛奶,尿布,可乐]
扫描数据库,统计候选项集C3食物组合出现的次数
4.案例分析
一、关联分析
候选项集C3 食物组合 数目
[牛奶、面包、尿布] 2
[牛奶、尿布、啤酒] 1
[牛奶、尿布、啤酒] 2
[面包、尿布、啤酒] 2
根据计算和筛选,得到最终的频繁项集
最终的频繁项集
食物组合
[牛奶、面包、尿布]
原始数据集:
[面包,牛奶],
[面包,尿布,啤酒,鸡蛋]
[牛奶,尿布,啤酒,可乐]
[面包,牛奶,尿布,啤酒]
[面包,牛奶,尿布,可乐]
4.案例分析
support(支持度)
两个商品被同时购买发生的概率
confidence(置信度)
B商品被购买的情况下,A商品被购买的概率
P(A|B) = P(AB)/P(B)
例如:
同时买牛奶、面包的概率为
买了牛奶后,买面包的概率为
P(A|B) = P(AB)/P(B)=(3/5) / (4/5)= 3/4
一、关联分析
原始数据集:
[面包,牛奶],
[面包,尿布,啤酒,鸡蛋]
[牛奶,尿布,啤酒,可乐]
[面包,牛奶,尿布,啤酒]
[面包,牛奶,尿布,可乐]
P(AB)=3/5
二、课堂小结
三、课堂练习
1.某超市曾经研究销售数据,发现购买方便面的顾客购买火腿肠、卤蛋等商品的概率很大,进而调整商品摆放位置。这种数据分析方法是( )
A.聚类分析 B.分类分析 C.关联分析 D.回归分析
2.下列有关数据关联分析的说法正确的是( )
A.对数据进行预处理,发现和处理缺失值,异常数据、绘制直方图,观察数据分布的特征,求最大值、最小值、极差等描述性统计量。
B.分析发现存在于大量数据之间的关联性和相关性,从而描述一个事物的共同规律和模式。
C.是一种探索性的分析。不必事先给出一个分类标准,而是让其自动分类。
D.是数据分析中最基本的方法。先基于样本数据构建分类器,然后进行预测。
C
A
订单 商品1 商品2 商品3 商品4
订单1 a c e  
订单2 b d    
订单3 b c    
订单4 a b c d
订单5 a b    
订单6 b c    
订单7 a b    
订单8 a b c e
订单9 a b c  
订单10 a c e  
【实践操作】假设购买商品A的有100人,购买商品B的有80人,购买商品C的有50人,同时购买商品A和商品B的有70人,同时购买商品A和商品C的有5人,那么购买商品A的人往往就会购买商品B,由此可以找出这些数据相互之间的关系。
下表所示是某网络商城销售订单统计资料,那么这些商品之间有什么关联性?
四、实践操作
【实践操作】运行程序5-8-1关联分析,体验顾客购买几种商品之间的关联。
四、实践操作