(共28张PPT)
5.3数据的分析
特征探索
01
关联分析
02
聚类分析
03
目录
04
数据分类
中国网民数量:7.51亿
半年增长率:2.7%
中国注册网站数量:344.3万个
手机网民:7.236亿
占网民总数:96.3%
月均网络交易:
16亿笔
每日新发微
博数量:
1亿+条
注册微博用户数:
2.9071亿
发布的网页数量:866亿页
年增速:~40%
网络直播用户:3.43亿
占网民总数:47.1%
数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。
一、特征探索
数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
实践:
打开并运行配套学习资源包“第五章\课本素材\程序5---3数据预处理”,观察数据预处理结果.
(1)数据清洗,发现缺失值
x=0
data["price"][(data["price"]==0)]=None
for
i
in
data.columns:
for
j
in
range(len(data)):
if(data[i].isnull())[j]:
data[i][j]="64"
x+=1
print(x)
(2)异常值处理中,利用画散点图发现异常值部分.
data2=data.T
price=data2.values[2]
comt=data2.values[3]
pyl.plot(price,comt,"o")
pyl.show()
(3)求最大值和最小值.
pricemax=da2[2].max()
pricemin=da2[2].min()
commentmax=da2[3].max()
commentmin=da2[3].min()
利用数学计算(非程序5-3)得到极差的例子
(4)求极差,程序5--3
pricerg=pricemax-pricemin
commentrg=commentmax-commentmin
(5)求组距,程序5-3
pricedst=pricerg/13
commentdst=commentrg/13
(6)绘制价格直方图,程序5-3
pricesty=npy.arange(pricemin,pricemax,pricedst)
pyl.hist(da2[2],pricesty)
pyl.show()
(7)绘制评论数直方图
commentsty=npy.arange(commentmin,commentmax,commentdst)
pyl.hist(da2[2],commentsty)
pyl.show()
二、关联分析
关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。
购买面包的顾客中80%会购买牛奶。面包和牛奶作为一种早餐的搭配是大家所接受的,二者没有共同属性,但是二者搭配后就是一顿美味早餐。商场购买时如果你把这两样摆在一起时就会刺激顾客的潜意识联系了二者的关系,并刺激购买。这是一种简单的关联关系。
关联分析研究的关系有两种:
简单关联关系和序列关联关系。简单关联关系
关联分析研究的关系有两种:
简单关联关系和序列关联关系。序列关联关系
比如买了iphone手机的顾客中80%会选择购买iphone手机保护壳,这就是序列关联关系,一般没人先去买个保护壳再去买手机。这是存在先后的时间上的顺序的。
(1)扫描历史数据,并对每项数据进行频率次数统计。
(2)构建候选项集C1,并计算其支持度,即数据出现频率次数与总数的比。
(3)对候选项集的支持度进行筛选,筛选的数据项支持度应当不小于最小支持度,
从而形成频繁项集L1。
(4)对频繁项集L2进行连接生成候选项集C2,重复上述步骤,最终形成频繁K项集或
者最大频繁项集。
关联分析的基本算法:
三、聚类分析
K-平均算法是一种经典的自下而上的聚类分析方法.
K-平均算法的基本思想就是在空间N个点中,初始选择K个点作为中心聚点,然后将N个点分别与K个点计算距离,选择自己最近的点作为自己的中心点,再不断更新中心聚焦点,以达到”物以类聚,人以群分”的效果.
优点:
算法简单
适用于球形簇
二分k均值等变种算法运行良好,不受初始化问题的影响。缺点:
不能处理非球形簇、不同尺寸和不同密度的簇对离群点、噪声敏感
聚类分析的基本算法
(1)从数据点集合中随机选择K个点作为初始的聚集中心,每个中心点代表着每个聚集中心的平均值。
(2)对其余的每个数据点,依次判断其与K个中心点的距离,距离最近的表明它属于这项聚类。
(3)重新计算新的聚簇集合的平均值即中心点。整个过程不断迭代计算,直到达到预先设定的迭代次数或中心点不再频繁波动。
四、数据分类
数据分类是数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。
数据分类和回归分析都可用于预测,预测是指从基于样本数据记录,根据分类准则自动给出对未知数据的推广描述,从而实现对未知数据进行预测。
贝叶斯分类技术在众多分类技术中占有重要地位,也属于统计学分类的范畴,是一种非规则的分类方法。
贝叶斯分类技术通过对已分类的样本子集进行训练,学习归纳出分类函数利用训练得到的分类器实现对未分类数据的分类。
对离散变量的预测称作分类,对连续变量的分类称为回归
如下表所示是某网络商城客户购物行为特征的一组统计资料。已知某客户购物行为特征A的数值为182.8,特征B为数值58.9,特征C为数值26,请问这是是重要客户还是普通客户?
客户
特征A
特征B
特征C
重要客户
182.8
81.6
30
重要客户
180.4
86.1
29
重要客户
170.0
77.1
30
重要客户
180.4
74.8
28
普通客户
152.4
45.3
24
普通客户
167.6
68.0
26
普通客户
165.2
58.9
25
普通客户
175.2
68.0
27
根据表5-4的资料,得到一个已分类的样本子集:
X=[[182.8,81.6,30],[180.4,86.1,29],[170.0,77.1,30],[180.4,74.8,28],[152.4,45.3,24],[167.6,68.0,26],[165.2,58.9,25],[175.2,68.0,27]]
Y=[1,1,1,1,0,0,0,0](1代表重要客户,0代表普通客户)。
四、数据分类
import?numpy?as?np
X=np.array([[182.8,81.6,30],[180.4,86.1,29],[170.0,77.1,30],[180.4,74.8,28],[152.4,45.3,24],[167.6,68.0,26],[165.2,58.9,25],[175.2,68.0,27]])
Y=np.array([1,1,1,1,0,0,0,0])
from?sklearn.naive_bayes?import?GaussianNB
clf=GaussianNB().fit(X,Y)
print(clf.predict([[182.8,58,9,26]]))
四、数据分类
程序结果为:[0],所以这人为普通客户。
谢
谢!5.3数据的分析练习题
一、选择题(单选)
1、数据清洗的方法不包括(?D)。
A:缺失值处理
B:噪声数据清除
C:一致性检查
D:重复数据记录处理
2、下列关于数据重组的说法中,错误的是(?A)。
A:数据重组是数据的重新生产和重新采集
B:数据重组能够使数据焕发新的光芒
C:数据重组实现的关键在于多源数据融合和数据集成
D:数据重组有利于实现新颖的数据模式创新
3、下列关于聚类挖掘技术的说法中,错误的是(B?)。
A:不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别
B:要求同类数据的内容相似度尽可能小
C:要求不同类数据的内容相似度尽可能小?
4、下列国家的大数据发展行动中,集中体现“重视基础、首都先行”的国家是(?D)。
A:美国
B:日本
C:中国
D:韩国
5、下列关于大数据的分析理念的说法中,错误的是(D?)。
A:在数据基础上倾向于全体数据而不是抽样数据
B:在分析方法上更注重相关分析而不是因果分析
C:在分析效果上更追究效率而不是绝对精确
D:在数据规模上强调相对数据而不是绝对数据
6、按照涉及自变量的多少,可以将回归分析分为(CD?)。(多选题)
A:线性回归分析
B:非线性回归分析
C:一元回归分析
D:多元回归分析
E:综合回归分析
7、大数据人才整体上需要具备(ABE?)等核心知识。
A:数学与统计知识
B:计算机相关知识
C:马克思主义哲学知识
D:市场运营管理知识
E:在特定业务领域的知识
下面关于关联分析的基本算法错误的是(C
)
A:扫描历史数据,并对每项数据进行频率次数统计。
B:构建候选项集C1,并计算其支持度,即数据出现频率次数与总数的比。
C:对候选项集的支持度进行筛选,筛选的数据项支持度应当小于最小支持度,
从而形成频繁项集L1。
D:对频繁项集L2进行连接生成候选项集C2,重复上述步骤,最终形成频繁K项集或
者最大频繁项集。