(共23张PPT)
5.4数据可视化表达
01.
数据可视化表达的方式
02.
数据可视化表达的工具
目录
数据可视化是指以图形、图像、地图、动画等生动、易于理解的方式展示数据和诠释数据之间的关系、趋势与规律等,以便更好地理解数据。
优点:把枯燥乏味的海量数据以丰富的视觉效果呈现数据所反映的本质问题,有效提升数据分析的效率。
一、
数据可视化表达的方式
有关趋势的分析
有关比例的分析
逻辑关系
空间关系
有关关系的分析
3
1
2
1.数据分析类型
解释型
02
探索型
01
2.数据可视化的呈现类型
3.数据可视化有哪些优势?
1)更容易被记住
2)可以多维度显示数据
3)快速展现企业存在的风险
按照处理数据类型的不同,可视化呈现的主要方式
柱形图最适合用于项目和数据的比较,在X轴和Y轴上可以同时显示多组数据。Y轴还可以显示项目分类。
柱形图
1
折线图是比较常用的图表,适用于很多的业务场景:比较每组的数据查看趋势
折线图
2
条形图可以用于多个项目之间的对比,Y轴上通常显示类别或项目,还可以按照类别进行分组,X轴上显示数值。
条形图
3
有关趋势的分析
当你打算显示百分比或者比例的时候,饼图是最好的选择。饼图展示的是局部与整体的关系,所以这个整体必须是有意义的。
饼图
1
面积图又称作是区域图,它所强调的是数量随着时间而变化的程度,也可以用于引起人们对总值趋势的注意。那么什么是层叠面积图呢?层叠面积图和基本的面积图基本上一样,唯一的区别就是图上每一个书数据集的起点不同。
起点是基于前一个数据集的,用于显示每一个数值所占大小随时间或者类别变化的趋势线,展示的是部分与整体的关系。在层叠面积图的基础上,将各个面积的因变量的数据使用加和后的总量进行归一化就形成了百分比层叠面积图。
堆叠面积图
2
我们经常会从电视新闻中看到关于完成率百分比的圆形图表。不要以为这样的圆形图表是用饼图完成的。其实,利用柱形图和圆形图形,才能更好地制作出这样的效果
百分比圆环图
3
有关比例的分析
指在回归分析中,数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。
散点图
1
雷达图是以从同一点开始的轴上表示的三个或更多个定量变量的二维图表的形式显示多变量数据的图形方法。轴的相对位置和角度通常是无信息的。
雷达图也称为网络图,蜘蛛图,星图,蜘蛛网图,不规则多边形,极坐标图或Kiviat图。它相当于平行坐标图,轴径向排列。
雷达图
2
“词云”就是通过形成“关键词云层”或“关键词渲染”,对网络文本中出现频率较高的“关键词”的视觉上的突出。
词云图
3
有关关系的分析(逻辑关系)
应用地图来分析和展示与位置相关的数据,要比在Excel中单纯的数字更为明确和直观,让人一目了然。
数据地图
1
热力图可显性、直观地将网页流量数据分布通过不同颜色区块呈现,给中小网站网页优化与调整提供了有力的参考依据,方便合作网站提高用户体验。
动态热力图
2
3D动态显示图
3
有关关系的分析(空间关系)
体
验
1.
观看微课视频“词云图程序介绍”
;
2.
运行“程序5-9-1
词云图(教材范例).py”,体验词云图可视化呈现分析结果。
程序5-9-1
词云图
二、
数据可视化表达的工具
观察电流与电阻关系曲线图,经过推理和实验验证,电流I与电阻R反比例关系成立
1.Seaborn
Seaborn主要关注统计模型的可视化。例如,直方图既可以总结数据,也可以描绘总体
分布。Seaborn基于且高度依赖于Matplotlib。
直方图程序5-7
2.Bokeh:是一个很好的可视化库,可实现交互式可视化。与其他库相反,Bokeh是独立于
Matplotlib的。Bokeh的重点在其交互性,且是通过浏览器以数据驱动文档的风格呈现。
Bokeh示例程序及结果
实
践
在python中,可视化数据分析类型及对应的可视化呈现方式有哪些?数据可视化表达的工具有哪些?总结项目活动中采用过的数据可视化表达的方式和工具,以小组为单位,通过学习、交流,探究和实践,填写下表。
数据分析
类型
可视化呈
现类型
可视化
工具
示例关键代码
呈现效果
逻辑关系
正弦图
pyplot
import
numpy
as
np
#引入numpy库模块,用np替代
import
matplotlib.pyplot
as
plt
#引入matplotlib库模块中的pyplot方法,用plt替代
from
pylab
import
#引入pylab库模块中的所有方法
x
=
np.arange(-5.0,
5.0,
0.5)
#定义x轴数值为-5到5,步长为0.02
y
=
np.sin(x)
#利用正弦函数计算出x轴数值对应的y轴数值
plt.plot(x,
y)
#利用x,y轴对应的数值绘制出图形
plt.show()
#显示出绘制的图形
逻辑关系
散点图
pyplot
#异常值处理、找到异常值、画散点图(横轴:价格,纵轴:评论数)
data2=data.T
price=data2.values[2]
comt=data2.values[3]
plt.xlabel('price')
#显示X坐标标签
plt.ylabel('comt')
#显示Y坐标标签
pyl.plot(price,comt,"o")
pyl.show()
5.4数据的可视化表达
数据分析
类型
可视化呈
现类型
可视化
工具
示例关键代码
呈现效果
逻辑关系
直方图
Pyplot
逻辑关系
聚类图
Pyplot
#绘制价格直方图
#npy.arrange(最小,最大,组距)
pricesty=npy.arange(pricemin,pricemax,pricedst)
plt.xlabel('price')
#显示X坐标标签
plt.ylabel('number')
#显示Y坐标标签
pyl.hist(da2[2],pricesty)
pyl.show()
#年龄-消费金额图,消费时间-消费金额图,年龄-消费时间图
for
i
in
range(0,len(y)):
if(y[i]==0):
print(str(i)+"0")
pyl.subplot(2,3,1)
#年龄-消费金额图
pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"
r")
pyl.subplot(2,3,2)
#消费时间-消费金额图
pyl.plot(dataf.iloc[i:i+1,2:3].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"
r")
pyl.subplot(2,3,3)
#年龄-消费时间图
pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,2:3].as_matrix(),"
r")
数据分析
类型
可视化呈
现类型
可视化
工具
示例关键代码
呈现效果
逻辑关系
直方图
Seaborn
逻辑关系
正弦图
Bokeh
import
numpy
as
np
import
seaborn
as
sns
import
matplotlib.pyplot
as
plt
sns.set(
palette="muted",
color_codes=True)
rs
=
np.random.RandomState(10)
d
=
rs.normal(size=100)
f,
axes
=
plt.subplots(2,
2,
figsize=(7,
7),
sharex=True)
sns.distplot(d,
kde=False,
color="b",
ax=axes[0,
0])
sns.distplot(d,
hist=False,
rug=True,
color="r",
ax=axes[0,
1])
sns.distplot(d,
hist=False,
color="g",
kde_kws={"shade":
True},
ax=axes[1,
0])
sns.distplot(d,
color="m",
ax=axes[1,
1])
plt.show()
import
numpy
as
np
from
bokeh.layouts
import
gridplot
from
bokeh.plotting
import
figure,
output_file,
show
N
=
100
x
=
np.linspace(0,
4
np.pi,
N)
y0
=
np.sin(x)
output_file('sinewave.html')
sine
=
figure(width=500,
plot_height=500,
title='Sine')
sine.circle(x,
y0,
size=10,
color="navy",
alpha=0.5)
p
=
gridplot([[sine]],
toolbar_location=None)
show(p)
谢
谢5.4数据的可视化表达练习及答案
一、选择题
下列不是数据分析类型的是(
C
)
有关趋势的分析
有关比例的分析
有关大小的分析
有关关系的分析
数据可视化的呈现类型有(
A
)
探索型
试探型
逻辑型
布尔型
下列不是数据可视化优势的是(
D
)
更容易被记住
可以多维度显示数据
快速展现企业存在的风险
只能一维度显示数据
下列不是有关趋势的分析的是(
D
)
折线图
柱形图
堆叠柱形图
圈图
Mac?OS系统的开发者是(
C?)。
A:微软公司
B:惠普公司
C:苹果公司
D:IBM公司
下列不是有关逻辑关系的分析是(
C
)
散点图
词云
数据地图
雷达图
Seaborn是主要关注(
A
)的可视化。
统计模型
交互式
操作式
驱动式
二、判断题
1.数据可视化是指以图形、图像、地图、动画等生动、易于理解的方式展示数据和诠释数据之间的关系、趋势与规律等,以便更好地理解数据。(T)
2.词云可以使得难以实现结构化的数据文本挖掘成为轻而易举的事情。(F)