(共12张PPT)
5.4.2数据可视化表达的工具
处理重复值
处理缺失值
处理异常值
系统日志采集法
网络数据采集法(网络爬虫)
其他数据采集法
数据分析的步骤
《数据与计算》P118-122
1.特点:
主要关注统计模型的可视化
Seaborn基于且高度依赖于Matplotlib
Seaborn是matplotlib的强大的一个扩展。
2.例如:直方图
可以总结数据
也可以描绘数据的总体分布
一、Seaborn
1.特点:
可以实现交互式可视化
独立于Matplotlib
可以通过浏览器以数据驱动文档的风格呈现
2.绘图步骤
获取数据
构建画布figure()
添加图层,绘图line,circle,square,scatter,multiline等;
自定义视觉属性:参数color,legend
选择性展示折线数据,建立复选框激活显示,复选框(checkbox)
二、Bokeh
三、实践操作
【项目练习】运行“程序5-10-1 直方图(教材范例).py”,体验可视化工具Seaborn呈现直方图 。
#[0,0]图只显示直方图不显示核密度估计
#[0,1]图中rug = True表示要生成观测数值的小细条,#hist=False不生成直方图,只生成核密度估计。
#[1,0]图绘制一个填充核密度估计
#[1,1]图,既绘制直方图,又绘制和密度估计
sns.distplot(d, kde=False, color="b", ax=axes[0, 0])
sns.distplot(d, hist=False, rug=True, color="r", ax=axes[0, 1])
sns.distplot(d, hist=False, color="g", kde_kws={"shade": True}, ax=axes[1, 0])
sns.distplot(d, color="m", ax=axes[1, 1])
plt.show()
三、实践操作
【项目练习】运行“程序5-10-2 Bokeh示例(教材范例).py”,体验可视化工具Bokeh呈现正弦图。
N = 100
#np.linspace(start, stop, N)在起始值和终止值之间,返回均匀间隔的N个元素
x = np.linspace(0, 4*np.pi, N)
y0 = np.sin(x)
output_file('sinewave.html') #输出网页形式
#定义画布大小和图表标题
sine = figure(width=500, plot_height=500, title='Sine')
#根据x、y坐标绘制圆点,如果要画成方形,则用sine.square()
#size为大小,color为颜色,alpha为透明度
sine.circle(x, y0, size=10, color="navy", alpha=0.5)
p = gridplot(`sine`, toolbar_location=None) #网格显示
show(p)
四、课堂小结
五、本章小结
数据采集
数据预处理
聚类分析
可视化呈现
分析报告
聚类分析
聚类分析
系统日志采集法
网络数据采集法
其他数据采集法
异常值处理
求最值、极差...
绘制直方图
趋势
比例
逻辑关系
空间关系
1. Seaborn基于且高度依赖于Matplotlib,可实现交互式可视化。( )
2.海军军官通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的( )
A.在数据基础上倾向于全体数据而不是抽样数据
B.在分析方法上更注重相关分析而不是因果分析
C.在分析效果上更追究效率而不是绝对精确
D.在数据规模上强调相对数据而不是绝对数据
B
B
五、课堂练习
3.电子警察采用拍照的方式来约束车辆的行为,其拍照的过程属于( )
A.数据分析 B.数据采集 C.数据分类 D.数据可视化表达
4.数据特征探索的主要任务是对数据进行预处理,以下不属于该过程的是( )
A.数据清洗 B.异常数据处理
C.数据缺失处理 D.数据分类处理
5.大数据时代,数据应用的关键是( )
A. 教据收集 B.数据存储 C.数据分析 D.数据再利用
B
A
五、课堂练习
C
6.为了弘扬和传承中华民族勤俭节约的传统美德,引导同学们进一步深化节
约粮食的意识和行为习惯,学生会开展了“我为食堂提建议”的活动。请根据学生会开展该活动的几个步骤,排出最合理的顺序( )。
①根据数据分析结果,撰写数据分析报告,对食堂提出合理化建议;②学生会成员去学校食堂收集数据,并制作调查问卷的题目;③利用图表形式直观展示分析数据;④对问卷进行回收整理,将无效的问卷进行剔除;⑤学生会成员对就餐同学们进行问卷调查;⑥对调查数据和食堂数据进行分析与处理。
A.②⑤④⑥③① B.②④⑤③⑥①
C.⑤②④⑥③① D.⑤④②③⑥①
A
五、课堂练习
五、课堂练习《活动手册》P119-120
思考题(4)
问题1:网站给用户自动推荐商品的依据是什么?采用了什么分析方法?
1.关联分析法:根据购买了A商品的人大概率又购买了B商品的关联性,为用户推荐他可能还会购买的商品。
2.聚类分析法:通过对用户的购买兴趣等进行聚类分析,推荐相似用户喜欢或者购买的商品
问题2:网站数据可能对用户产生哪些影响?(P103)
1.积极影响:方便人们选购产品……
2.消极影响:个人信息泄露……