(共26张PPT)
3.3 数据分析与可视化
3.3.1 数据分析
1.概念:
数据分析指用适当的计算方法与工具对收集来的数据进行处理,提取有用信息,形成结论从而支持决策
3.3.1 数据分析
2.数据分析的作用:
了解事物的现状
剖析事物的发展历程
预测事物的未来走向
3.3.1 数据分析
3.数据分析的基本方法:
对比分析法
平均分析法
结构分析法
3.3.1 数据分析
(1)对比分析法
概念:
对比分析法也叫比较分析法,是将两个或两个以上的数据进行比较,分析它们的差异,揭示出这些数据所反映的事物规律的方法,是一种常用的分析方法。
3.3.1 数据分析
(1)对比分析法
用途:
从数量上展示和说明研究对象规模大小、水平高低、速度快慢及各种关系是否协调等。
3.3.1 数据分析
(1)对比分析法
分类:
横向 纵向
任务完成量与目标量的对比
部门之间的对比
地区之间的对比
不同时期的比较
3.3.1 数据分析
(2)平均分析法
概念:
平均分析法是运用计算平均数的方法来反映总体在一定时间、地点等条件下某一数量特征的一般水平。
平均指标中最常用的是算术平均数。
3.3.1 数据分析
(2)平均分析法
用途:
平均分析法多用于比较同类现象在不同地区、不同行业、不同类型单位等之间的差异程度,分析现象之间的依存关系,进行数量上的推算。
也可以对某一现象在不同时间的水平进行比较,以说明现象的发展规律及趋势。
3.3.1 数据分析
(3)结构分析法
概念:
结构分析法也称构成分析法,是将各个部分与总体进行对比,是分析事物内部的结构和部分与整体之间关系的方法。
结构分析法的基本表现形式就是计算结构指标。
3.3.1 数据分析
(3)结构分析法
结构指标即各个部分相对于总体所占的百分比,因此总体中各结构指标的总和等于100%。
3.3.1 数据分析
4.数据分析常用工具
电子表格软件
在线数据分析平台
数据分析语言
3.3.2 数据可视化
1.概念
数据可视化是以图形、图像和动画等方式直观生动地呈现数据及数据分析结果,揭示数据之间的关系、趋势和规律等,便于人们更好地理解数据。
可视化的作用体现在多个方面:
观察事物变化的趋势、揭示想法和关系、总结或汇聚数据、形成论点或意见等。
3.3.2 数据可视化
2.形式
数据可视化的形式丰富多样,常见的有图表、词云等。
3.3.2 数据可视化
3.实现
用图表将数据可视化
用词云将数据可视化
3.3.2 数据可视化
(1)用图表将数据可视化
常见的图表包括折线图、柱形图、饼图、散点图和雷达图等。
3.3.2 数据可视化
(2)用词云将数据可视化
词云是目前常用的关键词可视化形式,它能直接抽取文本中的关键词,并将其按照一定顺序和规律整齐美观地呈现在屏幕上。
词云通常使用字体的大小和颜色表示关键词的重要程度或出现频次。字越大表示该关键字使用频率越高。
P105
体验探索:你能读懂这些数据吗
登录国家统计局网站,进入“年度数据→资源与环境一水资源”,选择不同类型的图表进行分析。
P109
实践活动:使用在线数据分析平台分析全国供水情况
第1题:目前许多网站都需要注册账号才能使用其功能,本活动中也必须先注册账号。注册账号时,我们要注意保护个人数据安全,保护好个人隐私。例如,设置的密码不能过于简单,也不要多个网站或者平台都使用同一个密码。
第2题:国家统计局网站提供数据筛选、统计、恢复和去除空行空列等功能,这些功能都集成在“数据管理”栏目下,大家可以登录网址进行操作。
P112实践活动:
编写程序计算京津地区人均水资源量在全国的占比程序示例如下。
import pandas as pd
df=pd.read_csv("data.csv",encoding="gbk",header=0)
quanguo= 2074.53
for index,row in df.head().iterrows():
res=row["2017年人均水资源量"]/quanguo
res_per =“{:.2%}".format(res)
df.loc[index,"所占比重"]=res_per
print(df[["2017年人均水资源量","所占比重"]])
df.to_csv("xindata.csv",encoding="gbk",float_format=“%.2f")
P114实践活动:了解数据可视化
第1题:略。
第2题:除教科书提供的网站外,还可以访问如腾讯云图、Ventusky风雨气温图等网站进行体验。
第3题:教科书表3.3.1中的可视化形式除图表和词云外,还可以扩展其他形式,如地图、动画等。包含的信息应根据具体的可视化形式所表达的含义填写。例如,国家统计局网站中使用饼图呈现2017年用水量构成,其包含的信息即为各类用水量在用水总量中所占的比例。
第4题:可使用图表类工具(如《WPS表格》、Excel、ECharts和Tableau等),词云可视化工具(如Tagxedo、TagCrowd和《图悦》等),地图类工具(如Modest Maps和Leaflet等)。
P122实践活动:编写程序为《新一代人工智能发展规划》制作词云第1题:
分析问题:使用文本文件“新一代人工智能发展规划.txt”,制作词云需要用到SciPy、wordcloud、jieba和Matplotlib等第三方扩展库。
求解目标:为“新一代人工智能发展规划.txt”文件制作词云
已知与未知的关系:利用第三方扩展库可以对已有的文本文件进行分词,生成并绘制词云。
第2题:问题求解流程
导入第三方扩展库,读入报告的文本文件并进行分词,配置制作词云的各项参数,如字体、背景色和词云形状等,最后生成词云图片。
P122实践活动:编写程序为《新一代人工智能发展规划》制作词云根据算法设计进行编程实现与调试,程序示例如下。
from scipy.misc import imread
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
#读入txt文件
text=open(‘新一代人工智能发展规划.txt’,‘rb’).read() text_jieba =“”.join(jieba.cut(text))
bg_pic =imread('3.png’)
#配置词云参数
wc= WordCloud(
P122实践活动:编写程序为《新一代人工智能发展规划》制作词云根据算法设计进行编程实现与调试,程序示例如下。
font_path= 'msyhbd.ttf’,
background_color ='white',#设置背景色
max_words =200,
mask =bg_pic,
max_font_size =100,
)
wc.generate(text_jieba)
P122实践活动:编写程序为《新一代人工智能发展规划》制作词云根据算法设计进行编程实现与调试,程序示例如下。
#生成图片并显示
plt.figure()
plt.imshow(wc)
plt.axis('off’)
plt.show()
#保存图片
wc.to_file('AI.jpg’)
P124练习提升
第1题:
由于分析比较的是篮球队员在各项能力上的差异,需要呈现的是多维数据,且每项能力的强弱可以排序,因此适合使用雷达图。
P124练习提升
第2题:该报告中部分数据分析情况如表3.3-1所示。