自主学习任务单
学习指南
课题名称:数据可视化之词云
学习目标:掌握数据词云的概念、历史,了解制作词云的基本步骤。掌握在线制作词云和Python语言制作词云的过程和方法。
本节知识点思维导图:
学习任务
课前测验:(了解学情)
(1)使用Python语言定义一个包含10个整数的列表。
(2)什么是大数据?
活动一:人工制作早餐食物的词云图,把制作的词云图拍照或者截图。
词云图
活动二:素材文件夹中的“kongqi.txt”文档内容为《北京空气污染调查报告》,请应用此文档在wordart网站在线生成词云,将生成的词云图截图
词云图关键词1.
2.
3.
4.
5.
活动三:
“zhaopin.txt”文档内容为某招聘网站的招聘信息,请使用Python语言生成此文档的词云图,将生成的词云图截图,从图中找出五个关键词
词云图关键词1.
2.
3.
4.
5.
课后作业:“ai.txt”文档为《新一代人工智能发展规划》,请以此文档在线生成词云,找出5个高频率关键词,进而判断人工智能未来发展的关键技术,完成后填写作业任务单。
词云图关键词1.
2.
3.
4.
5.关键技术:
拓展阅读资料
大数据经典案例
1.
啤酒与尿布
全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。如今,“啤酒+尿布”的数据分析成果早已成了大数据技术应用的经典案例,被人津津乐道。
2.数据新闻让英国撤军
2010年10月23日《卫报》利用维基解密的数据做了一篇“数据新闻”。将伊拉克战争中所有的人员伤亡情况均标注于地图之上。地图上一个红点便代表一次死伤事件,鼠标点击红点后弹出的窗口则有详细的说明:伤亡人数、时间,造成伤亡的具体原因。密布的红点多达39万,显得格外触目惊心。一经刊出立即引起朝野震动,推动英国最终做出撤出驻伊拉克军队的决定。
3.微软大数据成功预测奥斯卡21项大奖
2013年,微软纽约研究院的经济学家大卫·罗斯柴尔德(DavidRothschild)利用大数据成功预测24个奥斯卡奖项中的19个,成为人们津津乐道的话题。今年罗斯柴尔德再接再厉,成功预测第86届奥斯卡金像奖颁奖典礼24个奖项中的21个,继续向人们展示现代科技的神奇魔力。
评测反思
知识小测:结合微课资源,完成以下题目:
制作词云的主要三个步骤是什么?
学习评价:
评价指标评价等级及分值得分优秀
9-10分良好
5-8分一般
3-4分自评互评老师评项目实践完成度(50%)项目自主创新与个性化设计(10%)项目学习交流合作(20%)成果展示(20%)
学习反思:
通过本节课的学习,你最大的收获是什么?
在实践操作环节,遇到了哪些困难?你是如何解决的?
关于本节课的学习内容,列出你最想进一步研究的内容。(共47张PPT)
数据可视化之词云(第二十六课时)
复习:数据可视化之图表
AQI历年平均值
年份
AQI平均值
2014
110
2015
112
2016
102
2017
87
2018
82
2019
71
2020
68
问题:文本数据如何可视化?
北京空气污染调查报告
北京市预警中心、北京市空气重污染应急指挥部办公室11月26日发布了“空气重污染蓝色预警”称,受不利扩散条件影响,北京空气质量已达“5级重度污染”水平,建议公众做好健康防护,减少户外运动等。这也是北京今年(2016年)入冬以来第二次发布空气重污染预警。
于是,北京的空气质量以及对人体健康影响再度引发公众的热议。
空气中微生物和重金属会致病吗
?
对拉森团队的研究成果,北京市卫计委表示,细菌的耐药性和致病性是完全不同的概念,耐药性的增加不意味着致病性的增强。
...............................................
...............................................
文本可视化的方式:词云
词云应用举例
国际互联网大会词云图
时代背景:大数据时代
奥地利科学家维克托·迈尔-舍恩伯格是最早洞见大数据时代发展趋势的数据科学家之一,2012年他在《大数据时代》中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维方式。
时代背景:大数据时代
根据国际互联网数据中心预测:
2025年全球每年产生的数据将达到175ZB。
如果把175ZB全部存在DVD光盘中,那么DVD叠加起来的高度可以绕地球222圈。
现实问题:数据量大幅度增加
数据挖掘
数据挖掘是指从大量的数据中通过算法获取隐藏于其中信息的过程。
数据挖掘通过统计学、机器学习、专家系统和模式识别等诸多方法来实现上述目标。
文本数据挖掘
数据挖掘的一个分支,叫做文本数据挖掘,顾名思义,文本数据挖掘,就是从文本中进行数据挖掘,以快速获得文本中的重要信息。
文本可视化最常用的方法就是词云。
文本数据挖掘的主要步骤:
文本获取、文本处理、文本可视化
词云的概念
你发现了词云的哪些特点?
词云的概念
特点:
图片
词汇
颜色
大小
词云是一种可视化描绘词语出现在文本数据中的频率的方式。
词云的概念
客户满意度
文本
词云
客户满意度
1、词汇区分(分词)
2、统计词频
3、图形显示
词云的制作步骤
鸡蛋
牛奶
面包
豆浆
油条
鸡蛋
鸡蛋牛奶
包子
鸡蛋
牛奶
面包
体验词云:人工制作词云
早餐统计单:
鸡蛋
牛奶
面包
豆浆
油条
包子
体验词云:人工制作词云
步骤一:
词汇区分
鸡蛋
牛奶
面包
豆浆
油条
鸡蛋
鸡蛋
牛奶
包子
鸡蛋
牛奶
面包
体验词云:人工制作词云
步骤二:
词频统计
食物名称
出现频率
鸡蛋
4
牛奶
3
面包
2
豆浆
1
油条
1
包子
1
鸡蛋
牛奶
面包
豆浆
油条
鸡蛋
鸡蛋牛奶
包子
鸡蛋
牛奶
面包
体验词云:人工制作词云
步骤三:
绘制图形
鸡蛋
牛奶
面包
豆浆
油条
鸡蛋
鸡蛋牛奶
包子
鸡蛋
牛奶
面包
活动一:人工制作词云
请大家暂停视频,按照前面的操作步骤,人工制作早餐食物的词云图,把制作的词云图拍照或者截图粘贴在任务单中。
鸡蛋
牛奶
面包
豆浆
油条
鸡蛋
鸡蛋
牛奶
包子
鸡蛋
牛奶
面包
早餐统计单:
任务单
在线制作词云
在线制作词云
步骤一:打开网站
打开浏览器并在地址栏输入网址https://wordart.com/create
在线制作词云
步骤2:导入文本
点击
“WORDS”菜单下方的“import”
按钮。
在线制作词云
步骤2:导入文本
在弹出的对话框中输入文本。然后点击“import
words”按钮
在线制作词云
步骤2:导入文本
系统自动显示分词结果和词频统计。
在线制作词云
步骤2:导入文本
点击右侧的“Options”按钮,设置文字重复次数。
在线制作词云
步骤2:导入文本
在弹出的对话框中的“Repeat”选项中选择“None”。
在线制作词云
步骤3:选择图形:
点击“SHAPES”菜单,选择一个词云的图形,选中的图形背景显示为蓝色。
在线制作词云
步骤4:导入字体
打开“FONTS”菜单,然后点击下方的“Add
font”按钮添加字体。
在线制作词云
步骤4:导入字体
在对话框中定位到素材文件夹中的宋体字体文件“SimSun.ttf”。
添加完成后,该字体会出现在系统的字体列表中,点击选中该字体。选中后背景为蓝色。
在线制作词云
步骤5:生成词云图
点击上方红色的“Visualize”按钮,即可生成词云图。
活动二:在线实现词云
活动任务:素材文件夹中的“kongqi.txt”文档内容为《北京空气污染调查报告》,请应用此文档在wordart网站在线生成词云,将生成的词云图截图并填写活动任务单。
任务单
Python语言实现词云
Python语言实现词云
工具包介绍:
jieba,中文分词工具包。
根据汉字之间的关联概率形成分词结果。
wordcloud,词云生成工具包。
可以图形化的展示文本文字及其出现的频率。
imageio,image类型图片工具包。
提供image类型图片相关操作工具。
Python语言实现词云
右图为某招聘网站的招聘信息文档截图,制作这个的词云图以快速了解应聘所需的关键技术。
任务介绍:
Python语言实现词云
文本文件(必备)
字体文件(可选)
图像文件(可选)
程序文件(参考)
材料准备:
Python语言实现词云
运行命令行工具:AnacondaPrompt
在窗口依次输入以下命令:
pip
install
imageio
pip
install
jieba
pip
install
wordcloud
步骤1:
安装工具包
步骤2:运行Spyder软件。
Python语言实现词云
步骤3:
编辑代码。
Python语言实现词云
在左侧编辑区输入程序代码
(详细代码在后文)
详细代码-1
#1、导入需要用到的库
from
imageio
import
imread
import
matplotlib.pyplot
as
plt
from
wordcloud
import
WordCloud
import
jieba
#2、读取文本并分词
text
=
open(“zhaopin.txt","rb").read()
text_jieba
=
"
".join(jieba.cut(text))
bg_pic
=
imread(“back.png")
代码对应解释
导入imageio工具包
导入matplotlib工具包
导入wordcloud工具包
导入jieba工具包
读取文档
区分词汇加空格
读取图片文件
详细代码-2
#3、配置词云参数,生成词云
wc
=
WordCloud(
font_path
=
"simsun.ttf",
background_color
=
"white",
max_words
=
200,
mask
=
bg_pic,
max_font_size
=
100
)
wc.generate(text_jieba)
代码对应解释
定义词云对象
读取字体文件
设置背景颜色
设置最大词汇数量
设置词云应用图片
设置最大字体尺寸
用文本生成词云对象
详细代码-3
#4、生成图片并显示
plt.figure()
plt.imshow(wc)
plt.axis("off")
plt.show()
wc.to_file("map.jpg")
代码对应解释
生成图形实例
实现词云图形绘制
关闭坐标轴
显示词云图形
生成词云图片文件
步骤4:运行程序。
Python语言实现词云
在右侧的Console面板中会显示生成的词云图片。
活动三:Python语言实现词云
活动任务:
“zhaopin.txt”文档内容为某招聘网站的招聘信息,请使用Python语言生成此文档的词云图,将生成的词云图截图,从图中找出五个关键词,完成后填写活动任务单。
任务单
1
词云的概念
词云的时代背景、概念、用途。
总结
2
词云的制作
制作词云的三种方式:人工方式、在线方式、编程方式
作业
任务内容:“ai.txt”文档为《新一代人工智能发展规划》,请以此文档在线生成词云,找出5个高频率关键词,进而判断人工智能未来发展的关键技术,完成后填写作业任务单。
任务单课程基本信息
课题
数据可视化之词云
教科书
书名:信息技术-必修一:数据与计算
出版社:人民教育出版社
/中国地图出版社
出版日期:2019年
8月
教学目标
教学目标:
知识与技能:理解词云的概念及意义,掌握在线和Python编程生成词云的方法。
过程与方法:通过在线生成词云体验词云的意义,通过Python语言实现词云学习词云的生成方法,体验词云在文本可视化中的意义。
情感态度与价值观:认识到词云在数据分析以及文本数据可视化过程中的价值和意义,从而认识到信息技术数字化方法对于个人生活和社会发展的重要作用。
教学重点:掌握使用词云实现文本数据可视化的方法、Python语言实现词云
教学难点:Python语言实现词云
教学过程
时间
教学环节
主要师生活动
8分钟
环节一
词云的概念
1、概念的引入
(1)大数据时代
(2)数据挖掘
2、词云的概念
(1)词云的概念
(2)词云的制作步骤
(3)人工制作词云
3、活动一:人工制作词云图
教师活动:讲解演示
学生活动:完成活动任务,填写任务单
15分钟
环节二
词云的制作
1、在线制作词云
(1)网址:https://wordart.com/create
(2)步骤:导入文本、选择图形、导入字体、生词词云
学生活动二:在线生成词云。
2、用Python编程生成词云
(1)讲解Python语言生成词云的方法和步骤
(2)Python词云代码讲解
(3)演示Python语言生成词云的编辑和运行
(4)学生实践活动三:Python语言实现词云
教师活动:讲解演示
学生活动:完成活动任务,填写任务单