项目九第二课时 了解机器学习中的数据采集与预处理(共31张PPT)+教案+素材

文档属性

名称 项目九第二课时 了解机器学习中的数据采集与预处理(共31张PPT)+教案+素材
格式 zip
文件大小 42.9MB
资源类型 试卷
版本资源 沪教版(2019)
科目 信息技术(信息科技)
更新时间 2020-10-19 11:03:38

文档简介

中小学教育资源及组卷应用平台
项目九
了解手写数字识别
——体验人工智能
第二课时
了解机器学习中的数据采集与预处理
■教材分析
“了解机器学习中的数据采集与预处理”这一小节,让学生通过了解手写数字识别的核心技术——机器学习,感受人工智能技术。
机器学习是人工智能的核心研究领域之一,它研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,从而不断改善自身的性能。机器学习是一门研究学习算法的学问,它利用已有的数据来建立模型,再用模型去解决未知的问题。
机器学习的一般过程为:用采集到的数据进行训练,以建立一个模型,再对模型进行验证和评估,然后投入应用。
■教学目标
1、知识和技能
(1)了解“机器学习”概念。
(2)了解机器学习的一般过程。
2、过程与方法
让学生通过了解手写数字识别的核心技术———机器学习,感受人工智能技术。学生通过了解机器学习的含义、应用及作用,了解机器学习的一般过程。
3、情感态度与价值观
(1)了解手写数字识别的核心技术———机器学习,感受人工智能技术。学生通过了解人工智能和机器学习的含义、应用及作用,提升对人工智能技术作用的认识,发展信息社会责任;
(2)通过学生通过使用
Python
及其第三方工具进行手写数字识别学习过程的体验,在完成项目的过程中了解人工智能解决问题的思想方法,促进计算思维的形成与发展。
■教学重点:
了解机器学习的概念。
■教学难点:
机器学习的一般过程。
■教学准备
多媒体教室。
■教学过程:
一、新课导入
教师播放机器人与机器人对话和机器人与人对话的视频。
提出问题:“机器人为什么有很多简单话都听不董?”以此引出机器学习的概念及一般过程。
二、机器学习
机器学习是人工智能的核心研究领域之一,它研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,从而不断改善自身的性能。
人类学习的机理,一般认为是通过积累并利用经验来构造或修改对于所经历事物的判断。机器学习正是从人类学习中受到启发:机器要学会某一个概念,可以通过从数据中获取一些规则性的东西,来形成一个可用于判断未知事物的模型。实际上,机器学习是一门研究学习算法的学问,它利用已有的数据来建立模型,再用模型去解决未知的问题。和一般计算机程序中的算法不同的是,学习算法具有不断改善自身性能的能力,从而使机器的能力变得越来越强,甚至算法设计者本人也不能预测机器的能力可以达到何种程度。特别是在大数据的背景下,用大量长期积累的数据学习得到的模型,已经表现出了优越的性能。数据为王,未来的机器其能力将以数据为依托,提升空间巨大。
近年来,机器学习在许多应用领域中均发挥了重要作用,极大地推动了社会的进步,如下图所示。
在机器学习中,要解决的问题可以分为分类(识别)和回归(预测)两大类。
分类问题是指,给定一个新的模式,根据训练集推断它所对应的类别是什么,这是一种定性输出,也叫离散变量预测。指纹识别、人脸识别、图像分类等都属于分类问题。
回归问题是指,给定一个新的模式,根据训练集推断它所对应的输出值是多少,这是种定量输出,也叫连续变量预测。天气预报、市场测、金融分析等都属于回归问题。
根据已有数据的不同,机器学习又可以分为监督学习和无监督学习。针对已被标注的数据,采用监督学习;针对未被标注的数据,采用无监督学习。目前,监督学习已在工业界取得了很多成功应用。无监督学习是众多科研工作者一直在努力的研究方向。如果在无监督学习方向能有所突破,将会极大地推动机器学习的发展,产生巨大的社会效益。
三、机器学习的一般过程
机器学习的一般过程为:用采集到的数据进行训练,以建立一个模型,再对模型进行验证和评估,然后投入应用如图所示。
1.数据的采集
在手写字体识别中,最简单的当属手写数字识别,但这对计算机来说却仍然颇具挑战性。针对手写数字识别,人们开发了可用于机器学习的MNIST数据集。作为机器学习的入门学习者,我们将直接使用现成的MNIST数据集。MNIST数据集了70000张从0到9这10个数字的样本图片,由250个人手写的不同数字构成。所有图片样本都由人工完成标注,即标明它是哪个数字。
建立模型、验证模型和评估模型,都需要使用样本图片,所以采集到的70000张图片被分成两部分,其60000张图片作为训练样本,10000张图片作为测试样本。如下图所示,训练样本又可以再细分为Train(训练)集合和Validation((验证)集合。其中Train合5500张图片,用于训练以建立模型。Validation集合包含5000张图片,用于粗略判断训练的效果以验证模型。测试样本即Test(测试)集合,用于评估最终模型的优劣,在建立模型训练过程中是不使用的。
2.数据预处理
采集到的700000张样本图片,每一张都代表了从0到9中一个数字,所有的数字都出现在图片的正中间(下图)
这些图片并非二值图像,而是灰度图像。每一张图片都由28×28个像素点组成,每个像素点用一个灰度值表示。但是这样的灰度图像并不能直接用于机器学习,必须先要对它进行向量化。
二值图像:是指像素点的值只能为0或1的图像。
灰度图像:灰度图像是用0来表示白色,用1表示黑色,中间名级别的灰色用(0,1)中的相应小数来表示的图像。
如下图所示,把各种灰度的像素点转换成具体的数值,就可以得到一个矩阵。把矩阵中除第一行外的每一行依次接在前一行之后,可以得到一个长度为784(28×28)的一维数组,该数组中的每一个元素与图片像素矩阵中的每一个数字是一一对应的。这样就完成了图片的向量化。对所有的训练样本和测试样本进行同样的向量化处理,就得到了手写数字识别算法所需要的输入样本。
MNIST数据集可直接在MNIST数据集官方网站下载。在Python语言中,有一些第三方工具,可用来方便地读入
MNIST数据集,并直接完成向量化。
通过以下这行代码,可以读取MNIST数据集。注意先要将下载的数据集存放在指定路径中。
input_data.read_
data_sets函数会自动将MNIST数据集划分为Train、Validation和Test三个数据集。设置one_hot=True,可以将标注信息转化为本项目中所使用的手写数字识别算法的标准格式。
四、课后作业
Python
语言中,运行配套资源中的相关代码,将读入的
MNIST
数据集中的二进制文件数据转换成图像格式文件,观察两者之间的对应关系,体会图像是如何被向量
化的。
MNIST=input_data.read_data_sets("MNIST_data",
one_hot=True)
21世纪教育网
www.21cnjy.com
精品试卷·第
2

(共
2
页)
HYPERLINK
"http://21世纪教育网(www.21cnjy.com)
"
21世纪教育网(www.21cnjy.com)(共31张PPT)
第二课时
了解机器学习中的
数据采集与预处理
信息技术沪教版
必修1
第四单元
人工智能初步
项目九
了解手写数字识别
——体验人工智能
二、机器学习
三、机器学习的一般过程
一、新课导入
目录
■教学过程
一、新课导入
二、机器学习
机器学习是人工智能的核心研究领域之一,它研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,从而不断改善自身的性能。
制造业
◆预见性维护或状态监测
◆保证金预估
◆客户购买倾向
◆需求预测
◆流程优化
◆远程信息处理
保健与生命科学
◆根据病人实时数据作出
◆预警及诊断
◆疾病鉴定和风险分级
◆病人分流优化
◆主动健康管理
◆医疗保健提供者情绪分
◆析
零售业
◆预测库存计划
◆商品推荐
◆上行销售和跨渠道营销
◆市场细分与市场定位
◆客户投资回报率和终身
◆价值
近年来,机器学习在许多应用领域中均发挥了重要作用,极大地推动了社会的进步
能源、原料和公共事业
◆电力使用情况分析
◆地震数据处理
◆碳排放与碳交易
◆客户特定价格
◆智能电网管理
◆能源需求与供给优化
金融服务
◆风险分析与管控
◆客户分类
◆交叉销售和上行销售
◆市场营销活动管理
◆信用评价
旅行与接待
近年来,机器学习在许多应用领域中均发挥了重要作用,极大地推动了社会的进步
分类问题
分类问题是指,给定一个新的模式,根据训练集推断它所对应的类别是什么,这是一种定性输出,也叫离散变量预测。指纹识别、人脸识别、图像分类等都属于分类问题。
回归问题
回归问题是指,给定一个新的模式,根据训练集推断它所对应的输出值是多少,这是种定量输出,也叫连续变量预测。天气预报、市场测、金融分析等都属于回归问题。
监督学习
针对已被标注的数据,采用监督学习。
监督学习已在工业界取得了很多成功应用。
无监督学习
针对未被标注的数据,采用无监督学习。
无监督学习是众多科研工作者一直在努力的研究方向。
1
2
三、机器学习的一般过程
用采集到的数据进行训练,以建立一个模型,再对模型进行验证和评估,然后投入应用。
机器学习的一般过程
验证模型
评估模型
应用模型
建立模型
采集数据
在手写字体识别中,最简单的当属手写数字识别,但这对计算机来说却仍然颇具挑战性。针对手写数字识别,人们开发了可用于机器学习的MNIST数据集。作为机器学习的入门学习者,我们将直接使用现成的MNIST数据集。
1.数据的采集
验证集合
Validation
5000张
5
训练集合
Train
5500张
4
测试样本Test
10000张
3
训练样本
60000张
2
采集样本
70000张
1
采集的样本使用分配
MNIST数据集
训练样本
测试样本
Train集合
Validation集合
Test集合
用于评估最终模型
用于测试训练效果以验证模型
用于训练以建立模型
采集到的700000张样本图片,每一张都代表了从0到9中一个数字,所有的数字都出现在图片的正中间。
2.数据预处理
这些图片并非二值图像,而是灰度图像。每一张图片都由28×28个像素点组成,每个像素点用一个灰度值表示。但是这样的灰度图像并不能直接用于机器学习,必须先要对它进行向量化。
二值图像
是指像素点的值只能为0或1的图像。
灰度图像
灰度图像是用0来表示白色,用1表示黑色,中间名级别的灰色用(0,1)中的相应小数来表示的图像。
把各种灰度的像素点转换成具体的数值,就可以得到一个矩阵。把矩阵中除第一行外的每一行依次接在前一行之后,可以得到一个长度为784(28×28)的一维数组,该数组中的每一个元素与图片像素矩阵中的每一个数字是一一对应的。
这样就完成了图片的向量化。对所有的训练样本和测试样本进行同样的向量化处理,就得到了手写数字识别算法所需要的输入样本。
MNIST数据集可直接在MNIST数据集官方网站下载。在Python语言中,有一些第三方工具,可用来方便地读入
MNIST数据集,并直接完成向量化。
通过以下这行代码,可以读取MNIST数据集。注意先要将下载的数据集存放在指定路径中。
MNIST=input_data.read_data_sets("MNIST_data",
one_hot=True)
input_data.read_
data_sets函数会自动将MNIST数据集划分为Train、Validation和Test三个数据集。设置one_hot=True,可以将标注信息转化为本项目中所使用的手写数字识别算法的标准格式。
1.为什么要将矩阵转化为一维数据?
2.如果是二值图像,该如何完成向量化?
四、课后作业
Python
语言中,运行配套资源中的相关代码,将读入的
MNIST
数据集中的二进制文件数据转换成图像格式文件,观察两者之间的对应关系,体会图像是如何被向量化的。
谢谢
21世纪教育网(www.21cnjy.com)
中小学教育资源网站
有大把高质量资料?一线教师?一线教研员?
欢迎加入21世纪教育网教师合作团队!!月薪过万不是梦!!
详情请看:
https://www.21cnjy.com/help/help_extract.php(共31张PPT)
第二课时
了解机器学习中的
数据采集与预处理
信息技术沪教版
必修1
第四单元
人工智能初步
项目九
了解手写数字识别
——体验人工智能
二、机器学习
三、机器学习的一般过程
一、新课导入
目录
■教学过程
一、新课导入
二、机器学习
机器学习是人工智能的核心研究领域之一,它研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,从而不断改善自身的性能。
制造业
◆预见性维护或状态监测
◆保证金预估
◆客户购买倾向
◆需求预测
◆流程优化
◆远程信息处理
保健与生命科学
◆根据病人实时数据作出
◆预警及诊断
◆疾病鉴定和风险分级
◆病人分流优化
◆主动健康管理
◆医疗保健提供者情绪分
◆析
零售业
◆预测库存计划
◆商品推荐
◆上行销售和跨渠道营销
◆市场细分与市场定位
◆客户投资回报率和终身
◆价值
近年来,机器学习在许多应用领域中均发挥了重要作用,极大地推动了社会的进步
能源、原料和公共事业
◆电力使用情况分析
◆地震数据处理
◆碳排放与碳交易
◆客户特定价格
◆智能电网管理
◆能源需求与供给优化
金融服务
◆风险分析与管控
◆客户分类
◆交叉销售和上行销售
◆市场营销活动管理
◆信用评价
旅行与接待
◆飞机调度
◆动态定价
◆媒体一消费者反馈与互
◆动分析
◆客户投诉解决
◆交通模式与拥塞管理
近年来,机器学习在许多应用领域中均发挥了重要作用,极大地推动了社会的进步
分类问题
分类问题是指,给定一个新的模式,根据训练集推断它所对应的类别是什么,这是一种定性输出,也叫离散变量预测。指纹识别、人脸识别、图像分类等都属于分类问题。
回归问题
回归问题是指,给定一个新的模式,根据训练集推断它所对应的输出值是多少,这是种定量输出,也叫连续变量预测。天气预报、市场测、金融分析等都属于回归问题。
监督学习
针对已被标注的数据,采用监督学习。
监督学习已在工业界取得了很多成功应用。
无监督学习
针对未被标注的数据,采用无监督学习。
无监督学习是众多科研工作者一直在努力的研究方向。
1
2
三、机器学习的一般过程
用采集到的数据进行训练,以建立一个模型,再对模型进行验证和评估,然后投入应用。
机器学习的一般过程
验证模型
评估模型
应用模型
建立模型
采集数据
在手写字体识别中,最简单的当属手写数字识别,但这对计算机来说却仍然颇具挑战性。针对手写数字识别,人们开发了可用于机器学习的MNIST数据集。作为机器学习的入门学习者,我们将直接使用现成的MNIST数据集。
1.数据的采集
验证集合
Validation
5000张
5
训练集合
Train
5500张
4
测试样本Test
10000张
3
训练样本
60000张
2
采集样本
70000张
1
采集的样本使用分配
MNIST数据集
训练样本
测试样本
Train集合
Validation集合
Test集合
用于评估最终模型
用于测试训练效果以验证模型
用于训练以建立模型
采集到的700000张样本图片,每一张都代表了从0到9中一个数字,所有的数字都出现在图片的正中间。
2.数据预处理