5.3数据分析 (共19张PPT)+练习

文档属性

名称 5.3数据分析 (共19张PPT)+练习
格式 zip
文件大小 8.7MB
资源类型 试卷
版本资源 粤教版(2019)
科目 信息技术(信息科技)
更新时间 2020-12-22 14:36:58

文档简介

中小学教育资源及组卷应用平台
第五章第三节数据分析课后练习
1、数据分析的方法不包括(

A.数据分类
B.关联分析
C.线性分析
D.聚类分析
2、某超市通过研究销售数据,发现购买商品A的人购买商品B的概率很大,这种属于数据的(

A.关联分析
B.分类分析
C.回归分析
D.聚类分析
3、K-平均算法属于(
)分析方法。
A.线性
B.关联
C.聚类
D.聚类
4、(
)和回归分析都可用于预测,预测是指从基于样本数据记录,根据分类准则自动给出对未知数据的推广描述,从而实现对未知数据进行预测。
A.特征探索
B数据分类
C.聚类分析
D.关联分析
5、N维数组对象ndarray是(
)的基本数据结构。
A.NumPy
B.SciPy
C.Pandas
D.Matplotlib
6、(
)类型类似于数据库表结构的数据结构,其是含有行索引和列索引的二维数组结构。
A.ndarray
B.Series
C.
DataFrame
D.字典
7、若要求你对本班同学喜欢看的书籍进行分类统计,并对其进行数据分析,你会如何做?谈谈你的想法。
参考答案:1.C
2.A
3.C
4.B
5.A
6.C
7.略
21世纪教育网
www.21cnjy.com
精品试卷·第
2

(共
2
页)
HYPERLINK
"http://21世纪教育网(www.21cnjy.com)
"
21世纪教育网(www.21cnjy.com)(共19张PPT)




粤教版高中信息技术必修一
目录
特征探索
1
关联分析
2
聚类分析
3
数据分类
4
数据分析
数据分析一般包括特征探索、关联分析、聚类与分类、建立模型(数据呈现)和模型评价(分析报告)等。
数据分析的一般过程
数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。
特征探索
数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
import
pymysql
import
numpy
as
npy
import
pandas
as
pda
import
matplotlib.pylab
as
pyl
import
matplotlib.pyplot
as
plt
做特征分析需要用到的第三方库:连接mysql服务器的库,numpy库、pandas库、matplotlib库,使用之前需要进行安装
Numpy的基本数据结构ndarray
NumPy
最重要的一个特点是其
N
维数组对象
ndarray,它是一系列同类型数据的集合,别名array,以
0
下标为开始进行集合中元素的索引。ndarray
对象是用于存放同类型元素的多维数组。ndarray
中的每个元素在内存中都有相同存储大小的区域。包含丰富的函数
用法示例
关联分析
关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。关联分析的基本算法如下:
(1)扫描历史数据,并对每项数据进行频率次数统计。
(2)构建候选项集C1,并计算其支持度,即数据出现频率次数与总数的比。
(3)对候选项集的支持度进行筛选,筛选的数据项支持度应当不小于最小支持度,从而形成频繁项集L1。
(4)对频繁项集L2进行连接生成候选项集C2,重复上述步骤,最终形成频繁K项集或者最大频繁项集。
认识lambda()函数
在进行编程时,一般我们会给一个函数或者变量起一个名字,该名称是用于引用或寻址函数变量。但是有一个低调的函数,你不需要赋予它名字,因此该函数也叫匿名函数。该函数就是Python中的Lambda函数,匿名函数可以在程序中任何需要的地方使用,但是这个函数只能使用一次,即一次性的。因此Python
Lambda函数也称为丢弃函数,它可以与其他预定义函数(如filter(),map()等)一起使用。相对于我们定义的可重复使用的函数来说,这个函数更加简单快捷。例如:
a
=
lambda
x,y:
x
y
print(a(3,7))
21
认识map
()函数
map函数的用法:map()函数接收两个参数,一个是函数,一个是Iterable,map将传入的函数依次作用到序列的每一个元素,并把结果作为新的Iterable返回。其语法格式为:
?
?
?
?
map(fun_ction,iterable...)
?
?
?
?
fun_ction---函数名
?
?
?
?
iterable---一个或多个序列(字符串、列表或元组)
例如:map(lambda
x:
x
2,
[1,
2,
3,
4,
5])
返回结果:[1,
4,
9,
16,
25]
Pandas的基本数据结构Series
 
Series
是一个类数组的数据结构,同时带有标签(lable)或者说索引(index)。
Pandas的基本数据结构DataFrame
 
DataFrame
类型类似于数据库表结构的数据结构,其含有行索引和列索引,可以将DataFrame
想成是由相同索引的Series组成的Dict类型。在其底层是通过二维以及一维的数据块实现。
聚类分析
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。K-平均(K-Means)算法是一种经典的自下而上的聚类分析方法。K-平均算法的基本思想就是在空间N个点中,初始选择K个点作为中心聚类点,然后将N个点分别与K个点计算距离,选择自己最近的点作为自己的中心点,再不断更新中心聚集点,以达到“物以类聚,人以群分”的效果。
聚类分析的基本算法
聚类分析的基本算法如下:
(1)从数据点集合中随机选择K个点作为初始的聚集中心,每个中心点代表着每个聚集中心的平均值。
(2)对其余的每个数据点,依次判断其与K个中心点的距离,距离最近的表明它属于这项聚类。
(3)重新计算新的聚簇集合的平均值即中心点。整个过程不断迭代计算,直到达到预先设定的迭代次数或中心点不再频繁波动。
第三方模块Sklearn简介
Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression)、降维(Dimensionality
Reduction)、分类(Classfication)、聚类(Clustering)等方法。它有如下特点:
(1)简单高效的数据挖掘和数据分析工具
(2)让每个人能够在复杂环境中重复使用
(3)建立NumPy、Scipy、MatPlotLib之上
数据分类
数据分类是数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。数据分类和回归分析都可用于预测,预测是指从基于样本数据记录,根据分类准则自动给出对未知数据的推广描述,从而实现对未知数据进行预测。
贝叶斯分类技术
贝叶斯分类技术在众多分类技术中占有重要地位,也属于统计学分类的范畴,是一种非规则的分类方法。贝叶斯分类技术通过对已分类的样本子集进行训练,学习归纳出分类函数(对离散变量的预测称作分类,对连续变量的分类称为回归),利用训练得到的分类器实现对未分类数据的分类。
贝叶斯简介
贝叶斯,英国数学家,发明了概率统计学原理,将归纳推理法用于概率论基础理论,创立了贝叶斯统计理论,对统计决策函数、统计推断、统计的估算等做出了贡献。
概率分类
运用贝叶斯定理对事物进行分类,是一种非常有效的思维方法,是贝叶斯决策理论方法的基本思想。例如,假设有一个数据集,由两类组成,且已知每个样本的分类,求出表示数据点(x,
y)属于红色一类的概率p1(x,
y)
,表示数据点(x,
y)属于蓝色一类的概率p2(x,
y)
,选择概率高的一类作为新点C(x,
y)的分类。若有多个分类,而要求新点属于哪一类,要求新点属于哪一类,只需求出新点在所有类别中概率最大的一类。这就是贝叶斯决策理论的核心思想,即选择具有最高概率的决策。

观看

https://www.21cnjy.com/help/help_extract.php