中小学教育资源及组卷应用平台
5.3数据的分析
一、选择题
1、下列可以用于分析数据趋势的是(
)。
A、饼图
B、折线图
C、动态热力图
D、词云图
2、数据分析的方法不包括(
)。
A、线性分析
B、关联分析
C、聚类分析
D、数据分类
3、数据特征探索的主要任务是对数据进行预处理,以下不属于该过程的是(
)。
A、数据清洗
B、异常数据处理
C、数据缺失处理
D、数据分类处理
4、海军军官通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的(
)
A、在数据基础上倾向于全体数据而不是抽样数据
B、在分析方法上更注重相关分析而不是因果分析
C、在分析效果上更追究效率而不是绝对精确
D、在数据规模上强调相对数据而不是绝对数据
5、某超市曾经研究销售数据,发现买商品A的人购买商品B的概率很大,
这种属于数据的(
)。
A、聚类分析
B、关联分析
C、分类分析
D、回归分析
6、下列关于聚类分析的说法,错误的是(
)。
A、可以从数据点集合中随机选择K个点作为初始的聚集中心
B、对其他的每个数据点,以此判断其与K个中心点的距离,距离最近的表明它属于这项聚类
C、聚类分析,必须先设定分类的标准,否则无法准确分类
D、重新计算新的聚簇集合的平均值既中心点
7、K-平均算法属于(
)分析方法。
A、聚类
B、关联
C、分类
D、回归
8、按照涉及自变量的多少,下列(
)属于回归分析。
A、线性回归分析??
B、非线性回归分析??
C、一元回归分析??
D、综合回归分析
9、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是(?
)。
A、数据管理人员
B、数据分析员
C、研究科学家
D、软件开发工程师
10、下列关于网络用户行为的说法中,错误的是(?
)。?
A、网络公司能够捕捉到用户在其网站上的所有行为??
B、用户离散的交互痕迹能够为企业提升服务质量提供参考??
C、数字轨迹用完即自动删除???
D、用户的隐私安全很难得以规范保护
二、判断题
1、数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。(
)
2、聚类分析不需要预先设定数据归类的类目,完全根据数据本身性质将数据聚合成不同类别。(????)
3、大数据的分析理念在数据规模上强调相对数据而不是绝对数据。(????)
4、聚类分析的基本算法从数据点集合中固定选择K个点作为初始的聚集中心,每个中心点代表着每个聚集中心的平均值。(????)
5、数据异常值处理中,我们可以利用画饼图发现异常值部分。(????)
试题答案
一、选择题
1
2
3
4
5
6
7
8
9
10
D
A
D
B
B
C
A
C
C
C
解析:
1、折线图可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。
2、数据分析一般包括特征探索、关联分析、聚类与分类、建立模型
和模型评价等。
3、数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
4、关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
5、购买商品A的人也喜欢购买商品B,两个商品的销售就产生了一定的关联性,所以属于关联分析。
6、聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准。
数据分类才是基于样本数据先训练构建分类函数或者分类模型。
7、K-平均算法的基本思想就是在空间N个点中,初始选择K个点作为中心聚类点,然后将N个点分别与K个点计算距离,选择自己最近的点作为自己的中心点,再不断更新中心聚集点,以达到“物以类聚,人以群分”的效果。
8、按照涉及自变量的多少,回归分析分为:一元回归分析和多元回归分析。
9、研究科学家根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析。
10、数字轨迹用完不会自动删除,需要人工手动删除。
二、判断题
1
2
3
4
5
√
√
×
×
解析:
1、数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
2、聚类分析能够从样本数据出发,自动进行分类。
3、相对数据是从数量上反映两个相互联系的现象之间的对比关系。
绝对数据是反映客观现象总体在一定时间、地点条件下的总规模、总水平的数据。
大数据的分析理念在数据规模上强调绝对数据而不是相对数据。
4、聚类分析的基本算法采用的是随机选择K个点作为初始的聚集中心,不是采用固定选择。
5、数据异常值处理中,我们可以利用画散点图发现异常值部分,不是饼图。
散点图:指在回归分析中,数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。
饼图:饼图显示一个数据系列中各项的大小与各项总和的比例。
21世纪教育网
www.21cnjy.com
精品试卷·第
2
页
(共
2
页)
HYPERLINK
"http://21世纪教育网(www.21cnjy.com)
"
21世纪教育网(www.21cnjy.com)(共36张PPT)
5.3
数据的分析
高中信息技术
必修1
新知导入
本节主要内容:
1、特征探索
2、关联分析
3、聚类分析
4、数据分类
新知讲解
5.3.1
特征探索
新知讲解
数据分析的内容
新知讲解
数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
新知讲解
数据预处理的关键过程
(1)数据清理,发现缺失值。
x=0
data["price"][(data["price"]==0)]=None
For
i
in
data.columns:
?
for
j
in
range(len(data)):
??
if(data[i].isnull())[j]:
???
data[i][j]="64"
???
x+=1
print(x)??
新知讲解
数据预处理的关键过程
(2)异常值处理中,利用画散点图发现异常值部分。
data2=data.T
price=data2.values[2]
comt=data2.values[3]
pyl.plot(price,comt,"o")
pyl.show(
)
新知讲解
数据预处理的关键过程
(3)求最大值和最小值。
pricemax=da2[2].max(?)
pricemin=da2[2].min(?)
commentmax=da2[3].max(?)
commentmin=da2[3].min(?)
新知讲解
数据预处理的关键过程
(4)求极差。
pricerg=pricemax-pricemin
commentrg=commentmax-commentmin
(5)求组距。
pricedst=pricerg/13
commentdst=commentrg/13
新知讲解
数据预处理的关键过程
(6)绘制价格直方图。
(7)绘制评论数直方图。
pricesty=npy.arange(pricemin,pricemax,pricedst)
pyl.hist(da2[2],pricesty)
pyl.show(?)
commentsty=npy.arange(commentmin,commentmax,commentdst)
pyl.hist(da2[2],commentsty)
pyl.show(?)
新知导入
5.3.2
关联分析
新知讲解
关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
新知讲解
关联分析的基本算法
(1)扫描历史数据,并对每项数据进行频率次数统计。
(2)构建候选项集C1,并计算其支持度,即数据出现频率次数与总数的比。
(3)对候选项集的支持度进行筛选,筛选的数据项支持度应当不小于最小支持度,
从而形成频繁项集L1。
(4)对频繁项集L2进行连接生成候选项集C2,重复上述步骤,最终形成频繁K项集或
者最大频繁项集。
新知讲解
关联分析的关键过程
(1)自定义连接函数,用于实现L_{k-1}到C_k的连接。
Def
connect_string(x,ms):
??x=list(map(lambda
i:sorted(i.split(ms)),x))
??l=len(x[0])
??r=[]
??for?i?in?range(len(x)):
????for?j?in?range(i,len(x)):
??????if?x[i][:l-1]==x[j][:l-1]?and?x[i][l-1]!=x[j][l-1]:
???????r.append(x[i][:l-1]+sorted([x[j][l-1],x[i][l-1]]))
????return?r
新知讲解
关联分析的关键过程
(2)寻找关联规则。
result=pd.DataFrame(index=['support','confidence'])??#?定义输出结果
?support_series=1.0
d.sum()/len(d)??#?支持度序列
?column=list(support_series[support_series>support].index)??#?初步根据支持度筛选
?k=0
?while?len(column)>1:
??k=k+1
??print(u'\n正在进行第%s次搜索...'%k)
??column=connect_string(column,ms)
??print(u'数目:%s...'%len(column))
??sf=lambda?i:d[i].prod(axis=1,numeric_only=True)??#?新一批支持度的计算函数
新知讲解
关联分析的关键过程
(3)创建连接数据。
d_2=pd.DataFrame(list(map(sf,column)),index=[ms.join(i)for?i?in?column]).T
support_series_2=1.0
d_2[[ms.join(i)?for?i?in?column]].sum()/len(d)?
column=list(support_series_2[support_series_2>support].index)?
support_series=support_series.append(support_series_2)
?column2=[]
新知讲解
关联分析的关键过程
(4)遍历可能的推理。
for?i?in?column:
?
??????i=i.split(ms)
??????for?j?in?range(len(i)):
??????column2.append(i[:j]+i[j+1:]+i[j:j+1])
新知讲解
关联分析的关键过程
(4)遍历可能的推理。
for?i?in?column:
?
??????i=i.split(ms)
??????for?j?in?range(len(i)):
??????column2.append(i[:j]+i[j+1:]+i[j:j+1])
新知讲解
关联分析的关键过程
(5)计算置信度序列。
for?i?in?column2:????cofidence_series[ms.join(i)]=support_series[ms.join(sorted(i))]/support_series[ms.join(i[:len(i)?-?1])]
新知讲解
关联分析的关键过程
(6)置信度筛选。
for?i?in?cofidence_series[cofidence_series>confidence].index:??
????result[i]=0.0
????result[i]['confidence']=cofidence_series[i]????????result[i]['support']=support_series[ms.join(sorted(i.split(ms)))
]
新知导入
5.3.3
聚类分析
新知讲解
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
新知讲解
K-平均算法的基本思想就是在空间N个点中,初始选择K个点作为中心聚类点,然后将N个点分别与K个点计算距离,选择自己最近的点作为自己的中心点,再不断更新中心聚集点,以达到“物以类聚,人以群分”的效果。
聚类分析K-平均算法
新知讲解
聚类分析的基本算法
(1)从数据点集合中随机选择K个点作为初始的聚集中心,每个中心点代表着每个聚集中心的平均值。
(2)对其余的每个数据点,依次判断其与K个中心点的距离,距离最近的表明它属于这项聚类。
(3)重新计算新的聚簇集合的平均值即中心点。整个过程不断迭代计算,直到达到预先设定的迭代次数或中心点不再频繁波动。
新知讲解
聚类分析的关键程序段。
from?sklearn.cluster?import?KMeans
kms=KMeans(n_clusters=3)
y=kms.fit_predict(x)
print(y)
新知导入
5.3.4
数据分类
新知讲解
数据分类是数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。数据分类和回归分析都可用于预测,预测是指从基于样本数据记录,根据分类准则自动给出对未知数据的推广描述,从而实现对未知数据进行预测。
新知讲解
贝叶斯分类技术在众多分类技术中占有重要地位,也属于统计学分类的范畴,是一种非规则的分类方法。贝叶斯分类技术通过对已分类的样本子集进行训练,学习归纳出分类函数(对离散变量的预测称作分类,对连续变量的分类称为回归),利用训练得到的分类器实现对未分类数据的分类。
课堂练习
如表5-4所示是某网络商城客户购物行为特征的一组统计资料。已知某客户购物行为特征A为数值182.8,特征B为数值58.9,特征C为数值26,请问这人是重要客户还是普通客户?
客户
特征A
特征B
特征C
重要客户
182.8
81.6
30
重要客户
180.4
86.1
29
重要客户
170.0
77.1
30
重要客户
180.4
74.8
28
普通客户
152.4
45.3
24
普通客户
167.6
68.0
26
普通客户
165.2
58.9
25
普通客户
175.2
68.0
27
新知讲解
根据表5-4的资料,得到一个已分类的样本子集:
X=[[182.8,81.6,30],[180.4,86.1,29],[170.0,77.1,30],[180.4,74.8,28],[152.4,45.3,24],[167.6,68.0,26],
[165.2,58.9,25],[175.2,68.0,27]]和Y=[1,1,1,1,0,0,0,0](1代表重要客户,0代表普通客户)。
新知讲解
高斯朴素贝叶斯程序段。
import?numpy?as?np
X=np.array([[182.8,81.6,30],[180.4,86.1,29],[170.0,77.1,30],[180.4,74.8,28],
[152.4,45.3,24],[167.6,68.0,26],[165.2,58.9,25],[175.2,68.0,27]])
Y=np.array([1,1,1,1,0,0,0,0])
from?sklearn.naive_bayes?import?GaussianNB
clf=GaussianNB().fit(X,Y)
print(clf.predict([[182.8,58,9,26]]))
程序结果为:[0],所以这人为普通客户。
知识拓展
在概率统计理论中,条件概率是指事件A在另外一个事件B已经发生条件下的发生概率,表示为P(
A|B),读作“在B的条件下A的概率”。贝叶斯发现在事件B出现的前提下事件A出现的概率,等于事件A出现的前提下事件B出现的概率乘以事件A出现的概率再除以事件B出现的概率。这就是著名的贝叶斯定理。具体计算公式为:
新知讲解
运用贝叶斯定理对事物进行分类,是一种非常有效的思维方法,是贝叶斯决策理论方法的基本思想。例如,假设有一个数据集,由两类组成,且已知每个样本的分类,数据分布如图5-11所示。用p1(x,y)表示数据点(x,y)属于红色一类的概率,用p2(x,y)表示数据点(x,y)属于蓝色一类的概率。
新知讲解
判断对于一个新的点C(x,y)属于红色还是蓝色类别的步骤解答如下:
(1)求新的点C(x,y)属于红色一类的概率p1(x,y)。
(2)求新的点C(x,y)属于蓝色一类的概率p2(x,y)。
(3)选择概率高的一类作为新点C(x,y)的分类。即如果p1(x,y)>p2(x,y),则C(x,y)为红色一类;如果p1(x,y)
谢谢
21世纪教育网(www.21cnjy.com)
中小学教育资源网站
有大把高质量资料?一线教师?一线教研员?
欢迎加入21世纪教育网教师合作团队!!月薪过万不是梦!!
详情请看:
https://www.21cnjy.com/help/help_extract.php