网络购物平台客户行为数据分析报告
一、引言
随着移动互联网和物联网的飞速发展,人类社会产生的数据以惊人的速度增长。海量的数据几乎包含一切形式的结构化、半结构化以及非结构化的数据,如网络日志、音频、视频、图片、地理位置信息等。如何高效地对这些数据进行采
集、存储、处理,并从中发掘到有价值的信息,是大数据分析处理需要解决的问题。
二、分析目的
网络购物中,消费者购物行为的任何一个细节都被服务器记录着。通过大数据分析,商家可以了解消费者的偏好甚至预测其购买行为,如下图所示。大数据分析使得商家可以追踪用户的行为并确定最有效的方式以提升用户对购物平台的忠诚度,根据用户的个性化需求提供相应的产品或服务以获得更大的市场占有率。
认识大数据及其特征,认识大数据对人们日常生活的影响,了解数据采
集、分析和可视化表达的基本方法;学会选用恰当的软件工具或平台处理数据,完成分析报告;理解对数据进行保护的意义。
三、分析内容与步骤
1.分析内容
(1)网购行为数据采集。
(2)网购行为数据分析。
(3)网购行为数据可视化表达。
2.分析步骤
(1)确定数据来源。
(2)确定数据分析方法。
(3)用恰当工具可视化表达数据。
四、分析工具和方法
利用思维导图工具和“头脑风暴”的方法组建团队、明确任务;采用python工具和可视化分析工具,实施探究。
五、分析过程
1.确定数据来源
我们所分析的网购数据,必须来源于某一个网购网站。为了方便学习,我们利用虚拟机文件,搭建了一个“网络商城”。我们利用Python工具中的爬虫模块,对数据抓取和分析。
抓取数据的程序如下所示:
(1)抓取页面设置。
(2)抓取商品标题。
(3)抓取商品价格。
(4)爬取商品订单量。
(5)抓取出售商品的店铺名称。
2.确定数据分析方法
数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模型评价等。
(1)大数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
(2)关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式
(3)聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
(4)数据分类是大数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。
3.用恰当工具可视化表达数据
大数据可视化可以让人们快速抓住要点信息,让关键的数据点从人们的眼睛快速通往心灵深处。从常用和实用的维度,大数据可视化的呈现类型主要分为探索和解释两种不同的类型。探索类型可以帮助人们发现数据背后的价值,而解释类型则把数据简单明了地解释给人们。按照处理数据类型的不同,可视化呈现的主要方式如下表所示。
六、分析结果
1.大数据是人们提取信息、做出决策的重要依据,是推动信息社会发展的重要资源
大数据的产生是与人类日益普及的网络行为所伴生的:物联网、云计算、移动互联网、车联网、手机、电脑以及遍布地球各个角落的各种各样的传感器,无一不是数据的来源或是承载的方式。互联网生成的数据量,不仅远超此前一切人类所生成的数据量的总和,而且在以大爆发性的速度不断增长。
大数据成为人们提取信息、做出决策的重要依据,是推动信息社会发展的重要资源。
2.大数据采集的工具和方法是大数据采集的关键
大数据的来源广泛(主要是互联网和物联网)、类型丰富、规模巨大。采集大数据首先要明确大数据应用项目的需求,围绕选定的项目主题,制订大数据采集的需求清单和内容大纲,采用适当的方法和工具进行采集。
大数据作为一种工具,用在什么地方、掌握在谁手里都是次要的,关键是看怎样利用这个工具。在安全的前提下,实现数据共享,真正创造数据价值,这才是大数据真正的目的。
3.
Python语言是大数据可视化表达的高效工具
在大数据时代,复杂繁多且不同类型的数据大量涌来,往往超出了人们的处理能力,人类的大脑也难以从堆积如山的数据中快速发现核心问题,而数据可视化可以把枯燥乏味的海量数据以丰富的视觉效果呈现数据所反映的本质问题,有效提升数据分析的效率。大数据可视化是指以图形、图像、地图、动画等生动、易于理解的方式展示数据和诠释数据之间的关系、趋势与规律等,以便更好地理解数据。
大数据可视化可以让人们快速抓住要点信息,让关键的数据点从人们的眼睛快速通往、心灵深处。大数据可视化呈现的形式千变万化,实现的工具众多。其中,Python语言因其开源和包容的特性,嵌入了大量数据可视化的工具,深受大家的喜爱。
七、结语
本章通过“网络平台的客户行为数据分析和可视化表达”项目,进行自主、协作、探究学习,让同学们认识大数据及其特征,认识大数据对人们日常生活的影响,了解数据采集、分析和可视化表达的基本方法;学会选用恰当的软件工具
或平台处理数据,完成分析报告;理解对数据进行保护的意义,从而将知识建构、技能培养与思维发展融入运用数字化工具解决问题和完成任务的过程中,促进信息技术学科核心素养达成,完成项目学习目标。