必修1数据与计算
第五章 数据处理和可视化表达
5.1认识大数据
5.1.1大数据
大数据是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
5.1.2大数据的特征
(1)从互联网产生大数据的角度来看,大数据具有“4V”特征:大量(Volume)、多样(Variety)、低价值密度(Value)、高速(Velocity)。
第一,数据体量巨大。从TB级别跃升到PB级别。
第二,数据类型繁多。如网络日志、视频、图片、地理位置信息等。
第三,价值密度低。以视频为例,在连续不间断的监控过程中,有用的数据可能仅仅一两秒。
第四,变化速度快。数据来自世界各地的网络终端,且以秒为单位快速变化。
(2)从互联网思维的角度来看,大数据具有三个特征:样本渐趋于总体,精确让位于模糊,相关性重于因果。
第一,在大数据时代强调数据要全量而不是抽样,即强调数据规模全量,而不是强调数量巨大。大数据时代有了更好的数据采集手段,让获取全量数据成为可能。
第二,大数据时代研究的数据如此之多,追求的不是精确性,而是模糊性。在大数据时代,只要掌握了大体的发展方向即可,适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力。
第三,大数据时代不是因果关系,而是相关关系。在大数据时代,无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系;相关关系也许不能准确地告诉我们某件事情为何会发生,但是会提醒我们这件事情正在发生。
(3)从大数据存储与计算的角度来看,大数据具有两个特征:分布式存储和分布式并行计算。
第一,大数据存储在互联网不同的服务器与各客户终端。
第二,应用分布式并行计算处理互联网的大数据。
5.1.3 大数据对日常生活的影响
1.大数据使人们日常生活更为便捷:方便支付;方便出行;方便购物与产品推介;方便看病与诊病。
2.大数据对人们日常生活产生的负面影响:个人信息泄露;信息伤害与诈骗。
5.2数据的采集
5.2.1数据采集的基本方法
数据采集的基本方法包括:1.系统日志采集法;2.网络数据采集法;3.其他数据采集法。
拓展:Python网络数据采集程序使用的扩展库
(1)NumPy(NumericalPython)
是构建科学计算最基础的软件库;
(2)SciPy
是一个工程和科学软件库,包含线性代数、优化、集成和统计的模块;
(3)Pandas
是一个Python包,旨在通过标记(labeled)和关系(relational)数据进行工作;
(4)Matplotlib
是Python的一个2D绘图库。
在Python模块库中有大量模块可供使用,要想使用这些文件,就需要用import语句把指定模块导入当前程序中。使用import语句导入模块的语法如下:
from import语句也是导入模块的一种方法,是导入指定模块内的指定函数方法。使用from import语句导入模块内指定方法的语法如下:
5.2.2 数据的存储和保护
1.数据的存储
一种是把数据存在本地内部,另一种是把数据存在第三方公共或私有的“云端”存储。
2.数据的保护
(1)数据安全保护技术。安装杀毒软件和防火墙只能防备数据安全隐患,而采用拷贝、备份、复制、镜像、持续备份等技术进行数据保护才是更为彻底、有效的方法。
为了防止数据泄密,可采用对称式加密(加密、解密用同一密钥)和非对称式加密(加密、解密用两个不同的密钥)。
(2)数据的隐私保护。解决办法有三个:一是技术手段,常用的隐私保护有:①数据收集时进行数据精度处理;②数据共享时进行访问控制;③数据发布时进行人工加扰;④数据分析时进行数据匿名处理等。二是提高自身的保护意识。三是要对数据使用者进行道德和法律上的约束。
5.3数据的分析
数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。
数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模型评价等。
5.3.1 特征探索
特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
5.3.2 关联分析
关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
5.3.3 聚类分析
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
K-平均算法是一种经典的自下而上的聚类分析方法。
5.3.4 数据分类
数据分类是数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。
贝叶斯分类技术在众多分类技术中占有重要地位。
5.4数据的可视化表达
数据的可视化可以把枯燥乏味的海量数据以丰富的视觉效果呈现数据所反映的本质问题,有效提升数据分析的效率。数据可视化是指以图形、图像、地图、动画等生动、易于理解的方式展示数据和诠释数据之间的关系、趋势与规律等,以便更好地理解数据。
5.4.1 数据可视化表达方式(见下页表5-5)
5.4.2 数据可视化工具
Python语言因其开源和包容的特性,嵌入了大量数据可视化的工具,如绘图工具模块Matplotlib、Seaborn和Bokeh等。
Seaborn主要关注统计模型的可视化。
Bokeh也是一个很好的可视化库,可实现交互式可视化。
第五章 数据处理和可视化表达 学业测试
一、单选题
1.从互联网产生大数据的角度,大数据具有的特征( )
A.4V特征:大量(Volume)、多样(Variety)、低价值密度(Value)、高速(Velocity)
B.样本渐趋于总体,精确让位于模糊,相关性重于因果
C.分布式存储,分布式并行计算
D.没有特征
【答案】:A
【解析】:见教材P102,从互联网产生大数的角度来看,大数据的4V特征。
2.下列可以用于分析数据趋势的是( )
A.饼图 B.折线图 C.动力热力图 D.词云图
【答案】:B
【解析】:见教材P119页,有关趋势的分析为拆线图,饼图表示比例的分析,动态热力图是关于空间关系的,词云图是逻辑关系分析。
3.数据分析的方法不包括( )。
A.线性分析 B.关联分析 C.聚类分析 D.数据分类
【答案】:A
【解析】:见教材P111,数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模型评价,不含线性分析。
4.下列关于大数据的特征,说法正确的是( )
A.数据价值密度高 B.数据类型少 C.数据基本无变化 D.数据体量巨大
【答案】:D
【解析】:见教材P102,从互联网产生大数的角度来看,大数据的4V特征是:数据体量巨大、数据类型繁多、价值密度低、变化速度快。
5.数据特征探索的主要任务是对数据进行预处理,以下不属于该过程的是( )
A.数据清洗 B.异常数据处理 C.数据缺失处理 D.数据分类处理
【答案】:D
【解析】:见教材P112,数据特征探索的预处理主要有数据清洗、发现缺失值、异常数据处理、求最大值和最小值、求极差、求组距、绘制价格直方图、绘制评论数直方图等。不含D项。
6.海军军官通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的( )
A.在数据基础上倾向于全体数据而不是抽样数据
B.在分析方法上更注重相关分析而不是因果分析
C.在分析效果上更追究效率而不是绝对精确
D.在数据规模上强调相对数据而不是绝对数据
【答案】:B
【解析】:见教材P102,A项强调数据规模;B项对前人航海数据的分析,不是分析为什么走某条航线,不是分析为什么会发生洋流,而是强调数据的相互联系,注重数据的相关性分析,所以选B项;C项是讲分析数据的走势和发展方向,与题干不符;D项强调数据规模,题干中也未涉及。
7.大数据时代已经在悄悄地改变我们的日常生活,也使人们日常生活更为便捷,如移动支付、网络约车出行、网络购物、网络预约挂号等。以下不属于大数据分析的是( )
A.特征探索 B.关联分析 C.聚类与分类 D.建模分析
【答案】:D
【解析】:见教材P111,数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模型评价,不含线性分析。不含D项。
8.电子警察采用拍照的方式来约束车辆的行为,其拍照的过程属于( )
A.数据分析 B.数据采集 C.数据分类 D.数据可视化表达
【答案】:B
【解析】:拍照的过程属于数据的采集,选B项。
9.某超市曾经研究销售数据,发现买商品A的人购买商品B的概率很大,这种属于数据的( )
A.聚类分析 B.关联分析 C.分类分析 D.回归分析
【答案】:B
【解析】:见教材P113,关联分析就是发现存在于大数据之间的关联性或相关性,即A与B的相关性,符合题意。
10.数据采集的基本方法包括( )、网络数据采集法和其他数据采集法。
A.数据库采集法 B.访问记录采集法 C.数据目录采集法 D.系统日志采集法
【答案】:D
【解析】:数据采集的基本方法包括系统日志采集法、网络数据采集法、其他数据采集法,所以选D项。
11.下列关于聚类分析的说法,错误的是( )
A.可以从数据点集合中随机选择K个点作为初始的聚集中心
B对其他的每个数据点,以此判断其与K个中心点的距离,距离最近的表明它属于这项聚类
C.聚类分析,必须先设定分类的标准,否则无法准确分类
D.重新计算新的聚簇集合的平均值既中心点
【答案】:C
【解析】:见教材P115,K-平均算法中包括ABD,而明确指出聚类分析不性事先给出一个分类标准。
12.K-平均算法属于( )分析方法。
A.聚类 B.关联 C.分类 D.回归
【答案】:A
【解析】:见教材P115,K-平均算法是一种聚类分析法。
13.网络数据采集法,主要通过网络爬虫或网站公开API的方式获取,网络爬虫从网页的( )开始获取。 A.HTML B.WWW C.URL D.XML
【答案】:C
【解析】:见教材P104页,网络爬虫从一个或若干网页的URL开始。
14.大数据时代,数据应用的关键是( )
A.数据收集 B.数据存储 C.数据分析 D.数据再利用
【答案】:D
【解析】:大数据时代,数据随时产生,随时收集并存储,要利用大数,必须分析出数据的相关性、发展方向等特征,才能对数据进行利用,所以数据分析是关键。
15.为了弘扬和传承中华民族勤俭节约的传统美德,引导同学们进一步深化节约粮食的意识和行为习惯,学生会开展了“我为食堂提建议”的活动。请根据学生会开展该活动的几个步骤,排出最合理的顺序( )
①根据数据分析结果,撰写数据分析报告,对食堂提出合理化建议
②学生会成员去学校食堂收集数据,并制作调查问卷的题目
③利用图表形式直观展示分析数据
④对问卷进行回收整理,将无效的问卷进行剔除
⑤学生会成员对就餐同学们进行问卷调查
⑥对调查数据和食堂数据进行分析与处理
A.②⑤④⑥③① B.②④⑤③⑥① C.⑤②④⑥③① D.⑤④②③⑥①
【答案】:A
【解析】:搞调查,写报告的合理逻辑应为:确定活动的主题,然后收集数据,制作问卷,发放问卷,回收问卷,录入回收数据,对数据进行分析,呈现分析结果,写出报告,所以A项符合题意。
二、思考题
1.若要求你对本班同学喜欢看的书籍进行分类统计,并对其进行数据分析,你会如何做?谈谈你的想法。
【答案】:
(项目需求分析)分析书籍分类统计的项目:书名、图书类别、出版时间、来源(网购、书店购买、图书馆借阅、向他人借阅)、同学姓名,性别等。
(数据采集)能够选择合适的工具采集和保存信息:可使用文件共享或选择协同办公软件采集书籍信息记录(逐条统计),能够使用硬盘存储或云存储方式保存数据。
(数据分析与可视化表达)能够采用词云图、折线图或饼图等方式,按照图书类别分析出本班同学的图书喜好,能分析出某位同学的兴趣爱好。
【解析】:略
2.大数据正在改变社会很多行业的工作方式,医疗大数据可以更好地为患者服务。请思考医疗大数据对医疗行业发展的作用。
【答案】:
来自数据的信息可以让医生做出更准确的治疗决策,提高治疗成功率。优化患者护理。医生可以利用预测性数据和信息,最大程度上降低治疗失败的风险,这些数据和信息可以帮助医生正确地开出处方、实施手术或康复治疗,可降低医疗成本。让用药更有效,提高医疗安全性,促进医疗行业信息共享。
【解析】:略
3.在智慧城市和智慧交通城市建设中,每天产生海量的交通大数据,这些数据为城市、交通的管理提供决策支持。请从数据采集、数据分析、数据可视化表达三个方面,分析大数据在智慧城市和智慧交通建设中的实现方法。
【答案】:
智慧城市就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。从技术发展的视角,智慧城市建设要求通过以移动技术为代表的物联网、云计算等新一代信息技术应用实现全面感知、泛在互联、普适计算与融合应用。从社会发展的视角,智慧城市还要求通过维基、社交网络、Fab Lab、Living Lab、综合集成法等工具和方法的应用,实现以用户创新、开放创新、大众创新、协同创新为特征的知识社会环境下的可持续创新,强调通过价值创造,以人为本实现经济、社会、环境的全面可持续发展。
【解析】:
智慧城市就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。从技术发展的视角,智慧城市建设要求通过以移动技术为代表的物联网、云计算等新一代信息技术应用实现全面感知、泛在互联、普适计算与融合应用。从社会发展的视角,智慧城市还要求通过维基、社交网络、Fab Lab、Living Lab、综合集成法等工具和方法的应用,实现以用户创新、开放创新、大众创新、协同创新为特征的知识社会环境下的可持续创新,强调通过价值创造,以人为本实现经济、社会、环境的全面可持续发展。
4.当用户登录某网站购买、浏览、收藏了某些书籍后,再次登录该网站时,会发现网页上增加了“你可能感兴趣的书”以及“购买此商品的顾客也同时购买”之类的推送条目,如图5-16所示。
问题1:网站给用户自动推荐商品的依据是什么?采用了什么分析方法?
问题2:网站数据可能对用户产生哪些影响?
【答案】:
问题1:网站给用户自动推荐商品的依据是用户行为。用户行为用户行为也叫做用户事件,是指用户作用于产品或网站页面的一系列行为。比如用户在一个电商网站访问、注册、登陆、搜索商品、浏览商品、对比商品、加入购物车、提交订单、支付订单等具体的操作行为。采用了 聚类分析,聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发、自动进行分类。
问题2:任何事物都有两面性,我们上网浏览、出行、购物都被记录了,人人都成了数据的生成者和贡献者。数据带来的整体性变革,也使得数据的隐私保护的形势显得越发严峻。
【解析】:
问题1:网站给用户自动推荐商品的依据是用户行为。用户行为用户行为也叫做用户事件,是指用户作用于产品或网站页面的一系列行为。比如用户在一个电商网站访问、注册、登陆、搜索商品、浏览商品、对比商品、加入购物车、提交订单、支付订单等具体的操作行为。采用了 聚类分析,聚类分析是一中探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发、自动进行分类。
问题2:任何事物都有两面性,我们上网浏览、出行、购物都被记录了,人人都成了数据的生成者和贡献者。数据带来的整体性变革,也使得数据的隐私保护的形势显得越发严峻。
5.某公司推出了嵌有多种传感器、能够测量生命体征数据的T恤,该公司称为“Fit衫”,从而使专业医护人员能够以低成本频繁监测患者体质,提供更加有效的预防性医疗保健。“Fit衫”利用内嵌的各种传感器测量或记录用户的数据,例如利用体温传感器测量体温,利用生物电传感器收集心电、脑电数据,利用热通量传感器监测热量消耗能力......“Fit衫”里的传感器所测得的心率、活动量以及心电图等数据可显示在平板电脑的显示器上。
问题1:请你简单描述“Fit衫”主要是通用什么方法和工具来收集数据。
问题2:在收集数据的过程中,如何才能避免侵犯他人的知识产权和隐私,请谈谈你的看法。
6.学校使用“五能评价雷达图”,让每个同学们的道德素养、学能素养、创新素养、身体素养、心理素养的达成度一目了然。以下是李明同学的“五能评价雷达图”,如图5-17所示。请你对李明同学的综合素质发展情况进行简述。
【答案】:
从“五能雷达图”可看出,李明同学的“道德素养”得分20分,说明他的思想品德方面需要大力加强;“创新素养”得分低于20分,创新素养能力更是超低;“身体素养”得分50左右,说明身体素质不达到,有可能是运动能力不行,或者是比较肥胖等;心理素养得分60分,说明心理比较健康,有可能休息不好,情绪不太稳定;学能素养得分70左右,处于较好水平。综上所述,李明同学五能评价整体较差,需要全面努力,老师也应该多关心他,促进他的成长。
7.由大数据产生的争辩中,一部分人十分抵触将私人行为暴露在公众视野中,另一部分人却认为人类行为数据就好比自然资源,应该无私地提供给企业、政府和医疗单位等,从而革新服务和产品反哺人类。请小组内展开讨论,谈谈你们的观点。
8.数据可视化表达的工具多种多样,且各具特色,如何选择一款适合的工具对提高学习效率至关重要。请小组内展开讨论,思考并分享其中一款数据可视化表达工具的优缺点。
三、情境题
1.智能手环作为一种智能可穿戴设备,可以记录用户日常生活中的锻炼、睡眠、身体状况等实时数据,并利用数据给用户提供健康建议。简要分析智能手环采集数据的过程,并分析智能手环是如何利用采集的数据给予用户建议的。
【答案】:
以运动为例,通过手环中的加速度传感器捕提到人体的各项数据。并暂时存储在手环的存储器中,有网络时自动上传至服务器。
【解析】:
能回答运动时利用的加速度传感器是三轴加速度传感器,而且是通过捕捉人体三个维度的各项数据,并上传至服务端进行统计分析。或者增加实例,如利用手环检测心率,主要是通过光感进行,采用绿色搭配感光光电二极管实时检测流经手腕血液的流量来获取心率信息。当用户的心脏跳动时,会有更多的血液流过用户的手腕,绿光的吸收量也会越大;在心脏跳动间隙,血液流量减少,绿光的吸收也会减少。
2.改革开放以来,中国经济发展取得令人瞩目的成就,但是中国各省发展差异大。如历年各省的国内生产总值(GDP)和人口数据,我们可以发现经济发展和人口数据的变化规律。请采集有关数据,并进行数据分析,通过数据分析发现数据中的一些规律。第 9 页 共 11 页必修1数据与计算
第五章 数据处理和可视化表达
5.1认识大数据
5.1.1大数据
大数据是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
5.1.2大数据的特征
(1)从互联网产生大数据的角度来看,大数据具有“4V”特征:大量(Volume)、多样(Variety)、低价值密度(Value)、高速(Velocity)。
第一,数据体量巨大。从TB级别跃升到PB级别。
第二,数据类型繁多。如网络日志、视频、图片、地理位置信息等。
第三,价值密度低。以视频为例,在连续不间断的监控过程中,有用的数据可能仅仅一两秒。
第四,变化速度快。数据来自世界各地的网络终端,且以秒为单位快速变化。
(2)从互联网思维的角度来看,大数据具有三个特征:样本渐趋于总体,精确让位于模糊,相关性重于因果。
第一,在大数据时代强调数据要全量而不是抽样,即强调数据规模全量,而不是强调数量巨大。大数据时代有了更好的数据采集手段,让获取全量数据成为可能。
第二,大数据时代研究的数据如此之多,追求的不是精确性,而是模糊性。在大数据时代,只要掌握了大体的发展方向即可,适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力。
第三,大数据时代不是因果关系,而是相关关系。在大数据时代,无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系;相关关系也许不能准确地告诉我们某件事情为何会发生,但是会提醒我们这件事情正在发生。
(3)从大数据存储与计算的角度来看,大数据具有两个特征:分布式存储和分布式并行计算。
第一,大数据存储在互联网不同的服务器与各客户终端。
第二,应用分布式并行计算处理互联网的大数据。
5.1.3 大数据对日常生活的影响
1.大数据使人们日常生活更为便捷:方便支付;方便出行;方便购物与产品推介;方便看病与诊病。
2.大数据对人们日常生活产生的负面影响:个人信息泄露;信息伤害与诈骗。
5.2数据的采集
5.2.1数据采集的基本方法
数据采集的基本方法包括:1.系统日志采集法;2.网络数据采集法;3.其他数据采集法。
拓展:Python网络数据采集程序使用的扩展库
(1)NumPy(NumericalPython)
是构建科学计算最基础的软件库;
(2)SciPy
是一个工程和科学软件库,包含线性代数、优化、集成和统计的模块;
(3)Pandas
是一个Python包,旨在通过标记(labeled)和关系(relational)数据进行工作;
(4)Matplotlib
是Python的一个2D绘图库。
在Python模块库中有大量模块可供使用,要想使用这些文件,就需要用import语句把指定模块导入当前程序中。使用import语句导入模块的语法如下:
from import语句也是导入模块的一种方法,是导入指定模块内的指定函数方法。使用from import语句导入模块内指定方法的语法如下:
5.2.2 数据的存储和保护
1.数据的存储
一种是把数据存在本地内部,另一种是把数据存在第三方公共或私有的“云端”存储。
2.数据的保护
(1)数据安全保护技术。安装杀毒软件和防火墙只能防备数据安全隐患,而采用拷贝、备份、复制、镜像、持续备份等技术进行数据保护才是更为彻底、有效的方法。
为了防止数据泄密,可采用对称式加密(加密、解密用同一密钥)和非对称式加密(加密、解密用两个不同的密钥)。
(2)数据的隐私保护。解决办法有三个:一是技术手段,常用的隐私保护有:①数据收集时进行数据精度处理;②数据共享时进行访问控制;③数据发布时进行人工加扰;④数据分析时进行数据匿名处理等。二是提高自身的保护意识。三是要对数据使用者进行道德和法律上的约束。
5.3数据的分析
数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。
数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模型评价等。
5.3.1 特征探索
特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
5.3.2 关联分析
关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
5.3.3 聚类分析
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
K-平均算法是一种经典的自下而上的聚类分析方法。
5.3.4 数据分类
数据分类是数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。
贝叶斯分类技术在众多分类技术中占有重要地位。
5.4数据的可视化表达
数据的可视化可以把枯燥乏味的海量数据以丰富的视觉效果呈现数据所反映的本质问题,有效提升数据分析的效率。数据可视化是指以图形、图像、地图、动画等生动、易于理解的方式展示数据和诠释数据之间的关系、趋势与规律等,以便更好地理解数据。
5.4.1 数据可视化表达方式(见下页表5-5)
5.4.2 数据可视化工具
Python语言因其开源和包容的特性,嵌入了大量数据可视化的工具,如绘图工具模块Matplotlib、Seaborn和Bokeh等。
Seaborn主要关注统计模型的可视化。
Bokeh也是一个很好的可视化库,可实现交互式可视化。
第五章 数据处理和可视化表达 学业测试
一、单选题
1.从互联网产生大数据的角度,大数据具有的特征( )
A.4V特征:大量(Volume)、多样(Variety)、低价值密度(Value)、高速(Velocity)
B.样本渐趋于总体,精确让位于模糊,相关性重于因果
C.分布式存储,分布式并行计算
D.没有特征
2.下列可以用于分析数据趋势的是( )
A.饼图 B.折线图 C.动力热力图 D.词云图
3.数据分析的方法不包括( )。
A.线性分析 B.关联分析 C.聚类分析 D.数据分类
4.下列关于大数据的特征,说法正确的是( )
A.数据价值密度高 B.数据类型少 C.数据基本无变化 D.数据体量巨大
5.数据特征探索的主要任务是对数据进行预处理,以下不属于该过程的是( )
A.数据清洗 B.异常数据处理 C.数据缺失处理 D.数据分类处理
6.海军军官通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的( )
A.在数据基础上倾向于全体数据而不是抽样数据
B.在分析方法上更注重相关分析而不是因果分析
C.在分析效果上更追究效率而不是绝对精确
D.在数据规模上强调相对数据而不是绝对数据
7.大数据时代已经在悄悄地改变我们的日常生活,也使人们日常生活更为便捷,如移动支付、网络约车出行、网络购物、网络预约挂号等。以下不属于大数据分析的是( )
A.特征探索 B.关联分析 C.聚类与分类 D.建模分析
8.电子警察采用拍照的方式来约束车辆的行为,其拍照的过程属于( )
A.数据分析 B.数据采集 C.数据分类 D.数据可视化表达
9.某超市曾经研究销售数据,发现买商品A的人购买商品B的概率很大,这种属于数据的( )
A.聚类分析 B.关联分析 C.分类分析 D.回归分析
10.数据采集的基本方法包括( )、网络数据采集法和其他数据采集法。
A.数据库采集法 B.访问记录采集法 C.数据目录采集法 D.系统日志采集法
11.下列关于聚类分析的说法,错误的是( )
A.可以从数据点集合中随机选择K个点作为初始的聚集中心
B对其他的每个数据点,以此判断其与K个中心点的距离,距离最近的表明它属于这项聚类
C.聚类分析,必须先设定分类的标准,否则无法准确分类
D.重新计算新的聚簇集合的平均值既中心点
12.K-平均算法属于( )分析方法。
A.聚类 B.关联 C.分类 D.回归
13.网络数据采集法,主要通过网络爬虫或网站公开API的方式获取,网络爬虫从网页的( )开始获取。 A.HTML B.WWW C.URL D.XML
14.大数据时代,数据应用的关键是( )
A.数据收集 B.数据存储 C.数据分析 D.数据再利用
15.为了弘扬和传承中华民族勤俭节约的传统美德,引导同学们进一步深化节约粮食的意识和行为习惯,学生会开展了“我为食堂提建议”的活动。请根据学生会开展该活动的几个步骤,排出最合理的顺序( )
①根据数据分析结果,撰写数据分析报告,对食堂提出合理化建议
②学生会成员去学校食堂收集数据,并制作调查问卷的题目
③利用图表形式直观展示分析数据
④对问卷进行回收整理,将无效的问卷进行剔除
⑤学生会成员对就餐同学们进行问卷调查
⑥对调查数据和食堂数据进行分析与处理
A.②⑤④⑥③① B.②④⑤③⑥① C.⑤②④⑥③① D.⑤④②③⑥①
二、思考题
1.若要求你对本班同学喜欢看的书籍进行分类统计,并对其进行数据分析,你会如何做?谈谈你的想法。
2.大数据正在改变社会很多行业的工作方式,医疗大数据可以更好地为患者服务。请思考医疗大数据对医疗行业发展的作用。
3.在智慧城市和智慧交通城市建设中,每天产生海量的交通大数据,这些数据为城市、交通的管理提供决策支持。请从数据采集、数据分析、数据可视化表达三个方面,分析大数据在智慧城市和智慧交通建设中的实现方法。
4.当用户登录某网站购买、浏览、收藏了某些书籍后,再次登录该网站时,会发现网页上增加了“你可能感兴趣的书”以及“购买此商品的顾客也同时购买”之类的推送条目,如图5-16所示。
问题1:网站给用户自动推荐商品的依据是什么?采用了什么分析方法?
问题2:网站数据可能对用户产生哪些影响?
5.某公司推出了嵌有多种传感器、能够测量生命体征数据的T恤,该公司称为“Fit衫”,从而使专业医护人员能够以低成本频繁监测患者体质,提供更加有效的预防性医疗保健。“Fit衫”利用内嵌的各种传感器测量或记录用户的数据,例如利用体温传感器测量体温,利用生物电传感器收集心电、脑电数据,利用热通量传感器监测热量消耗能力......“Fit衫”里的传感器所测得的心率、活动量以及心电图等数据可显示在平板电脑的显示器上。
问题1:请你简单描述“Fit衫”主要是通用什么方法和工具来收集数据。
问题2:在收集数据的过程中,如何才能避免侵犯他人的知识产权和隐私,请谈谈你的看法。
学校使用“五能评价雷达图”,让每个同学们的道德素养、学能素养、创新素养、身体素养、心理素养的达成度一目了然。以下是李明同学的“五能评价雷达图”,如图5-17所示。请你对李明同学的综合素质发展情况进行简述。
图5-17 五能评价雷达图
7.由大数据产生的争辩中,一部分人十分抵触将私人行为暴露在公众视野中,另一部分人却认为人类行为数据就好比自然资源,应该无私地提供给企业、政府和医疗单位等,从而革新服务和产品反哺人类。请小组内展开讨论,谈谈你们的观点。
8.数据可视化表达的工具多种多样,且各具特色,如何选择一款适合的工具对提高学习效率至关重要。请小组内展开讨论,思考并分享其中一款数据可视化表达工具的优缺点。
三、情境题
1.智能手环作为一种智能可穿戴设备,可以记录用户日常生活中的锻炼、睡眠、身体状况等实时数据,并利用数据给用户提供健康建议。简要分析智能手环采集数据的过程,并分析智能手环是如何利用采集的数据给予用户建议的。
2.改革开放以来,中国经济发展取得令人瞩目的成就,但是中国各省发展差异大。如历年各省的国内生产图5-18智能手环总值(GDP)和人口数据,我们可以发现经济发展和人口数据的变化规律。请采集有关数据,并进行数据分析,通过数据分析发现数据中的一些规律。第 7 页 共 8 页