(共23张PPT)
粤教版普通高中教科书
信息技术 必修1
5.1 认识大数据
灵璧县第二中学 王凤龙
身边的大数据
场景一:当我们打开淘宝、拼多多等购物软件时,首页会显示出推荐的商品。为什么购物软件推荐的商品总是很合我们心意?
场景二:当我们打开抖音、哔哩哔哩等视频软件时,首页会显示出推荐的视频。为什么打开视频软件就刷到停不下来了?
大数据分析
播放时长
点赞
视频类型
评论
教育程度
性别
年龄
地域
职业
搜索记录
用户观看视频行为分析
用户网络购物行为分析
学习内容
大数据的基本概念
大数据是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合。
常规数据处理软件工具
数据量 <100万条
Python
R语言
Hadoop
Spark
Excle
Wps
大数据处理软件工具
数据量 >100万条
……
大数据的产生和意义
大数据的产生是与人类日益普及的网络行为所伴生的。互联网生成的数据量,不仅远超此前一切人类所生成的数据量的总和,而且在以大爆发性的速度不断增长。
在天气预报、大气监测、地球物理探矿和天体运动观测等科学实验和科学观察等活动中,各种各样的传感器每时每刻都在产生大量的数据。
大数据已成为人们提取信息、做出决策的重要依据,是推动信息社会发展的重要资源。
交通大数据
购物大数据
新冠肺炎大数据
气象大数据
大数据的特征
案例1:某市交通智能化分析平台的数据来源于道路交通、电信、地理信息系统等各行各业。例如,交通卡刷卡每天产生1900万条记录,手机定位数据每天产生1800万条,出租车运营数据每天产生100万条,电子停车收费系统数据每天产生50万条,等等。这些数据在体量和速度上都达到了大数据的规模。
大数据的特征
结合书本案例1,从互联网产生大数据的角度来看大数据具有哪些特征?
数据体量巨大:从TB级别跃升到PB级别。(1024GB=1TB,1024TB=1PB)
1PB约相当于1024*200个王者荣耀
1PB约相当于1024*50个原神
5GB
20GB
案例1:某市交通智能化分析平台的数据来源于道路交通、电信、地理信息系统等各行各业。例如,交通卡刷卡每天产生1900万条记录,手机定位数据每天产生1800万条,出租车运营数据每天产生100万条,电子停车收费系统数据每天产生50万条,等等。这些数据在体量和速度上都达到了大数据的规模。
大数据的特征 - 从互联网产生大数据的角度来看
结合书本案例1,从互联网产生大数据的角度分析大数据具有哪些特征?
数据类型繁多:如网络日志、视频、图片、地理位置信息等
淘宝
小红书
案例1:某市交通智能化分析平台的数据来源于道路交通、电信、地理信息系统等各行各业。例如,交通卡刷卡每天产生1900万条记录,手机定位数据每天产生1800万条,出租车运营数据每天产生100万条,电子停车收费系统数据每天产生50万条,等等。这些数据在体量和速度上都达到了大数据的规模。
大数据的特征
结合书本案例1,从互联网产生大数据的角度分析大数据具有哪些特征?
数据价值密度低:大数据的数据量很多,但其中有价值的数据却相对占比较少。以视频为例,在连续不间断的监控过程中,有用的数据可能仅仅一两秒。
警察利用监控视频破案
案例1:某市交通智能化分析平台的数据来源于道路交通、电信、地理信息系统等各行各业。例如,交通卡刷卡每天产生1900万条记录,手机定位数据每天产生1800万条,出租车运营数据每天产生100万条,电子停车收费系统数据每天产生50万条,等等。这些数据在体量和速度上都达到了大数据的规模。
大数据的特征
结合书本案例1,从互联网产生大数据的角度分析大数据具有哪些特征?
数据变化速度快:数据来自世界各地的网络终端,且以秒为单位快速变化。
互联网加快了数据产生和变化的速度
……
各类互联网平台每天都产生大量的数据
大数据的特征
案例2:搜索引擎公司通过跟踪网民对“感冒症状”以及“治疗”等关键词的搜索,发现某个时段在某个区域内搜索数量急剧增长,从而成功预测了甲型H1N1流感的暴发时间、地域。
结合书本案例2,从互联网思维的角度来看大数据具有哪些特征?
1. 样本渐趋于总体:在大数据时代强调数据要全量而不是抽样,即强调数据规模全量,而不是强调数量巨大。大数据时代有了更好的数据采集手段,让获取全量数据成为可能。
电子问卷、面向所有人、各种联网信息系统
数据全面,省时省力
现在采集数据
纸质问卷、抽取样本、人工整理和分析数据
数据不全,耗时耗力
以前采集数据
大数据的特征 - 从互联网思维的角度来看
案例2:搜索引擎公司通过跟踪网民对“感冒症状”以及“治疗”等关键词的搜索,发现某个时段在某个区域内搜索数量急剧增长,从而成功预测了甲型H1N1流感的暴发时间、地域。
2. 精确让位于模糊:大数据时代研究的数据如此之多,追求的不是精确性,而是模糊性。在大数据时代,只要掌握了大体的发展方向即可,适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力。
整体上升
整体满意
大数据的特征 - 从互联网思维的角度来看
案例2:搜索引擎公司通过跟踪网民对“感冒症状”以及“治疗”等关键词的搜索,发现某个时段在某个区域内搜索数量急剧增长,从而成功预测了甲型H1N1流感的暴发时间、地域。
3. 相关性重于因果:大数据时代不是因果关系,而是相关关系。在大数据时代,无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系;相关关系也许不能准确地告诉我们某件事情为何会发生,但是会提醒我们这件事情正在发生。
甲型H1N1流感的爆发时间、地域
某个时段在某个区域内搜索数量
结果
数据
数据与结果之间直接存在相关关系,但不存在因果关系
相关关系是指A变时B也变,A与B之间存在一定的联系,但A变并不是导致B变的原因。因果关系是指A变时B也变,并且A变是导致B变的原因。
例如:天气逐渐变冷后,戴口罩的人员数量越来越多,感冒的人员数量也越来越多。
大数据的特征 - 大数据存储与计算的角度来看
案例3:目前,某基于大数据的网约车平台已覆盖全国400多个城市,涵盖出租车、快车、顺风车、代驾、专车、试驾以及租车等多项业务,为人们的出行带来极大的便利。我们只需在网约车APP上输入或者说出目的地,强大的智能系统就立刻分配订单,即时通知附近司机;借助定时定位系统,我们可以看到司机的大致位置以及预计到达时间。
结合书本案例3,从大数据存储与计算的角度来看大数据具有哪些特征?
分布式处理:将不同地点的,或具有不同功能的,或拥有不同数据的多台计算机,通过网络连接起来,在控制系统的统一管理控制下,协调地完成大规模信息处理任务的计算机系统。包括分布式存储和分布式并行计算。
海量数据
计算任务
……
分散存储
任务分解
多台计算机
1、下列关于大数据的特征,说法正确的是 ( )?
A. 数据价值密度高
B. 数据类型少
C. 数据基本无变化
D. 数据体量巨大
真题练习
D
2、下列关于大数据的特征,说法错误的是 ( )?
A. 大数据是对抽样数据进行分析
B. 大数据追求绝对的精确,不能容忍任何错误
C. 大数据分析的是全体数据
D. 大数据强调对事物因果关系的探求,不注重它们的相关性
C
3、 ( )技术是指把一个复杂的计算任务分解成若干子任务在一个分布式的系统中进行并行计算,最终得到结果并合并输出,从而实现高效率的计算 ?
A. 分布式存储
B. 分布式并行计算
C. 物联网
D. 人工智能
B
4、以视频为例,在连续不间断的监控过程中,有用的数据可能仅仅一两秒,这是大数据 ( )特征的体现?
5、大数据就是指数据体量很大的数据。 ( )?
A. 正确
B. 错误
真题练习
C
6、大数据的来源只能是人工产生的。 ( )?
A. 正确
B. 错误
B
A. 数据体量巨大
B. 数据类型繁多
C. 数据价值密度低
D. 数据变化速度快
B
讨论大数据对生活的影响?
1、方便支付。中国是全球最大的移动支付市场。医院、餐厅、菜市场、加油站,甚至路边摊,都在使用移动支付。中国人今天的生活,已经越来越有科技含量。
大数据使人们日常生活更加便捷
2、方便出行。应用交通系统的大数据,网络约车出行,智能导航行车避免堵车,无人驾驶,智能地图方便寻路,等等。
3、方便购物与产品推介。网络购物不但节省人们出行购物的时间,而且帮助企业有效判断用户的信息需求和消费需求,对客户进行产品推介,方便人们选购产品。
大数据使人们日常生活更加便捷
4、方便看病与诊病。应用网络预约挂号,减轻与节省患者排队挂号看病的辛劳与时间;同时,又方便医生提前分析患者的病史数据,以便更科学诊病。
……
淘宝
抖音电商
拼多多
京东
除此之外,大数据还对食品、教育、金融、政府管理、城市建设、环境保护等领域都产生了积极的影响,这里就不再做详细展开。
1、个人信息泄露。在大数据时代,我们使用的手机、计算机、网络、信用卡等信息科技,都会产生数据。这些数据时刻存在泄露的风险。
大数据对人们日常产生的负面影响
2、信息伤害与诈骗。在大数据时代,我们的网络信息随时都可能被不法分子窃取,并对我们及身边的亲人造成伤害。
大数据的滥用 → “大数据杀熟”
智能推荐的负面影响 → “信息茧房”
真题练习
1、下列关于大数据的说法,错误的是 ( )?
A. 大数据使人们的生活更加便捷的同时也会带来了一些安全隐患
B. 大数据已成为人们提取信息、做出决策的重要依据
C. 大数据的应用降低了用户隐私泄露的风险
D. 大数据是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合
C
总结
作业
课后通过观察身边或者上网检索看看现实生活中还有些应用大数据的案例。
第二章 知识与数字化学习