(共43张PPT)
Big Data
5.1 认识大数据
创新 科技 思维 价值
人工智能
物联网
云计算
大数据
大量的数据?
=
大数据
大数据
走进大数据
大数据的概念
大数据的特征
大数据对日常生活的影响
走进大数据
PART 01
出行到达的地点和选择的交通工具
刷微博、所在地地理位置
数据的产生
在日常工作、生活和学习等活动中,人们的一举一动基本上都可以数字化。例如,从家中出门到达工作地点选择的交通工具、路线和所有时间;每刷一次微博、拨打一次电话、发送一条短信、网上银行转账或者浏览相关网站,甚至所在的地理位置信息等都产生了大量的数据。
date
大数据的概念
PART 02
什么是大数据?
大数据是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的信息集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
对谁做
狭义大数据
做什么
目的
大容量数据
获取数据
存储数据
分析数据
挖掘价值
大数据
1GB
1MB
1KB
1024B
1024KB
1024MB
大数据到底有多大
1TB
1024GB
传统电脑 GB/TB级别
硬盘 1TB/2TB/4TB
大数据是什么级别?
PB
EB
1 PB = 1024 TB (PB - petabyte)
1 EB = 1024 PB (EB - exabyte)
存储20万张照片
20万首MP3音乐
20万部电子书
1TB硬盘
存储2亿张照片
2亿首MP3音乐
1PB 2个机柜
有多大?
如果并排放这些机柜,可以连绵1.2公里那么长。如果摆放在机房里,需要21个标准篮球场那么大的机房
1EB 2000个机柜
阿里、腾讯、百度
阿里数据中心的内景
EB级别
有多大?
从2011年----2020年
1.8ZB-35ZB
数据
1ZB=1024EB
阶段
自动
被动
主动
数据产生阶段
被动
主动
自动
各行各业开始产生了数据,从而被记录在数据库中。这时的数据,以结构化数据为主
计算机被发明之后的阶段
随着互联网和移动通信设备的普及,人们开始使用博客、facebook、youtube这样的社交网络,从而主动产生了大量的数据。
互联网2.0时代
随着物联网的发展,各种各样的感知层节点开始自动产生大量的数据,例如遍布世界各个角落的传感器、摄像头。
感知式系统阶段
天气预报
地球物理探矿
大气监测
天体运动观测
大数据的产生
大数据的特征
PART 03
大数据案例
某市交通智能化分析平台的数据来源于道路交通、电信、地理信息系统等各行各业。例如,交通卡刷卡每天产生190万条记录,手机定位数据每天产生1800万条,出租车运营数据每天产生100万条,电子停车收费系统数据每天产生50万条,等等。这些数据在体量和速度上都达到了大数据的规模。
特征
4V
B
D
C
A
Variety
多样
velocity
高速
Value
低价值密度
Volume
大量
互联网产生大数据角度
CHANPIN
低价值密度
2014年美国波士顿爆炸案,现场调取了10TB的监控数据(包括移动基站的通讯记录,附近商店、加油站、报摊的监控录像以及志愿者提供的影像资料),最终找到了嫌疑犯的一张照片。
大数据
刚刚过去的一分钟
数据世界里
发生了什么?
高速
12306:1840张车票被卖出
Twitter:98000条推送被发出
Facebook:69.5万条状态被更新
Youtube:2880分钟的视频被上传
Google:200万次搜索请求被提交
email:Email:2.04亿封被发出
大数据案例
搜索引擎公司通过跟踪网民对“感冒症状”以及“治疗”等关键词的搜索,发现某个时段在某个区域内搜索数量急剧增长,从而成功预测了新冠疫情的暴发时间、地域。
样本趋于总体
精确让位于模糊
相关性重于因果
The activities of a company with buying and selling a product or service. The activities
The activities of a company with buying and selling a product or service. The activities
The activities of a company with buying and selling a product or service. The activities
互联网思维角度
大数据案例
目前,某基于大数据的网约车平台已覆盖全国400多个城市,涵盖出租车、快车、顺风车、代驾、专车、试驾以及租车等多项业务,为人们的出行带来极大的便利。我们只需在网约车APP上输入或者说出目的地,强大的智能系统就立刻分配订单,即时通知附近司机;借助定时定位系统,我们可以看到司机的大致位置以及预计到达时间。
分布式存储
分布式并行计算
应用分布式并行计算处理互联网的大数据
大数据存储在互联网不同的服务器和各客户终端
大数据存储与计算角度
讨论传统数据与大数据的区别?以小组为单位,通过查找资料、学习和交流,填写下表。
传统数据 大数据
数据量小
数据类型少
价值密度高
更新速度慢
追求数据精确性
本地存储
数据体量巨大
数据类型繁多
价值密度低
更新速度快
追求数据模糊性性
分布式存储
交
流
大数据对日常生活的影响
PART 04
使人们日常生活更为便捷
方便支付
方便出行
方便购物与产品推介
方便看病与诊病
大数据影响
方便支付
网约车
方便出行
方便购物与产品推介
购物行为分析
方便看病与诊病
麦当劳
肯德基
苹果旗舰店
他们的位置都是建立在数据分析基础上的精准选址,沃尔玛通过数据挖掘优化供应链,亚马逊、淘宝则为用户提供更加专业化和个性化的服务。
手机计算机网络信用卡等都会产生数据
个人信息泄露
被不法分子窃取、对我们及身边的亲人造成伤害
信息伤害与诈骗
大数据负面影响
个人信息泄露
信息诈骗
数据泄露安全
安全
练习
1、下列关于大数据的特征,说法正确的是( )
A数据价值密度高
B 数据类型少
C.数据基本无变化
D.数据体量巨大
2、从互联网产生大数据的角度来看,大数据具有的特征是( )
A“4V"特征:大量(Volume)、多样(Variety)、低价值密度
(Value)、高速(Velocity )
B样本渐趋于总体,精确让位于模糊,相关性重于因果
C分布式存储, 分布式并行计算
D.没有特征
D
A
作业
淘宝购物平台上各种商品应有尽有,假如你和同学在该平台开了一个零食网店,最近你要调整经营策略,以提高网店的盈利水平。在调整经营策略之前你必须进行前期调研分析,比如通过分析淘宝网上各类零食的销量数据,去重新定位销售商品的种类和价格;通过分析网店销售数据订单,去了解客户的购物喜好,去判断哪些商品可以捆绑销售。从而下架一些销量不好商品和上架一些新的商品。那么,你要完成前期调研工作,需要获取到哪些数据呢?怎样获取到这些数据呢?从获取数据中怎样提炼出有价值的信息呢?以小组为单位,通过学习、交流,探索和实践,得出可视化结论。
THANKS
创新 科技 思维 价值