第四章
数据处理与应用
1、常用表格数据的处理
2、大数据处理
3、大数据典型应用
学习目标:
1、理解数据整理目的和常见数据问题。
2、针对典型的数据问题,利用软件对数据进行整理、组织与计算。
3、在数据分析的基础上,能利用合适的统计图表呈现数据分析结果。
数据整理
乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。
数据整理的目的
数据整理的目的是检测和修正错漏的数据,
整合数据资源,规整数据格式,提高数据质量。
常见的数据问题有数据缺失,数据重复,数据异常,逻辑错误,格式不一致等。P108
数据整理实例
某厂生产的火柴,规定每盒装50根,采用自动装盒技术后,每盒装火柴的根数和50略有差异.现从大批火柴中任意抽取50盒,每盒根数如下:
48 50 48 52 52 50 49 51 50 51
49 49 50 51 48 51 50 51 52 49
49 51 51 50 50 51 48 50 52 49
50 50 51 52 49 51 50 52 49 52
51 49 50 51 52 50 49 50 48 50
(1)整理数据,设计统计表表示结果.
(2)画统计图表示数据.
(3)每盒恰好桩50根火柴的盒数所占的百分比是多少?
实例分析
解:(1)用画“正”字计数统计装不同根数火柴的盒数,用下表表示结果。
数据分类
48
49
50
51
52
合计
画“正”字计数
火柴盒数
百分比
正
5
10
15
12
8
50
10%
20%
30%
24%
16%
100%
正正
正正正
正正正
正正
火柴盒数
48
49
50
51
52
0
5
10
15
火柴根数
(2)统计图如图所示
5
8
12
15
10
实例分析
(3)恰好装50根火柴的盒数所占的百分比是
实例分析
数据计算
常见的数据处理软件:Excel、SPSS、SAS、MATLAB、R、Python、Java。P109
数据整理——EXCEL
曾经, 有一堆学习或生活的数据放在我面前, 我没有头绪, 等我抓狂的时候我才后悔莫及, 人世间最痛苦的事莫过于此。
如果上天能够给我一个再来一次的机会, 我会对那堆数据说5个字: 我要理顺你! 如果非要对这堆数据用一个合理的工具, 我希望是…… EXCEL!
复习旧知
单元格地址
B5
区域地址
A2:C5
算术运算符
算术运算符
含义
举例
+?
加法运算?
=B2+B3?
-?
减法运算?
=20-B6?
*?
乘法运算
?=D3*D4?
/?
除法运算
?=D6/20?
%
?百分号
?=5%
?^?
乘方运算
?=6^2
算术运算符的作用是完成基本的数学运算,并产生数字结果。
逻辑运算符
运算符
描述
举例
值
=?
等于
?=B3="团员"
?
小与
?=40<37
FALSE(假)
>
?大于
?=40>37?
TRUE(真)
<>?
不等于
?=B2<>10?
<=?
小于等于
?=B2<=B3?
>=?
大于等于
?=B2>=100?
逻辑运算符的作用是可以比较两个值,结果为一个逻辑值,不是“TRUE(真)”,就是“FALSE(假)”。
考一考你,算的出下列公式的值吗?
= A2>100
= B2=“团员”
FALSE(假)
TRUE(真)
数据计算——公式
公式的格式: = 表达式
其中表达式有运算符号,常量,单元格地址,函数以及括号组成。
=B4+100
=(A1+B1)/2
例如:
数据的计算——利用函数计算
①单击选中单元格
单击fx插入函数
或:在编辑栏直接输入公式
记住要输入“=”
求和,例:sum(A2:A8)
求平均值,例:average(A2:A8)
求最小值,例:min(A2:E2)
求最大值,例:max(A2:E2)
SUM( )
AVERAGE( )
MIN( )
MAX( )
函数定义
格式: 函数名(参数1,参数2……)
函数其实是一些预定义的公式,它们使用称为参数的特定数值按特定的顺序进行计算。
相对地址和绝对地址
相对参照地址:
假设你要前往某地,但不知道该怎么走,于是就向路人打听。结果得知你现在的位置往前走,碰到第一个红绿灯后右转,再直走约100公尺就到了,这就是相对引用地址的概念。
绝对参照地址:
另外有人干脆将实际地址告诉你,假设为”北京路60号”,这就是绝对参照地址的概念,由于地址具有唯一性,所以不论你在什么地方,根据这个绝对参照地址,所找到的永远是同一个地点。
相对地址与绝对地址
相对参照地址的表示法如:Bl、 C4;
绝对参照地址的表示法须在单元格地址前面加上”$”符号,例如:$B$l、$C$4。
将两者的特性套用在公式上,代表相对引用地址会随着公式的位置而改变,而绝对参照位址则不管公式在什么地方,它永远指向同一个单元格。
相对引用
?
从编辑栏中可看出:引用的单元格区域发生改变
绝对引用
绝对引用指引用单元格的精确地址,与包含公式的单元格位置无关,其引用形式为在列标和行号的前面都加上“$”号。则不管将公式复制或移动到什么位置,引用的单元格地址的行和列都不会改变。 (例如引用单价)
EXCEL-柱形图
柱形图用于显示一段时间内的数据变化或显示各项之间的比较情况。
折线图可以显示随时间而变化的连续数据,非常适用于显示在相等时间间隔下数据的趋势
EXCEL-折线图
EXCEL-饼图
饼图主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例。
雷达图也称为网络图,蜘蛛图,星图,雷达图基于一种形似导航雷达显示屏上的图形而构建。
EXCEL-折线图
散点图一般研究2个变量之间的关系,图上的点在哪个位置,是由其X值和Y值确定的,也叫XY散点图。
EXCEL-散点图
气泡图可用于展示三个变量之间的关系,它与散点图类似。
EXCEL-气泡图
使用Excel创建图表
1.分析数据
电影票房大小比较,可选用柱形图
2.创建图表
3.检查图表
选择数据,插入图表,选择柱形图
数据是否完整,图表数据和表格数据是否一致
课堂练习
1.数据整理的目的是( )
①检测和修正错漏的数据
②整合数据资源
③规整数据格式
④提高数据质量
⑤预测趋势
A.①②⑤
B.②④⑤
C.①②③④
D.②③④⑤
C
2. 某表格中部分数据如图所示。 图中数据存在的问题主要为( )
A.数据缺失
B.数据重复
C.逻辑错误
D.格式不一致
3.下列软件主要用于表格数据处理的有( ?)
A.“记事本”“画图”程序
B.“记事本”程序、SAS软件?
C.Excel、MATLAB软件
D.SPSS、Word软件
A
C
课堂练习
4. 使用Excel软件处理某地部分市场菜篮子价格数据,如图所示。
计算表中“平均值”列数据:选择I3单元格输入公式,然后用自动填充功能完成其他单元格的计算。则I3单元格中可使用的公式为 ( ?)??????????
A. =SUM(C3,H3)/6
B. =(3.5+3+3+3+3+3)/6
C. (C3+D3+E3+F3+G3+H3)/6
D. =AVERAGE(C3:H3)
D
课堂练习
5.若要采用图表的方式对比分析第4题中6个市场“东北大米”的价格情况,合适的图表类型为( ?)
A.雷达图
B.柱形图
C.散点图
D.饼图
B
课堂练习
6.(开放题)采集物理或化学实验的数据,使用Excel软件进行分析,描述分析结果。
建议:在物理或化学实验中采集实验数据, 使用Excel软件创建工作表、输入采集到的实验数据,根据实际分析数据、呈现数据。
课堂练习
Thanks