(共72张PPT)
统计表与统计图
统计图表是用来记录、描述、分析和研究事物并显示研究结果的表达工具,是一些信息的来源、贮存和传输的重要形式,也是科研论文的重要组成部分。统计图表不仅便于阅读,还便于分析、比较,可以代替冗长的文字叙述。
统计表(statistical table)是表达统计分析结果中数据和统计指标的表格形式;
统计图(statistical graph)是用点的位置、线段的升降、直条的长短、面积的大小等各种几何图形来形象化地表达统计数据。
一、统计表(Statistical Table)
(一)统计表的结构:
1、从形式上看,包括4个要素:
标题(title)
标目(items)
线条(lines)
数字(figures)
2、从内容上看,每个表都有主语和谓语。主语指被研究事物,通常列在表的左侧,作为横标目,谓语指说明主语的各项指标。主语和谓语连贯起来能读成一句完整而通顺的话。如上表“甲疗法共治疗104例患者,有效者99例,无效者5例,有效率为95.20%。”
(二)统计表的种类
简单表(simple table)
只有一组横标目和一组纵标目
组合表(combinative table)
有两组或两组以上的横标目或纵标目
1.简单表
例1 表2列出某地进行喷昔洛韦软膏治疗颜面单纯疱疹与阿昔洛韦软膏比较的随机对照临床试验结果。该表只有试验分组一个层次,属简单表。
表2 两种疗法治疗颜面单纯疱疹的疗效比较
2. 组合表
例2 某年某地分别在城乡进行乙型肝炎病毒抗原携带者的检测,该研究的对象按城乡和年龄两个特征分层,结果列在表3。该表属组合表。
表3 某年某地城乡各年龄组居民乙型肝炎病毒抗原携带率分析
(三)制表的原则:
1、重点突出,简单明了。
即一张表一般只包含一个中心内容,使人一目了然,不要包罗万象;
2、主谓分明,层次清楚。
即主谓语的位置不要颠倒,标目的安排及分组要层次清楚,符合专业逻辑。
(四)制表的基本要求:
(1)标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。
(2)标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指标的单位。
(3)线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开,或用横线将两重纵标目分割开。其它竖线和斜线一概省去。
(4)数字:用阿拉伯数字表示。无数字用“—”表示,缺失数字用“?”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐。
(5)备注:表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明。
(五)编制统计表的注意事项
例3 某地进行冠心病危险因素研究时,调查了居民的心理得分值与其它冠心病有关因素,结果列成表4。
表4 不同心理分值的冠心病危险因素水平比较
存在问题:
将太多的内容放在一个表里,特别是将两种不同类型资料(计量资料和计数资料)的统计量放在同一表中。
互不相容的内容分别占了不同的列,导致表中有许多空格。
纵横标目倒置。
内容较多,层次复杂,表格中数据罗列无条理,较难读懂。
表5 某年某地居民不同心理分值的冠心病危险因素水平比较(X±S)
改进办法:将该表资料分别制成两个统计表,见表5和表6。
表6 某年某地居民不同心理分值的冠心病危险因素水平比较
二、统计图(statistical chart)
1.统计图的意义: 统计图将统计数据形象化,让读者更易于领会统计资料的核心内容,易于做分析比较,并且可以给读者留下深刻的印象。
2.统计图的种类:根据资料类型和统计分析目的不同,需要用不同的统计图表达数据和统计指标值。常用的统计图有直条图、直方图、百分比条图和圆图、线图、散点图和统计地图等,还有在数据探索性分析中应用的茎叶图、残差图、箱式图,序贯分析的检验区域图,判别分析的类别分布图,聚类分析的谱系图等特殊分析图等。
3、 统计图的结构
统计图由以下几个部分组成:
①标题
②标目
③点线条面
④刻度
⑤图例
4.统计图制作的一般原则
(1)根据资料性质和分析目的正确选用适当的统计图。
(2)必须有标题,概括统计图资料的时间、地点和主要内容。统计图的标题一般 放在图的下方。
(3)统计图一般有横轴和纵轴,并分别用横标目和纵标目说明横轴和纵轴代表的指标和单位。一般将两轴的相交点即原点处定为0。纵横轴的比例一般以5:7或7:5为宜。
(4)统计图用不同线条和颜色表达不同事物和对象的统计量,需要附图例加以说明。图例可放在图的右上角空隙处或下方中间位置。
(二)常用统计图
1.直条图(bar chart) 2.圆图(pie chart)和百分条图(percent bar chart) 3.线图(line graph) 4.直方图(histogram) 5. 散点图(scatter graph) 6.统计地图(statistical map) 7.其他特殊分析图 箱式图(box plot) 误差条图(error bar chart) 气泡图
1.直条图(bar chart)
用等宽直条的长短表示相互独立的某统计指标值的大小。
In presentation graphics, a type of graph in which different values are represented by rectangular bars.
例5 图2显示某地某年主要死因死亡率资料,不同死因是相互独立的不连续指标,因此用直条图。该图只按死因分类,为单式立式直条图。
图2 某年某地主要死因的死亡率(1/10万)
卧式条图
(1) 条图的种类
①单式(simple)条图:具有一个统计指标,一个分组标志。如图2-3。
②复式(clustered)条图:具有一个统计指标,两个分组因素。如图2-4。
③分段(stacked)条图
④误差条图(error-bar)
图4 2000年三大城市四苗接种率(%)
分段条图:具有两个统计指标,一个分组因素,且两个统计指标必须有隶属关系。如左图。
误差条图:用条图或线图表示均数的基础上,在图中附上标准差的范围。如右图。
图6 四种营养素喂养小白鼠三周后所增体重(克)
图5 老、中、青三代的结核菌素阳性率与强阳性率(%)
⑴ 纵轴的刻度必须从“0”开始,否则会改变各对比组间的比例关系。
(2)横轴各直条一般按统计指标由大到小排列,也可按事物本身的自然顺序排列。
(3)各直条的宽度要一致,各直条应有相等的间隔,其宽度一般与直条的宽度相等或为直条宽度的一半。
绘制条图的注意事项
2.圆图和百分条图
圆图(pie chart)是以圆形总面积作为100%,将其分割成若干个扇面表示事物内部各构成部分所占的比例。
百分条图(percent bar chart)是以矩形总长度作为100%,将其分割成不同长度的段表示各构成的比例。
圆图和百分条图适合描述分类变量的构成比资料。
图6 某年某地眼病患者构成状况分析
2002年某医院1402例孕妇分娩结果
百分条图(percentage chart)
百分条图的作用与圆图相同。但更适用于多组百分比的比较。
0
20
40
60
80
100
呼吸系统病
脑血管病
恶性肿瘤
损伤与中毒
心脏疾病
其它
图8 我国部分县1988年的死因构成比
不同性别某癌三种类型的构成
分化型癌 低分化腺癌 未分化型 合计
男 52.3 27.8 19.9 100
女 30.2 18.1 51.7 100
例 图10是根据某地20世纪70年代和80年代恶性肿瘤发病登记资料绘制成的百分比条图。由图可见不同年代主要恶性肿瘤中,鼻咽癌和肝癌构成减少,肺癌明显增加。
百分比条图特别适合作多个构成比的比较,将不同组别,不同时间或不同地区的某分类指标的构成比平行地绘制成多个百分比条图,可以方便地比较其构成比的差异。
图10 20世纪70年代和80年代某地7常见恶性肿瘤发病构成比较
3.线图(line graph)
线图是用线段的升降来表示数值的变化,适合于描述某统计量随另一连续性数值变量变化而变化的趋势,最常用于描述统计量随时间变化而变化的趋势。
普通线图:横轴和纵轴都是算术尺度。
半对数线图:横轴是算术尺度,纵轴是对数尺度,特别适宜作不同指标变化速度的比较。
例 图11是根据1990~2000年某沿海城市甲状腺功能亢进(甲亢)发病率资料绘制的普通线图。
图11可看出在1995年开始食盐加碘后,甲亢发病率有一突增高峰,1999年以后又逐渐下降的趋势。
图10-4 1990~2000年某沿海城市甲状腺功能亢进发病率变化趋势
绝对差与相对比的比较
某市1949~1957年15岁以下儿童结核病和白喉死亡率(1/10万)
年份 结核病死亡率 白喉死亡率
1949
1950
1951
1952
1953
1954
1955
1956
1957 150.2
148.0
141.0
130.0
110.4
98.2
72.6
68.0
54.8 20.1
16.6
14.0
11.8
10.7
6.5
3.9
2.4
1.3
例 调查某地1997年~2001年两种与性传播有关疾病—艾滋病和梅毒的发病率变化趋势,资料分别绘制成普通线图和半对数线图。
普通线图显示梅毒的增长幅度较大,但半对数线图则显示艾滋病的增长速度更快。
图12 1997~2001年某地艾滋病和梅毒发病率的变化趋势
(a)纵轴为算术尺度; (b) 纵轴为对数尺度。
中国6城市脑卒中患病、发病及死亡率抽样调查结果的半对数线图
美国疾病控制中心(CDC)报道,自从应用白喉类毒素作为儿童常规免疫接种后,白喉发病率和死亡率明显下降,但病死率仍停留在一定水平上。三者动态变化表达如下图。
注意:
标记直线的连接点时要注意,如测定值是在某时间段或数值段的,应标记在段的中点; 如测定值是在某时点或确定值的,标记在相应时点或数值上。
4.直方图(histogram)
表示数值变量资料的频数分布。直方图的横轴尺度是数值变量值,纵轴是频数。
注意如各组的组距不等时,要折合成等距后再绘图,即将频数除以组距得到单位组距的频数作为直方的高度,组距为直方的宽度。
另一种表示数值变量资料频数分布的方式是将各组段观察频数除以总观察频数得到各组段的频率,以各组段频率除以组距得到的频率密度作为直方图高度,绘制的直方图称为频率直方图,它以各直方面积表示各组频率,其面积的总和为1。
1950—2050中国人口金字塔
男
女
5. 散点图(scatter diagram)
散点图(scatter diagram):用点的密集程度和趋势表示两种现象间的相关关系。
横轴:自变量X
纵轴:应变量Y
纵轴与横轴的起点可根据资料的情况而定。
Relationship between health and economic development
Countries with GNP per capita under 4 000 US dollars in 1995
6.统计地图 (statistical map)
统计地图是用不同的颜色和花纹表示统计量的值在地理分布上的变化,适宜描述研究指标的地理分布。
7.其他特殊分析图
在探索性数据分析中,一些特殊的统计图对于发现数据分布特征有着重要的意义。这里介绍常用的箱式图、茎叶图和误差条图。
(1) 箱式图(box plot)
使用5个统计量反映原始数据的分布特征,即数据分布中心位置、分布、偏度、变异范围和异常值。
箱式图的箱子两端分别是上四分位数和下四分位数,中间横线是中位数,两端连线分别是除异常值外的最小值和最大值。另外标记可能的异常值。
显然箱子越长,数据变异程度越大。中间横线在箱子中点表明分布对称,否则不对称。
箱图(boxplot)也称箱须图 (box-whisker plot),用于反映一组或多组连续型定量数据分布的中心位置和散布范围。
例 某地调查不同类型化妆品厂车间内粉尘数,结果绘制成图13。
图中显示粉尘数的分布呈偏态分布,净化厂粉尘数较少,非净化厂粉尘数较多。
图13 某地不同类型化妆品厂车间粉尘数分布箱式图
(2)误差条图(error bar chart)
(3)气泡图
气泡图可以反映三个变量之间的数量关系