数据的初步整理统计图表.ppt
《数据的初步整理统计图表.ppt》由会员分享,可在线阅读,更多相关《数据的初步整理统计图表.ppt(22页珍藏版)》请在冰点文库上搜索。
第二章数据的初步整理统计图表,第一节范畴型数据的整理第二节数值型数据的整理一、原始数据二、次数分布表三、次数分布图,同任何研究一样,语言研究的目的是为了探讨和说明问题,以便深入地了解事物或现象的本质及其相互关系,而对数据的统计分析是实现这一目的的重要一环。
对原始数据进行整理的基本方法之一是编制统计图表。
统计表把被说明的事物及有关统计数字分门别类地整齐地表示出来,简洁明了,易于比较分析;统计图则使数据的突出特征具体、形象、直观、生动地展示出来,易于理解,且印象深刻。
因而,图表的适当应用可以起到去粗取精、化繁为简的作用。
第一节范畴型数据的整理,在语言研究中经常要把研究对象(人、反应、语言现象等)按某种标准分成相互排斥的类或范(或者根据多种标准交叉分类),这类数据叫做范畴型数据(见第一章“称名变量”)。
对于范畴型数据的整理,主要是进行分类并计算出每一类的观察次数和相对次数(即在总次数中所占的百分比),最后以表和条线图的形式表示出来。
例如,我们从学生的英语作业中收集到90个错误,经分析,其中30个是由汉语干扰造成的,25个是由过度概括造成的,个是个是由教学方法不当造成的,20个是由教学方法不当造成的,15个是由其它原因造成的。
此数据可以整理如下表(相对次数也可以加括号放在次数之后):
该数据也可以用条线图进行更直观的表示:
坐标中横坐标代表范畴或类别,纵坐标代表每个类别的观察次数。
第二节数值型数据的整理,语言研究中更经常遇到的是数值型数据,譬如考试分数、句子阅读时间、每句单词数等。
如果数据量很小(譬如只有几个数值),把它列举出来即可,而不需进行任何整理,但是对于数量较大的数据,则必须利用图表进行初步整理,才能更易看出其中带有规律性的特点,尤其是数据中各数值的分布情况,譬如数据的集中趋势及离中趋势(详细讨论见第三章),即数据的典型数值以及数值之间的差异程度。
一、原始数据,下面一组数据为一篇英语阅读材料中100个句子的长度数据(以音节数表示):
表2.2(a)100个英语句子的长度值,294036582023441847182217131211202191462681724279162812222156442635215517504048201412171025242018181920152623161812241240342613371922224817231416131019179161213916191914101116161588151539445129,582921171356282017125527201612512620161250262016124826201612482619161247251916114424191611442419151044241915104023181510402318159402318149392218149372218149362217148352217138342117138292117136,表2.2(b)100个句子的长度(按数值大小排列),对于这样数值数目较大的数据,按表2.2(a)列举,其用处是很有限的,因为它杂乱无序,难以获得有价值的信息。
如果像表2.2(b)按照数值的大小顺序列举,数据的条理性和清晰性就可以大大提高。
表2.2(b)看起来比表2.2(a)清晰多了,稍加分析就可以看出数据的分布情况,例如,最长句与最短句的长度是多少,二者之间的距离有多大(可粗略表示数据的离散情况),哪些长度的句子出现次数比较多(大体表示数据的集中情况,等等。
二、次数分布表,尽管通过排序,数据的条理性有所提高,但是表2.2(b)仍然不够简明,不能做到一目了然。
从表中可以看出,数据中数值出现的次数或频率是不同的,有的只出现一次,而大部分是重复出现的,如果把重复出现的数值在表中只列举一次,随后标明其出现的次数,就可以把数据进一步压缩,使其更加条理化。
这样的表称为次数分布表。
1.未分组与分组次数分布表,次数分布表示数据的散布情况,而次数分布表则是对数据进行初步整理的重要手段,它能较为直观地表示出数据的分布情况,使人们得以大体上了解数据的平均水平和差异情况等。
一般来讲,次数分布表的最左边一列为各个数值,接下来为登记次数,其次为各数值出现的次数。
上述句子长度数据的次数分布表如下:
表2.2(c)不仅清楚地显示出了句子长度的分散范围,而且表明了各长度的句子出现的次数,其中次数最高(7)的长度是16,其他长度的句子,出现的次数向两边逐渐减少直至1,出现次数较低的句子多为长句。
2.编制分组次数分布表的方法,编制分组次数分布表的关键是确定组距和组数。
具体方法如下:
(1)求全距或两极差:
全距是指一组数据中最大数值与最小数值之差,因此,只要在数据中找出最大数值与最小数值,然后从前者减去后者,即得全距。
(2)求组距:
组距也叫做分组区间,指每组中最高数值(成为“上限”)与最低数值(成为“下限”)之间的距离,常用符号i表示,为了便于计算分组区间和组中点。
各组组距应尽量相等。
常用组距一般为2,3,5,10等,但最好取单数,这样便于定组中点。
为了能确定一个最佳的组数,当数据的总体分布为正态时,可以用下面的公式计算,K=1.87(N-1)2/5(2.1)式中K组数(取近似整数)N数据中数值的个数(3)确定具体分组区间:
各分组区间按照数值的大小,从高到低或从低到高排列均可,最高一组和最低一组应能分别包含数据中的最大值和最小值。
而且最高组或最低组的下限最好只组距的整数倍。
分组区间列出后,要找出组中点,方法:
上限与下限之和除以2,或每组下限加组距之半。
例如1015这一分组区间的组中点为(10+15)/2=12.5,或10+5/2=12.5。
(4)登记次数:
这一步需注意两点:
一是每组的精确上下限,这样才能处于组限的数据(尤其是含有小数的数值)归入适当的组别;二是要防止漏登或重复登记等讹误。
(5)计算次数:
全部数据登记完毕,数一数每个分组区间内数值的个数,即得出各组的次数,然后把各组次数相加,就得出总次数。
通常用字母f来表示次数,那么总次数就为,等于数据中数值的的总个数N。
还可在各组次数的基础上进一步计算相对次数、累计次数和相对累积次数。
三、次数分布图,如果用统计图来表示数据的次数分布,则更加直观清楚。
比较常用的统计图有次数分布直方图和次数分布多边图。
这两种图都是用面积来表示数据的分布。
1.次数分布直方图分组数据的次数分布直方图的绘制方法如下:
(1)画一个直角坐标系,在横坐标上标明各分组区间,在纵坐标上标出次数。
分组区间一般有两种标示方法:
一种是标出各组的下限;另一种是标出各组的组中点。
(2)在每个分组区间上面画一直方形,其宽度等于组距,高度等于每分组区间的次数。
如果横坐标上标的是每组的组中点,那么组中点应位于直方形底边的正中间。
(3)把各直方形连在一起(中间不留间隙)。
上述句子长度数据的次数分布直方图如图2.2,当然,也可以用未分组的数据绘制次数分布直方图。
这时横坐标表示的是每一个数值,纵坐标表示数值的次数,直方形要绘在横坐标上的每个数值之上,其宽度要相等,标出的数值应位于直方形底边的中间。
但是如果数据量较大,就会给分布图的绘制以及显示信息的清晰度带来一些问题,因为在一定的空间内难以把所有数值清楚地安排在横坐标上;此外,这样的分布图对数据的整理和压缩作用也不大。
2.次数分布多边图次数分布多边图的绘制与直方图的绘制基本相同。
对于未分组数据,在横坐标上的每个数值的上方画一个点,点的高度等于各数值的次数。
对于分组数据,则在横坐标的每个分组区间的组中点上方画一个点,点的高度等于各分组区间的次数。
然后用直线把各点连接起来。
图2.3为句子长度数据的次数多边图,较之直方图,次数多边图可以把几组数据的次数分布情况显示在一个直角坐标系里,因而便于对它们进行直观的比较。
小结,如前所述,原始实验数据往往杂乱无章,如果不加以适当的整理,大量有份值的信息就会被掩盖起来,同时也无法进行进一步的统计分析,这样的数据是说明不了什么问题的。
因而,统计分析的第一项重要工作就是对原始数据进行初步整理、归纳和分类,使其最突出、最重要的特征得以显现出来。
本章介绍了在语言研究中对数据进行整理压缩的常用图表的编制方法和注意事项。