文献计量研究中定量语言学分析程序的构建与应用.docx

资源描述

文献计量研究中定量语言学分析程序的构建与应用.docx

《文献计量研究中定量语言学分析程序的构建与应用.docx》由会员分享，可在线阅读，更多相关《文献计量研究中定量语言学分析程序的构建与应用.docx（16页珍藏版）》请在冰点文库上搜索。

文献计量研究中定量语言学分析程序的构建与应用.docx

文献计量研究中定量语言学分析程序的构建与应用

——以国外文献计量研究领域为例

周文杰

2012-9-2116:

16:

10　　来源：

《情报资料工作》2012年02期

　　【英文标题】TheEstablishmentandApplicationofAnalyticalProcedureofQuantitativeLinguisticsinBibiometrics:

TakingBibliometricStudiesAbroadasanExample

　　【作者简介】周文杰，男，1973年生，南开大学商学院博士研究生，信息资源管理系，天津300071

　　【内容提要】文章在综合运用共词（串）、聚类分析等定量语言学分析方法的基础上，结合图论相关原理构建了用于文献计量研究的定量语言学分析程序，并以国外2001-2010年文献计量研究领域为例，展示了这套程序的应用。

　　Basedontheco-wordandclusteranalysis,thispaperconstructsaquantitativelinguisticsanalysisprocedure.Forthepurposeofdemonstratingtheprocedure,thispaperconductsaquantitativelinguisticsanalysisresearchontheforeignbibliometricresearchfieldduring2001-2010andprovesthattheprocedureworkswell.

　　【关键词】定量语言学分析/共词（串）分析/聚类/网络分析/文献计量quantitativelinguisticsanalysis/co-word（cluster）analysis/cluster/networkanalysis/bibliometric

　　定量语言学（QuantitativeLinguistics）分析方法是文献计量研究中使用的非常普遍的方法。

这类方法在文献计量研究中的应用起源于20世纪中后期，Wyllys发表于1975年的《用频数等级曲线测量科学文献——老现象的新用法》（Measuringscientificprosewithrankrequencycurves：

Anewuseforanoldphenomenon）[1]一文被认为是第一篇使用定量语言学分析方法的文献计量研究文献[2]。

　　在定量语言学分析研究中，共词分析是达成研究目标的重要手段。

Callon等是最早使用共词分析方法的研究者[3]。

由于共词方法具有简便、易操作的优点，使之成为最近20多年文献计量研究者最常用的方法之一。

Callon等研究发现，基于共词分析可以有效展示特定研究领域的理论概念框架，从而为通过定量语言学分析方法揭示特定领域的研究范围提供了条件[4]。

Noyons发现，共词分析方法作为整体上描述一个科学研究领域的最优方法，已经被广泛应用于科技政策和研究管理的实践之中[5]。

在不同学科领域，研究者应用共词分析方法进行了大量文献计量研究，如：

deLoozeandLemarie在植物学领域[6]，BhattacharyaandBasu高分子物理领域[7]，Peters和vanRaan在化学工程领域[8]，Ding等在信息检索领域[9]及Onyancha等在医药领域[10]进行的相关研究等，都是把共词分析方法应用于具体科学研究领域进行文献计量分析的范例。

　　基于共词分析，随着相关软件工具趋于成熟，聚类（cluster）分析作为一种新的定量语言学分析方法也开始被纳入文献计量研究者的视野之中。

Berkhin[11]和Xu[12]等是较早使用聚类方法进行定量语言学分析的文献计量研究者。

通过后续研究者的完善，聚类方法在文献计量研究领域的使用已趋于成熟。

　　在国内，文献计量是研究者所关注的热门话题。

笔者在CNKI数据库的“关键词”检索项中以“文献计量”为检索词对1990年以来的文献进行了检索，共检出5376条记录，仅2010年以来就检出859条记录。

而在国外，文献计量研究则相对审慎。

笔者在EBSCO中的LISTA数据库以bibliometric为检索项进行检索，仅得到2001-2010年间发表于入选SSCI目录期刊的相关论文398篇。

从发表论文的数量上看，国内外本领域研究存在着不小的反差。

从研究方法的应用来看，国内文献计量研究多应用核心作者分析、高被引文献分析或共引文献分析等方法，研究结果集中于对高被引作者、高产研究机构等的描述方面。

无疑，通过文献计量发现特定研究领域的核心作者、主要研究机构和影响力较高的期刊是有价值的。

然而，文献计量研究的价值绝不应该仅仅局限于对文献外显指标的一般性描述。

在对特定研究领域本身进行整体描画，从而析出特定研究领域的边界、热点与研究特征方面，文献计量研究也大有用武之地。

但就现有文献计量研究领域的具体研究成果而言，此方面尚存在一些明显的不足。

特别是一些试图通过文献计量的方法揭示特定领域研究热点的研究者，常常把结论基于主观分析与判断之上，使得其所揭示的研究热点的准确性大打折扣。

例如，依据词频分析方法揭示特定领域研究热点的研究者常常面临着一种尴尬：

一方面某个词的词频很高，例如information一词，但另一方面却无法明确赋予这个词具体的意义，例如到底是informationbehavior还是informationseeking是研究热点？

　　总之，定量语言学分析已经发展出共词等一系列成熟的工具和方法，但在具体的研究实践中，这些工具和方法常被零散地应用于不同的文献计量研究中，从而导致诸多不足。

本研究的目的是通过综合应用词频、词串、共词（串）矩阵及图论的方法，构建一套完整的定量语言学分析程序，使之可应用于揭示特定科学研究领域的边界、主要子领域和研究热点，从而克服现有研究的不足，并服务于科研及管理实践。

为证明这套程序的可行性，本研究以最近十年国外文献计量研究为例，展示这套程序在具体研究中的应用。

　　1、文献计量研究中定量语言学分析的主要指标

　　定量语言学分析方法需要一系列可定量的指标来实现文献计量研究的目的，其中词频、高频词、词串、共词（串）、共词（串）矩阵及中心性是最基础的指标。

词频指在分析语料中特定词语出现的频数。

在分析得到的词频表中，部分词出现频率较高，就构成了研究的高频词。

高频词选择的具体标准需要研究者根据拟分析语料的特征和研究目的进行判断。

共词则指两篇文献中同时出现的词语。

由于单个词语常常无法揭示出明确的意义，因此，需要把位于同一语群且与拟分析词语相关的词语都提取出来，以获得具有相对完整意义的一组词，这就形成了词串。

虽然高频词（串）与高频共词（串）的频数已经从一定程度上揭示了研究领域的整体状况，但要进一步揭示其关系，还须构建矩阵，对其网络特征进行分析。

　　对于共词（串）之间关系的分析是基于图论的原理而展开的，其中程度中心性（degreecentrality）和中介性（betweennesscentrality）是计算节点在网络中的中心程度最重要的两项指标[13]150-162。

程度中心性用以衡量网络中哪个节点处于最中心的位置。

所处的位置越位于中心位置，则越有“权力”，其影响力也越大。

其计算公式为：

　　j和i为词串在矩阵中的行和列。

　　中介性则用以衡量节点作为“媒介者”的能力，中介性越高，则其地位越关键。

其计算公式为：

　　其中是词串i到达词串j的捷径数，g是网络中的词串个数。

　　由于程度中心性和中介性在网络结构中所具有的独特性质，通过计算具体高频词（串）在网络中的上述两项指标，就可以有效地揭示特定研究领域的热点问题。

　　2、文献计量研究中定量语言学分析的程序

　　如前文所述，基于定量语言学分析的文献计量是对特定科学研究领域的研究现状及热点问题进行探查的有效工具之一。

本文所构建的分析程序如下：

（1）选择语料库。

语料库的选择是进行定量语言分析的基础性工作。

一般情况下，研究者通过对数字图书馆相关资源进行检索而建成语料库。

在个别情况下，研究者也可能需要自行建设语料库以备分析。

（2）对语料库中拟分析的文本进行词频分析。

拟分析文本可以把论文整体作为分析单位，也可以把题目、摘要或关键词等作为分析单位。

　　（3）确定高频词选择标准并检出高频词。

在具体的研究实践中，对于高频词入选的标准，需要研究者根据样本数量和研究目的进行判断。

　　（4）析出词串。

如前文所述，考虑到单个词常常无法反映完整的意义，因此需要在语料库中围绕特定高频词析出词串。

为兼顾词串分析意义的完整性和效率，词串的规模应适中。

如果词串规模过小，则所检出的单个词太多，从而仍然难以判断其含义；如果词串规模过大，则析出的词串语义过于复杂，会大大降低研究者的分析效率。

　　（5）在语料库中对高频词串中进行“共词串”分析，形成高频共词串矩阵。

构建共词串矩阵的目的，是为把计量分析的单元由词及词串扩展到词串之间的关系。

　　（6）应用图论相关原理，构建共词串网络关系图，并对其网络结构进行分析，从而实现勾画特定研究领域整体面貌并揭示其研究热点的目的。

具体而言，通过子群分析等方法，揭示具体研究领域的主要子领域，然后由这些子领域共同构成本领域研究的全貌。

通过中心性分析等方法，揭示本领域研究中的重要问题，从而析出研究的热点。

如果研究需要，研究者还可根据图论的相关原理继续进行其他各种网络特征的分析。

　　具体而言，对特定科学研究领域进行定量语言学分析的流程如图1。

　　3、2001-2010年国外文献计量研究的领域与热点

　　3.1研究设计

　　3.1.1语料选择

　　截至2011年5月，共有66种情报学与图书馆学（InformationScienceandLibraryScience）学术期刊被列入社会科学引文索引（SSCI）目录。

本研究首先收集了这66种刊物中被EBSCO的“图书馆学、情报学及技术摘要（LISTA）”数据库所收录的发表于2001-2010年的全部论文摘要，共得到来自55种刊物的16482篇论文摘要。

然后，研究者提取了题名或摘要中含有文献计量（bibliometric）一词的398篇论文的摘要作为分析语料。

语料的具体来源见表1。

　　3.1.2研究程序及数据分析工具

　　本研究以AntConc3.2.1w软件为词频分析工具，用其进行高频词表的创建与高频词串的析出；应用EndnoteX3软件为摘要管理工具，并应用其析出共词串；以UCINET6.237软件为网络结构分析工具，用以对本研究所建成的共词串矩阵进行各种网络特性的分析。

　　3.2研究结果

　　3.2.1通过词串分析勾勒研究领域的整体面貌

　　本阶段的主要任务是析出高频词及高频词串并构建矩阵。

由于本研究的目的是从整体上了解文献计量研究领域的现状，而无意对研究的细节进行深究，因而研究者确定频数达100次以上的词为高频词。

通过AntConc的分析，得到了总词频表，剔除其中的虚词等无法单独表达意义的词语后，析出本领域词频在100次以上的高频词28个，见表2。

　　正如前文所提及的，观察表2可以看出，多数高频词都无法单独赋予明确的意义。

此前的研究者以高频词为标准来分析特定研究领域及其热点时，必然要辅之以大量的主观判断，这使得研究结论的客观性大打折扣。

为克服这一缺陷，依据前文所构建的程序，本研究对国外计量研究领域进行了词串分析。

显然，当研究者获得了词频在1次以上的词串时，这些词串就勾勒出了本领域研究的边界，这对于文献计量领域的研究者分析不同科学研究领域的整体面貌是有价值的。

由于本研究的目的是为了揭示文献计量领域研究的现状而非边界，因此研究者在剔除了重复及意义不完整的词串后，最终析出词频在10以上的词串54个（表3）作为后续分析的基础。

　　对比表2和表3可以看出，高频词串比高频词所表达的意义更加完整、清晰。

但如果以高频词串来描述特定科学研究领域的特征，则会发现这些词串意义分布广泛且零散，研究者仍难以界定词串之间的相互关系。

基于前文所构建的定量语言学分析程序，本研究构建了高频词串矩阵，并对其网络特征进行了分析。

　　3.2.2通过网络特征分析探查主要子领域

　　如果把研究领域整体网络视为由所有节点组成的一个群，则其中扮演着相似角色的节点便会构成子群，换言之，群是全部子群的合集。

具体到本研究中，子群指特定研究领域的子领域，这些子领域共同勾勒了十年来文献计量研究领域的整体面貌。

　　在关于网络特征的研究中，用于把构成网络的节点归纳成为若干子群的方法有角色分析和凝聚子群研究等。

图2展示了通过UCINET软件对近十年国外文献计量研究子领域的职位分析（positionanalysis）结果。

图2-a和2-b是基于阿基米德距离而计算的结构同型子群，其中图2-a用以分析不同层次（level）的聚类结果，图2-b则是对聚类结果的直观图示，两者结合，用以解释子群及其距离。

图2-c是基于相关系数的CONCOR法计算的结构同型子群。

因为所基于的数学原理不同，两种方法计算出的结构同型性子群并不一致。

在具体研究中，选用何种计算方法需要研究者根据数据的特征及研究目的进行判断。

　　就本研究所而，研究者关注在文献计量研究领域存在哪些子领域，而不关注这些子领域之间距离的远近，因此选择CONCOR法。

CONCOR分析法的计算公式[13]192为：

　　经过对图2-c分析发现，目前文献计量研究的8个主要子领域分别为（以图中出现的先后为序）：

（1）图书馆学情报学（LIS）领域开展的针对特定科学研究领域、信息检索、文献计量方法及高被引文献等一般性问题的研究。

（2）针对引文分析（特别是共引文献分析）展开的文献计量研究。

　　（3）针对计量分析与出版活动的关系而开展的研究。

具体而言，这一子领域反映了出版界对文献计量研究结果的重视，从而使两者之间产生了较密切的关系。

而发展中国家的出版活动则受到了文献计量研究者特别的关注。

　　（4）围绕文献计量技术开展的研究。

期刊论文和高被引文献等是本子领域的高频词串，这表明目前文献计量研究的主要技术是通过对期刊论文及高被引文献分析而实现，这从一个侧面说明共词与聚类等定量语言学分析方法的应用尚有不足。

　　（5）围绕影响因子而展开的研究。

进一步分析发现，本子群关注的问题包括：

研究绩效、成果及评估，SCI及其报告（JCR）的应用与研究，出版数量及成果研究，引文研究及h指数的应用与研究等。

　　（6）围绕文献计量的数据获得及应用展开的研究。

包括对引文的计数及数据挖掘等展开的研究。

需要注意的是，生物医学领域的研究者对引文数据等尤其重视。

　　（7）针对科学研究的团队开展的研究。

具体而言，本子领域包括对研究者网络及其国别特征的研究，此方面的研究主要以WoS数据库为工具且个案研究较多。

　　（8）针对科研活动的产品（scientificliterature，scientificproduction）及其效率（scientificproductivity）开展的研究。

　　以上通过CONCOR法对国外十年来文献计量研究领域的8个子领域进行分析，整体而言，这8个子领域边界清晰、意义完整。

但也应该注意到，子领域的数量是由研究者设定的，这一主观因素的参与使得子领域的划分也并非完全客观。

同时，具体研究问题之间千丝万缕的联系使得研究者不可能也没有必要把整个研究领域截然划分为不同的子领域。

简言之，在文献计量研究中应用定量语言学分析方法的目的是绘就一张全面了解特定研究领域概貌的“地图”，而不是对具体理论架构进行解析。

　　3.2.3通过网络联结强度与中心性分析特定研究领域的热点

　　如前文所示，通过高频词（串）及结构同型性分析，可以帮助研究者从整体上把握特定研究领域的边界和整体面貌。

但仅有这些方法，并不足以展示特定研究领域的热点。

由于以高频词（串）来判断研究领域的热点常常失之偏颇，因此，析出研究领域的热点需要借助对高频词（串）的网络结构及其中心性的分析。

　　图3展示了近十年来国外文献计量研究领域的高频词串所形成的共词串网络。

图3-a和3-b展示了不同联结强度的网络结构，观察图3-a可看出位于中心位置和边缘位置词串的分布特征。

图3-b则显示了文献计量研究领域联系最紧密的问题，这些词串在网络中的位置直观地表达了本领域研究的热点。

如图3-b所示，影响因子是最核心的点，无疑这个问题便是当前文献计量研究中最热点的问题。

结构图虽然提供了研究热点及分布的直观展示，但要精确地定量分析这些热点，还需要借助对网络中心性相关指标的分析。

本文第二部分已经对中间中心度和中介性这两个衡量网络中心程度的指标的计算方法进行了介绍。

表4列出了十年来国外文献计量研究领域中心性最高的5个问题。

这5个问题也就是本研究所析出的十年来国外文献计量研究的热点。

（1）本领域研究的中心问题。

图3-b和表4共同表明，“影响因子”是中间中心度最高的词串，因此这一问题属当前文献计量领域研究最热点的问题。

情报学与图书馆学情报学两个词串也进入了中心度排名的前5位，一方面表明情报学与图书馆学情报学视域的一致性[14]，另一方面表明当前文献计量研究主要发生于这一学科领域之内。

此外，文献计量指标和科学引文索引（SCI）也是本领域研究的热点问题。

（2）本领域研究的关键问题。

通过分析表4列出的中介性最高的词串发现，文献计量分析、引文计数、引文分析、SCI和影响因子是本领域研究最关键的5个问题。

这5个问题由于处于其他问题之间联结的中介位置，因此其研究进展对其他相关问题的研究影响很大。

　　4、结语

　　着眼于勾勒特定科学研究领域的整体面貌和研究热点，本文构建了一套用于文献计量研究的定量语言学分析程序，并通过对十年来国外文献计量研究领域的研究现状的分析，对这套程序在实际研究中的可行性进行了论证。

整体而论，本研究所构建的定量语言学分析程序成功地分析出了文献计量研究的子领域与热点问题。

　　具体而言，构建基于共词（串）、聚类及图论的定量语言学分析程序具有如下方面的意义：

　　4.1理论意义

（1）为文献计量研究提供了新的视角。

在研究实践中，研究者常常会发现，语料中不同的分析单元能够为文献计量研究提供不同的信息量。

当以高频词为分析单元时，研究者得到的是关于研究领域相对零散的一系列点；当以高频词串为分析单元时，研究者可得到一系列意义相对完整的线；而当研究者以词及词串的网络关系为分析单元时，则可得到反映研究领域全貌的“面”。

分析单元由点、线升级为面不仅仅意味着文献计量研究结果更加客观，事实上也为文献计量研究的方法论赋予了新的视角：

文献计量的分析单元是整体领域而非个体特征，是“关系”而非“节点”。

这种研究视角的转向及其所蕴含的丰富含义为文献计量学提供了夯实理论基础的契机。

（2）为整合现有文献计量研究规律性认识提供了理论切入点。

在文献计量研究领域，许多研究者都进行了开创性的研究，获得了辉煌的理论成果，普赖斯定律、布拉德福定律等都是这方面的典型代表。

但这些理论成果自创立以来，在多数情况下只被作为教科书介绍的重点，却鲜有文献计量领域的研究者真正将其应用于研究实践中。

显然，基于“关系”研究而勾画具体研究领域的整体图景时，需要以更大范围的理论成果作为背景和支撑。

如在拟分析语料的样本选择方面，文献分布规律显然可以作为定量语言学分析的理论基础。

着眼于定量语言学分析的特征和优势，这种文献计量研究方法无疑对整合现有成熟的理论与规律提供了一个切入点。

　　（3）为建立更加精确而实用的文献计量理论模型提供了可能。

观察社会科学的其他研究领域，研究工具与理论模型之间存在着密切的联系。

如经济学领域多元回归方法的应用，管理学领域结构方程模型的应用，心理学领域多元方差分析方法的应用等都堪为典范。

由于图论已经是一种相对成熟的数学工具，因而使用这种工具构建文献计量的模型兼具可行性和前瞻性。

　　4.2实践意义

　　从实践的层面看，基于词频、词串及其关系而开展的定量语言学分析使文献计量研究的结论建立在更加丰富的数据及图形的基础上，从而有助于提高文献计量研究成果的客观性和可信度。

同时，通过规范使用图论等数学工具，也有助于提升文献计量研究成果的认可度。

从本文展示的实例可以看出，定量语言学分析在描述特定研究领域的现状及热点方面具有一定的优势，这对于科研工作者了解自己在科研社区中的位置及在帮助科研新手快速了解本研究领域概况方面都具有积极的意义。

此外，定量语言学分析方法还可有效服务于科研管理与评估。

　　总之，定量语言学分析的相关工具与方法在文献计量研究领域具有良好的应用前景，但也存在着明显的局限性，如定量语言学分析适用于描述特定研究领域的整体面貌，却无法对这一研究领域的理论框架进行深度探析等。

仅就本研究而言，也存在许多不足，诸如：

本研究以英文文献为分析语料展示了所构建的程序，但这套程序对中文文献的适用性尚待考察；本研究只涉及了部分以共词和聚类为基础的分析方法，在更加广泛地应用基于共词网络的各种有价值的指标方面尚需要继续探索和完善。

笔者相信，这种不足恰恰是后续更加深入研究的开始。

　　【参考文献】

　　[1]WyllysRE.Measuringscientificprosewithrank-frequency（"Zipf"）curves:

Anewuseforanoldphenomenon[J].ProceedingsoftheAmericanSocietyforInformationScience,1975（12）:

30-31.

　　[2]JanssensF,LetaJ,GlanzelW,MoorBD.Towardsmappinglibraryandinformationscience[J].InformationProcessingandManagement.2006（6）:

1614-1642.

　　[3]CallonM,CourtialJP,TurnerW,BrainS.Fromtranslationstoproblematicnetworks:

Anintroductiontoco-wordanalysis[J].SocialScienceInformation,1983,

（2）:

191-235.

　　[4]CallonM,CourtialJP,LavilleF.Co-wordanalysisasatoolfordescribingthenetworkofinteractionsbetweenbasicandtechnologicalresearch:

Thecaseofpolymerchemistry[J].Scientometrics,1991

（1）:

153-205.

　　[5]NoyonsE.Bibliometricmappingofscienceinasciencepolicycontext[J].Scientometrics,2001

（1）:

83-98.

　　[6]deLoozeM,LemarieJ.Corpusre

展开阅读全文