信息处理用现代汉语词类及词性标记集规范.docx

上传人:b****2 文档编号:2654788 上传时间:2023-05-04 格式:DOCX 页数:14 大小:26.67KB
下载 相关 举报
信息处理用现代汉语词类及词性标记集规范.docx_第1页
第1页 / 共14页
信息处理用现代汉语词类及词性标记集规范.docx_第2页
第2页 / 共14页
信息处理用现代汉语词类及词性标记集规范.docx_第3页
第3页 / 共14页
信息处理用现代汉语词类及词性标记集规范.docx_第4页
第4页 / 共14页
信息处理用现代汉语词类及词性标记集规范.docx_第5页
第5页 / 共14页
信息处理用现代汉语词类及词性标记集规范.docx_第6页
第6页 / 共14页
信息处理用现代汉语词类及词性标记集规范.docx_第7页
第7页 / 共14页
信息处理用现代汉语词类及词性标记集规范.docx_第8页
第8页 / 共14页
信息处理用现代汉语词类及词性标记集规范.docx_第9页
第9页 / 共14页
信息处理用现代汉语词类及词性标记集规范.docx_第10页
第10页 / 共14页
信息处理用现代汉语词类及词性标记集规范.docx_第11页
第11页 / 共14页
信息处理用现代汉语词类及词性标记集规范.docx_第12页
第12页 / 共14页
信息处理用现代汉语词类及词性标记集规范.docx_第13页
第13页 / 共14页
信息处理用现代汉语词类及词性标记集规范.docx_第14页
第14页 / 共14页
亲,该文档总共14页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

信息处理用现代汉语词类及词性标记集规范.docx

《信息处理用现代汉语词类及词性标记集规范.docx》由会员分享,可在线阅读,更多相关《信息处理用现代汉语词类及词性标记集规范.docx(14页珍藏版)》请在冰点文库上搜索。

信息处理用现代汉语词类及词性标记集规范.docx

信息处理用现代汉语词类及词性标记集规范

信息处理用现代汉语词类及词性标记集规范

(征求意见稿)

教育部语言文字应用研究所计算语言学室

“语料库加工”课题组

2002-04-08

1.名词(n),表示人和事物的名称或时间、位置,在句中主要充当主语和宾语。

如:

手山云学生暑假字典长城人类车辆气氛意识老者

运动员今年近代清早星期一里头下面周围北京白垩纪

1.1普通名词(n),表示人和事物的名称。

如:

人书水导师石匠阿姨老虎柳树辣椒厨房桌子木头

温度哲学情况作风因素思想自行车电冰箱冰棍儿

1.2时间名词(nt),表示时间。

如:

世纪年代期年周年季月旬星期礼拜日天夜时

小时点刻分秒毫秒朝代朝代世纪时代

八月/nt白露/nt白天/nt白昼/nt初四/nt春季/nt春天/nt

国庆/nt黄昏/nt星期二/nt元旦/nt元月/nt月初/nt昨天/nt

与时间单位名词组合,一般先切分再组合。

如:

[大/d前天/nt]nt[上/nd星期/nt]nt[下/nd个/q礼拜/nt]nt

[上/nd半年/nt]nt[前/nd半叶/nt]nt[后/nd半夜/nt]nt

[推普/j周/nt]nt[下/nd半月/nt]nt[理查nh/三世/nt]nt

[路易/nh十五/m]nt甲午/m年/nt马年/nt20/m世纪/nt

50/m年代/nt三/m星期/nt

1995/m年/nt/11/m月/nt29/m日/nt14/m时/nt15m分/nt

一九九五/m年/nt十一月/nt二十九/m日/nt十四/m时/nt十五/m分nt

一年的十二个月份、一周的七天、农历的初一到初十,为一个切分单位。

如:

十二月/nt星期天/nt正月/nt初八/nt

1.3方位名词(nd),表示位置的相对方向。

如:

东中上后左内外旁边侧间东方后方左方以下以东以外之上

之后之内之间之中中间中央当中东北东边下边前边右边里边

旁边北面上面后面左面外面东头下头前头里头东部下部外部

1.4处所名词(nl),表示处所、位置。

处所名词一般由名词与方位名词(nd)构成组合,有的需要先切分再组合。

如:

[窗/n外/nd]nl[床/n边/nd]nl[海/n上/nd]nl[门/n前/nd]nl

[梦/n里/nd]nl[外/nd地/n]nl[后/nd院/n]nl[前/nd街/n]nl

1.5人名(nh),表示人的名称(姓名)。

汉族人的姓和名切分,外国人及外族人姓和名不切分,依照汉族人姓名组合的外国人及外族人姓和名切分。

姓标注为(nhf),名标注为(nhs),不切分的标注为(nh)。

如:

张/nhf仁伟/nhs欧阳/nhf修/nhs阮/nhf志雄/nhs

朴/nhf贞爱/nhs夫差/nh西施/nh貂禅/nh

鲁/nhf迅/nhs茅/nhf盾/nfs巴/nhf金/nhs

白/nhf桦/nhs金/nhf日成/nhs三毛/nh琼瑶/nh

布什/nh叶利钦/nh才旦卓玛/nh小林多喜二/nh

卡尔·马克思/nh比尔·克林顿/nh赛福鼎·爱则孜/nh

表示称谓的名词是一个半封闭系列,其系列集合中包括亲属、职务、职称等各种类型的称谓。

如:

主席书记总理总统部长司长处长科长主任经理教授讲师

助教工程师经济师会计师技师医生医师同志先生师傅小姐

公子大婶阿姨老总氏爷(爷爷)爸(爸爸)妈(妈妈)哥(哥哥)

姐(姐姐)嫂(嫂嫂)弟(弟弟)妹(妹妹)伯(伯伯)叔(叔)婶(婶)

舅(舅)姑(姑)爹(爹爹)公(公公)婆(婆婆)外公外婆姑妈姨妈

舅妈老爸老妈老伯老叔老哥老弟老公老婆表哥表姐表嫂

表弟表妹表伯表叔父母兄弟姊妹

姓/名/附缀+称谓,切分。

如:

江/nhf主席/n小平/nhs同志/n江/nhf总/h书记/n张/nhf教授/n

王/nhf部长/n陈/nhf老总/n李/nhf大娘/n刘/nhf阿姨/n

龙/nhf姑姑/n恩来/nhs同志/n小/h李/nhf老/h刘/nhf大/h李nhf

带排行的亲属称谓,为一个切分单位。

如:

大哥/n小弟/n小姐/n大姐/n

[三/m哥/n]n[二/m妹/n]n[四/m伯/n]n[八/m叔/n]n[五/m爷/n]n

1.6地名(ns),表示地理区域的名称(包括国名、族名等)。

1.6.1国名、族名

国名、族名都作为地名处理,能切分的先切分再组合。

如:

中国/ns[中华/n[人民/n[共和/n国/n]n]n]ns[美利坚/ns合众国/n]ns,

[柬埔寨/ns王国/n]ns[蒙古/ns国/n]ns[蒙古/ns族/k]ns[汉/ns族/k]ns

[哈撒克/ns族/k]ns维吾尔/ns[维吾尔/ns族/k]ns[维/j族/k]ns

1.6.2地名

凡是由“专有名词+普通名词”(“专名+通名”)方式构成的地名全部统一处理,先切分再组合,已列出的特例除外。

如:

[四川/ns省/n]ns[天津/ns市/nns[景德镇/ns市/n]ns[沙市/ns市/n]ns

[大通/ns县/n]ns[宣城/ns地区/n]ns[北京/ns路/n]ns[学院/n路/n]ns

[中关/ns村/n]ns[长安/ns街/n]ns[吴家/nh堡/n]ns[庞各/nh庄/n]ns

[三元/ns里/n]ns[北菜市/ns巷/n]ns[米市/ns大街/n]ns[蒋家/nh胡同/n]ns

[亚马逊/ns河/n]ns[喜马拉雅/ns山/n]ns[珠穆朗玛/ns峰/n]ns

[洞庭/ns湖/n]ns[塞普路斯/ns岛/n]ns[台湾/ns海峡/n]ns

[华北/ns平原/n]ns[帕米尔/ns高原/n]ns[京东/ns大/a峡谷/n]ns

[南沙/ns群岛/n]ns[吐鲁番/ns盆地/n]ns

以下地名作为特例不切分:

大西洋/ns太平洋/ns北冰洋/ns印度洋/ns亚洲/ns美洲/ns

北美洲/ns南美洲/ns拉丁美洲/ns大洋洲/ns澳洲/ns南极洲/ns

欧洲/ns鸭绿江/ns地中海/ns景德镇/ns沙市/ns黑龙江/ns

地名中用到的普通名词有:

省自治区州自治州市直辖市地区区县自治县旗屯盟

寨街乡街路道巷里庄村堡山河湖海平原海峡

国名、族名与“籍/文/语/话/人”等构成组合,有的需要先切分再组合。

如:

日文/n美籍/n华人/n[阿拉伯/ns语/n]n[中国/ns人/n]n

1.7机构专名(ni),表示团体、机构、组织的专有名称。

机构专名与机构通名组合,一般先切分再组合,如果专名不是专用的,

还标原有的词性。

如:

[联合国/ni[安全/n[理事/n会/n]n]n]ni[华联/ni超市/n]ni

[联想/v公司/n]ni[富士通/ni株式/f会社/n]ni

[安娜/nh[美容/v院/n]n]ni[海尔/ni集团/n]ni

1.8普通专有名词(nz),对于不能区别属于哪类专名的专有名词,归入此类。

如:

[华盛顿/nz中学/n]ni

1.9补充说明

1.9.1名词重叠式“AA”“AABB”,为一个切分单位,标注为n。

如:

人人/n家家/n[山山/n水水/n]n

1.9.2特殊处理的名词,如:

人们/n

2.动词(v),表示动作、行为,人或动物的心理活动、生理状态,事件的存现、变化等,在句子中主要充当谓语。

如:

吃穿打借喂洗说爱恨是有来上进给脱学习

发动开始游行同意喜欢看到听见认为应该出现消失

 

2.1普通动词(v),表示动作、行为,人或动物的心理活动、生理状态等。

如:

写踢哭聋饿病让保卫团结描绘试验放假睡觉

请愿坚持希望怀疑觉得强迫争取告诉递交打倒

动词与其他成分组合,切分,有的需要先切分再组合。

如:

学/v电脑/n保卫/v祖国/n整理/v好/a搞/v明白/a解释/v清楚/a

马上/d去/v[念/v书/n]v[来/v自/p]v[捆/v紧/a]v[说/v完/v]v

[早/d来/v]v[别/d走/v]v现在/nt开始/v[开/v会/n]v

2.2趋向动词(vd),表示趋向。

表示趋向的动词基本上是一个封闭系列,如:

出出来出去到过过来过去回回来回去进进来

进去开开来开去来起起来去上来上去下下来下去

普通动词+趋向动词,切分,有的需要先切分再组合。

如:

说/v出来/vd拿/v过去/vd攀登/v上去/vd烘托/v出/vd

行动/v起来/vd[跑/v来/vd]v[掉/v下/vd]v[爱/v上/vd]v[拉/v开/vd]v

2.3判断动词(vl),表示关系的判断。

是为(wei2)系(xi4)

关系动词与其他成分,切分。

如:

那/r是/vl课本/n

2.4能愿动词(vu),表示可能、意愿。

如:

能够能肯应当可可以可能情愿愿意愿要会应该得(dei3)

能愿动词与其他成分组合切分,有的需要先切分再组合。

如:

不/d能/vu只/d会/vu能/vu行/v可以/vu去/v

肯/vu帮忙/v能够/vu完成/v值得(de2)/vu钦佩/v

[不/d可/vu]vu[只/d能/vu]vu[总/d得(dei3)/vu]vu说说/v

2.5补充说明:

2.5.1动词重叠式“AA”“AAB”“AABB”,为一个切分单位,标注为v。

如:

走走/v听听/v比比划划/v勾勾搭搭/v

[洗洗/v澡/n]v[挥挥/v手/n]v[理理/v发/n]v

2.5.2“ABAB”重叠形式,切分。

如:

[研究/v研究/v]v[比划/v比划/v]v

2.5.3“A一A”“A了A”“A了一A”“V不/没V”式,切分。

如:

谈/v一/m谈/v想/v了/u想/v读/v了/u一/m读/v

相信/v不/d相信/v买/v不/d买/v说/v没/d说/v

愿/vu不/d愿意/vu

 

2.5.4“看来、说来”为一个切分单位,“有所、无所、来说、来讲、而言、而论”切分。

如:

有/v所/u提高/v无/v所/u作为/v据/p我/r看来/v

就/p商品/n而/c言/v拿/p电影/n来/v说/v

3.形容词(a),表示性质、状态,在句中主要充当谓语、定语、状语和补语。

如:

好高紫大勇敢危险漂亮干净伟大美丽热情突然

经常雪白殷红冰凉贼亮绿油油认认真真黑咕隆咚叽里呱啦

形容词与其他成分组合,切分。

如:

大/a树/n薄/a纸/n甜/a点心/n老实/a人/n最/d大/a

漆黑/a的/u夜晚/n高/a喊/v怪/a叫/v晾/v干/a高/a达/v

看/v明白/a容易/a做/v彻底/a打扫/v浪漫/a情怀/n

很/d安静/a非常/d快/a手/n冰凉/a个子/n高/a节日/n愉快a

有关颜色的形容词一般为一个切分单位,如:

浅黄/a粉红/a嫩绿/a湖蓝/a橄榄绿/a玫瑰红/a

宝石蓝/a祖母绿/a鸭蛋青/a鸽血红/a

补充说明:

(1)形容词重叠式“AA”“AABB”“ABB”“AAB”“A里AB”“A不BC”,

一般为一个切分单位。

如:

漫漫/a高高/a大大方方/a匆匆忙忙/a痛痛快快/a

红彤彤/a蒙蒙亮/a糊里糊涂/a黑不溜秋/a酸不啦叽/a

(2)形容词重叠式“ABAB”重叠形式,切分。

如:

雪白/a雪白/a滚圆/a滚圆/a

(3)“A不A”式,切分。

如:

好/a不/d好/a容易/a不/d容易a

4.区别词(f),表示事物的区别,只能做定语直接修饰名词。

如:

雌大型单电动负副高速公公共公有广大国产国营

国有金旧式巨额军用老式母男女人工中档

区别词+名词,词表中未收的一般切开。

如:

[雄/f鸡/n]n[雌/f象/n]n女/f魔/n[金/f币/n]n男/f司机/n

古/f钱币/n慢性/f胃炎/n新式/f武器/n公共/f场所/n

[外向/f型/k]f企业/n

5.数词(m),表示数目。

如:

一八百百万半半数第二第一两

零廿千二百零三五十二十几

5.1基数词表示数值。

基数词分为系数与位数两种。

系数词如:

零一二三四五六七八九十两半

位数词如:

十百千万十万百万千万亿兆

系数词与位数词为一个切分单位,标注为m。

如:

六百二十三/m120万/m三千零五十六/m

小数、分数(阿拉伯数字形式)、倍数,为一个切分单位。

如:

123.54/m20%/m五倍/m半/m十成/m以上/m六折/m

小数、分数、百分数(汉字形式),切分,“分之”标注为u。

如:

三/m点/n一四/m百/m分之/u多少/r

三/m分之/u二/m千/m分之/u三十/m

相邻的两个数词、“成/上/数/+数词”、包含“几”的数词,为一个切分单位。

如:

五六/m年/nt七八/m天/nt十七八/m岁/nt数百/m人/n

成百/m学生/n上千/m人/n成千上万/m的/u群众/n

十几/m人/n几十万/m几倍/m几百倍/m

“近/约/仅+数词”,“数词+来/多/余/左右/上下/以上/以下”,切分。

如:

仅/d一百/m个/q近/a20/m年/nt来/nd约/d一百/m多/a万/m

千/m余/m只/q50/m上下/nd30/m左右/nd

400/m来/nd个/q20/m多/m岁/nt18/m以上/nd

“好些、一些、有些、好几、好多、许多、点儿”,为一个切分单位。

如:

好些/m人/n好几/m个/q一些/m东西/n

不少/m办法/n慢/a点儿/m有些/m问题/n

5.2序数词表示数目的次序。

如:

第一第三十五第一千零一十甲乙丙丁戊己

庚辛辰巳午未子丑寅卯甲午辛酉

6.量词(q)表示事物的单位或动作的量。

如:

个条群克把种次趟番小时千米平方厘米

人次架次千瓦时吨公里秒立方米

数词和量词,切分。

如:

一/m个/q10/m遍/q20/m平方米/q第一百零一/m个/q

第二/m出/q翻/v一/m番/q三十/m多/m年/nt几十/m天/nt

5/m架次/q3500/m人次/q1000/m千瓦时/q

数词+量词的重叠形式“ABB”,切分。

如:

一/m个个/q一/m阵阵/q

 

7.副词(d),说明动作行为或状态性质等所涉及的范围、时间、程度、频率以及肯定或否定的情况,在句中主要做状语。

如:

刚刚刚已已经曾曾经早就才先正正在在将将要立刻马上顿时回头起初原先老老是总总是终于连忙忽然都全一共共总共只仅仅仅独唯独单光又再还也常常常经常时常往往很极挺怪太非常格外十分极其最正好刚好

副词与其他成分组合,切分。

如:

刚/d到/v很/d好/a都/d来/v仅仅/d是/v不/d必要/v

非常/d高兴/a已经/d走/v了/u说/v干/v就/d干/v

“越来越”“愈来愈”“不能不”“不得不”为一个切分单位。

如:

越来越/d热/a愈来愈/d多/a不得不/d去/v不能不/d答应/v

8.代词(r),起替代和复指作用,在句中替代名词、形容词、动词、副词等。

如:

本彼此别此大伙大伙儿大家多少该各何处何时几每某

哪边哪儿哪个哪里哪些哪样那那儿那里那时那样你你们

您其他人家如何什么谁他他们它它们她她们为什么我

我们咱咱们怎么怎么样怎样这这儿这里这么这时这样

代词与其他词语,切分。

如:

你/r好/a谁/r上班/v咱们/r走/v上/v哪儿/r

怎么/r办/v干/v什么/r张/nhf某/r赵/nhf某某/r

“某/该/各/每/本/此/诸+名词/量词”切分,有的需要先切分再组合。

如:

该/r同学/n各/r公司/n诸/r领域/n[本/r人/n]n

[某/r部/n]n[此/r地/n]n[本/r校/n]n[各/r种/r]r[每/r个/r]r

“别的、有的、有人”,为一个切分单位。

如:

有的/r好/a有人/r说/v别的/r没/d看/v

9.介词(p),引介名词性成分,不单独充当句子成分。

如:

把被从在对于对于关于至于以为为了由由于

朝向往沿着自自从当和跟与同替将让叫

给比按按照依依照照据根据依据凭凭着论连

除除了趁趁着随随着顺顺着本着朝着向着对着

介词与后面的名词性成分,切分。

如:

被/p大伙儿/r称赞/v把/p话/n说/v完/v从/p哪儿/r来/vd

跟/p领导/n汇报/v对/p工作/n负责/v他/r比/p你/r强/a

沿着/p铁道/n走/v根据/p经验/n判断/v为了/p明天/nt

与/p党/n/同心同德/i都/d给/p我/r出来/vd

[在/v于/p]v[生/v于/p]v落后/v于/p着眼/v于/p

 

10.连词(c),连接句子或句子成分,表示被连接的两部分之间所具有的某种关系。

如:

并并且不单不但不独不管不光不过不仅不论不然不如

不只除非但但是而而且反之非但否则跟故和

连词与前后成分,切分。

如:

工人/n和/c农民/n既/c要/vu工作/v又/d要/vu学习/v

11.助词(u)帮助表示结构关系、动作时态、比况和语气。

如:

得的等等等地过了似的所一样与否云云之着

分之点呀也罢哟呵罢了而已吧啊啦吗么嘛呢

助词与前后成分,切分。

如:

活生生/a的/u教材/n削/v得/u尖尖/a的/u慢慢/a地/u跑/v着/u

老虎/n来/v了/u像/v灯笼/n似的/u所/u讨论/v的/u问题/n

真好/a啊/u干/v什么/r来着/u说说/v罢了/u

不/d这样/r的话/u不/d去/v也罢/u扔/v掉/v得了/u

“之+单音节普通名词”“所+单音节动词”为一个切分单位,标注为(n)。

如:

草木/n之类/n,无名/v之辈/n,四人帮/j之流/n,所属/n单位/n,

英雄/n所见/n略同/v

12.叹词(e)表示应答呼唤或感叹。

如:

嗯唉哎啊哎呀哼喂哦哟喝

叹词与其他成分,切分。

如:

哎呀/e,真美/a!

啊/e,是/vl你/r呀/u。

13.拟声词(o)模拟事物或自然界的声音,在句中充当状语、定语、谓语或补语。

如:

砰当啷哗啦唧唧喳喳滴答潺潺萧萧霍霍

扑通通轰隆隆咚咚咚唧哩咕咚稀里哗啦

拟声词与其他成分,切分。

如:

炮声/n隆隆/o潺潺/o的/u流水/n急/a得/u嗷嗷/o叫/v

牙齿/n嗒嗒/o地/u响/v教室/n里/nd唧唧喳喳/o的/u

14.习用语(i)是固定结构,包括成语、惯用语。

如:

海市蜃楼井底之蛙众口难调通情达理吃老本碰钉子

穿小鞋开后门总而言之由此可见综上所述

习用语与其他切分单位组合,切分。

如:

可歌可泣/i的/u英雄/n事迹/n开夜车/i是/vl透支/v生命/n

15.缩略语(j)是专有名词或常用语的简缩形式。

如:

人大作协奥运会离退休短平快中小型五四三八

八一九一八平津淮海晋察冀多快好省五讲四美

缩略语为一个切分单位。

如:

奥运会/j冠军/n作协/j委员/n[晋/j察/j冀/j]j边区/n短平快/j项目/n

八一/j中学/n中小型/j企业/n离退休/j干部/n中/j美/j关系/n

16.前接成分(h)即词根前面的附加构词成分。

如:

阿老小副总

前接成分+词根,,切分。

如:

阿姨/n老师/n小孩儿/n副/h部长/n总/h书记/n总/h公司/n

17.后接成分(k)即词根后面的附加构词成分。

如:

儿化家界论们式头性学业员者子

词根+后接成分,词表中不收的,切分(但“儿”都不切分)。

如:

石头/n胖子/n花边儿/n红学/n画家/n老师/n们/k

爆破/v手/k药剂/n师/k学术/n界/k人性/n论/k

年轻/a化/k生物/n学/k家/k流线/n型/k长期/f性/k

水平/n仪/k准确/a率/k经济/n法/k日心/n说/k

抗生/v素/k

18.非语素字(x)指汉字字符集中单独使用时不具有意义的汉字,如:

垃琵琶蜘蛛萄踌躇

19.其他(包括标点符号和字符串)

19.1.标点符号标注为(w),如:

/w“/w”/w

19.2.字符串标注为(ws),如:

100/m℃/ws1000/mkg/ws128/mMB/ws

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 党团工作 > 入党转正申请

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2