分词技术在电子商务信息查询中的应用.docx

上传人:b****6 文档编号:16143728 上传时间:2023-07-10 格式:DOCX 页数:20 大小:388.68KB
下载 相关 举报
分词技术在电子商务信息查询中的应用.docx_第1页
第1页 / 共20页
分词技术在电子商务信息查询中的应用.docx_第2页
第2页 / 共20页
分词技术在电子商务信息查询中的应用.docx_第3页
第3页 / 共20页
分词技术在电子商务信息查询中的应用.docx_第4页
第4页 / 共20页
分词技术在电子商务信息查询中的应用.docx_第5页
第5页 / 共20页
分词技术在电子商务信息查询中的应用.docx_第6页
第6页 / 共20页
分词技术在电子商务信息查询中的应用.docx_第7页
第7页 / 共20页
分词技术在电子商务信息查询中的应用.docx_第8页
第8页 / 共20页
分词技术在电子商务信息查询中的应用.docx_第9页
第9页 / 共20页
分词技术在电子商务信息查询中的应用.docx_第10页
第10页 / 共20页
分词技术在电子商务信息查询中的应用.docx_第11页
第11页 / 共20页
分词技术在电子商务信息查询中的应用.docx_第12页
第12页 / 共20页
分词技术在电子商务信息查询中的应用.docx_第13页
第13页 / 共20页
分词技术在电子商务信息查询中的应用.docx_第14页
第14页 / 共20页
分词技术在电子商务信息查询中的应用.docx_第15页
第15页 / 共20页
分词技术在电子商务信息查询中的应用.docx_第16页
第16页 / 共20页
分词技术在电子商务信息查询中的应用.docx_第17页
第17页 / 共20页
分词技术在电子商务信息查询中的应用.docx_第18页
第18页 / 共20页
分词技术在电子商务信息查询中的应用.docx_第19页
第19页 / 共20页
分词技术在电子商务信息查询中的应用.docx_第20页
第20页 / 共20页
亲,该文档总共20页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

分词技术在电子商务信息查询中的应用.docx

《分词技术在电子商务信息查询中的应用.docx》由会员分享,可在线阅读,更多相关《分词技术在电子商务信息查询中的应用.docx(20页珍藏版)》请在冰点文库上搜索。

分词技术在电子商务信息查询中的应用.docx

分词技术在电子商务信息查询中的应用

分词技术在电子商务信息查询中的应用

摘要

通过近几年的发展,电子商务已经离我们不再遥远。

电子商务上的信息也在急剧膨胀,在这海量的信息中,各类信息混杂在一起,要想充分利用这些信息资源就要对它们进行整理,如果由人来做这项工作,已经是不可能的,而如果面对中文信息不采用分词技术,那么整理的结果就过于粗糙,而导致资源的不可用,如果是查询中分词信息多,那么结果就会令人不满意。

通过引入分词技术,就可以使机器对海量信息的整理更准确更合理,那么“制造业和服务业是两个不同的行业”中“和服”不会被当做一个词来处理,那么检索“和服”当然不会将它检索到,使得检索结果更准确,效率也会大幅度的提高。

所以中文分词的应用会改善我们的生活,使人们真正体会到科技为我所用。

本文提出了电子商务行业搜索引擎的概念,通过对通用搜索引擎技术进行分析,结合电子商务行业对搜索引擎的需求提出需要改进的部分,此外,讨论了中文分词算法,结合电子商务行业的特点对分词算法进行描述,和阐述了电子商务查询中分词技术的应用并进行了分析。

 

关键词:

搜索引擎中文分词电子商务

Segmentationinformationine-commerceapplicationaquery

Abstract

Throughyearsofdevelopment,electroniccommerceisnolongerfarawayfromus.Informationone-commerceisalsorapidlyexpanding,inthismassofinformation,thekindsofinformationmixedtogether,inordertotakeadvantageoftheseinformationresourcesisnecessarytoorganizethem,ifthepersondothejob,hasnotpossible,andifthefaceofChinesewordsegmentationinformationisnotused,thentheorderoftheresultstobetoorough,whichledtoresourcesnotavailable,checkifitiscarvedthewordinformationandmore,thentheresultwillbeunsatisfactory.Throughtheintroductionofwordsegmentation,wecanmakethecollationofthemachineonthemassofinformationmoreaccurateandreasonable,then,"aretwodifferentmanufacturingandserviceindustries"inthe"Kimono"willnotbetreatedasawordprocessing,thensearch"kimono"Ofcourseitwillnotberetrieved,makingsearchresultsmoreaccurateandefficiewillbegreatlyenhanced.

Therefore,theapplicationofChinesewordsegmentationtoimproveourlives,sopeoplereallyunderstandscienceandtechnologyforouruse.Inthispaper,theconceptofe-commercesearchengine,throughtheanalysisofgeneralsearchenginetechnology,combinedwithe-commerceindustry,thedemandforsearchengineparttotheneedforimprovement,inaddition,discussedtheChinesewordsegmentationalgorithmandthecharacteristicsofe-commercesegmentationalgorithmisdescribed,andelaboratedcarvedthewordofe-commerceechnologyapplicationqueryandanalyzed.

Keywords:

searchengineChineseworde-commerce

目录

前言6

第1章电子商务综述8

1.1电子商务的定义8

1.2电子商务的产生的背景9

1.3电子商务发展现状9

第2章探究分词技术12

2.1分词技术简述12

2.1.1基于字符串匹配的分词方法12

2.1.2基于统计的分词方法13

2.1.3基于理解的分词方法13

2.2分词技术及错误流程14

2.2.1歧义识别和新词识别14

2.2.2分词技术错误提示流程15

2.3分词技术的最新发展17

第3章探究搜索引擎18

3.1搜索引擎18

3.1.1搜索引擎的理解18

3.1.2我国搜索引擎的背景18

3.1.3搜索引擎的现状19

3.2搜索引擎的实现原理20

3.2.1从互联网上抓取网页20

3.2.2建立索引数据库21

3.2.3在索引数据库中搜索21

3.2.4对搜索结果进行处理排序21

3.3电子商务搜索引擎的形式23

第4章分词技术案例分析24

4.1XX分词技术分析24

4.1.1最大分词词长24

4.1.2分词算法25

4.2分析语句“红色摇滚很搞笑”26

结论27

参考文献28

致谢29

前言

随着互联网的迅速发展,电子商务让消费方式变得更为快捷,更多的人涌向网上商店,网络市场前景巨大,拥有更为广阔的发展空间。

面对海量的网络信息资源,人们可以通过传统的搜索引擎,如Google、XX、中搜等,方便快捷地获取所需商业信息。

尽管通用搜索引擎的功能非常强大,但是对于检索某一特定行业的信息时,通用型搜索引擎对信息的挖掘深度不够。

查询一个行业的网络信息如果没有优秀的专业检索工具,没有体现行业独特的词汇和用语以及相应的标引和检索语言,检索结果就不可能理想。

自动分词是中文信息处理的一项重要的基础性工作,以中文作为信息的载体的语言文字信息处理已经成为我国信息化建设的“瓶颈”。

许多中文信息处理项目中都涉及到分词问题,如机器翻译、自动文摘、自动分类、中文文献库全文检索、搜索引擎等。

由于中文文本是按句连写的,词之间没有空格,因而在中文文本处理中,首先遇到的问题是分词的问题。

词的正确切分是进行中文文本处理的必要条件。

在电子商务需求的强大动力推动下,自动分词已经成为中文信息处理的一个前沿课题。

中文分词技术的优劣直接关系到搜索引擎的效率,本文就是深入研究在电子商务查询中分词技术的应用来提高搜索查询的速度,首先在本文的第一章大体概述了电子商务的定义、电子商务的背景、以及电子商务的发展前景。

在第二章中阐述了在电子商务查询中应用广泛的分词技术,在这一章本文首先阐述了分词技术的概念,然后介绍了分词技术的分类,在最后两章中介绍了搜索引擎的概念和用一些具体例子介绍了分词技术的具体应用。

面对海量的网络信息资源,人们可以通过传统的搜索引擎,如Google、XX、中搜等,方便快捷地获取所需商业信息。

尽管通用搜索引擎的功能非常强大,但是对于检索某一特定行业的信息时,通用型搜索引擎对信息的挖掘神队不够。

查询一个行业的网络信息如果没有优秀的专业检索工具,没有体现行业独特的词汇和用语以及相应的标引和检索语言,检索结果就不可能理想,因此,建立面向特定行业领域的专业性搜索引擎已经成为搜索引擎新的发展趋势。

第1章电子商务综述

1.1电子商务的定义

电子商务(ElectronicCommerce)的定义:

以电子及电子技术为手段,以商务为核心,把原来传统的销售、购物渠道移到互联网上来,打破国家与地区有形无形的壁垒,使生产企业达到全球化,网络化,无形化,个性化、一体化。

通俗的讲电子商务是指利用简单、快捷、低成本的电子通信方式,买卖双方不谋面地进行的各种商业和贸易活动。

电子商务是运用数字信息技术,对企业的各项活动进行持续优化的过程。

电子商务涵盖的范围很广,一般可分为企业对企业(Business-to-Business),或企业对消费者(Business-to-Consumer)两种。

另外还有消费者对消费者(Consumer-to-Consumer)这种大步增长的模式。

随着国内Internet使用人数的增加,利用Internet进行网络购物并以银行卡付款的消费方式已渐流行,市场份额也在迅速增长,电子商务网站也层出不穷。

电子商务最常见之安全机制有SSL(安全套接层协议)及SET(安全电子交易协议)两种。

电子商务是一个不断发展的概念,电子商务的先驱IBM公司于1996年提出了ElectronicCommerce(E-Commerce)的概念,到了1997年,该公司又提出了ElectronicBusiness(E-Business)的概念。

但我国在引进这些概念的时候都翻译成电子商务,很多人对这两者的概念产生了混淆。

事实上这两个概念及内容是有区别的,E-Commerce应翻译成电子商业,有人将E-Commerce称为狭义的电子商务。

将E-Business称为广义的电子商务。

E-Commerce是指实现整个贸易过程中各阶段贸易活动的电子化。

E-Business是利用网络实现所有商务活动业务流程的电子化。

E-Commerce集中于电子交

易,强调企业与外部的交易与合作,而E-Business则把涵盖范围扩大了很多。

广义上指使用各种电子工具从事商务或活动。

狭义上指利用Internet从事商务或活动。

1.2电子商务的产生的背景

中国电子商务在20世纪90年代开始出现,这个时候电子商务只是一种概念,根源在于中国互联网的接入以及世界一些知名企业的影响!

在这一阶段中国出现了一些比较典型的电子商务企业,如8848,易趣等!

随着人们对电子商务的逐渐认识,在新的一世纪里产生了若干电子商务企业,涉及的范围从B2B向B2C以及C2C等多方面发展!

随着网络产业向纵深层次的不断发展,更多的人参与到网络产业中,往往是利益的驱使使得人们行为过于盲目,从03年开始中国互联网进入低潮,一部分人放弃互联网,一部分企业不得不采取一定的收索策略甚至转变业务!

这些使得他们不得不从新定位和思考如何发展新一代的电子商务!

那么可以说现阶段中国电子商务真正得到发展的第一步应当从这个时候开始!

从大的范围上讲,人们对电子商务的认识更加深刻!

十年前,人们对电子商务十分陌生,而现在几乎很少人不知道电子商务的!

中国出现的一些极具代表性的电子商务企业的影响,一个行业的发展往往是这个行业的巨头所引起的技术的突破,物流的发展,人才的兴起改变了以前电子商务发展的一些瓶颈!

一些中国大的电子商务平台改变了中国商务环境!

相关互联网产业的兴起也带动了电子商务的发展,如典型的搜索业务、视频业务、SNS、IM等兴起。

1.3电子商务发展现状

近年来,在全球经济保持平稳增长和互联网宽带技术迅速普及的背景下,世界主要国家和地区的电子商务市场保持了高速增长态势。

以美国为首

的发达国家,仍然是世界电子商务的主力军;而中国等发展中国家电子商务异军突起,正成为国际电子商务市场的重要力量。

2008年,中国电子商务市场前期延续了2007年电子商务持续高速增值的势头,后期则受全球金融危机和发展瓶颈影响,交易额增长放缓。

但总体来说,中国电子商务市场的发展仍在稳步前行。

2008年中国电子商务市场交易额达到24000亿元,同比增值达到41.2%,其中B2B市场仍是总交易额的构成主体,C2C基本维持现状,B2C将提速发展。

2010年中国电子商务市场除在扩大资金来源、支撑体系建设方面有所成就外,不可避免的需要面临全球金融危机所带来的影响,但随着中国电子商务与行业发展结合的更广、更深,充分利用电子商务B2C手段已经成为中国行业企业在度过经济寒冬中的重要选择。

因此,2008年投资机构对中国电子商务市场的关注度不降反升,其中B2C行业无论在投资案例数量还是在投资金额上都呈快速增值趋势。

2010年政府加强了在电子商务领域的引导性投资,用以改善中国电子商务市场的投资环境,政府通过将投资收益返还社会投资人支持社会投资回购政府所持股份等政策,将大量资金引入电子商务的发展。

随着国内Internet使用人数的增加,利用Internet进行网络购物并以银行卡付款的消费方式已渐流行,市场份额也在快速增长,电子商务逐渐成为业界热议的一个焦点话题,相关的电子商务网站也层出不穷。

2011年中国电子商务市场可谓机遇和挑战并存,而政府和企业的通力合作是抓住机遇并赢得挑战的基础。

在此基础上,中国电子商务市场才有可能逐步向发达国家电子商务水平接近。

眼看网络购物市场不断扩大,一些搜索网站瞄准了B2C市场。

同时,越来越多的传统经销商也开始切入B2C电子商务领域拓展其在线零售业务。

苏宁、国美、迪信通等全国性连锁以及广州的广州百货等也都开辟了自己的B2C网站,越来越多的B2C厂商已做好进入垂直细分市场的准备。

对新渠道的需求催生了B2C市场在被C2C市场超越之后,开始了新一轮

的急速上升。

B2C是面对金融危机却依然能蓬勃发展的国内少数行业之一,不过即使没有2008年的这场波及全球的金融危机,电子商务B2C行业在2010年仍然会卯足劲儿大踏步前进,金融危机的影响只是更加加速了中国B2C行业的发展。

未来几年,C2C增速将趋缓,而B2C市场规模增速将赶超C2C。

预计,B2C市场规模从2011年开始快速增长,市场份额将逐步上升,有望成为电子商务行业新的增长点。

预计未来三年中国B2C市场复合增长率可达到41%,以后中国电子商务B2C市场交易额有望达到千亿元。

我国互联网电子商务交易规模

 

图1.1

第2章探究分词技术

2.1分词技术简述

语言本身也是在不停的进化和发展的,新的词语层出不穷,一些老的词语渐渐被弃用。

作为中文分词的基础----词库,其新词补充和老词删除就是非常重要的工作。

“超级女声”、“超女”、“李宇春”、“八荣八耻”、“非典”,当这些新词的出现时,搜索引擎需要快速捕捉到,并且马上把其添加到分词系统中去。

如何判断那些词是新词,这就全部倚靠算法来实现。

新词捕捉主要来源于新闻和网络BBS论坛,主要机制是依靠统计程序,统计上升速度最高的词。

另外作为搜索引擎公司,对众多用户的搜索词进行“用户行为”分析,也能提高其“新词补充”效果。

2.1.1基于字符串匹配的分词方法

这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。

按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。

常用的几种机械分词方法如下:

正向最大匹配法(由左到右的方向);逆向最大匹配法(由右到左的方向);最少切分(使每一句中切出的词数最小)。

2.1.2基于统计的分词方法

从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。

因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。

可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。

定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。

互现信息体现了汉字之间结合关系的紧密程度。

当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。

这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。

但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。

实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

2.1.3基于理解的分词方法

这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。

其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。

它通常包括三个部分:

分词子系统、句法语义子系统、总控部分。

在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。

这种分词方法需要使用大量的语言知识和信息。

由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前

基于理解的分词系统还处在试验阶段。

 

图2.1

 

2.2分词技术及错误流程

2.2.1歧义识别和新词识别

歧义识别是指同样的一句话,可能有两种或者更多的切分方法。

例如:

表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面的”和“表面的”。

这种称为交叉歧义。

像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错。

“化妆和服装”可以分成“化妆和服装”或者“化妆和服装”。

由于没有人的知识去理解,计算机很难知道到底哪个方案正确。

交叉歧义相对组合歧义来说是还算比较容

易处理,组合歧义就必需根据整个句子来判断了。

例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。

这些词计算机又如何去识别?

如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。

真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。

例如:

“乒乓球拍卖完了”,可以切分成“乒乓球拍卖完了”、也可切分成“乒乓球拍卖完了”如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。

新词专业术语称为未登录词。

也就是那些在字典中都没有收录过,但又确实能称为词的那些词。

最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。

如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。

即使这项工作可以完成,还是会存在问题,例如:

在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?

新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。

目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

2.2.2分词技术错误提示流程

目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。

中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。

其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、

自动校对等等,都需要用到分词。

因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。

在中文研究方面,相比外国人来说,中国人有十分明显的优势。

分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。

因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。

下图是错误提示流程:

 

图2.2

2.3分词技术的最新发展

无长度限制,并且在歧义内容方面将出现歧义的各种可能性都包含进去,作为分词的参考。

例如:

感冒、感冒解痛散、感冒解痛颗粒、感冒解痛灵茶等都能匹配。

 

图2.3

第3章探究搜索引擎

3.1搜索引擎

3.1.1搜索引擎的理解

搜索引擎(SearchEngine)通过运行一个软件,该软件在网络上通过各种链接,自动获得大量站点页面的信息,并按照一定规则进行归类整理,从而形成数据库,以备查询。

这样的站点(获得信息——整理建立数据库——提供查询)我们就称之为“搜索引擎”。

3.1.2我国搜索引擎的背景

XX上市后,我国的搜索市场一下子热了起来。

越来越多的企业围绕着搜索市场作起了文章。

而且,在搜索大战的同时,一些企业也抛出了一些惊人言论。

近日,记者从专业做人脉交际的联络家()技术总监冉征处了解到,联络家正在加紧研发人脉相关领域的专业垂直,联络家之所以涉足专业垂直搜索引擎领域,是看到未来垂直专业搜索引擎市场的巨大商机,他认为未来搜索市场将进一步细分,象Google、XX等主张大而全的全球式搜索引擎将会面临垂直专业搜索引擎更大的竞争与挑战,他们的市场分额将会被逐渐瓜分,专业的行业性垂直搜索将受到网民的青睐。

那么缘何能得出如此结论呢?

CNNIC第十四次互联网调查显示,搜索以71.9%的绝对优势成为用户从互联网上获得信息的主要方式。

几乎在全球所有的调查中,搜索引擎都是互联网上使用程度仅次于电子邮箱的服务,搜索引擎服务能成为最受欢迎的服务是因为他解决了用户在浩瀚的互联网海量快速定位信息屏颈问题,在海量的网页里找信息按照传统方式需要用户非常

麻烦的寻找,要耗费大量的精力和时间,几乎是不可能实现的任务。

3.1.3搜索引擎的现状

随着互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量只有几千万页,而现在已经达到几十亿页,数量增加带来的是搜索服务的品质下降,查询的结果集就是海量的,经常是几十万笔的资料,结果里存在大量的重复信息和垃圾信息,用户越来越难迅速的找到符合的信息,现在经常使用搜索引擎可以感觉到很难在短时间内准确的筛选出需要的内容,而垂直搜索引擎针对专业特定的领域或行业的内容做了专业和深入的分析挖掘,精细分类,过滤筛选等,信息定位更精准,因此在此垂直领域或行业提供的搜索服务势必更好更强,更为用户所欢迎。

比如,对于一个网民来说如果有对特定的领域或行业的信息需求的时候,如果一个是专业的垂直搜索能做到精确锁定内容,但内容量偏小,而另一个是能检索出大量内容,但搜索到的内容一大部分都是“垃圾”并且很难找到符合的信息,这样的话,你会选择哪个呢,就如用户想购买一个商品,他是会去专门的比价购物搜索引擎上找还是会去Google上找,如果你想找一份工作,是会去专门的工作搜索引擎上找还是会去XX上找?

答案很明显,更多的用户会舍弃后者,即使前者品牌小名声小,但结果往往是最令网民看重的。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2