全文检索系统.docx
《全文检索系统.docx》由会员分享,可在线阅读,更多相关《全文检索系统.docx(12页珍藏版)》请在冰点文库上搜索。
全文检索系统
同方知网简介
清华同方知网(北京)技术有限公司是中文信息资源开发利用的领军厂商,依靠自主创新这一利器,一直致力于大规模信息资源开发利用技术的研发与应用。
公司的全文检索、内容管理、海量非结构化数据管理、智能信息处理、自然语言处理等技术均达到国际先进水平。
公司开发出KBase文档数据库系统、文档数字化系统、网络信息采集系统、企业竞争情报系统、知识管理系统、跨库检索系统等系列产品,为各行各业的信息资源开发利用提供基础技术平台和相关服务,已在数字图书馆、内容管理、企业信息资源管理、网络信息监控、情报分析、电子政务等行业得到了成功应用,在全国拥有3000多家用户。
KBase文档数据库系统是以管理海量非结构化信息为主,具备高性能中文智能信息处理能力的国产文档数据库管理系统。
KBase具有业界领先的全文检索技术,可以存储管理海量的文本、网页、电子邮件、办公文档等非结构化数据,并具备自动分类、自动摘要、自动分词、自动链接、信息过滤、相似检索等智能信息处理功能。
KBase解决了非结构化信息处理的基本问题,可用于任何需要处理非结构化数据的行业应用,如企业搜索、知识管理、内容管理、情报分析、互联网不良信息监控、信息资源开发利用、网站内容发布等。
KBase是在实施CNKI(中国国家知识基础设施)这一国家级超大规模中文知识信息资源开发利用工程中,依托清华大学雄厚的科技和人才优势,完全自主研发而成的。
基于KBase的CNKI数字图书馆,拥有全文记录3千多万,数据总量达4TB,每日新增全文数据1GB,日用户访问量2000万人次,是目前世界上规模最大的中文信息资源库。
随着CNKI工程的成功应用,KBase在世界各地已拥有5000多家企业级用户,包括美国白宫、美国国防部、法国国家图书馆、中共中央办公厅、中国国家图书馆等。
KBase产品成熟可靠,其优异性能和稳定性经受了实践的考验,受到广大用户的一致好评,是各种组织机构信息资源建设和管理的首选。
体系结构
性能指标
KBase系统是目前管理数据量最大,检索速度最快的全文检索系统,基本性能指标如下:
●全文检索速度:
1秒/500GB
●相似检索速度:
20毫秒/100万文献量
●单表记录个数:
40亿
●单表支持最大容量:
8TB(分区表最大容量2PB)
●可同时跨库检索最大数:
255个
●拥有400万数量级的概念关系词典
●采用全切分分词引擎,切词准确率高达98%,速度达1M/S
KBase特点及优势
●专业的海量非结构化信息管理平台
传统关系型数据库主要面向事务处理和数值分析类型的应用,不适合非结构化数据内容的管理。
而以电子邮件、办公文档、网页、音视频文件等形式存在的非结构化信息大约占据信息总量的85%,传统关系数据库无法处理这些多样、复杂的非结构化信息。
KBase专为非结构化信息管理而设计,可有效解决海量非结构化信息的管理问题。
KBase能存储管理以各种形式存在的非结构化信息数据,具备高性能的存储、检索和分发功能。
KBase集成了先进的智能信息处理技术,可对非结构化信息的实际内容进行基本的理解和分析处理。
KBase是基于C、C++的基础上开发出来的。
●性能优异的全文检索服务器
KBase具有强大的全文检索能力,检索速度高达500GB/S,这一指标在业界遥遥领先,是真正实用的面向海量信息的全文检索服务器。
KBase拥有400万数量级概念关系词典,内置国际领先的全切分中文切词技术,切词准确率达98%以上,使KBase系统的查准率、查全率在同类产品中均处于领先地位。
KBase全文检索服务器不仅提供基于关键词的检索,还提供类似自然语言的相似检索。
可接收一段内容或一篇文章的用户输入,并根据相关性或概念差异程度对概念上相关的文档进行高效的相关匹配。
KBase有效解决了高维索引问题,相似检索速度可达到每毫秒内相似匹配百万数量级文档,是业界唯一真正做到实用化水平的相似检索(或称概念匹配)产品。
●成熟实用的中文智能信息处理平台
KBase中文智能信息处理平台有效集成了先进的自然语言处理、文本挖掘、机器学习技术和海量的语料知识库,实现了功能完备和高效稳定的智能信息处理相关算法,并为上层应用提供了易用的二次开发接口。
KBase中文智能信息处理平台广泛适用于信息资源开发利用、知识管理、智能搜索引擎、情报分析和服务、互联网不良信息监控、垃圾邮件智能过滤、信息增值服务等领域。
目前,KBase中文智能信息处理平台已成功应用于新闻出版总署、卫生部、水利部、大百科出版社、中电集团、宝钢等单位,经受了海量信息和复杂环境的考验,实践证明具有很高成熟度、实用性和可用性。
自然语言处理
KBase中文智能信息处理平台由SmartTextMiner文本挖掘引擎,NLP自然语言处理引擎和概念关系词典三个相对独立的部分组成。
分词是高层次中文信息处理的基础,而未登录词和歧义切分字段是影响汉语自动分词系统实用化的两大难题。
NLP自然语言处理引擎吸取了国际上语料库语言学的先进技术和经验,充分利用CNKI海量语料资源,推出了世界领先的全切分技术,有效解决了歧义切分和未登录词辨识问题。
NLP全切分技术切词准确率在98%左右,分词速度为1MB/S,性能远高于同类产品。
NLP自然语言处理引擎还支持Unicode、GB18030、GB2312、GBK、Big5等多种编码,并能自动识别混合编码,可满足文本智能处理的高级需要。
SmartTextMiner
采用组件式架构体系,包含自动分类、自动聚类、关键词自动抽取、内容相似性分析、自动文摘(动态摘要)、信息过滤、通用关联规则分析等功能。
SmartTextMiner依托CNKI海量资源和技术优势,已发展成为国际上首个面向海量信息处理的文本挖掘类实用化产品,多项技术指标居国际领先地位。
概念关系词典
电子词典或词库建设是研制开发智能信息处理系统的一项重要基础性工程,构建信息含量大、功能齐全的电子词典是语言工程现代化的支柱和基石。
一般词典收录词汇量不超过20万,而CNKI概念关系词典收录了近400万词汇,内容涵盖所有学科,为智能信息处理提供了强有力的支撑。
●支持网格计算,可灵活扩展,为企业级应用开发平台
KBase通过网格技术实现分布式虚拟计算,可成倍地增强系统计算能力和大规模并发处理能力,轻松扩展系统规模,满足用户随需应变的需要。
KBase通过先进的联合表技术实现数据虚拟统一,轻松解决由于单表数据容量限制而带来的数据规模限制问题,同时数据动态更新与实时索引和发布服务的矛盾也迎刃而解。
●标准开放的系统,提供简单易用的全文检索语言KSQL
KBase支持各种相关业界标准,如ODBC、JDBC、SQL、Z39.50、OAI、XML等,支持传统关系数据库的常见字段类型,如数值型、日期类型、字符串类型等。
KBase为照顾用户使用习惯,使全文检索更好的被用户所掌握使用,对SQL进行了扩展,提供类SQL的全文检索的结构化查询语言KSQL。
●完备的二次开发接口,丰富的开发示例
KBase支持二次开发,提供.Net组件、COM组件、Java组件等多种开发接口,允许用户通过ODBC、ADO等访问KBase数据库,支持标准SQL,同时配备了丰富的应用开发示例,可满足各层次的应用开发需求。
●
丰富的配套数据库管理工具
KBase提供了丰富完善的交互式管理工具,包括服务器控制器、企业管理器、各种监视器、任务调度、数据迁移工具等。
●支持多语言
KBase支持中文、英文、俄文、德文、阿拉伯文等多语种的存储、索引和检索,内核直接支持GB2312、BIG5、GBK、GK18030、UTF8等多种编码。
运行环境:
KBaseServer
硬件:
内存512M以上
操作系统:
MicrosoftWindowsNT/2000/2003
Linux、Unix
配套管理工具
操作系统:
MicrosoftWindowsXP/NT/98/2000/2003
KBase用户
●
KBase典型应用
CNKI数字图书馆
CNKI数字图书馆是全球最大的中文文献数字图书馆,在全球拥有5000多个基于KBase的CNKI镜像站点及(分)中心站点。
设在北京的CNKI中心网站,管理着3000万篇文献,累计4T的数据量,每天向全国提供千万次的全文检索服务。
KBase的数据管理能力、全文检索速度、数据更新能力、系统稳定性都得到了实践的证明。
中国电子科技集团企业级搜索
中国电子科技集团下设多个研究所,分布在不同的地点,内部存在大量的电子文档、邮件、文献数据库和关系型数据库等资源,给资源的检索和利用带来了很大障碍。
通过KBase文档数据库实现各种非结构化文档和异构数据源的统一检索。
通过项目实施,很好的解决了集团内部各种特色资源共建共享的问题,实现了各种分布式资源统一、安全、准确的检索,为企业建立了一个快速的信息获取通道。
国家某部委互联网信息监控系统
随着互联网的迅猛发展,信息呈爆炸式增长,有用信息不断增加的同时,各种不良的互联网信息也逐渐增多,加之有些不良信息带有一定的隐蔽性,监管部门很难实现对网络内容全面、及时、有效的监管。
国家某部委通过清华同方的网络蜘蛛群集,实现了对海量互联网内容的并发定向采集。
采集下来的海量信息存储在KBase文档数据库系统中,并进行自动识别、分析过滤,自动分类和自动摘要等处理。
系统实施以后通过很少的人力投入就实现了对大范围网站,海量网页的实时监控和管理,及时发现不良信息并做出处理,让互联网不良信息无处藏身,取得了良好的社会效益。
其他应用
网站内容发布管理
政务资源整合
行业信息资源开发利用
垂直搜索/论坛搜索
……