生物医学数据集成检索系统实验.docx
《生物医学数据集成检索系统实验.docx》由会员分享,可在线阅读,更多相关《生物医学数据集成检索系统实验.docx(12页珍藏版)》请在冰点文库上搜索。
生物医学数据集成检索系统实验
生物医学数据集成检索系统实验
实验摘要
4.1前言
4.2技术架构
技术架构如图所示:
从整体系统大致可以分为四个层,它们分别是:
基础层、数据层、应用层和接口层。
系统主要接受和处理来自Oracle数据库、MYSQL数据库数据和文本文件数据,经过处理和归一后存入全文资源库。
提供基因、蛋白质、疾病、药物、化合物和文献的检索与浏览功能。
4.4检索与存储设计
知识抽取的结果是知识库的构建。
通常是根据所定义的Ontology框架,从一系列文献中抽取出来的相应的实体,并且将这些文献和抽取出来的实体组织到知识库之中,实现本体的填充(OntologyPopulation)。
所建设的知识库是进一步实现数据挖掘、知识发现的基础。
科研对象和关系的本体库构建基本上可以分为三个部分,即:
本体存储、科研对象实例存储以及关系实例存储。
我们设计了科研对象和关系实例存储数据库,并在mysql数据库中加以实现。
4.4.1全文检索
系统采用SIREn作为检索引擎,此检索引擎支持NTriple方法的索引方式,可为系统提供基于RDF的三元组的复杂检索。
SIREn基于关键字的多种组合检索,同时支持关键词之间的逻辑关系和条件之间的逻辑关系检索。
SIREn是在Solr中扩展了一些接口来实现以上基于Ntriple的检索方式。
Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。
同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面。
在这里我们同时也采用Solr对关键字段进行索引,该索引为检索系统提供分面、排序等更多的功能支持。
把系统需要检索的数据存储到全文检索系统中,下面是部分字段的存储配置。
其中定义了字段名称、字段类型、字段的多值的约束。
“string”类型主要存储基因ID等信息;“text”类型用于存储需要全文检索的类型,如基因名称等。
……
……
4.4.2分面
采用饼状图、柱状图、聚类分析图等对检索结果进行可视化展示,让使用者对基因的检索的结果有更直观的认识与了解。
这里采用了全文检索中的分面技术。
系统对如下字段定义了分面检索:
4.4.3key-value存储
采用Cassandra存储系统,将原始资源数据库转换为Cassandra资源数据库。
Cassandra是由Facebook团队开发出来的分布式NoSQL数据库系统,具有非常高效的数据读取能力。
通过RDFS数据模型对原始数据库的数据进行数据转换,以数据的唯一URL标识作为记录的Key,用RDFS数据模型中定义的数据属性作为Columnname,并将对应原始资源库中的字段值付给value。
在系统中Cassandra实现了基因等数据的快速读取。
具体实现命令如下:
connect127.0.0.1/9160;//连接Cassandra数据库
createkeyspacekedao;//创建工作空间
usekedao;//使用工作空间
createcolumnfamilyresourcewithcomparator=UTF8Type;//创建资源存储的字段
4.5药物基因组学数据空间检索与浏览服务
4.5.1基因检索与浏览
系统提供按照分面检索和多字段检索功能,如下图所示:
根据以上检索的列表可,点击基因ID进入基因详细介绍页面,展示基因各个来源库信息和相关文献、基因概念等,如下图:
4.5.2蛋白质检索与浏览
系统提供按照分面检索和多字段检索功能,如下图所示:
根据以上检索的列表可,点击蛋白质ID进入蛋白质详细介绍页面,展示蛋白质各个来源库信息,如下图
4.5.3疾病检索与浏览
系统提供按照分面检索和多字段检索功能,如下图所示:
根据以上检索的列表可,点击疾病ID进入疾病详细介绍页面,展示疾病各个来源库信息,如下图:
4.5.4药物检索与浏览
系统提供按照分面检索和多字段检索功能,如下图所示:
根据以上检索的列表可,点击药物ID进入药物详细介绍页面,展示药物各个来源库信息和相关化合物信息等,如下图:
4.5.5化合物检索与浏览
系统提供按照分面检索和多字段检索功能,如下图所示:
根据以上检索的列表可,点击化合物ID进入化合物详细介绍页面,展示化合物各个来源库信息,如下图:
4.5.6文献检索与浏览
系统提供按照分面检索和多字段检索功能,如下图所示:
根据以上检索的列表可,点击文献ID进入文献详细介绍页面,展示文献各个来源库信息,如下图:
4.6结语