生物医学数据集成检索系统实验.docx

资源描述

生物医学数据集成检索系统实验.docx

《生物医学数据集成检索系统实验.docx》由会员分享，可在线阅读，更多相关《生物医学数据集成检索系统实验.docx（12页珍藏版）》请在冰点文库上搜索。

生物医学数据集成检索系统实验.docx

生物医学数据集成检索系统实验

实验摘要

4.1前言

4.2技术架构

技术架构如图所示：

从整体系统大致可以分为四个层，它们分别是：

基础层、数据层、应用层和接口层。

系统主要接受和处理来自Oracle数据库、MYSQL数据库数据和文本文件数据，经过处理和归一后存入全文资源库。

提供基因、蛋白质、疾病、药物、化合物和文献的检索与浏览功能。

4.4检索与存储设计

知识抽取的结果是知识库的构建。

通常是根据所定义的Ontology框架，从一系列文献中抽取出来的相应的实体，并且将这些文献和抽取出来的实体组织到知识库之中，实现本体的填充（OntologyPopulation）。

所建设的知识库是进一步实现数据挖掘、知识发现的基础。

科研对象和关系的本体库构建基本上可以分为三个部分，即：

本体存储、科研对象实例存储以及关系实例存储。

我们设计了科研对象和关系实例存储数据库，并在mysql数据库中加以实现。

4.4.1全文检索

系统采用SIREn作为检索引擎，此检索引擎支持NTriple方法的索引方式，可为系统提供基于RDF的三元组的复杂检索。

SIREn基于关键字的多种组合检索，同时支持关键词之间的逻辑关系和条件之间的逻辑关系检索。

SIREn是在Solr中扩展了一些接口来实现以上基于Ntriple的检索方式。

Solr是一个高性能，采用Java5开发，基于Lucene的全文搜索服务器。

同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面。

在这里我们同时也采用Solr对关键字段进行索引，该索引为检索系统提供分面、排序等更多的功能支持。

把系统需要检索的数据存储到全文检索系统中，下面是部分字段的存储配置。

其中定义了字段名称、字段类型、字段的多值的约束。

“string”类型主要存储基因ID等信息；“text”类型用于存储需要全文检索的类型，如基因名称等。

……

4.4.2分面

采用饼状图、柱状图、聚类分析图等对检索结果进行可视化展示，让使用者对基因的检索的结果有更直观的认识与了解。

这里采用了全文检索中的分面技术。

系统对如下字段定义了分面检索：

4.4.3key-value存储

采用Cassandra存储系统，将原始资源数据库转换为Cassandra资源数据库。

Cassandra是由Facebook团队开发出来的分布式NoSQL数据库系统，具有非常高效的数据读取能力。

通过RDFS数据模型对原始数据库的数据进行数据转换，以数据的唯一URL标识作为记录的Key，用RDFS数据模型中定义的数据属性作为Columnname，并将对应原始资源库中的字段值付给value。

在系统中Cassandra实现了基因等数据的快速读取。

具体实现命令如下：

connect127.0.0.1/9160;//连接Cassandra数据库

createkeyspacekedao;//创建工作空间

usekedao;//使用工作空间

createcolumnfamilyresourcewithcomparator=UTF8Type;//创建资源存储的字段

4.5药物基因组学数据空间检索与浏览服务

4.5.1基因检索与浏览

系统提供按照分面检索和多字段检索功能，如下图所示：

根据以上检索的列表可，点击基因ID进入基因详细介绍页面，展示基因各个来源库信息和相关文献、基因概念等，如下图：

4.5.2蛋白质检索与浏览

系统提供按照分面检索和多字段检索功能，如下图所示：

根据以上检索的列表可，点击蛋白质ID进入蛋白质详细介绍页面，展示蛋白质各个来源库信息，如下图

4.5.3疾病检索与浏览

系统提供按照分面检索和多字段检索功能，如下图所示：

根据以上检索的列表可，点击疾病ID进入疾病详细介绍页面，展示疾病各个来源库信息，如下图：

4.5.4药物检索与浏览

系统提供按照分面检索和多字段检索功能，如下图所示：

根据以上检索的列表可，点击药物ID进入药物详细介绍页面，展示药物各个来源库信息和相关化合物信息等，如下图：

4.5.5化合物检索与浏览

系统提供按照分面检索和多字段检索功能，如下图所示：

根据以上检索的列表可，点击化合物ID进入化合物详细介绍页面，展示化合物各个来源库信息，如下图：

4.5.6文献检索与浏览

系统提供按照分面检索和多字段检索功能，如下图所示：

根据以上检索的列表可，点击文献ID进入文献详细介绍页面，展示文献各个来源库信息，如下图：

4.6结语

展开阅读全文