生物医学数据集成检索系统实验.docx

上传人:b****0 文档编号:9714452 上传时间:2023-05-20 格式:DOCX 页数:12 大小:1.24MB
下载 相关 举报
生物医学数据集成检索系统实验.docx_第1页
第1页 / 共12页
生物医学数据集成检索系统实验.docx_第2页
第2页 / 共12页
生物医学数据集成检索系统实验.docx_第3页
第3页 / 共12页
生物医学数据集成检索系统实验.docx_第4页
第4页 / 共12页
生物医学数据集成检索系统实验.docx_第5页
第5页 / 共12页
生物医学数据集成检索系统实验.docx_第6页
第6页 / 共12页
生物医学数据集成检索系统实验.docx_第7页
第7页 / 共12页
生物医学数据集成检索系统实验.docx_第8页
第8页 / 共12页
生物医学数据集成检索系统实验.docx_第9页
第9页 / 共12页
生物医学数据集成检索系统实验.docx_第10页
第10页 / 共12页
生物医学数据集成检索系统实验.docx_第11页
第11页 / 共12页
生物医学数据集成检索系统实验.docx_第12页
第12页 / 共12页
亲,该文档总共12页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

生物医学数据集成检索系统实验.docx

《生物医学数据集成检索系统实验.docx》由会员分享,可在线阅读,更多相关《生物医学数据集成检索系统实验.docx(12页珍藏版)》请在冰点文库上搜索。

生物医学数据集成检索系统实验.docx

生物医学数据集成检索系统实验

生物医学数据集成检索系统实验

实验摘要

4.1前言

4.2技术架构

技术架构如图所示:

从整体系统大致可以分为四个层,它们分别是:

基础层、数据层、应用层和接口层。

系统主要接受和处理来自Oracle数据库、MYSQL数据库数据和文本文件数据,经过处理和归一后存入全文资源库。

提供基因、蛋白质、疾病、药物、化合物和文献的检索与浏览功能。

4.4检索与存储设计

知识抽取的结果是知识库的构建。

通常是根据所定义的Ontology框架,从一系列文献中抽取出来的相应的实体,并且将这些文献和抽取出来的实体组织到知识库之中,实现本体的填充(OntologyPopulation)。

所建设的知识库是进一步实现数据挖掘、知识发现的基础。

科研对象和关系的本体库构建基本上可以分为三个部分,即:

本体存储、科研对象实例存储以及关系实例存储。

我们设计了科研对象和关系实例存储数据库,并在mysql数据库中加以实现。

4.4.1全文检索

系统采用SIREn作为检索引擎,此检索引擎支持NTriple方法的索引方式,可为系统提供基于RDF的三元组的复杂检索。

SIREn基于关键字的多种组合检索,同时支持关键词之间的逻辑关系和条件之间的逻辑关系检索。

SIREn是在Solr中扩展了一些接口来实现以上基于Ntriple的检索方式。

Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。

同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面。

在这里我们同时也采用Solr对关键字段进行索引,该索引为检索系统提供分面、排序等更多的功能支持。

把系统需要检索的数据存储到全文检索系统中,下面是部分字段的存储配置。

其中定义了字段名称、字段类型、字段的多值的约束。

“string”类型主要存储基因ID等信息;“text”类型用于存储需要全文检索的类型,如基因名称等。

……

……

4.4.2分面

采用饼状图、柱状图、聚类分析图等对检索结果进行可视化展示,让使用者对基因的检索的结果有更直观的认识与了解。

这里采用了全文检索中的分面技术。

系统对如下字段定义了分面检索:

4.4.3key-value存储

采用Cassandra存储系统,将原始资源数据库转换为Cassandra资源数据库。

Cassandra是由Facebook团队开发出来的分布式NoSQL数据库系统,具有非常高效的数据读取能力。

通过RDFS数据模型对原始数据库的数据进行数据转换,以数据的唯一URL标识作为记录的Key,用RDFS数据模型中定义的数据属性作为Columnname,并将对应原始资源库中的字段值付给value。

在系统中Cassandra实现了基因等数据的快速读取。

具体实现命令如下:

connect127.0.0.1/9160;//连接Cassandra数据库

createkeyspacekedao;//创建工作空间

usekedao;//使用工作空间

createcolumnfamilyresourcewithcomparator=UTF8Type;//创建资源存储的字段

4.5药物基因组学数据空间检索与浏览服务

4.5.1基因检索与浏览

系统提供按照分面检索和多字段检索功能,如下图所示:

根据以上检索的列表可,点击基因ID进入基因详细介绍页面,展示基因各个来源库信息和相关文献、基因概念等,如下图:

4.5.2蛋白质检索与浏览

系统提供按照分面检索和多字段检索功能,如下图所示:

根据以上检索的列表可,点击蛋白质ID进入蛋白质详细介绍页面,展示蛋白质各个来源库信息,如下图

4.5.3疾病检索与浏览

系统提供按照分面检索和多字段检索功能,如下图所示:

根据以上检索的列表可,点击疾病ID进入疾病详细介绍页面,展示疾病各个来源库信息,如下图:

4.5.4药物检索与浏览

系统提供按照分面检索和多字段检索功能,如下图所示:

根据以上检索的列表可,点击药物ID进入药物详细介绍页面,展示药物各个来源库信息和相关化合物信息等,如下图:

4.5.5化合物检索与浏览

系统提供按照分面检索和多字段检索功能,如下图所示:

根据以上检索的列表可,点击化合物ID进入化合物详细介绍页面,展示化合物各个来源库信息,如下图:

4.5.6文献检索与浏览

系统提供按照分面检索和多字段检索功能,如下图所示:

根据以上检索的列表可,点击文献ID进入文献详细介绍页面,展示文献各个来源库信息,如下图:

4.6结语

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 法律文书 > 调解书

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2