计算机辅助医学诊断系统的数据挖掘和知识发现研究瞿爱珍Word格式.docx

资源描述

计算机辅助医学诊断系统的数据挖掘和知识发现研究瞿爱珍Word格式.docx

《计算机辅助医学诊断系统的数据挖掘和知识发现研究瞿爱珍Word格式.docx》由会员分享，可在线阅读，更多相关《计算机辅助医学诊断系统的数据挖掘和知识发现研究瞿爱珍Word格式.docx（29页珍藏版）》请在冰点文库上搜索。

计算机辅助医学诊断系统的数据挖掘和知识发现研究瞿爱珍Word格式.docx

据挖掘方法匹配;

⑥数据挖掘;

⑦解释和评估所挖掘

到的模式;

⑧使用所发现的知识。

KDD过程具体应用到医学诊断系统中每步可

详细解释如下。

2.1　理解应用领域/识别KDD过程的目标

理解医学领域问题的范围和KDD过程的目标

就是要明确数据挖掘的医学对象和要得到的结果。

一般医学对象为上述的两类医学信息数据库,利用

以往的有确诊病例的各种特定疾病医学数据库,通

过KDD过程得到其疾病的若干诊断规则,最终帮助

医生进行正确预测或诊断各种疾病。

因为对病人作

疾病诊断是一件生死攸关的事,而目前的计算机智

能水平还达不到很高的程序,尤其是与专家（如各种

专科医生）的诊断水平相比,因而我们在利用以往的

经验即医学信息数据库产生医学智能诊断系统的过

程中,自始至终都应和医生不断交流和探讨,最终结

果还是要经医生的分析、验证而作出最后的一致性

的诊断。

例如SachaJP[2]等研究开发的心脏SPECT

诊断的自动化,目标是提出能用于评估心脏SPECT

图像的诊断规则,数据挖掘对象的输入变量是从

SPECT图像提取来的特征值和一些来自病人记录

的变量如年龄、体重、身高、吸烟者或不吸烟者等;

解

剖结构的不同决定了采用不同的男性和女性模型,

所选择的数据挖掘方法应能产生为用户理解的产生

式规则;

在数据挖掘前,应完成三个子目标:

①建一

个数据仓库以接受各种现有数据和以后的增加数据

并可便于SQL查询;

②产生一个标准化的LV模

型;

③决定增加什么样的病人信息到SPECT图像提

取的特征值中产生诊断规则。

KavalerchukB[7]等研

究的对乳腺癌进行计算机辅助系统、专家规则和数

据库知识的一致性医学诊断就是另一典型例子,这

个项目的目标集中于从专家和数据库提取足够、完

整和可比较的两套规则,然后识别它们之间的分歧,

最终达成一致的医学诊断。

2.2　产生目标数据库

为了得到最终的结果,需要生成一个完整记录

病人医学诊断信息的数据库,各个诊断系统根据不

同的目标来组织其数据库,其中应包含充足的各类

病例或一定比率的正病例和反病例作为数据挖掘的

训练例和测试例,以便最终能得到令人满意和正确

的结果。

各种实际医学诊断系统使用的具体病例情

况参见表1。

大多数的情况下,我们可以用SQL结构

化查询语言来准备所需的数据库（因主要的数据库

系统支持标准的SQL）。

例如心脏SPECT诊断自动

98·

国外医学生物医学工程分册　2002年第25卷第3期

课题[5]所使用的医学数据库,其原始数据存于

MicrosoftExcel文件中,每个记录数据包含的病人

个人信息有:

年龄、性别、身高,有关处理步骤的信

息,心脏病学家对SPECT图像的解释,心脏灌注分

类等共有184个域,4275个记录,还有6817个

SPECT图像文件,相应于约613个病例。

其中只有

仅一半的病例有完整的诊断,包括ROIS的灌注分

类代码和总的左心室灌注分类。

首先为了组织数据

库,将电子表格中包含的数据转化到一个关系数据

库中,专用的SPECT图像文件格式已处理成可允许

最关键的信息被提取—实际的3-D图像和病人标识

信息被储存在文件头中,产生了根据病人标识信息

来自动检索图像的程序;

SPECT图像文件被存储在

数据库外的预先定义好的目录结构中,已写好的软

件可用几种方式浏览具有图像显示的病人记录,数

据库还可储存进行各种数据挖掘后产生的数据,诸

如从SPECT图像所提取的特征值和左心室的标准

化模型等。

表1　各种医学数据库的知识发现计算机辅助诊断系统特性一览表

诊断的原始

数据类型

计算机辅助医

学诊断系统目　　标数据挖掘方　　法使用的病例数特征值个　数分类精度（产生的规则数目）比较的其它数据挖掘方法

医学影像

+其它医

学参数

1.心脏SPECT

诊断的自动化课

题[2]

评估心脏

SPECT图像

后对心脏灌

注进行分类

基于决策树

的C4.5分类

器和简单的

统计朴素贝

叶斯

61344

错误率最低14.6±

3.44（7/9:

仅CT数

时/CT数和附加数

据集）

常数分类器,C4.5

树/规则,朴素贝叶

斯,离散朴素贝叶斯

2.诊断心肌灌注

的知识发现系

统[3]

根据心肌灌

注情况诊断

有或无冠状

动脉疾病

CLIP3机器学

习算法,它结合

了决策树概念

和基于规则的

算法

185（161

个正常/24

有病）

12（6图像

特征值）

最高精度为62.7%

（8/6:

正例为正常时

/正例为有病时,或

5/4:

仅对男性例学

习结果）

3.乳腺癌诊断的

一致性知识发现

系统[7]

区分乳腺肿

瘤良性/恶

性

发现规则的

机器学习方

法MMDR1/

2/3

156（良性

/恶性:

77/73）

11MMDR2/390%/96.6%/（44/

30/18）

线性判别分类,神经

网络,决策树

4.从MRI数据

诱导逻辑编程发

现知识[1]

区分脑部的

两种肿瘤即

脑膜瘤还是

星细胞瘤

ILP诱导逻

辑编程（Pro-

gol）

28（脑膜

瘤/星细

瘤:

18/10）1100%

（1）

无医学影

像的医学

参数值

5.胸痛诊断的遗

传编程知识发

现[4]

分类胸痛的

12种疾病遗传编程GP138（训练/测试例:

90/48）16587.5%（12）规则产生法C5.0（其分类精度79.2%）

6.使用进化算法

从医学数据库发

现知识[6]

对孩子骨折

*和脊柱侧

凸病人**

两数据库进

行模式提取

和其有关医

学参数的因

果关系发现

进化算法（基

因编程GP,

类基因编程

GGP,最小总

描述长度基

因编程

MDLGP,遗

传算法GAS）

和贝叶斯网

络

*6500

（训练/测

试例:

随

机）

8（17）

**500

20（18）

7.自动发现临床

数据库中的正例

和反例知识[9]

进行头痛信

息（Ⅰ）、脑

血管疾病

（Ⅱ）和脑膜

炎（Ⅲ）三个

数据库的诊

断规则发现

粗糙集模型

的规则产生

Ⅰ.52119

14791.3%（至少2个）

Ⅱ.7620

（如上）85589.3%（5）（至少2个）

Ⅲ.11211

（如上）4192.5%（6）（至少2个）

仅有正例的知识发

现,C4.5和医学专

家,三种数据库医学

专家的分类精度

（※）95.0%/92.9%

/93.2%

8.在疾病进程数

据库中发现其时

间模式[5]

发现人类免

疫缺陷病毒

（HIV）病人

疾病过程的

时间模式

时间模式发

现系统★

TEMPADIS,

它使用了自

己提出的事

件集序列方

法和对GSP

算法的进一

步调整

1100（训

练/测试

例:

随机）20

最小72%/平均

80%（发现的事件序

列模式包含6个事

件组）

GSP算法（★中间的

特征值提取使用了

NevProp3神经网络

软件和决策树产生

学习机器方法）

2.3　清理与预处理数据

此步的目的是从数据中去除噪声,处理丢失数

据的策略及作必要的改变。

清除数据是一耗时而繁

重的任务,可用手工和SQL语句来对数据库操作,

有时为了节省时间,可从原始数据库中选择一些重

要的部分作原始目标进行处理。

这一步是重要的,将

99·

响到数据挖掘的结果,因此我们应采用对噪声较

少敏感的数据挖掘方法。

例如,文献[5]中的HIV病

人数据库由1100个病人的医学信息组成,研究人

员随机从1100个病人中选400个病人来作为主要

的数据库,以便不损失原始目标,其中有许多类似于

配药数据的误拼和药物错误编码的纠正等,用SQL

语句和手工清理这400个病人的数据花了大约3个

多月,注意到他们成功地纠正明显的错误是很重要

的。

还有文献[2]中数据质量检查是用半手工和SQL

查询的方法将图像集与数据库记录进行匹配,发现

一些图像和病人的记录不匹配,结果大多数是印刷

错误,但仍有一些确实不匹配,就删除它们。

另外还

要检查图像集的完整性和单个图像的质量（如应有

充足的对比度等）。

2.4　数据约简和投影

此步目的是发现依赖于目标的有用特征值来代

表数据,包括使用维数降低或变换方法来减少考虑

的有效变量数或发现数据的不变代表,也就是用最

少数目的变量数更好地代表数据。

对有医学图像的

医学数据库进行知识发现,首先要对其图像进行特

征提取,例如心脏SPECT诊断自动化课题[2]中,先

将3DSPECT图像转换为2DSPECT图像,且对各

个2DSPECT图像进行配准后划分成若干重点的

区域ROI,再对各ROI进行特征提取（CT数）,最后

共得到22个ROI和44个特征值,这些特征值用于

数据挖掘;

对SPECT图像的ROI区域进行特征值

提取还可通过计算象素值与区域象素平均值偏差大

于2.5的象素所占的百分比得到。

此外还有对病人

肺部或肝部等的CT、HRCT图像和超声图像[8]进

行各种纹理参数的提取及对乳腺病人CT图像进行

其钙化体积和数量、钙化形状和密度等特征参数提

取。

从医学图像提取特征可能是带医学图像的医学

数据库的数据挖掘和知识发现过程中最复杂而且极

重要的部分,它将直接影响到数据挖掘结果。

在有些

情况下,为了减少有效变量获得等效信息,还可利用

数据挖掘算法来产生一些所需变量,例如,在

RamirezJCG[5]等开发的发现HIV病人疾病进程的

时间模式的知识系统中,就使用了决策树产生的机

器学习技术和NevProp3神经网络软件得到两个重

要参数:

病人健康状况值（HS）和病人恢复时间

（WTR）,它们被作为后面的数据挖掘的主要参数。

2.5　将目标与特殊数据挖掘方法匹配

此步目的决定什么数据模型可能适合搜索数据

中的模式,使用什么数据挖掘方法与此KDD过程

目标相匹配。

模型选择通常基于要挖掘什么类型的

数据,数据挖掘方法选择根据需要什么样的最终结

果,通常是发现或预测。

数据挖掘有以下几个最重要

的提取数据特性的模型:

①概括——用少量特征/属

性来描述聚集形式;

②聚类或分割——发现高维数

据和自然群;

③回归模型;

④分类——分类器可被认

为是回归模型的特殊化;

⑤概念描述;

⑥相关性分

析;

⑦序列分析。

在医学信息诊断中,大多数情况下

是要我们对疾病进行分类的诊断,因此,可使用分类

的数据模型,也有少数相关性分析和序列分析,而选

择好了数据模型后,可使用的数据挖掘方法有:

机器

学习、决策树、粗糙集、进化算法和神经网络等。

具体

使用时,采用哪一种方法要根据实际的医学信息数

据库类型和特点来决定,有时还要用几种方法进行

探索比较。

每一种数据挖掘方法有许多的具体实现

方法,而同一实现方法也涉及到不同的参数选择,因

此应对数据模型作调整和精确化,以适合具体的数

据挖掘对象和产生较好的挖掘结果。

例如,HIV病

人疾病过程的时间模式发现文献[5]中,先采用一般

序列模式算法（GSP）作为数据挖掘方法,后经实验

提出了自己的事件集序列方法和对GSP算法的进

一步调整即TEMPADIS时间模式发现系统。

2.6　数据挖掘

对医学信息数据库进行数据挖掘和知识发现的

主要目的是预测和分类疾病。

分类和预测是两种数

据分析形式,可以用于提取描述重要数据类的模型

或预测未来的数据趋势。

分类是预测分类号（或离散

值）,而预测是建立连续函数模型;

数据分类的基本

技术有决策树归纳、贝叶斯分类和贝叶斯网络及神

经网络。

其它的分类方法还有K-最临近分类,基于

案例的推理,遗传算法,粗糙集和模糊逻辑技术。

预

测方法有线性、非线性和广义线性回归模型。

具体情

况下,可对上述的这些技术进行适当的修改、扩充和

优化,从而能应用到各种特殊的医学数据库中进行

疾病的分类和预测。

例如,WangML[5]等对孩子骨

折数据库和脊柱侧凸病人数据库使用进化算法（包

括类基因编程GGP,遗传编程GP,最小总描述长度

基因编程MDLGP,遗传算法GAS）和贝叶斯网络

来进行模式提取和发现各变量因果关系的网络;

而

TsumotoS[9]在头痛信息、脑血管疾病和脑膜炎的

诊断系统中,采用了基于粗糙集模型的规则产生法,

由于更密切地代表了医学专家的推理,使产生的规

100·

摘要:

计算机辅助诊断系统中,使用医学数据库的数据挖掘和知识发现技术具有重要意义和其发展的必然性。

文章分析

和综合了此类系统研究开发的一般规律及其特殊性,并指出了其中一些需要解决的问题和今后的研究发展方向。

关键词:

医学数据库;

知识发现;

医学图像

中图分类号:

R318;

TN911.73　　文献标识码:

A　　文章编号:

1001-1110（2002）03-0097-07

Theresearchofdataminingandknowledgediscoveryin

computeraidedmedicaldiagnosingsystem

QUAi-zhen,ZHUANGTian-ge

（DeptofBiomedicalEngineering,ShanghaiJiaoTongUniversity,Shanghai200030,China）

Abstract:

Itisurgentlyneededinthedevelopmentofcomputeraidedmedicaldiagnosingsystemusingdataminingand

knowledgediscoverytechnologyonmedicaldatabases.Thispaperanalysesandsynthesizesthiskindofsystemsandgives

theirgeneralrulesandparticularity.Thepaperalsopointsoutanumberofproblemstobesolvedandthedirectionofre-

searchanddevelopmentinfuture.

Keywords:

medicaldatabase;

datamining;

knowledgediscovery;

medicalimage

收稿日期:

2001-10-25

1　引言

随着医院的计算机化,尤其是许多医院开始使

用PACS系统（PictureArchivingandCommunica-

tionSystem）,它们已收集了大量病人的医学影象

（包括SPECT,X-CT,PET,MRI,HRCT等）和其它

的有关医学参数,而如何充分利用以前的确诊病例

和医生的诊断经验加上当前病人的信息,使计算机

帮助医生快速、有效地正确诊断疾病,正是计算机辅

助医学诊断系统的目标。

以往的许多医学辅助诊断系统都是基于知识的

专家系统,它往往存在若干的缺陷:

①知识获取的瓶

颈;

②知识脆弱性;

③推理单调性。

具体表现为:

开发

基于规则和知识的专家系统大约60%到70%的时

间花费在知识获取上,采取的方法是由专家通过一

系列的领域规则来表示它们的启发式分类经验,由

于绝大多数专家在显示他们的领域知识方面存在困

难,应用效果有时不甚理想,且专家在利用这类知识

时,更多地是采用联想等形象思维方法。

简言之,从

专家那里获取知识与表达困难,且带有定性和主观

的特点,难于定量和客观地表示。

为克服上述缺点,

出现了类似于NNES（神经网络专家系统）[7]等的智

能诊断系统,其优点为:

具有学习功能,大规模并行

分布式处理,全局集体作用实现知识获取自动化,可

以实现并行联想和自适应推理,系统具有实时处理

能力和较好的鲁棒性,良好的启发性、灵活性。

和传

统的ES相比,在分类、诊断以及基于分类的智能控

制和优化求解等方面,此类智能诊断系统有更优越

的性能,但也有一些固有缺点,如:

①适用于解决一

些规模较小的问题;

②在很大程度上受训练数据集

的限制;

③受限于常识问题知识的获取;

④知识表

示,处理繁杂而低效,存在“黑箱”操作。

这一切决定

目前的智能诊断系统不可能具有很高的智能水平。

然而,在此类系统中如引入数据挖掘和知识发现可

缓解或部分地解决一些上述问题,这也是先进智能

诊断系统的发展方向。

数据挖掘是从人工智能的分

支机器学习发展而来,至今已有十多年历史,数据挖

掘就是从数据库中获取正确、新颖、有潜在应用价值

精度大大提高,几乎接近专家的预测精度,见表1

中（※）处。

BojarczukCC[4]等在胸痛疾病的诊断系

统中使用了遗传编程GP,这种方法是一种有前途

的数据挖掘方法,此系统根据165个预测特征值进

行12种不同胸痛疾病的分类,得到了87.5%的分

类精度,大于C5.0决策树算法（79.2%）。

2.7　解释和评估所挖掘到的模式

从上述可知,对医学数据库进行数据挖掘的技

术采用了对经典的方法（如决策树方法）进行改进、

优化和组合,以便适合特定的数据库挖掘对象,有的

系统采用了目前的先进方法（如遗传算法、粗糙集方

法、模糊逻辑技术等）较好地适应了其处理对象并得

到了良好的结果。

一般来说,对分类和预测的数据挖

掘结果可用以下的标准进行比较和评估:

（1）预测正确度——涉及模型正确地预测新的

或先前未见过的数据的类的能力。

（2）计算速度——涉及产生和使用模型的计算

花费。

（3）鲁棒性——涉及给定噪声数据或具有空缺

值的数据,模型正确预测的能力。

（4）可伸缩性——涉及给定大量数据,有效地构

造模型的能力。

（5）可理解性——学习模型提供的理解和洞察

层次。

然而,目前对许多不同分类方法的比较仍然为

一个研究课题,尚未发现有一种方法对所有数据优

于其它方法。

必须要考虑准确性、训练时间、鲁棒性、

可理解性和可伸缩性,可能涉及一折衷方案,可探索

优化组合各种算法以求得较好的结果,比如出现了

研究模糊神经网络、模糊决策树等先进的数据挖掘

方法。

心肌灌注诊断系统中,采用CLIP3机器学习算

法,此算法结合了决策树概念和基于规则的算法,而

心脏SPECT诊断的自动化课题中,采用了基于决

策树的C4.5和简单的统计朴素贝叶斯。

另外,在乳

腺癌的诊断中,使用基于统计方法的发现规则机器

学习方法MMDR1/MMDR2/MMDR3（它们是对于

0.05级别的F规则分别有0.75、0.85和0.95条件

概率,产生统计有意义的诊断规则的方法）等。

从表

1中的医学数据库发现诊断知识的各种疾病诊断系

统,均就其使用的数据挖掘算法结果给予了医学解

释和评估,而且其中许多还与其它的数据挖掘算法

就精度、可理解性等进行了比较,有时还强调了产生

的诊断规则的有用性及其价值,但较少考虑算法的

鲁棒性、计算速度和可伸缩性。

2.8　使用所发现的知识

计算机辅助诊断系统是以咨询系统的形式提供

的,目的是使医生的诊断过程更客观和容易,提高诊

断效率,且可训练缺乏经验的新医生,就目前医学数

据库发现知识系统的实用性来说,尚处于研究开发

阶段,有的知识发现诊断系统在发现知识后识别出

数据库中的错误,经验证修改其中的错误;

有的还需

进一步充实其病例库以便得到更符合实际的诊断规

则或更好地预测疾病。

另外,在医学专家和数据库发

现的知识间有时必然存在不一致或矛盾,这就需要

研究开发人员与医学专家进行不断的商榷来消除或

解释矛盾,这正是一致性的计算机辅助医学诊断系

统最重要的特点,是今后知识发现诊断系统和专家

系统融合的发展方向。

如上所述的BorisKavaler-

chuk[7]等研究开发的乳腺癌的计算机辅助一致性诊

断系统,正是这方面很好的典型例子,它采用以下几

步来产生一个一致性的规则库:

①根据数据库发现

数据驱动的规则,而不是通过询问专家来发现;

②通

过医学专家使用可得的已经证实的病例来分析这些

新的规则;

③发现与她/他的知识或理解相矛盾的规

则,这意味着两种可能性:

（a）这种规则是使用了误

导的病例被发现的;

必须拒绝此类规则并且对训练

数据进行扩展;

（b）专家可能承认他/她的想法没有

实际的根据,因此系统提高了专家的经验。

3　医学辅助诊断系统研究和发展的方向

总结目前的基于知识发现的计算机辅助诊断系

统,今后的发展可在以下三个方面进行探索和研究。

展开阅读全文