中国海洋大学学士论文开题报告范文.docx
《中国海洋大学学士论文开题报告范文.docx》由会员分享,可在线阅读,更多相关《中国海洋大学学士论文开题报告范文.docx(10页珍藏版)》请在冰点文库上搜索。
中国海洋大学学士论文开题报告范文
2中国海洋大学学士论文开题报
告范文
中国海洋大学
本科毕业论文(设计)
开题报告
目基于Score检验的浮标监测
数据异常值诊断方法研究
工程学院自动化及测控系
自动化(年级)2008级
王熠伟
教务处制表
2012年3月20日
一、选题依据
课题来源.选题依据和背景情况;课题研究目的.学术价值或实际应用价值选题来源:
自选课题
选题依据和背景情况:
异常数据是数据集中偏离大部分对象的数据,它们的表现与大多数常规对象有着明显的差异。
随着数据挖掘技术的飞速发展,异常数据挖掘受到研究者的广泛关注,成为数据挖掘领域的一个重要分支。
近年来异常数据挖掘在信用卡欺诈检测、网络入侵检测.气象预报.疾病诊断.故障检测.恐怖活动防范等诸多领域得到广泛应用。
因此本课题以此为依据,研究海洋资料浮标传感器所得到的异常数据的特点,分析其所在的具体位置,对正常数据序列做出预测具有重要的现实意义。
课题研究目的:
本文在国内外文献关于时间序列数据异常点检测的基础上,从两个方面进行研究:
一是运用数理统计的方法研究由海洋资料浮标传感器获得的数据,判断出异常点的位置以及其属性;二是利用若干周期的正常数据对时间序列数据拟合一个ARIMA模型,对未来时间点的数据进行预测。
学术价值及应用价值:
我国提出“蓝色经济”概念后,对于海洋的研究便更加蓬勃地发展起来,对于海洋的一些特征数据指标变化的掌握对了解海洋,发展海洋经济具有重要意义。
比如,研究海水温度变化可以对厄尔尼诺现象等全球性气候问题的研究起到帮助作用,同时也对促进渔业等海洋产业的发展间接做出了贡献;其他的一些数据比如风速,波高等也被许多海上作业的人们所重视。
获取这些数据可以通过海洋资料传感器得到,但是这些传感器分布在距离岸边十几公里甚至更远的地方,因此许多未知不可控因素便会影响传感器获取的数据的准确性,即会产生异常数据。
异常数据也称离群数据,现在已经越来越受到国内外学者的重视。
如果获得的数据序列中存在异常数据,将会对基于此数据的分析起到致命的影响,导致获取的结论不准确。
因此,对时间序列数据中的异常数据的检测具有很高的学术价值和应用价值。
到目前为止,国内外学者对于异常数据的研究己经提出了许多方法,现有的异常数据挖掘方法主要有基于统计的方法、基于距离的方法-基于密度的方法与基于聚类的方法等。
本文主要运用基于统计的方法对由海洋资料浮标传感器得到的数据进行异常检测,建立基于正常数据的ARIMA模型,找到异常点的位置并判断其属性。
二文献综述国内外研究现状.发展动态;査阅的主要文献
国内外研究现状、发展动态:
异常检测也称为离群点检测,是近年来数据挖掘领域的重要研究方向之一[1-5],其目标是在数据集中发现不正常的数据点,与之相关的研究包括:
事件检测(eventdetection)[3]、变化点检测(change-pointdetection)⑷、异常行为检测(aberrantbehaviordetection)[5]等。
目前,对时间序列的异常还没有一个公认的定义,普遍采用的是D.M.Hawkins给出的定义[6]:
“异常点是那些与其他数据点有较大偏差的数据点,以至于怀疑这些偏差并非随机产生,而是产生于一种完全不同的方式”。
异常检测技术已在经济、科学.工程等领域取得了广泛应用,如信用卡欺诈[7]、网络入侵检测[8]、海表水温检测[9]等。
虽然很多学者已对大型数据集的孤立点数据挖掘做出了大量研究与探索,其主要思想一般是减少或消除孤立点,然而由于孤立点既有可能是噪声信息也有可能是有用信息[10],随意删除孤立数据可能导致有用信息的丢失,所以通过孤立点检测发现和利用在孤立点中的有用信息具有非常重要的意义。
孤立点检测算法主要分为经典孤立点检测算法和面向特殊数据的孤立点检测算法。
一.经典孤立点检测算法:
1.基于统计学原理的孤立点检测算法:
早期的孤立点检测算法大多数是基于统计学原理实现的[11-13],通常可以分为基于分布的检测算法和基于深度的检测算法两类。
前者一般先构造一个标准分布来拟合数据集,然后根据概率分布来确定孤立点,例如Rosner提出的单样本多个离群检测算法ESD方法[11]和Yamanishitl^等使用混合高斯模型的孤立点检测算法•此类算法方法的明显不足在于估计多维数据分布的难度较大且准确性低[131;基于深度方法主要以计算几何为基础,通过计算不同层的k-d凸包[14]将外层的对象判定为孤立点,但当数据集的数目增长时,此类方法在维数上的伸缩性不好。
随着统计理论的发展,许多关于异常检测的统计方法应运而生,如Score检验,Dixon检验以及Grubbs检验。
Score统计量的最大优点是,人们只需要计算在原假设条件下(例如方差齐性的条件下)参数的极大似然估计,而不需要在很复杂的备择假设下(异方差条件下)计算参数的极大似然估计,而且Score统计量的渐近分布与似然比统计量的渐近分布相同,检验的功效也相当[15]o李俊[16]运用Score统计量对美国海军设备所需的人力进行异常点检测并得到较满意的结果。
Grubbs法是在标准差未知的情况下对异常值进行检测的一种方法,目前已广泛应用于临床实验室室内质量控制技术.标准测温仪器.Windows实时处理系统、建筑技术经济指标等领域中・数学上已证明,在一组测定值中只有一个异常值的情况下,Grubbs法在各种检验法中是最优的,但在实际应用中当前三次数据的精密度过大或过小时极易出现假失控和假在控现象[17]。
未知标准差情形下,对单组数据判断和处理异常值方法,常用的有Grubbs法和Dixon法。
在水平测试均匀性样品的选取当中的异常值检验,依标准规定剔除异常值都采用Grubbs或Dixon法。
Dixon法适用于小样本检测数据中异常值的检验,它比Grubbs法更简便,已成为国际标准化组织(ISO)和美国材料试验协会(ASTM)的推荐方法。
Dixon法主要应用于在检测值中发现多个异常值的检验,还可以检査多次分析的平均值是否可疑,或者检査实验室平均值是否大体上服从正态分布[18]o
2.基于密度的异常检测方法:
如局部异常因子(LOF,localoutlierfactor)[19],该方法克服了不同密度子集混合而造成的检测错误,检测精度较高,但当数据集较大时计算量大,复杂度过高,响应速度较慢。
3.基于距离的孤立点检测算法:
基于距离的孤立点检测算法的基本思路是把数据点看作空间中的点,孤立点被定义为在数据集中与大多数数据对象之间的距离大于某个给定的阈值的对象点,通常被描述为DB(pct,dmin)。
当且仅当数据集S中至少有pct个数据点与P点的距离大于dmin时,数据对象P点称为孤立点。
这类方法基于密度的检测算法有很大的相似之处,不需要事先知道数据集的分布模型,对于任意的分布模型均有效。
经典的k近邻最先是由KnorrandNg[20]提出来的。
该算法定义了孤立点的范围,但要求事先给出合适的参数d和k。
KnorrandNg给出了两种算法:
循环嵌套算法和基于单元的算法。
前者时间复杂度为0(dn2),在挖掘海量数据集时表现不能令人满意;后者运行效率和数据集的大小成线性关系,但和数据集的维数成指数关系,仅当维数为4时运行速度较快。
2.面向特殊数据的孤立点检测算法:
如数据流中的孤立点检测算法:
此类算法主要针对动态数据集进行孤立点检测,可挖掘持续的.数据量大的数据流中的孤立点。
FengHan[21]提出基于kNN的孤立点检测算法来提高数据流中孤立点检测的效率,满足上述的多个评估准则,该算法运用哈希数据结构并充分利用逻辑操作和互为相邻关系,能够有效地挖掘出数据流中的孤立点,并且对数据集大小的伸缩性好,但是最优的参数设置需要更多特定的领域知识。
徐雪松[22]深入分析时间序列不确定数据流的特点,针对传统数据流异常数据检测方法存在的问题,提出一种时间序列不确定数据流异常数据检测方法。
该方法针对不确定数据流的髙速、无限和动态不确定特性,结合小波分析和改进的聚类方法来识别异常数据。
当通过算法检测出来异常值及其位置时,我们需要知道异常点的属性。
在时间序列中,不同类型的离群点可能对估计量产生不同的影响,而且离群点可能包含更多的信息,因此区别离群点的类型很有必要。
根据离群点的特点Fox[23]将离群点分为两类:
(1)AO(AdditiveOutliers)这种异常点是由某时刻观察和记录的误差所致,它们的出现并不波及到邻近的观测值。
(2)I0(IimovationOutliers)这是成片出现异常点,在某时间内一个异常点通过随机序列相关结构波及到它邻近的一批数据(通常是它后继的邻近点)从而使这些邻近点表现一定的异常。
另外,关于建立时间序列的ARIMA模型的步骤和方法具体可以参考魏武雄[24]的著作。
参考文献:
[1]BARAGONAR,BATTAGLIAF.Outlierdetectioninmultivariatetimeseriesbyindependentcomponentemalysis[J]・NeuralComputation,2007,19(7):
1962-1984.
[2]LASTL,KANDELA,BUNKEH.DataMininginTimeSeriesDatabases[M]・Singapore:
WorldScientificPublishingCompany,2004.
[3]YAMANISHIK,TAKEUCHIJI.Aunifyingframeworktodetectingoutliersandchange-pointsfromnonstdtionarydata[C]//ProceedingsoftheEighthACMSIGKDDInternationalConferenceonKDD.NewYork:
ACM,2002:
676-681.
[4]JAGADISHHV,KOUDASN,MUTHUKRISHNANS.Miningdeviantsinatimeseriesdatabase[C]//Proceedingsof25thInternationalConferenceonVeryLargeDataBases.SanFracisco:
MorganKanfmanPublishersInc,1999:
102-113.
[51K0TSAKISE,WOLSKIA.MAPS:
amethodforidentifyingandpredictingaberrantbehaviorintimeseries[C]//Proceedingof14thInternationalConferenceonIndustrialandEngineeringApplicationsofArtificialIntelligenceandExpertSystems.NewYork:
ACM,2001:
314-325.
[6]HAWKINSDM.IdentificationofOutliers[M]・London:
ChapmanandHall,1980.
[7]吴婷.数据挖掘在信用卡欺诈识别上的应用研究[D].南京:
东南大学,2006.
[8]范秉琪,朱晓东,马鸿雁等.基于数据挖掘的网络入侵检测系统的设计与应用[J]・河南理工大学学报,2006,25(3):
247-250.
[9]汤光华,王俐莉,刘常昱,等.一种时序数据的离群数据挖掘新方法及其应用[J].计算机工程与应用,2006(8):
209-211.
[10]KnorrE,NgR,TucakovV・DistanceBasedOutlier:
AlgorithmsandApplications[J].VLDB,2000,8(3-4):
237-253.
[11]PaulST,FungKY.AGeneralizedExtremeStudentizedResidualMultipleoutlierdetectionProcedureinLinearRegression[J].Technometrics,1991,33(3):
339348・
[12]YamanishiK,TakeuchiJ,WilliamsG.OnlineUnsupervisedOutlierDetectionUsingFiniteMixtureswithDiscountingLearningAlgorithms[R].BostomMA,USA:
InProceedingsoftheSixthACMSIGKDDOO,2000:
320-324・
[13]RamaswamyS,RastogiR,KyuseokS・EfficientAlgorithmsforMiningOutliersfromLargeDataSets[R]・InProc,oftheACMSIGMODInternational
ConferenceonMemagementofData,2000:
93-104.
[14]MerzCJ,MerphyP.UCIRepositoryofMachineLearningDatabases・URL:
http:
//www・ics.uci.edu/mleamlMLRRepository.html,1996.
[15]许两德,夏乐天,具有AR
(1)误差的非线性模型中的Score检验[A],统计与决策,2011.20
[16]李俊,椭球约束线性模型异常点的Score检验[A],铜川学院学报,2008.7,Vol.10,No.4.
[17]刘瑛,魏功,异常值检测中GRUBBS法的改进[A],河南科学,2006.10,Vol.24,No.5.
[18]楼润瑜,吴江云,王水生,钟继,检测数据异常值判断方法的优选,检验检疫科学,2008.6,Vol.18,No.6.
[19]BREUNIGMM,KRIEGELHP,RAYMONDTN,etal.LOF:
identifyingdensity-basedlocaloutliers[C]//SIGM0D,00Proceedingsofthe2000ACMSIGMODInternationalConferenceonManagementofDate.NewYork:
ACM,2000:
93-104.
[20]Knorr,EdwinM,RaymondT.Ng.AlgorthmsforMiningDistanceBasedOutliersinLargeDatasets[R].VeryLargeDataBasesConferenceProceedings,1998:
24-27.
[21]HanFeng,WangYanming,WangHuapeng.0DABK:
anEffectiveApproachtoDetectingOutlierinDataStrearn[R].Dalian,China:
InProceedingsoftheFifthInternationeilConferenceonMachineLearningandCybernetics,2006:
1036-1041.
[22]徐雪松,时间序列不确定数据流中异常数据检测方法[A],电子设计工程,201L10,Vol.19,No.19.
[23]FoxAJ.Outliersintimeseries[J].JRoyStatistSoc,1947;48:
39-47.
[24]魏武雄,时间序列分析一一单变量和多变量方法:
第二版,北京:
中国人民大学出版社,2009.
三、研究内容
1.学术构想与思路;主要研究内容及拟解决的关键问题(或技术)
学术构想与思路:
本文拟运用数理统计的方法对由传感器获得的测量结果数据进行分析并找出其中的异常数据。
通过编程语言读出数据库中的时间序列数据,另外,通过数据建立ARIMA模型以对数据进行拟合,运用Score检验等统计诊断方法得出异常点在图线中的位置,然后判断异常点的属性。
本文的编程语言为C#语言,建模软件为Eviews6.0。
主要研究内容:
1.异常数据统计诊断方法综述;
2.数据提取软件开发;
3.运用Score检验检测海表气温异常值实证分析
拟解决的关键问题:
1.从数据库中提取需要的数据序列;
2.建立ARIMA模型进行拟合;
3.运用统计方法对数据序列进行分析得到异常数据的位置并判断属性。
2.拟采取的研究方法、技术路线、实施方案及可行性分析
拟采取的研究方法:
1.文献研究法,由于异常数据研究属于比较热门的领域,因此可以通过调査文献来获得资料,从而全面地、正确地了解掌握所要研究问题。
其作用有:
①能了解有关问题的历史和现状,帮助确定研究课题。
②能形成关于研究对象的一般印象,有助于观察和访问。
③能得到现实资料的比较资料。
④有助于了解事物的全貌。
到目前为止已经有许多经典的研究处理异常数据的方法,如基于统计学原理的、基于距离的、基于密度的异常数据处理研究方法等。
2.数量研究法,通过对研究对象的规模、速度、范围、程度等数量关系的分析研究,认识和揭示事物间的相互关系.变化规律和发展趋势,借以达到对事物的正确解释和预测的一种研究方法。
本文研究的是时间序列数据,因此建立ARIMA模型对未来数据进行预测便采用的是数量研究法。
技术路线、实施方案及可行性分析:
本研究在文献分析和观察的基础上,对海洋资料浮标传感器异常检测方法进行综合研究。
可行性包括:
指导老师对相关领域有较深的研究,对该问题的研究思路.学术观点比较熟悉。
学校图书馆有丰富的文献资料可利用;学校计算机网络普及化为本研究通过计算机网络检索.收集资料和进行统计资料的分析提供了必备的条件。
四、论文(设计〉进度安排
起止时间
主要内容
预期目标
(1)3.1〜3.31
査阅资料
掌握研究现状
(2)4.1〜4.30
实验并产生结果
得到研究数据结果
(3)5.1〜5.31
集中进行论文写作,完善结构
完成论文写作工作
(4)6.1〜6.6
准备答辩
做好答辩准备工作
五、审核意见
导师意见
导师签字:
年
月日
审核小组意见
审核小组成员签字:
年
月日
注:
1、表格不够可加附页。
2、审核小组应至少由三位具有高级职称的教师组成;必要时可召集开题报告会。