数据质量与元数据.ppt

资源描述

数据质量与元数据.ppt

《数据质量与元数据.ppt》由会员分享，可在线阅读，更多相关《数据质量与元数据.ppt（110页珍藏版）》请在冰点文库上搜索。

数据质量与元数据.ppt

1,潘定教授、博士生导师2009年5月,数据质量与元数据,目录,基本概念数据质量连续统数据质量模型TDQM方法学测量与改进技术元数据与信息质量应用数据质量工具总结,1基本概念,当获得的数据与你认为的不一样时，就出现数据质量问题数据不符合说明：

垃圾进，垃圾出，etc.不了解说明：

复杂性，缺少元数据多数据来源和表现现象数据质量问题的高成本和普遍性DQ问题：

600Billion/yearDQ问题：

管理决策面临的重要问题,例子,如何解释数据?

字段的含义？

Key?

度量?

数据故障输入、多种格式、缺失/缺省值元数据与领域专家经验Field3isRevenue.Indollarsorcents?

Field7isUsage.Isitcensored?

Field4isacensoredflag.Howtohandleit?

T.Das|97336o8327|24.95|Y|-|0.0|1000TedJ.|973-360-8779|2000|N|M|NJ|1000,数据故障,由生成数据过程之外因素导致的数据变化Changesindatalayout/datatypesIntegerbecomesstring,fieldsswappositions,etc.Changesinscale/formatDollarsvs.eurosTemporaryreversiontodefaultsFailureofaprocessingstepMissinganddefaultvaluesApplicationdonothandleNULLvalueswellGapsintimeseriesEspeciallywhenrecordsrepresentincrementalchanges.,传统的数据质量定义（Redman，1992）,AccuracyThedatawasrecordedcorrectlyCompletenessAllrelevantdatawasrecordedTimelinessThedataiskeptuptodateSpecialproblemsinfederateddata:

timeconsistencyConsistencyThedataagreeswithitselfUniquenessEntitiesarerecordedonce,传统定义的问题,难以测量Accuracyandcompletenessareextremelydifficult,perhapsimpossibletomeasure.与上下文无关Noaccountingforwhatisimportant.不完全Whataboutinterpretability,accessibility,metadata,analysis,etc.含糊不清Theconventionaldefinitionsprovidenoguidancetowardspracticalimprovementsofthedata.,新环境中的数据问题,新的数据范型自动数据采集、大量数据，对收集数据或设计难控制不适当使用已知的数据表示方式联邦数据异构集成数据、跨企业/部门数据，近似连接数据采集与数据分析的分离缺少一致或标准的数据表达，缺少数据含义和解释新型应用数据用于决策、预测，需要融合领域知识的挖掘,信息质量的定义,

（1）L.English（1999）Consistentlymeetingallknowledgeworkerandend-customerexpectationsinallqualitycharacteristicsoftheinformationproductsandservicesrequiredtoaccomplishtheenterprisemissionorpersonalobjectives;Thedegreetowhichinformationconsistentlymeetstherequirementsandexpectationsofallknowledgeworkerswhorequireittoperformtheirprocesses.

（2）IAIDQ（2006）:

Thefitnessforuseofinformation;informationthatmeetstherequirementsofitsauthors,users,andadministrators.,影响质量的因素

（1）,对不同类型的数据，有不同的质量问题FederateddataMassive,HighdimensionaldataDescriptivedataLongitudinaldataStreamingdataWebdataNumericvs.categoricalvs.textdata,影响质量的因素

（2）,不同的应用类型操作型应用聚合分析客户关系数据解释没有元数据，没有数据后面的业务规则，数据就难以理解数据的适用性-从现有数据中得到回答替代数据的使用相关数据缺失,测量数据质量-DQ约束,使用基于模式的静态约束可以捕捉到许多数据质量问题Nullsnotallowed,fielddomains,FK,constraints,etc.使用动态约束可以捕捉到工作流中的其他许多数据质量问题ordersabove$200areprocessedbyBiller2约束遵循80-20法则约束是可测量的建立度量（Metrics）测量数据达到约束的程度,数据质量度量,需要可测量的数量指示什么是错的，应如何改进难以找到最好的数量集度量的类型静态约束vs.动态约束Operationalvs.diagnostic度量应是指导性地更正，达到数据使用的改进可能会建立大量的度量，选择最重要的实施,数据质量度量例子,模式一致性-staticdiagnosticmetric评价一个快照上的约束业务规则一致-dynamicdiagnosticmetric评价数据库变更上的约束准确性-staticdiagnosticmetric现行库存量（费用）,审计抽样?

可存取性-generaldiagnosticmetric可解释性end-to-end过程成功完成,DQ研究问题与应用领域,相关研究领域,2数据质量连续统,数据收集&数据交付,数据存储,数据集成,数据检索,数据分析/数据挖掘,准确回答,解决方法,决策.,数据收集阶段,数据怎样进入系统问题手工输入对内容和格式没有统一的标准重复输入测量错误缺少事先计划,解决方法,先发制人设计自动工作流，建立完整性检验保证一次正确输入处理管理数据共享与维护数据与元数据不可分明确数据管理员责任持续审计追溯既往诊断方法自动故障检测清除方法重复删除、合并/清除名&地址匹配、字段值标准化,数据交付阶段,数据由原始地送向永久存储地的过程问题数据损坏/损伤（因不适当的预处理）不适当聚合、缺省赋值、测量设备限制（截断、删节）数据丢失缓冲区溢出传输问题引起文件丢失未检验,解决方法,建立可靠的传输协议中继服务器检验检查和，验证语法分析器上载文件符合预定模式明确关系数据来源间的依赖关系、处理步骤是否增量？

需要重新匹配模型？

接口合作书数据提供者的DQ承诺，有文档？

提示变更？

数据存储阶段,问题缺少、不完整的元数据复杂的规则和例外未文档化；元数据的变更未及时反应不适当的数据模型丢失时间戳、不正确的规范化特定修改与变化短视的决策影响长期的使用硬件/软件的约束截断与删改数据,解决方法,元数据管理记入文档并发布数据规范规划、计划假设每件事都会出问题难以实施的事数据探索使用数据浏览和数据挖掘工具检查数据达到指定的规范了吗？

发生了什么事？

数据集成阶段,整合联邦数据，形成最难跟踪的DQ问题问题异构数据:

没有公共键、字段格式差异；近似匹配不同的定义acustomer:

anaccount,anindividual,时间同步是否同一时期的数据？

时间间隔是否兼容?

遗留数据电子表格,特定结构社会、政治因素,解决方法,强制精确时间戳商用工具数据集成方面研究的主要对象已有许多工具用于匹配、模式匹配数据浏览和探索有许多隐藏问题和含义必须抽取元数据察看结果前、后:

集成是否正常进行？

数据检索,输出数据集合是数据库的一个视图人为错误数据源未完全理解导出数据的需求不理解仅仅简单的错误，如内联结vs.外联结，NULL值计算约束例如，代价太大不能给出全部历史数据，仅提供快照软件不兼容,解决方法,工具使用XML进行数据交换，数据和元数据协同测试预先计划,数据分析阶段,用所有这些数据分析什么？

问题规模与性能信心保障黑盒子与飞镖板对某些模型的偏爱领域经验不足不经意的数据设定,解决方法,数据探索确定哪个模型和技术是合适的，找出数据bugs，开发领域经验持续分析结果稳定吗?

它们将如何变化？

明确责任设定反馈回路的分析部分,数据质量过程,数据收集,数据加载（ETL）,数据清洗dataprofiling,validatedataconstraints,数据集成functionaldependencies,开发业务规则与度量interactwithdomainexperts,验证业务规则,稳定业务规则,检验业务规则,数据质量监视,分析定量结果总结经验,3数据质量模型,模型广泛使用在数据库设计、需求分析模型也使用在业务处理的表达、输入/输出、因果关系、处理功能/非功能概念/逻辑数据模型的扩充信息系统模型,结构数据模型的扩充,扩充成为带有质量特征的ERM使用属性增加质量度量一种简单的概念模型方法，如下图,数据质量模式,质量属性模型,信息系统模型,处理描述模型：

信息产品图（IP-MAP）模型IP-MAP模型原理：

数据可看作是一种制造活动的特殊产品数据质量的描述模型能采用类似制造传统产品的质量控制方式IP-MAP是一种图形模型，用于帮助人们理解、评估和描述IP是如何组装在业务过程中的IP-MAP是一种系统的表示法，捕捉IP制造过程中的相关细节显示IP过程、识别处理阶段主人、理解信息和组织边界，估计产品处理的时间和质量度量,IP-MAP构件块,IP-MAP例子,IP-MAP与其他方法的比较

（1）,IP-MAP与其他方法的比较

（2）,IP-MAP与其他方法的比较（3）,评估数据质量,DQ评估需要不同的技术和元数据评估形式公平的（impartial）-基于结构上下文的（contextual）-基于内容和特定使用场景某些质量属性更适合“公平的”，而另一些则适合“上下文的”，也有两个都适合IP-MAP支持上下文的评估交流公平的数据质量测量（引用质量元数据、质量信息）交流数据源、制造过程、过程元数据的细节使用已有方法计算数据质量,支持IP-MAP的元数据库模型,IP-MAP的扩展,事件处理链图业务处理概览-数据、事件和处理间的关系交互模型（企业单元如何交互）-在源、消费者和组间的交流结构组织模型（谁做什么）-组织分组/功能的层次构件模型（发生什么）-数据、事件及其触发器关系数据模型（需要什么数据）-产品、存储等数据间的关系IP-UML，基于IP-MAP的数据质量profileClass、relationshipConstraintTagdefinition、taggedvalueStereotype,IP-UML：

数据质量profile,数据分析模型为消费者规定哪个数据（其质量对组织成功起关键作用）是重要的IP、原始数据、构件数据表示成stereotypedUML类（质量数据类）质量分析模型由表示数据的质量需求（对应于质量维度）的建模元素构成引入以下stereotypes：

质量需求类：

规定质量数据类的质量需求质量关联类：

将需求类与数据类相关联，引入约束质量设计模型规定IP-MAP通过UML活动图和对象流图综合描述处理和数据,4TDQM方法学,TotalDataQualityManagement（TDQM）相似性：

产品制造的质量vs.信息制造的质量信息制造可看成是作用于原始数据，产生信息产品的处理系统,共享性及时性可信性,基本概念,TDQM目的给信息消费者传递高质量的信息产品（IP）TDQM周期（Deming周期：

Plan-Do-Check-act）持续地定义、度量、分析和改进信息质量是保证高质量IP的基础定义识别重要的IQ维度和需求度量产生IQ度量分析识别IQ问题的根本原因和低质量影响改进提供改进IQ的技术信息产品（IP）信息供应者：

为IP建立和收集数据信息制造者：

为IP设计、开发和维护数据和系统架构信息消费者：

在工作中使用IPIP管理者：

负责管理整个IP生产过程,信息质量,IQ被看成是信息消费者使用的适用度IQ的分类和维度,TDQM方法示意图,定义IP,定义IP特征在高层，按信息消费者的功能形成概念分类在底层，应识别IP的基本单元和构件，以及它们的关系定义IQ需求从IP供应者、制造者、消费者和管理者的角度识别IQ需求从特征和评价结果，可导出带有所需质量属性的IP逻辑和物理设计定义信息制造系统提供评估IQ维度的价值的基础,例子：

IQ重要性评价,例子：

客户账户模式,例子：

信息制造系统,测量IP,测量的关键是开发IQ度量（metrics）度量有：

用于跟踪质量的基本度量-准确、及时、完整和一致对业务规则的检测面向信息制造度量质量相关的集体知识的分布度量将在新的信息制造系统中实现，或作为现有系统的扩展插件例程,分析IP,由测量结果，分析当前IQ问题的根源问题分析方法引入哑帐号测试信息制造过程统计处理控制（SPC）模式识别排列图分析,改进IP,经过分析，实施IQ改进措施识别改进的关键区域：

调整对应信息制造系统的信息流与工作流按业务需求调整IP的关键特征方法InformationManufacturingAnalysisMatrix整数规划,运用TDQM的组织支持,用业务术语清楚地表达IP各环节建立IP小组企业高层领导、IP工程师、IP产品各角色培训IQ评价和管理技巧使持续的IP改进制度化,小结,TDQM为信息产品的定义、测量、分析和改进提出一整套概念、原理和规程TDQM源于多学科的研究和实际应用应用前提是组织的信息处理类似于产品制造消费者能发现信息中的问题，但不应将问题留给消费者去辨认和解决，IP小组必须主动、持续地改进IP质量供应者、制造者必须了解如何、为什么使用信息，消费者必须了解信息的生产和维护强调企业高层领导的强力委托,5测量与改进技术,基于过程管理方法保证适当的规程统计方法关注分析，发现和修复数据中的异常面向数据库方法关注关系，保证一致性元数据和领域专家经验方法提供含义与背景，保证可解释性,5.1过程管理,业务过程中提高数据质量的方法给质量问题分配经费内容与格式的标准化一次输入数据，并保证正确自动化分配责任:

datastewardsEnd-to-end数据审计和评审DataMonitoringDataPublishing,监控数据的方法,数据监控是一个持续的过程数据跟踪/审计使用一个交易实例流过整个工作流建立第二处理系统，检测可能的问题协调和验证对增量数据的协调强制一致性反馈回路DataPublishing,反馈回路,数据处理系统经常是开放回路系统处理后，丢弃结果以为计算机不会出错类似于控制系统：

feedbackloops.监控系统，检测实际与预期的差别反馈回路更正早期构件的行为数据处理系统比线性控制系统复杂,例子,电信服务中的销售、提供和帐单涉及组织、数据库间手工传递阶段组织边界的传递是问题的主要原因自然的反馈回路Customercomplainsifthebillistohigh缺少反馈回路Nocomplaintsifweundercharge.,反馈回路例子,Customer,SalesOrder,Billing,CustomerAccountInformation,Provisioning,CustomerCare,ExistingDataFlow,MissingDataFlow,DataPublishing,使数据库内容容易获取Web门户DataSquashing发布元数据闭环反馈回路使更多人关注数据使用效果与多种因素相关,5.2统计方法,没有直接的DQ方法传统的统计数据收集方法存在发现异常和修补数据的方法小数据量与大数据量DQ中采用的四种大致类型缺失、不完全、模糊或损坏数据，如被截断、删节可疑或异常数据，如孤立点模型偏差检验适合度,缺失数据,缺失数据值、属性、整个记录、整节缺失数据与缺省值难以区别截断/删改（censoring）未了解、机理未知问题：

误导结果偏差（bias）,检测缺失数据,明显的缺失数据比较数据规范与实际数据数据属性出现？

扫描单个记录寻找间隙实现检查文件数、文件大小、记录数、重复数用“期望”值和界限比较估计（均值、频率、中位数）检查各种层次的数据粒度，聚合可能误导,检测缺失数据（续）,对数据的隐含破坏数据值被截断或删改在分布和直方图中检验峰值和倾斜缺失数据和缺省值是难以区分的太多缺失值？

元数据和领域经验可以帮助疏忽错误某个特定区域的呼叫全部丢失，应检验数据是随机丢失？

还是区域故障,估测缺失数据值,估测（imputing）缺失值是猜测缺失数据值的过程对联邦数据，有30%-70%的数据中包含有至少一个缺失属性残留数据是严重偏差的整体猜测值对聚合分析有用，但个体值不予信任应理解缺失数据模式，发现数据完整性问题,估测方法,独立估测单独处理每个属性，不考虑其他属性的相关性使用多属性相关估测回归方法倾向得分任意缺失模式MarkovChainMonteCarlo（MCMC）,截断与删节,截断如果数据值超过或低于边界，则放弃数据如：

客户每月的呼叫小于2分钟删节测量被限定边界，但不精确如：

呼叫时间20，则记为20,删节的类型,截断与删节（续）,如果截断与删节机制未知，分析可能不准确且有偏；如果已知，则可减轻偏差元数据应记录截断与删节机制，以及特征元数据对不完全数据的估测非常重要,例子,可疑数据,考虑以下数据：

3,4,7,4,8,3,9,5,7,6,92“92”是可疑数据孤立点孤立点是重要的孤立点可能是数据或模型故障孤立点也可能是数据中的重要事件，如高利润客户,孤立点,孤立点：

“departurefromtheexpected”孤立点的类型从定义“期望的”和“偏离”导出分类有许多方法误差界限，公差极限控制图基于模型孤立点回归模型，一般线性模型几何孤立点分布孤立点时间序列孤立点,控制图,通常用于产品批量的质量控制典型的单变量:

X-charts对图的分布假设也可以基于相关系数，如Rcharts,X,Y,多元控制图,模型拟合与孤立点,模型概要数据中的一般趋势比简单聚合更复杂例如：

线性回归、logistic回归聚焦于属性关系潜在孤立点：

不符合很好拟合模型的数据点适合度检测（DQ面向分析/挖掘）检查数据对模型的适合度验证假设的有效性数据是否足能回答分析/业务的问题?

例子,5.3数据库工具,现代DBMS提供了许多保持数据一致性的工具交易（Transactions）数据类型域（Domains）约束ColumnConstraintsTableconstraints强大的查询语言触发器时间戳，时态DBMS,数据库的数据质量问题,经常不使用一致性约束实施约束的高成本，如外键约束损失灵活性不理解约束条件DBA不了解/不关心垃圾输入合并、联邦、Web凑集DB不可检测的问题不正确的值，缺失数据低质量的元数据复杂数据库难以理解,难于理解,ER建模建模的复杂性无意识的后果如:

级联删除强制加入约束现实世界的复杂性，难于预期特定情形现实比书本描述的要复杂得多,方法与工具,ETL近似联结（模糊联结）重复寻找数据库探索,数据加载,Extraction,Transformation,Loading（ETL）数据可能来源于一个有问题的数据集合Federateddatabase,MergeddatabasesTextfiles,logrecordsWebscraping源数据可能允许一个有限的查询集合数据可能需要重构FieldvaluetransformationTransformtables（e.g.denormalize,pivot）,ETL,提供工具，用于存取数据（DB驱动、web页获取、解析工具）验证数据（确保约束）转换数据（e.g.addresses,phonenumbers）加载数据设计自动化模式映射采用有限的查询接口查询数据集（web查询）,Web凑集（Scraping）,Web存在大量数据，混合有大量垃圾问题：

受限的查询接口填表形式“自由文本”域如.地址不协调的输出Html标记使用的随意性无提示的快速变化,工具,Web凑集器的自动生成Excel加载html表查询的自动翻译在一个特定源上，给定允许的查询描述监控检测质量的退化由自由格式文本抽取数据如：

地址、名字、电话号码自动检测字段域,近似匹配,联系有“close”字段值的元组近似串匹配通常使用串编辑距离近似树匹配针对XML比串匹配代价高得多快速近似的研究特征向量匹配相似性搜索利用数据挖掘技术Ad-hoc匹配寻找灵活技巧,近似联结和重复排除,基于不完全或有误信息，执行联结近似联结:

在两个不同的表间匹配候选重复排除:

在相同的表内匹配记录比近似联结更一般的语义:

需要使用特殊转换和打分函数相关联信息:

用其他源检验，如账单的使用关系缺失数据:

需要使用几种正交搜索和打分标准近似匹配是有价值的工具,算法,分区数据集ByhashoncomputedkeyBysortorderoncomputedkeyBysimilaritysearch/approximatematchoncomputedkey在分区中进行打分（scoring）Hash:

allpairsSortorder,similaritysearch:

targetrecordtoretrievedrecords高得分记录对是匹配的使用多计算键/hash函数重复排除:

重复记录形成一个等价类,近似联结的例子,Sales,Provisioning,Sales,Provisioning,Genrl.EclecticGeneralMagicGensysGenomicResearch,Genrl.ElectricGenomicResearchGensysInc.,“Gen”bucket,Genrl.EclecticGenomicResearchGensys,Genrl.ElectricGenomicResearchGensysInc.,Match,数据库探索,找出数据库中问题的工具反向ETL类似于数据质量挖掘简单的查询是有效的SelectField,count（*）asCntfromTableGroupbyFieldOrderbyCntDesc仅关注一个表的一个样本,数据库Profiling,系统收集数据库中数据的概要情况NumberofrowsineachtableNumberofunique,nullvaluesofeachfieldSkewnessofdistributionoffieldvaluesDatatype,lengthofthefieldFunctionaldependencies,keysJoinpaths了解数据库中是否包含了你认为应该包含的内容,找出键与

展开阅读全文