数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx

上传人:b****1 文档编号:10680214 上传时间:2023-05-27 格式:DOCX 页数:21 大小:631.03KB
下载 相关 举报
数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx_第1页
第1页 / 共21页
数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx_第2页
第2页 / 共21页
数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx_第3页
第3页 / 共21页
数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx_第4页
第4页 / 共21页
数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx_第5页
第5页 / 共21页
数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx_第6页
第6页 / 共21页
数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx_第7页
第7页 / 共21页
数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx_第8页
第8页 / 共21页
数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx_第9页
第9页 / 共21页
数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx_第10页
第10页 / 共21页
数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx_第11页
第11页 / 共21页
数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx_第12页
第12页 / 共21页
数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx_第13页
第13页 / 共21页
数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx_第14页
第14页 / 共21页
数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx_第15页
第15页 / 共21页
数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx_第16页
第16页 / 共21页
数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx_第17页
第17页 / 共21页
数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx_第18页
第18页 / 共21页
数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx_第19页
第19页 / 共21页
数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx_第20页
第20页 / 共21页
亲,该文档总共21页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx

《数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx》由会员分享,可在线阅读,更多相关《数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx(21页珍藏版)》请在冰点文库上搜索。

数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用.docx

数据库增值突破传统市场调研的局限基于数据挖掘技术于多个数据库间的连接映射与整合的应用

数据库增值,突破传统市场调研的局限

——基于数据挖掘技术于多个数据库间的连接、映射与整合的应用

  摘要:

多个数据库间的连接、映射与整合,是数据仓库管理中会使用到的数据库增值方法,此方法的优点是不需要额外支出数据收集成本,而是利用数据挖掘的方法增加数据信息,使数据库的价值得到提升。

本文将讨论,如何将此方法应用于商用PC用户市场调研项目中,从而帮助PC厂商精确锁定市场,实现精确销售,同时节省了成本,突破了传统市场调研方法的局限。

        Abstract

        Toincreasethevalueofdatabases,wecanlink,mapandintegratethesedatabases;meanwhilewecansavethebudgetfordatacollection.Themethodcanalsobeusedinmarketresearch.Thispaperdiscusseshowtoapplythismethodintomarketresearch,byintroducingacasewhosepurposeistoestimatecommercialPCbusinessusers’marketsizeandobtainthepotentialcustomers’contactlistandPCinventoryinformationtoincreasetheeffectofCustomerRelationshipManagement.

        关键词:

数据库连接 数据库增值 回归分析 数据挖掘 Two-Step聚类

        一、研究思路

        

(一)“多个数据库间的连接和整合”思路介绍

        数据库连接:

数据库连接是指在多个数据库之间利用相同的字段建立关系。

        数据库映射:

在数据查询和存储的过程中,利用数据库连接将多个数据库中的记录相对应,这个过程即为映射。

        数据库整合:

在数据库连接、映射的基础上,我们可以建立多个数据库间字段的推导模型,并实施模型,实现数据库整合。

例如,数据库(A)包含字段X1~Xm和Z,数据库(B)包含字段Y1~Ym和Z,2个数据库拥有相同的字段“Z”,利用字段Z可以将2个数据库建立连接,同时数据库(B)中的Z字段是数据库(A)中Z字段的一部分,将2个数据库进行映射,并建立Y1~Ym与X1~Xm之间的推导模型,将缺失的部分Y1~Ym字段补齐,我们便可以得到一个整合后的完整数据库。

        

        我们将这个思路与方法运用到市场调研当中,结合电话抽样调查的一手数据,将其与现有数据库整合,在成本投入最少的情况下,实现现有数据库增值的目的。

        

(二)数据推导方法探讨

        对于不同类型的字段,我们应使用不同的方法,下表分别列举了推导不同类型字段的方法:

        

        (三)此方法在PC商用市场中的应用

        目前国内各大PC厂商越来越关注商用PC市场的消费潜力,但如何在众多的城市和行业中快速有效的找到商业机会,并且锁定最具投资价值的目标企业进行精确销售?

        在研究商用PC市场的规模和潜力时,最重要的一个指标是企业PC保有量,这是由于PC属于易耗品,并且日渐庞大的企业数据库也对PC性能提出越来越高的性能要求,这就使得企业的PC需要定期更新,所以在相同更新率的情况下,PC保有量越高的企业意味着它的PC消费能力也越高。

如何帮助PC厂商快速找到那些PC保有量高的企业,进行用户拓展,这是传统市场调研方法无法做到的,因为传统的市场调研方法通过抽样调查推总,只能提供商用PC市场的总体保有量有多少,却无法告诉PC厂商各个企业的PC保有量的具体数值。

        按照传统的市场调研方法,若要得到所有企业的PC保有量,除非进行普查,否则别无他法,但是普查的成本不是某一个PC厂商所能承受的。

        那是否还有其他既节省成本,又能够精确了解各企业PC保有量的方法呢?

        这种情况下,我们可以利用本文中提到的“多个数据库间的连接、映射与整合”的方法来实现。

具体的研究思路如下:

        第一步,对应图1,确定现有数据库资源:

        数据库(A):

中国大陆地区500万家企业的数据库,数据库中字段包括:

企业名称,企业员工人数,企业销售收入,企业经济类型等。

        数据库(B):

通过市场调研,得到企业PC保有量的数据库,字段包括:

企业名称,PC保有量等。

        第二步,确定缺少的目标字段:

        数据库(A)中缺少企业的PC保有量,需要通过数据库整合,补全这部分信息。

        第三步,确定数据库间的连接字段和整合方案:

         数据库(A)和数据库(B)之间共同的字段Z是“企业名称”,我们利用这个字段将2个数据库进行连接,再利用数据库(A)中企业背景资料与数据库(B)中PC保有量进行建模,最后用建立的模型,推导出数据库(A)中缺少的“PC保有量”字段的企业数据中,实现数据库增值。

        二、本研究所使用的方法和工具

        

(一)数据挖掘

        数据挖掘是指寻找隐藏在数据中的信息,如趋势(Trend)、特征(Pattern)及相关性(Relationship)的过程,也就是从数据中发掘信息或知识KDD(KnowledgeDiscoveryinDatabases),也有人称为“数据考古学”(DataArchaeology)、“数据模式分析”(DataPatternAnalysis)或“功能相依分析”(FunctionalDependencyAnalysis),目前已被许多研究人员视为结合数据库系统与机器学习技术的重要领域,许多产业界人士也认为此领域是一项增加各企业潜能的重要指标。

此领域蓬勃发展的原因:

现代的企业经常搜集了大量数据,包括市场、客户、供货商、竞争对手以及未来趋势等重要信息,但是信息超载与无结构化,使得企业决策单位无法有效利用现存的信息,甚至使决策行为产生混乱与误用。

如果能通过数据挖掘技术,从大容量的数据库中,发掘出不同的信息与知识出来,作为决策支持之用,必能产生企业的竞争优势。

       因此,数据挖掘可以描述为:

按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。

        

(二)聚类

        聚类分析是数据挖掘技术中一种十分常见的分析方法,它是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。

它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。

        聚类的严格数学描述如下:

        被研究的样本集为E,类C定义为E的一个非空子集,

        即  且 

        聚类就是满足下列两个条件的类C1,C2,…,Ck的集合,Ci和Cj分别表示任意的一类;

        1. 

        2.  (对任意i≠j)

        由第一个条件可知,样本集E中的每个样本必定属于某一个类;由第二个条件可知,样本集E中的每个样本最多只属于一个类。

        (三)线性回归分析

       多元线性回归是指回归分析中自变量为两个或两个以上,即由多个自变量的最优组合来共同预测(估计)因变量的数学方法。

       回归模型可以用右式表示:

        其中为根据所有自变量计算出的估计值,为常数项,,,称为,, 的偏回归系数。

偏回归系数表示假设在其他所有自变量不变的情况下,某一个自变量变化引起因变量变化的比率。

        本文中分析与模型的建立所使用的工具是SPSS公司的Clementine。

        (四)神经网络

        人工神经网络(ArtificialNeuralNetwork,ANN),或称神经网络(NeuralNetworks,NN)是由大量的、同时也是很简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多本质特征,是一个高度复杂的非线性动力学系统。

        神经网络,有时也称作多层感知器,本质上是人脑处理信息方式的简化模型。

它通过模拟大量相互连接的简单处理单元工作,这些处理单元好像神经元的抽象化版本。

这些处理单元是按层排列的。

在神经网络中通常有三部分:

一个输入层(inputlayer),其单元代表输入字段;一个或者更多的隐藏层(hiddenlayers);以及一个输出层(outputlayer),其单元代表输出字段。

这些单元通过不断变化的连接强度(connectionstrengths)或权值连接。

        神经网络学习包括:

检查单个记录、为每个记录生成预测、一旦发现生成错误的预测便对权值进行调整。

这一进程多次重复,神经网络不断提高预测效果,直到满足一个或者多个终止准则。

        (五)Clementine工具中的Two-Step聚类方法

        Clementine中的Two-Step(两步聚类)节点提供了一种性能较为优异的聚类分析方法。

两步聚类是一种分两步进行的聚类方法。

第一步单独通过数据,把原始数据压缩成易处理的子类集;第二步使用层次聚类方法,将子类逐渐合并成越来越大的聚类,不需要再次通过数据。

层次聚类的好处是不要求提前选择聚类数。

许多层次聚类从单个记录开始分群,逐步合并成更大的聚类。

尽管这类方法在大数据情况下常常不适用,两步聚类的最初的预先聚类使层次聚类即使处理大型数据集也很快。

在最初并不知道数据的分类时,可用两步聚类将数据集分成不同的群组。

因此,两步聚类方法避免了K-means算法中事先设定群组的数量的缺陷,同时聚类结果较K-means更稳定。

        (六)Clementine工具中的线性回归分析

        本研究的回归分析部分利用Clementine回归分析节点,利用该回归节点生成线性回归模型。

Clementine回归节点在处理数据时需要输入(in)和输出(out)两种变量,并且必须只有一个输出变量和一个以上的输入变量,同时要求这两种变量均为数值型变量。

        (七)Clementine工具中的神经网络模型

        Clementine中的神经网络节点用于创建并训练神经网络。

该节点的要求:

对字段类型没有限制。

神经网络可以处理数值型、字符型以及卷标型输入输出字段。

神经网络节点要求一个或更多字段有“In”方向,以及一个或更多字段有“Out”方向。

        三、研究范围与对象

        地域范围:

282个地级城市(除北京,上海,广州,深圳外所有地级以上城市)。

        行业范围:

将所有细分行业分为9大行业,包括能源行业,制造业,房地产业,信息服务业,批发和零售,其他服务业,教育和科学研究,金融业,政府、公共管理和社会组织。

        研究对象:

以上研究范围里的所有企业。

        四、研究过程

        研究前提假设:

        在建立模型之前,我们需要考虑3个因素:

        第一, 企业所处的行业;

        第二, 企业所在城市的整体经济水平;

        第三, 企业所在城市的产业结构。

        考虑的原因:

由于工作内容和工作性质不同,行业对于PC使用的依赖程度不同,同样的员工人数和销售收入,制造业与金融业对于PC的需求量具有较大差别,所以企业所在行业会影响到企业的PC保有量;同时企业所在城市的整体经济水平和环境,以及城市的产业结构,决定着城市的IT化水平,也势必会影响所在地企业对PC的依赖程度。

        所以,在我们建立企业PC保有量模型之前,需要对数据库(A)中的企业进行分层抽样,即按照城市经济规模和城市产业结构抽样,同时考虑到企业所处的不同行业,对不同组内的企业按行业分别建立模型。

研究整体思路如图2所示:

业按行业分别建立模型。

研究整体思路如图2所示:

 

        

        第一部分按经济水平将城市分层

        研究目的:

        根据城市的经济发展水平对中国282个城市进行分层。

        研究方法:

        国内生产总值(GDP) 指一个国家(或地区)所有常住单位在一定时期内生产活动的最终成果,由于用GDP来衡量一个国家或地区的经济实力,是国际上的通常做法,在这里我们利用每个城市的GDP将城市进行分层,使得经济实力相近的城市分在同一层,共分为3层。

        为了使结果更为科学和可信,我们排除了使用人为划分的手段,而是利用Clementine中的Two-Step节点进行城市分层,这种技术可以帮助我们找到最合理的划分点,即使得同一组中的城市GDP差距最小化,而不同类之间的城市GDP差距最大化。

        研究结果:

        第一部分,我们将282个城市分为3层,分别为经济水平突出的城市,经济水平较好的城市,以及经济水平一般的城市,如图3所示:

        

        第二部分层内按产业结构分组

        研究目的:

        对于第一部分城市分层结果,再按照各个城市的“产业结构”分别对每个层次的城市进行聚类,为下一步的抽样调查奠定基础。

        研究方法:

        我们在上一步城市分层的基础上,按照各个城市的“产业结构”(具体指各行业的产值占总体产值的比重)对城市进行聚类,这样在每个层内,又会根据不同的产业结构,产生出若干个不同的城市分组,聚在一组的城市,既具有相似的经济水平,又具有类似的行业结构。

我们共将城市分为8个组,接下来我们可以在每一组城市中进行企业抽样,抽样方案详见第三部分。

        行业结构聚类方法:

ClementineTwo-Step聚类方法

        研究结果:

        1、城市分层后每一层的城市分组结果,如图4所示:

 

        

        2、每类城市的PC消费特点与消费规模。

        第一层城市层内分组结果

        

        

        从图5和表2、3可以看出,第1组的城市(共9个):

成都市,大连市,哈尔滨市,杭州市,南京市,沈阳市,天津市,武汉市,重庆市。

该类城市的房地产、金融业、信息服务业占产值的比重明显比其他组高,相对而言第三产业比较发达。

        第2组(制造业发达的城市,共4个):

宁波市,青岛市,苏州市,无锡市;该类城市制造业在产值的比重高达60%。

        1.第二层城市层内分组结果

        

        

        

        

        第3组(综合发展的省会城市,共13个):

长春市,长沙市,福州市等;

        第4组(以制造业为主的城市,共33个):

佛山市,金华市,洛阳市,烟台市,威海市,温州市,徐州市等;

        第5组(以能源为主的城市,共2个):

大庆市,东营市;

        结论:

第3组城市中,除厦门外,大部分都是中西部地区的省会城市,该类城市信息业、金融业、教育业以及政府公共管理业的产值均高于其它两类,其经济发展较快,其IT需求在近几年也不断增长;尤其是教育业、政府公关管理在所有城市组中处于领先地位;

        第4组城市中,除了河南的洛阳和南阳外,其他都是辽宁、河北、江苏、山东、浙江、广东、福建等沿海省份的中等城市,制造业较为发达,而高校数量非常稀少,具有代表性的城市是温州、佛山、东莞等;

        第5组城市,产业结构十分相似,大庆和东营都是石油开采为主的能源城市。

        2.第三层城市层内聚类结果

        

        第6组(综合发展城市):

主要分布在云贵川、广西、大西北(甘肃、陕西、宁夏、内蒙古)地区的城市,广东、湖南也有少数城市;这一组城市信息业、教育、金融行业的产值比例相对其它两类较高;

        第7组(制造业相对发达的城市):

制造业产值平均比例达到了56.20%,大部分是广东、安徽、湖南、四川等地的城市;

        第8组(能源城市):

主要西北部地区,如甘肃、陕西、内蒙古(赤峰、鄂尔多斯)、新疆(克拉玛依)、黑龙江、以及河南、山西、安徽等的城市;该类城市的能源行业产值平均比例达到26.71%,主要以克拉玛依、大同、赤峰、鄂尔多斯、铜川等城市为代表。

        第三部分企业抽样调查,以第一组城市的金融行业为例

        研究目的:

        在每一组城市中,进行企业抽样调查,从而推估该类城市中其他企业的商用PC保有量。

        研究方法:

        企业抽样调查:

经过前两个部分的城市分组,我们可以保证每个组内的城市具有相似的经济水平和产业结构,接下来在每一组城市中,我们对各个行业分别进行企业抽样调查,而后建立模型和推导,抽样方案如下:

        样本量的确定:

设置信度1-α=95%,最大允许绝对误差为5%,利用公式:

         

        则可确定样本量为384家企业;

        抽样方法:

分层抽样

        根据国家统计局“部分非工企业大中小型划分补充标准”,将金融企业分为大(500人以上)、中(100~500人)、小(100以下)3类,同时根据金融行业中每一类的企业数量比例进行分层抽样,最后确定样本量(见表7)。

        

        第四部分两个数据库的整合,以第一组城市的金融企业为例

        研究目的:

        根据被抽样调查的企业PC数据来推算同类城市中其他企业的PC保有量;

        研究方法:

        将企业数据库(A)与抽样调查数据库(B)进行连接,连接的字段为“企业名称”,然后利用来自数据库(A)的企业背景信息结合数据库(B)中企业商用PC保有量建立推导模型,并将该模型应用到数据库(A)中,填补企业数据库(A)中缺失的“企业商用PC保有量”这一字段,如下图所示:

        

        建模与推导的过程如下:

        第一步,选择建模方法

        上文中我们提出,推导数值型字段可以选择的方法有2种,分别为回归分析和神经网络,所以在本阶段研究中,我们将选择这2种方法分别建立模型,并最终选择推导准确性最好的模型进行实施。

        第二步,分别建立模型并进行推导

        分别使用回归分析和神经网络建立模型:

        挑选和企业商用PC保有量最为相关的变量,企业基本信息主要包括员工人数和销售收入,根据我们对企业商用PC需求的项目研究经验和业内专家访谈,我们发现企业PC保有量与员工人数关系最为密切,即员工人数是影响企业商用PC保有量的最重要的因素;

        针对访问获得的企业PC保有量数据信息,我们将PC保有量作为Y,以员工人数和销售收入作为X进行回归分析,选择“stepwise”方法来构建回归模型,“销售收入”这一变量在回归分析的过程中被排除,保留“员工人数”变量,详细过程见表8。

        

        接下来,我们再利用神经网络来建立模型,将员工人数和销售收入作为输入变量,将PC保有量作为输出变量,由于神经网络得出的推导模型规则较复杂,在这里省略对模型的解释。

        在数据挖掘中,实践是检验真理的唯一标准,所以2种模型的优劣,只有通过推导的准确性来评判。

下面,我们来检验推导模型的准确性,我们采用的是利用调研数据进行自检验,利用调研的真实值与推导值进行对比。

       “商用PC保有量”真实值与推导值对比

        

        第三步,比较2种模型的准确性,并选择最优模型

        通过图9,图10中真实值与推导值的比较,我们发现建立的2个“企业商用PC保有量”推导模型中,回归模型的准确性较高,所以第一组城市中金融行业的推导模型选择回归分析模型。

        以上研究过程均是以第一组城市中的金融业为例,对于其它组城市中的其他行业均可按照以上3个步骤进行研究,最终推导出所有的空缺值,在此不再熬述。

        五、研究总结

        本文是以商用PC研究为例,来诠释多个数据库间的连接、映射与整合的应用,这个思路同样可以用来研究其他不同产品的商业市场的潜力,如服务器,打印机,汽车等。

希望本文能够给市场调研业内人士从另一个视角提供可供应用的商业解决方案,将自有的数据库增值,同时为客户提供更具价值的咨询服务。

        在研究中我们发现,本文提出之方法的关键部分在于模型推导,模型推导的准确性的优劣,直接影响着整合数据库的质量,所以方法论要建立在丰富的行业理解的前提下,丰富的行业理解能够帮助我们制定出有效的抽样方案与建模思路,从而保证模型推导的准确性。

        参考文献

        [1]谢邦昌.数据挖掘Clementine应用实务[M].北京:

机械工业出版社.2008.

        [2]M.J.A.Berry,G.Linoff.DataMiningTechniquesNewYork:

Wiley.1997.

        [3]卢纹贷.SPSSforWindows统计分析[M].北京:

电子工业出版社.2002.

        [4]柯惠新,卢传熙,谢邦昌.市场调查与分析技术[M].晓园出版社.2000.

        [5]张尧庭,朱世武,谢邦昌.数据挖掘入门及应用-从统计技术看数据挖掘[M].北京:

中国统计出版社.2001.

        [6]韦巍.智能控制技术[M].北京:

机械工业出版社.2001.

        [7]柯惠新,沈浩.调查研究中的统计分析法(第2版)[M].北京:

中国传媒大学出版社.2005.

        [8]谢邦昌.商务智能与数据挖掘MicrosoftSQLServer应用[M].北京:

机械工业出版社.2008

        [9]许学强.城市地理学[M].北京:

高等教育出版社.1997.

        [10]柯惠新,丁立宏.市场调查与分析[M].北京:

中国统计出版社.2001.

        [11]吴传钧.中国经济地理[M].北京:

科学出版社.2007.

        [12]萨师煊,王珊.数据库系统概论[M].北京:

高等教育出版社.2003.

        [13]XuL,KrzyzakA.OjaE.RivalpenalizedcompetitivelearningforclusteringanalysisRBFnetandcurvedetection[J].IEEETransactionsonNeuralNetworks.19

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 农林牧渔 > 林学

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2