数学建模美赛题犯罪模型.docx
《数学建模美赛题犯罪模型.docx》由会员分享,可在线阅读,更多相关《数学建模美赛题犯罪模型.docx(18页珍藏版)》请在冰点文库上搜索。
数学建模美赛题犯罪模型
题目翻译:
破获犯罪
你的组织,银河犯罪建模中心(ICM),正在调查一个实施犯罪行为的阴谋。
调查人员现在非常有信心,他们已经知道策划阴谋的一些成员,但是他们希望在逮捕嫌疑人之前确定其它的犯罪成员和组织的领导人。
所有的嫌疑人和可能涉嫌的同谋都受雇于同一家公司,在一个大的综合办公室里工作。
该公司发展迅速,正在开发和销售以自己的名字命名的计算机软件,该软件是为银行和信用卡公司服务的。
ICM最近从公司的一组员工(有82人)那里获得了一些消息,他们认为这将帮助他们找到最有可能的未知身份的同谋者和组织领导人。
由于公司中的所有员工都知晓该消息,所以一些消息的传播者(有可能很多)并没有卷入阴谋。
事实上,他们可以确定有一些人没有卷入阴谋。
建模工作的目标是确定在综合办公室里面的人谁最有可能是同谋者。
一个优先级列表是最理想的,ICM可以按照优先级调查、监视或者审问最有可能的嫌疑人。
一个判别是否为同谋人的分界线也是非常有用,可以用它来对各组人进行分类。
对于检方来讲,如果模型能够识别出阴谋策划的领导人也是非常有帮助的。
在你的犯罪建模团队获得当前案件的数据之前,你的上司给了你们下面的一些场景(被称作调查EZ),这些场景是几年前她在其他城市工作时遇到的。
尽管她对她在EZ案件上的工作非常自豪,她仍然谦虚地说那是一个小的、简单的案例,但它可以帮助你了解你的任务。
她的数据如下:
她考虑为同谋者的十个人分别为:
Anne#,Bob,Carol,Dave*,Ellen,Fred,George*,Harry,Inez,andJaye。
(*号表示事先已知是同谋者,#号表示事先已知为非同谋者)
下面是28条消息的列表,这些消息是在她的案件中获得的,每条消息后面有一个标号,这个标号反映了她对于消息的主题的分析。
安妮对鲍勃说:
为什么你今天迟到了?
(1)
鲍勃对卡罗尔说:
这该死的安妮总是看着我。
我没有迟到。
(1)
卡罗尔对戴夫说:
对于鲍勃的迟到,安妮和鲍勃有争执。
(1)
戴夫对艾伦说:
我需要今天早晨看见你。
什么时间你能来?
把预算文件带来。
(2)
戴夫对弗雷德说:
今天我随时都可以来见你。
如果时间合适就告诉我。
我应该把预算文件带上吗?
(2)
戴夫对乔治说:
我之后要见你---有很多话要说。
我希望其他人做好准备。
重要的是要得到这个权利。
(3)
哈里对乔治说:
你似乎在强调。
这是怎么回事?
我们的预算很优秀。
(2)(4)
伊内兹对乔治说:
我今天真的感觉很累。
你感觉怎么样?
(5)
杰伊对伊内兹说:
今天没有太多事可做。
去吃午餐怎么样?
(5)
伊内兹对杰伊说:
好想法,但是我筋疲力尽了,不能做午餐了,对不起!
(5)
乔治对戴夫说:
谈话时间,现在!
(3)
杰伊对安妮说:
你今天能去吃午餐吗?
(5)
戴夫对乔治说:
我不能。
我要在回家的路上去看弗雷德。
(3)
乔治对戴夫说:
那之后到这。
(3)
安妮对卡罗尔说:
谁应该去看看鲍勃?
他正在消磨时间。
(1)
卡罗尔对安妮说:
别理他。
他和乔治、戴夫相处的很好。
(1)
乔治对戴夫说:
这是非常重要的。
该死的弗雷德。
艾伦如何?
(3)
艾伦对乔治说:
你和戴夫谈话了?
(3)
乔治对艾伦说:
还没有。
你呢?
(3)
鲍勃对安妮说:
我没有迟到。
我要让你知道---午餐时间我也在工作。
(1)
鲍勃对戴夫说:
告诉他们我没有迟。
你知道的。
(1)
艾伦对卡罗尔说:
去找安妮,弄清楚下周预算会议的具体日程,并且帮助我让乔治冷静一下。
(2)
哈里对戴夫说:
你没有注意到今天乔治又压力很大?
(4)
戴夫对乔治说:
该死的哈里认为你压力很大。
不要让他担心或者别让他察觉。
(4)
乔治对哈里说:
仅仅是因为工作太晚了,家里也出了点问题。
我很好。
(4)
艾伦对哈里说:
如果我错过了今天的会议,一切还会都好吗?
弗雷德在会议上,他知道的预算比我做的好。
(2)
哈里对弗雷德说:
我认为明年的财政预算案使一些人压力很大。
也许我们应该花些时间来让人们放心。
(2)(4)
弗雷德对哈里说:
我认为我们的预算是非常健康的。
我没有看到任何压力。
(2)
消息流完毕。
你的上司指出,她分配并编码了仅仅5种不同的消息主题:
1)鲍勃的迟到,2)预算,3)重要但未知的问题,被认为是阴谋的一部分,4)乔治的压力,5)午餐和其他社会问题。
正如所看到的消息编码,一些消息因为其内容被和两个主题联系在了一起。
你的上司分析情况采用的方法是一个网络,它显示了消息的通讯连接情况和消息的类型。
下图是一个消息网络模型,网络图上注明了消息类型的代码。
图1:
EZ案件的消息网络
你的上司指出,除了已知的同谋乔治和戴夫,根据她的分析,艾伦和卡罗尔分别被因为同谋起诉,后来鲍勃自己认罪,被判处减刑。
但对卡罗尔的起诉后来被撤销了。
你的上司仍然坚信伊内兹参与其中,但对于她的诉讼始终没能成立。
你的上司给你们团队建议,一定要明确人群中有罪的一部分人,像伊内兹这样的人不能漏网,像卡罗尔这样的人也不能被错误地起诉,并且ICM得到证据,像鲍勃这样的人就没有机会获得减刑。
目前情况下,你的上司已经得到了一个网络形式的数据库,它有着相同的结构,但是在规模上稍大一些。
有一些迹象表明,一个阴谋正在从公司挪用资金,并且使用网络欺诈窃取与公司做生意的的人的信用卡内的资金。
她给你示范了一个小例子,在EZ情况下只有10个人(节点),27条边(信息),5个主题,一个可疑的/阴谋的主题,2个已知的同谋者,还有2个已知的非同谋者。
目前,这个新的情况下,有83个节点,400条边(其中一些包含不止一个主题),超过21000个字符的信息传输,15个主题(3个被视为是可疑的),7个是已知的同谋者,还有8个已知的非同谋者,数据在给出的附件:
Names.xls,Topics.xls,Messages.xls和Names.xls中,names.xls包含办公室员工的姓名,和节点的数目一样。
topics.xls包含了15个主题的代码和简短描述。
由于安全和隐私的问题,你的团队将不能得到所有信息流的副本。
messages.xls提供链接节点的,用来传递信息的边,信息中包含数字代码。
一些信息包含了三个主题。
为了可视化信息流动,对于人和信息传播的网络模型如图2所示。
图上没有像图1一样标注消息的主题。
这些主题的编号在文件Messages.xls中给出,主题描述在Topics.xls中给出
图2:
可视化的网络模型,包含83个人(节点)和400条他们之间的信息(边)
要求:
要求一:
目前,已知Jean,Alex,Elsie,Paul,Ulf,Yao,和Harvey是同谋者,还知道Darlene,Tran,Jia,Ellin,Gard,Chris,Paige,和Este不是同谋者。
3个已知的可疑信息主题为7,11和13.更多的主题细节请见附件Topics.xls。
根据83个节点为阴谋的可能性的大小,建立一个模型和算法对可能性大小进行排序,并说明你的模型及流程。
Jerome,Delores和Gretchen是公司的高级管理人员,如果能知道他们中的任何一个是否参与了这个阴谋将是十分有用的。
要求二:
如果得到新的消息,主题一和阴谋有关,且Chris是同谋者之一,请问要求一中的排序会是什么样子的?
要求三:
和这个消息传输类似的一种强大的用来获得和理解文本信息的技术被称为语义网消息传输分析。
作为一个在人工智能和计算语言学的方法,它为知识推理和语言提供了一个结构和过程。
另一种在自然语言处理能力方面的计算语言学叫做文本分析。
在我们的犯罪现场破坏条件下,解释语义和文本内容的分析和消息传输的背景(如果你能获得原始信息)能使您的团队开发更好的关于办公室人员的模型和归类。
你是否在文件Topics.xls中有使用这些功能来进行主题描述,从而提升你的模型?
要求四:
你完成的报告最终将送给检察官,所以报告中必须详细的,清晰的陈述你的假设和方法论。
但是报告不能超过20页。
你可以在分开的文件中包含你的程序作为附录,附录不算在你的页数内,但这些附录不是必要的。
你的上司希望ICM在解决白领,高技术的阴谋犯罪方面是世界上最好的。
希望你提供的方法将有助于解决世界各地重大案件,尤其是那些拥有非常大消息传输的数据库(成千上万的人,成千上万的信息,可能数百万字)。
她特别要求你在报告中要包含可以帮助你的信息模型和建议的讨论如何更深入的网络、语义和文本内容的分析的内容。
作为你向她报告的一部分,说明你使用的网络建模技术,和你为什么使用它以及如何使用它在任何类型的网络数据库用来识别,优先和分类相似节点,而不仅仅是犯罪阴谋和信息数据。
例如,在得到节点感染概率和部分已经确认感染节点的各种图像或化学数据的生物网络中,你的方法能否找到感染或患病的细胞的位置?
*你提交的ICM论文应该包含一页摘要和不超过20页的解决方案,总计不超过21页。
在本文中,我们建立了一个破获犯罪的模型,并尽可能优化之,该优化模型可以也可用来鉴别、分类相似节点网络问题。
对于要求1,通过组合方式说话人____听者的主题信息,九个相关情况被确立,关于各种情况同谋者的可疑度权重已经给出,基于该方法及权重,68个犯罪嫌疑人的犯罪可能性可疑算出来,此后,我们优先确定83个节点成为罪犯的可能性并确立某个人是否为同谋。
通过该方法,可以得到结论;Dolores是同谋者,Jerome很有可能也是同谋者,但是没有足够的证据。
对于要求2,由要求1可以得到至少两个线索。
这两个线索可以用来优化破获犯罪模型,从而给出结论:
非可疑的Claire和Reni在要求1的排序结果给出来的情况下在要求2中是可疑的。
对于要求3,网络分析方法用到优化模型可以使其结果更具说服力,利用这种方法,我们将给出了十五个主题分为四个等级,其权重,然后我们做一个83×83权重矩阵基于83个人信息传输给其算法,并利用matlab软件求解算法并将83个节点是罪犯的可能性计算出来。
对于要求4,我们总结并罗列了三个问题,并且着重分析第三个问题(在其他地方优化我们的模型)这个模型用来测试并在病毒感染网络中找到被感染细胞。
关键词:
组合,权重,网络分析,病毒感染网络
目录
1、介绍
2、重述原问题
3、模型假设
4、定义符号
5、建立模型
5、1问题分析、模型建立、解决要求1
5.1.1分析要求1
5.1.2对要求1建立模型
5.1.3判断某工作人员是否为同谋
5.2问题分析,建立模型并解决要求2
5.2.1分析要求2
5.2.2建立模型
5.2.3分析排序结果
5.3问题分析,建立模型并解决要求3
5.3.1分析要求3
5.3.2建立模型
5.3.3结果分析
5.4问题分析,建立模型并解决要求4
5.4.1分析要求4
5.4.2建立模型并解决要求4
6对模型进行评估
网络模型分析
介绍
1、社会的发展和人民的生活水平的提高,伴随着犯罪也越来越来越严重,犯罪固然是非法的,同时应该受到严厉的惩罚。
但是总是有许多罪犯尝试各种不同的方式来获得减刑,即使在大,更糟糕的是,很多无辜的人反而被陷害。
当然,这些现象的发生也是有原因的。
一方面,犯罪人员来自社会各界,另外,他们用的高科技手段也给调查组织带来了很大的困难。
另一方面,当很多人卷入这个案件时,事情变得更加复杂更加棘手,调查组织也难以找到最有益的信息来破获案件。
但是为了保障人民的个人安全,我们应该采取相应措施防范这些事情的发生,所以,在本文中,我们尽可能地优化我们的模型并将其用到相似的案例。
2、问题重述
你的组织ICM正在调查一个犯罪团伙,调查者对他们了解几个同谋者非常肯定,但希望把其他成员和主犯揪出来并将其逮捕,你的上司为该案件建立了一个像数据库的网络,并且信息量非常庞大。
鉴于安全和隐私问题,你的团队不会有直接的脚本邮件流量,所有的数据都已附在电子表格中:
Names.xls,Topics.xls,Messages.xls。
这个问题有4个要求,要求之要求我们建立一个模型,算法优先考虑的83个节点的阴谋的一部分的可能性,说明我们的模型和指标。
Jerome,Delores,和Gretchen是公司的高级管理人员,如果他们任何一个人卷入该案件,对知道其他同谋将是非常有用的,要求之二是如果要求1的问题变得明朗优先排序将会如何改变。
要求3要我们用网络分析方法来优化我们的模型。
要求4指出,你的上司特别要求你对原文、网络、语义作出详细的分析以便建立模型,而你的报告要向你的上司解释该网络技术模型,为什么它可以用于识别、优先处理和分类在网络数据库的任何类似的节点类型,而不仅仅是犯罪阴谋和消息数据。
例如,你的模型方法也可能可以发现受感染细胞在生物网络的各种图像或用化学数据表明节点受到感染的可能性并将其鉴别。
3、模型假设
在本文中,我们提出了关于四个要求的一些假设
一、除了7个已知的罪犯和8个无相关的人,剩下的68个工作人员都已经定为犯罪嫌疑人
二、如果一个犯罪嫌疑人的可疑度权重大于1,那么我们将认为他必定是罪犯,只是他的权重为1
三、在我们的生物网络模型中只有感染的节点和未知节点(未知细胞)
四、所有正常的细胞被感染时,假设它们直接接触到病毒的概率是相等的
五、不存在间接感染的细胞
4、定义和符号
•IC:
其中那个数字是同谋(0<<1)IC的重量。
•IP:
某犯罪嫌疑人为罪犯的可能性(0<<1)
P。
•JP号j未知的细胞被感染的可能性,其中(0<<1)JP。
•T:
当正常细胞与病毒直接接触时,它被感染的可能性,(为0•a(ⅰ,j)的:
他们的行和j列的矩阵A的数值
•NNA×:
n×n矩阵A.
5、建立模型
5.1.1分析要求1
该案件给出来的问题有一个相当复杂的信息网络,我们组不能直接整理所有的网络信息流。
所以,对于要求1,我们结合了Names.xls,Topics.xls,和Messages.xls,分析了接触次数,每个犯罪嫌疑人、或可疑消息主题(主题7、11、13),列出了所有组合和无辜的犯罪嫌疑人,罪犯和可疑主题。
根据实际情况的分析,我们设置每一种组合的权重设置,然后分别计算出每一个犯罪嫌疑人的权重。
最后我们优先考虑这83个节点的阴谋的一部分,该设置的度量用于犯罪嫌疑人是否为同谋者之一,在有两个Elise(7号和37号)的情况下,我们的模型计算结果表明第七和第三十七个Elise是罪犯的概率分别为1和0.4。
5.1.2对要求1建立模型
通过问题的分析,我们对各种情况进行组合,每一个犯罪嫌疑人和他人的可疑主题和设定权重为每一种情况,以使我们的模型更加直观,表1提供了所有组合和权重。
表1所有组合及其权重
说者类型听者类型信息主题权重
犯罪嫌疑人无辜者不可疑0
无辜者犯罪嫌疑人不可疑0
无辜者犯罪嫌疑人可疑0.1
犯罪嫌疑人无辜者可疑0.1
犯罪嫌疑人罪犯不可疑0.1
犯罪嫌疑人罪犯可疑0.2
罪犯犯罪嫌疑人可疑0.2
罪犯犯罪嫌疑人不可疑0.1
犯罪嫌疑人犯罪嫌疑人可疑0.1
注:
权重增加0.1时,有一个额外的可疑主题信息
根据以上表中的组合及其权重设定,我们计算出68个犯罪嫌疑人为同谋者的总权重,然后我们优先考虑83个节点的概率,部分排序在表2中
每个工作人员是同谋者的可能性大小排序
序号
节点
姓名
是同谋的可能性
附注
1
7
Elise
1
为已知罪犯
2
18
Jean
1
高级管理人员
3
21
Alex
1
无辜者
4
43
Paul
1
嫌疑人
5
49
Harvey
1
6
54
Ulf
1
7
67
Yao
1
8
81
Seeni
0.9
9
10
Dolores
0.8
10
20
Crystal
0.7
11
3
Sherri
0.6
12
16
Jerome
0.6
13
34
Jerome
0.6
14
4
Gretchen
0.5
15
13
Marion
0.5
…
…
…
…
5.1.3判断某工作人员是否为同谋
根据分析计算过程,我们列出了判断的指标犯罪嫌疑人是否为同谋的一部分,在这里,我们设犯罪嫌疑人为同谋的概率为P(0≤P≤1)
•若P≥0.8,我们认为他或她是一个共谋者。
•如果0.6≤P≤0.7,我们高度怀疑他是共谋者之一。
•如果0.4≤P≤0.5,中度怀疑他是一个共谋者。
•如果0.2≤P≤0.3,轻度怀疑他是共谋者之一。
•若P≤0.1,我们相信他是无辜的
根据这些指标我们对这家公司的高级管理人员JeromeDolores,Gretchen进行判断,我们发现他们为同谋的概率分别为0.6,0.8,0.5,所以我们又充分的理由认为Dolores同谋者Jerome和Gretchen也很有可能是罪犯
5.2问题分析,建立模型并解决问题2
5.2.1分析要求
对比要求1,在要求2中有更多的线索,这两个线索为:
主题1是可疑信息主题,同时Chris是一个同谋者,我们同样用要求1中的模型来解决该问题
5.2.2建立模型并解决问题2
通过要求1中的模型我们计算出68个犯罪嫌疑人是同谋的可能性,然后我们优先考虑83个工作人员中一部分人为同谋的可能性。
表3为可能性排序。
表3:
工作人员为同谋的可能性序列表
每个工作人员是同谋者的可能性大小排序
序号
节点
姓名
是同谋的可能性
附注
1
0
Chris
1
为已知同谋
2
7
Elise
1
为已知罪犯
3
18
Jean
1
高级管理人员
4
21
Alex
1
无辜者
5
43
Paul
1
嫌疑人
6
49
Harvey
1
7
54
Ulf
1
8
67
Yao
1
9
81
Seeni
1
10
10
Dolores
0.9
11
81
Sherri
0.9
12
3
Crystal
0.8
13
16
Jerome
0.7
14
17
Neal
0.7
15
34
Jerome
0.7
…
…
…
…
5.2.3分析排序结果
根据要求1.xls和要求2.xls.我们发现3号犯罪嫌疑人Sherri是同谋的可能性从0.6升到1,所以我们有充分的理由认为Sherri是同谋者,同时10号高级管理人员Dolores是同谋的概率上升到0.9,从而使我们更加确信Dolores是同谋,尽管高级工管理人眼Jenome是同谋的概率上升到0.7,但我们仍旧没有足够的理由相信他是同谋.同时25号Claire和82号Reni变为中度犯罪嫌疑人.
5.3问题分析,建立模型并解决要求3
5.3.1分析要求3
经过网络分析的学习和理解,在条件的要求基础之上我们用它来优化模型.首先,对15个在附录主题.xls的主题分析,然后将其分为四类,根据成都的相关性和可疑主题来设置权重.显然要求3给我们提供了两条线索,但在解决问题中,仅仅靠这两条线索我们是站不住脚的.也就是说,我们相信,有8个已知罪犯(是共谋的可能性为1),7个已知无辜(共谋者之一的可能性是0),且主题1是一个可疑信息主题,完成设置后,计算结果显示,很多嫌疑人的总权重是大于1的,为了方便判断,在此我们将总权重除以N(N为68人的总权重最大者)使其介于0和1之间,而这些经过变换的总权重恰好代表犯罪嫌疑人是同谋的概率
5.3.2建立模型并解决要求3
我们知道同谋者利用职务之便侵吞公司资金并用网络窃取信用卡,同时,我们将剩下的11个信息主题和除去的4个犯罪嫌疑人进行分类:
主题1,7,11,13并设置它们的权重,经过对15个主题和同谋者的分析,我们发现在信息主题7中提到的西班牙人是非常可疑的,主题2和主题12也相关,如果那个同谋者跟电脑网络完全有关的话我们可以发现主题5和主题15也相关.主题4强调我们需要注意Alex,Elise,和Paige的激烈讨论。
根据以上分析,我们将主题2,4,5,12,和15视为次类主题,且其权重为0.06。
同时主题6,9列为第三类主题,其权重为0.04,对于主题3,14,8和10我们认为他们没有参与犯罪,所以其权重为0
求解模型过程
经过对问题的分析,我们建立了一个83×83的矩阵A,其中a(i,j)i算法:
I.记录的所有数据中的n(1≤n<83)行的总和为a
II.记录中的所有数据的n(1≤n≤83)列的总和为b
III.Ci=a+b,(1≤i≤83),它代表犯罪嫌疑人i是同谋的权重
用matlab来实现这个算法,并将获得结果在excel中排序得到表4
表4:
每个工作人员是同谋的可能性
序号
节点
姓名
是同谋的可能性
附注
1
0
Chris
1
已知罪犯
2
7
Elise
1
3
18
Jean
1
高级经理
4
21
Alex
1
5
43
Paul
1
无辜者
6
49
Harvey
1
7
54
Ulf
1
8
67
Yao
1
9
3
Sherri
1
10
32
Gretchen
0.9706
11
15
Julia
0.8824
12
10
Dolores
0.8646
13
17
Neal
0.7941
14
34
Jerome
0.7941
15
22
Eric
0.7794
…
…
…
…
5.3.3结果分析
通过对表2表3表3的分析,我们可以确认3号嫌疑人是同谋,此外,我们经过分析发现,24好犯罪嫌疑人Franklin是同谋的概率从0.1上升的0.676,经过要求1中的模型了解到,Franklin很有可能是同谋。
26号嫌疑人Marian是同谋的概率从0.1上升到0.426.所以我们将模型优化了,比如像Franklin,Marian和Katherine这样的人在大量信息中是很难判断其是否为同谋的
5.4结果分析,建立模型并解决要求4
5.4.1分析要求4
我们认为要求4给了我们三个问题
问题1:
希望我们的方法有助于解决世界各地重要诸如此类的案件或问题,特别是在有很多数据库信息量的情况下
问题2:
讨论分析网络,语义,对原文的认识有助于我们建立模型,并且解释用络技术模型的原因
问题3:
解释我们的模型还能用到哪些其他领域
5.4.2建立模型并解决要求4
问题1:
利用数据库的大量信息,首先经过要求3对网络和原文的分析来鉴别每个主题的可疑度,然后根据可疑度的大小分成各个级别,并确定其权重,然后,用excel软件算出各节点属于哪个级别,并且制作一个像83×83的矩阵,此后,根据要求3中的算法计算出a(i,j)导出一个n×n矩阵An
从而得出每个节点的可疑度,
问题2:
在要求3中,我们利用网络分析和文本分析,使我们能够找到那些话最有可能是罪犯在他们的通信中使用的码字,这种可能性七号是在要求1,2,3中提到的权重,它们极大的优化来我们的模型,从而避免了想Carol诬陷Inez的不法分子逍遥法外。
问题3:
为解决问题3,我们假设小病毒的传播环境,并绘制出他们的联系网络图
病毒的传播网络和未知细胞
我们假设一个正常细胞直接接触病毒时受到感染的概率为t(0<t<1)未知细胞号码为1,2,3,4,6,受感染节点的