大数据审计技术与案例交流.pptx

上传人:聆听****声音 文档编号:18941636 上传时间:2024-03-23 格式:PPTX 页数:42 大小:1.59MB
下载 相关 举报
大数据审计技术与案例交流.pptx_第1页
第1页 / 共42页
大数据审计技术与案例交流.pptx_第2页
第2页 / 共42页
大数据审计技术与案例交流.pptx_第3页
第3页 / 共42页
大数据审计技术与案例交流.pptx_第4页
第4页 / 共42页
大数据审计技术与案例交流.pptx_第5页
第5页 / 共42页
大数据审计技术与案例交流.pptx_第6页
第6页 / 共42页
大数据审计技术与案例交流.pptx_第7页
第7页 / 共42页
大数据审计技术与案例交流.pptx_第8页
第8页 / 共42页
大数据审计技术与案例交流.pptx_第9页
第9页 / 共42页
大数据审计技术与案例交流.pptx_第10页
第10页 / 共42页
大数据审计技术与案例交流.pptx_第11页
第11页 / 共42页
大数据审计技术与案例交流.pptx_第12页
第12页 / 共42页
大数据审计技术与案例交流.pptx_第13页
第13页 / 共42页
大数据审计技术与案例交流.pptx_第14页
第14页 / 共42页
大数据审计技术与案例交流.pptx_第15页
第15页 / 共42页
大数据审计技术与案例交流.pptx_第16页
第16页 / 共42页
大数据审计技术与案例交流.pptx_第17页
第17页 / 共42页
大数据审计技术与案例交流.pptx_第18页
第18页 / 共42页
大数据审计技术与案例交流.pptx_第19页
第19页 / 共42页
大数据审计技术与案例交流.pptx_第20页
第20页 / 共42页
亲,该文档总共42页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

大数据审计技术与案例交流.pptx

《大数据审计技术与案例交流.pptx》由会员分享,可在线阅读,更多相关《大数据审计技术与案例交流.pptx(42页珍藏版)》请在冰点文库上搜索。

大数据审计技术与案例交流.pptx

大数据审计技术与案例交流前言胡泽君审计长明确指出:

“审计信息化建设必须加强,必须与时俱进、驰而不息地大力向前推。

这是我们适应国家治理体系和治理能力现代化的要求,也是努力实现审计技术现代化的重要途径和手段。

提高在信息化环境下查核问题的能力,是审计人员必须具备的基本素质”。

袁野副审计长指出:

要探索大数据在审计中的实践和应用,坚持“数据先行”和“数据引领”,打破信息壁垒和信息孤岛。

目录审计大数据分析现状1234大数据分析三原则案例交流体会与展望审计大数据分析现状审计大数据分析现状1VolumeVolume:

数据量巨大:

数据量巨大VelocityVelocity:

时效性要求高:

时效性要求高VarietyVariety:

数据形态多变:

数据形态多变VeracityVeracity:

数据可信度存疑:

数据可信度存疑关系型数据库、关系型数据库、NoSQL数据库、数据库、数据仓库、爬虫、云计算数据仓库、爬虫、云计算统计学方法、机器学习、自统计学方法、机器学习、自然语言处理、人工智能然语言处理、人工智能二维表、柱状图、饼图、二维表、柱状图、饼图、关系图、热力图关系图、热力图123数据采数据采集存储集存储数据分数据分析技术析技术数据数据可视化可视化方法方法来源来源形态形态数量数量相相对对比比较较单单一一,绝绝大大部部分分使使用用SQLSQL语语言言分分析析的的阶阶段段,新新技技术术新新方法使用较少方法使用较少数数据据来来自自各各个个不不同同部部门门,可可靠靠程程度度总总体体较较高高,但但互互相相之之间间普普遍遍缺缺少关联少关联绝大部分为关系型数据库,还有少绝大部分为关系型数据库,还有少量是非结构化文档和半结构化表格量是非结构化文档和半结构化表格数据量日益增加,从数据量日益增加,从TBTB级逐渐级逐渐增加到增加到PBPB级,且增速明显加快级,且增速明显加快找差异找差异数据互相关联数据互相关联不同来源的数据并库不同来源的数据并库数据清洗、转换、整理数据清洗、转换、整理采集各个部门的数据采集各个部门的数据审计人员戏称这种数据分析方式为连连看+找你妹2采集更多的数据采集更多部门、更多领域的数据,采集以前不关注的、与财务、账务无关的数据尝试更新的方法尝试新的技术、工具和方法,对数据进行更加深入的挖掘提供更广的视角审计大数据不仅能够发现微观的问题和个案,更能从中观、宏观的角度来分析政策的执行情况与效果传统数据传统数据分析方法分析方法Excel表格表格关系型关系型数据库数据库SQL语语言言新的技术新的技术方法方法数据挖数据挖掘、图掘、图论等论等NoSQL数据库数据库爬虫等爬虫等新采集新采集工具工具二者不是对立而是相互关联的新技术方法是为了解决一些传统方法难以应付的问题比如NoSQL不是NoSQL,而是NotOnlySQL3No.1No.1总体分析总体分析No.2No.2趋势分析趋势分析No.3No.3结构分析结构分析总体分析总体分析发现异常发现异常我们分析了某省2014-2017年的税收情况,发现2015年其税收有了爆发性增长,但2016年迅速回落。

趋势分析趋势分析找出税种找出税种我们分析了各个税种的变化趋势,发现2015年税收的增长主要来自企业所得税和个人所得税两个税种。

结构分析结构分析深究原因深究原因我们深入分析了企业所得税爆发性增长的企业的利润表,发现其利润绝大部分来自于“投资收益”,而2015年恰逢股市牛市。

延伸企业延伸企业分析政策分析政策我们选择了几家金额较大,且投资收益占比超过95%的企业延伸,发现其几乎没有实体经营行为,仅仅是帮助母公司利用当地开发区的税收优惠政策进行股票减持。

自此,该省税收优惠政策形成事实上的税收“洼地”的情况已基本摸清。

资产端数据负债端数据中间业务数据银行机构的财务数据工商、税务、环保等外部数据问题来了:

审计一家国有商业银行需要采集分析哪些数据?

手机银行用户登录的GPS定位信息用户登录后查看了哪些页面和产品手机银行用户绑定的手机IMEI串号网银用户登录的MAC地址和IP地址用户行为数据用户行为数据H行采购中的问题H行设备供应商某商贸公司B君A君采购决策人采购决策人法定及股东法定及股东A君之子定期转钱定期转钱MACMAC地址地址IPIP地址地址重合度很高!

重合度很高!

审计人员发现某商贸公司向A君之子转账都采用网银,调取用户行为系统数据后发现,该商贸公司与A君的个人账户经常在同一个IP地址和同一个MAC地址的计算机上登录和操作!

领导谨慎对待:

这仅仅提供了可能是同一控制人的线索,如何坐实?

H行IP地址1IP地址2党校控制控制人人手机手机绑定绑定手机手机定位定位汇集汇集多个农户的个贷多个农户的个贷资金向少数几个资金向少数几个账户汇集账户汇集查查看看登登录录IPIP和和MACMAC判判断断是是否否为为同一实际控制人同一实际控制人对同一部手机绑定多个对同一部手机绑定多个不同人员账号的情况以不同人员账号的情况以及手机频繁绑定解绑的及手机频繁绑定解绑的情况予以关注情况予以关注根据手机根据手机GPSGPS定位定位找到获得涉农贷款找到获得涉农贷款的农户经常登录位置的农户经常登录位置在城市的予以关注在城市的予以关注案例三:

涉农贷款分析添加标题添加标题对交易流水中的数千万个账号进行快速聚类,将发生过交易的账号聚在一起。

添加标题添加标题锁定一个账号聚类中资金最终汇聚的账号,即最重要的那个账号。

添加标题添加标题请对账号进行进一步分析和延伸调查,确定问题。

常规的做法是选出跟大于给定阈值的个人账户发生交易的账户,或是选出与个人账户交易总金额大于给定阈值的账户。

比如选出有20个以上个人账户给它转入资金的账户,或是选出从个人账户归集资金金额超过300万元的账户。

DEABC某公司某公司DEABC某公司某公司甲甲乙乙丙丙把关系抽象成图把关系抽象成图把实体比如账号抽象成顶点,顶点之间发生了关系(比如A向B转账)就在其间用一条有向边将其连接起来问题就转化为了先将顶点分成几个连通区域(ConnectedComponents),然后在各个区域中找到最重要的汇集的那个节点数据清理广度优先搜索获取连通区域PageRank算法找寻重要顶点回归原始数据锁定疑点账号图算法的应用图算法的应用PageRankPageRank算法简介算法简介以前解决网页排序的方案以前解决网页排序的方案遇到的困难与挑战遇到的困难与挑战PageRank算法的思想算法的思想移植过来,解决审计需求移植过来,解决审计需求关键字词频关键字词频人造高词频,严重干扰算法执行人造高词频,严重干扰算法执行被更多的账户转账,或者被更重要被更多的账户转账,或者被更重要的账户转账,这个账户就越值得关注的账户转账,这个账户就越值得关注被引用越多,被越重要的被引用越多,被越重要的顶点引用,才越重要顶点引用,才越重要PageRank算法是谷歌的创始算法是谷歌的创始人人SergeyBrin与与LarryPage于于1998年在年在WWW7会议上提会议上提出来的,用来解决链接分析中出来的,用来解决链接分析中网页排名的问题,衡量一个网网页排名的问题,衡量一个网页排名的算法。

页排名的算法。

借助第三方库来实现借助第三方库来实现PythoniGraphPythoniGraphPythonGraph-ToolPythonGraph-ToolPythonNetworkxPythonNetworkxDEABC某公司某公司计算结果计算结果节点节点A-EA-E:

0.0930230.093023某公司:

某公司:

0.5348840.534884计算结果计算结果DEABC某公司某公司甲甲乙乙丙丙节点ABCDE:

0.047365节点甲乙丙:

0.137359某公司:

0.396092找问题就找问题就是找关系是找关系图数据库自带了图数据库自带了诸如深度优先、诸如深度优先、广度优先遍历,广度优先遍历,最短路径等算法最短路径等算法传统的传统的RDBMSRDBMS弱于处理关系弱于处理关系图的模型对于分图的模型对于分析关系更加直观析关系更加直观图数据库常见应用场景已知一个顶点,查询所有跟它有某些关系的顶点已知两个顶点,查询它们之间所有存在的关系已知两个顶点,查询它们之间的最短路径接下来请大家看我做一个简单的演示接下来请大家看我做一个简单的演示查看发票的集中度、进销项差等,锁定疑点目标查看发票的集中度、进销项差等,锁定疑点目标通过工商找到关联企业,再查找有没有发票路径通过工商找到关联企业,再查找有没有发票路径按照集中度高的原则选取了按照集中度高的原则选取了JJ集团的十大上下游企业集团的十大上下游企业采集了国税电子底账系统数据和工商数据采集了国税电子底账系统数据和工商数据某科技发展公司某科技发展公司某钢材贸易公司某钢材贸易公司某机电设备公司某机电设备公司JJ集团物资公司集团物资公司某贸易有限公司某贸易有限公司某工贸有限公司某工贸有限公司某钢研有限公司某钢研有限公司JJ集团物资公司集团物资公司某科技股份公司某科技股份公司进一步数据分析发现,中间的这些公司基本仅与上述公司有增值税发票,且进项与销项差额很小。

去企业延伸后得知,J集团物资公司从上游购买货物是现货交易,而卖给下游公司则是赊销方式,实际根本不掌握货物,其实质是违规开展融资性贸易。

Neo4jOrientDB最早流行的图数据库,发布于2007年,用Java和Scala开发,使用自定义的Cypher查询语言。

主流的图数据库主流的图数据库ArangoDB高可用多模型数据库,发布于2012年,用C+和JavaScript开发,使用自定义的AQL查询语言分布式多模型数据库,发布于2010年,用Java开发,使用扩展的类似SQL的查询语言图数据库与图算法的比较图数据库实现了部分图算法,并为用户提供了简便的查询方式图数据库提供了方便的存储管理功能,而图算法需要借助其他存储手段图算法还有很多没有在图数据库中实现,图算法灵活性更高图数据库是内存杀手,需要配置很好的设备才能发挥作用4数据清理不可或缺数据的采集清理我们要不等不靠数据采集是基础用爬虫技术去抓取部委网站上的一些非结构化数据,比如政策文件、处罚名单等用自然语言处理技术去分析非结构化文本,比如会议纪要、政策文件等用图算法和图数据库去分析数据中存在的各类关系机器学习、数据可视化等技术应该也大有用武之地可能会涉及的领域可能会涉及的领域非现场审计的作用和重要性会大大提升!

PythonPython数据整理数据整理PandasNumPyPandasNumPy图算法库图算法库igraphnetworkxigraphnetworkx机器学习机器学习Scikit-LearnScikit-Learn爬虫、自然语言处理爬虫、自然语言处理ScrapyScrapy、JiebaJieba图数据库图数据库数值计算分析数值计算分析SciPySciPy25%50%75%100%其它其它了了解解大大数数据据分分析析常常用用的的技技术术,重重点点在在于于了了解解名名词词和和概概念念,明明白白一一个个技技术术的的应应用用场场景景,而而不不必深入其技术细节。

必深入其技术细节。

对对于于计计算算机机审审计计人人员员来来说说,Python很很可可能能将将成成为为继继SQL之之后后的的又又一一门门必必知知必必会的语言。

会的语言。

与与高高校校和和公公司司的的合合作作可可能能会会更更多多更更紧紧密密。

大大数数据据分分析析技技术术门门槛槛更更高高,在在把把审审计计业业务务人人员员培培养养成成数数据据分分析析骨骨干干的的同同时时,更更需需要要让让专专业的人来做专业的事情。

业的人来做专业的事情。

审计方式的可能转变审计方式的可能转变不得不说的几个问题不得不说的几个问题问题问题与与思考思考大数据分析不是万能的,也有其问题和瓶颈大数据分析不是万能的,也有其问题和瓶颈大数据技术尚处于试验阶段,很多技术尚未成型大数据技术尚处于试验阶段,很多技术尚未成型大数据分析需要投入大量的人力、时间和经费大数据分析需要投入大量的人力、时间和经费Questions?

謝謝您的聆聽愿与大家多切磋交流

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2