大数据审计应用实践初探

  • 时间:2022-02-08
  • 浏览次数:
  • 来源:省审计厅网站
  • 字体: [ ] [ ] [ ]
  • 分享:

随着大数据的产生和发展,大数据已成为一种非常重要的战略资源,并在提升产业竞争力、国情分析和社会管理等方面发挥着愈发重要的作用。同样,审计机关在执行审计监督的过程中,运用大数据审计在加快构建集中统一、全面覆盖、权威高效的审计监督体系起到了不可替代的作用。目前,大数据审计工作模式及应用已贯穿审计全过程,提升了审计跨领域、跨层级、跨系统、多思维的数据分析水平,推进了审计全覆盖。加大财务数据与业务数据、单位数据与行业数据以及跨行业、跨领域数据的综合比对和关联分析,可极大提升审计效率,使“大海捞针”变为“重点撒网”,使审计的深度、广度和精度得以实现新的拓展,推动审计工作迈向大数据审计时代。本文从大数据审计内涵及特征入手,重点通过关联分析,对大数据审计的应用做初步探讨。

一、大数据审计内涵及特征

(一)大数据审计的概念

所谓大数据,最常见的定义是:大小超出常规 数据库工具获取、存储、管理和分析能力的数据集。概括起来说,大数据主要具有大量Volume、高速 Velocity、多样 Variety、真实Veracity 四个特点,即“4V”特点。从审计的角度看,审计系统的大数据是被审计对象的海量数据集合,既包括来自被审计单位信息系统的财务、业务数据和相关支撑资料,也包括其他部门、互联网的交互数据;既包括结构化数据,又包括文档、音频、视频、图像等半结构化和非结构化数据。并且随着经济的发展,大数据技术与各行各业的融合不断加深,大数据的来源渠道仍在不断拓展。

(二)大数据审计的特征

1. 数据特征。可概括为来源广泛、数据量大、关联性强、结构多元等。审计不仅在形式上由纸质向电子数据转变,在体量上也呈现出急剧增长的态势。传统审计数据以MB和GB的单位存储,而审计的大数据存储单位可直接达到TB甚至PB。大数据背景下,急剧增加的数据量将推动被审计单位内部数据与被审计单位业务往来单位数据,如财政预算单位数据、其他行业数据、行业标准数据等无限关联,从而提升审计大数据的关联性,增加挖掘潜在审计价值的可能性。从结构上来看,审计大数据呈现多元化特征。

2.技术特征。“审计全覆盖”的要求使得大数据审计的范围大大扩充,审计对象更加复杂多样。与此同时,数据跨行业、跨部门、跨领域,信息系统复杂多样,使得数据采集、预处理、分析挖掘和可视化技术应用更加复杂化、多样化、精益化和动态化。

3.应用特征。大数据审计目标不仅要致力于评价和审查被审计单位财政财务收支活动的正确性、公允性、合理性、真实性及合法性等,揭露违法违纪问题,更多的是要揭示制度方面存在的问题,评估内控风险,通过对经济社会相关大数据的获取和分析,洞察行业整体走向,探索发展规律,对国家、行业、部门的制度出台与发展策略做出前瞻性的思考和战略性的分析。这些发展目标对大数据审计应用提出了新要求,即大数据环境下,审计应根据审计目标采集多部门、多类型的数据,而不仅仅局限于特定的财务、业务数据,从而从中发现新知识、创造新价值、提升新能力。

二、大数据审计的技术方法

(一)关联分析

关联分析指在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的关联性、相关性或因果结构,从而发现海量数据中不同项之间的联系。审计数据关联分析是基于审计获取的财政、财务、非税、扶贫、社保等数据,运用大数据的关联分析技术,探寻不同数据源、同一数据源不同数据层级之间的联系,进而快速锁 定审计疑点的一种方法。做好关联分析要把握关联审计重点,一是把握政策上的连接点,二是把握业务上的衔接点,三是把握财务上的对接点。

(二)结构分析

结构分析指对经济系统中各组成部分及其对比关系变动规律的分析。审计结构分析是根据相关数据,计算个体占总体比重,并对比重大小进行比对分析,根据所占比重确定审计重点的一种方法。

(三)趋势分析

趋势分析指通过对有关指标的各期对基期的变化趋势的分析,从中发现问题,为追索和检查账目提供线索的一种分析方法。审计趋势分析是审计人员利用检查资料的数据呈时间顺序排列的特征,进行趋势分析、推测、评估和寻找问题的一种方法。

(四)数据挖掘

数据挖掘是指从大量的数据中自动搜索隐藏于其中的信息的技术。审计数据挖掘是指审计人员使用离群点挖掘、孤立点检测、异常点检测、聚类分析和关联规则等方式确定审计问题的一种方法。

三、大数据审计的步骤

(一)数据采集

审计数据采集不仅会影响到对被审计单位的审计结论,还会影响审计项目资源的投入产出,因此审计数据采集是审计项目开展的重要环节。审计数据采集应满足以下原则:一是应能实现审计实施方案的审计目标,二是要在对被审计单位业务流程、信息系统充分了解基础上进行数据采集,三是不仅要采集被审计单位的内部数据,还要选择外部关联数据。在数据采集方式上可以采取联网数据共享与采集、定点采集和定期报送方式实现。

(二)数据储存

由于大数据的容量大、类型多、范围广等特点,造成审计机关采集数据储存方式难。要实现大数据的有效储存,一是做好大数据的顶层设计和统筹规划,二是加快实施“金审三期”工程,完成“审计云”建设,为下一步数据储存提供明确的方向和思路。

(三)数据清洗

数据清洗主要内容是检查、分析数据的质量,修正数据。审计数据清洗的任务是过滤不完整、错误和重复的数据,只有通过清洗与过滤得到干净完备的数据,才能通过分析与挖掘得到可用于支撑审计问题和决策的数据基础。

(四)数据分析

1.建立审计数据分析模型。结合审计目标和已有电子数据,进行审计需求分析,找出符合审计目标并且能利用现有电子数据实现的分析方向或拟分析的具体问题。然后根据对相关的政策、法律法规的把握,对被审计业务的认知,以及积累的审计经验,对将要分析的问题作出概括的、抽象的表达,建立可通过审计软件或计算机语言表达的检索、计算、统计等条件,建立审计分析模型。

2.分析审计数据模型。主要是指为实现分析模型,需要哪些具体的审计数据,根据已建立的审计分析模型,确定待用的基础表,并且要对具体的数据进行研究,确定各字段、代码和业务数据具体内容代表的含义等。分析的过程中,需要综合数据词典和数据库说明等技术文档对数据的含义,对业务流程的理解等方面的认知情况,对数据产生全面、深入的认识。

3.建立分析性“中间表”。利用被审计单位数据库中的数据来实现审计分析,要对清理、转换后的基础数据按审计目的进行“再加工”,从基础数据中选择出所需要的数据,生成能完成审计分析的数据表。为了实现最终的分析,在数据分析的过程中往往需要构建多个数据表,这就是分析性“中间表”。建立审计分析性“中间表”一般是通过对选定的基本表进行“投影”“联接”等操作来实现。

4. 完成审计模型分析。按照分析模型,采用一定的方式、方法,对数据进行具体的分析,得出结果,完成分析。审计的数据分析可分为三个层次:第一个层次为数据分析人员通过sql、oracle 等语言来交互式地描述查询要求,对数据库中的记录进行访问和查询,实现查询型分析;第二个层次为数据分析人员先提出自己的假设,然后利用各种工具和方法进行反复递归的检索查询发现问题,实现验证型分析;第三个层次为数据分析人员通过趋势分析和行为分析,挖掘出大数据中可能被忽略的信息,为审计人员作出前瞻性的决策提供帮助,实现挖掘型分析。

(五)疑点核实

目前数据分析结果不能直接作为审计结论,必须要通过查证延伸,才能获取被审计单位的认可。也就是说,数据分析结果只是缩小审计范围,提取出“嫌疑数据”,提高延伸审计的质量,得出审计结论还是要经过审计查证这一过程。

四、大数据实践与探索--关联分析的应用

本文在众多的审计分析方法中,重点选取关联分析技术在实践中的应用,阐释在近年来从事大数据审计实践中的一些思考和探索。在审计工作中,关联审计具有点多、面宽、线长、多维的特点,运用关联数据分析方法开展工作,尤其是在大型的、综合性的项目中,可以拓展审计范围、充分挖掘审计证据,促使审计查处更准,审计效能更高,以确保审计结果的真实可靠和审计评价的客观全面。实际应用中针对数据来源,分为两种关联模式:横向关联模式、纵向关联模式。本文以构建横向关联模式和纵向关联模式为出发点,旨在阐述关联分析技术在审计中的应用。

(一) 纵向关联分析应用

纵向关联分析是指通过对来自同一部门不同层级之间数据的关联比对,实现对数据的多维度审查。可通过下钻,从高层级逐步下移到底层级,查清去向;可通过上卷从低层级上溯至高层级,追踪来源。

1.资金维度数据分析。某省财政部门使用的是财政预算管理信息系统。其中,指标管理系统包含FROMCTRLID和TOCTRLID两个字段,将指标管理系统里的指标流向串联起来;该系统中包含映射表,控制可执行指标、国库集中支付和总预算会计账务系统的对应关系,跟踪资金的最终流向,确定最终收款方;该系统可以将指标、用款计划、支付申请、支付凭证、总预算会计凭证等关联起来,实现资金流向的逐层分析。如可按照项目资金流,先从指标管理系统查询项目资金下达中涉及单位及执行情况,再通过国库集中支付系统查询该项目对应资金的最终收款方,对资金流进行追踪,筛选出同一企业享受多种不同财政补助、相似项目多头申报财政补助、连续多年财政直接支付给相同个人等疑点线索,看是否存在资金沉淀、资金滞留财政及部门当年未实际支出等问题。

2.业务维度数据分析。医院管理信息系统 (HIS)主要包括药库、药房、门诊、住院四个管理子系统的电子数据,存储的每一条记录都有明确含义,存在紧密的业务对应关系,因此可利用其业务关系建立审计分析模型,发现问题线索。如在医院财政财务收支审计中,审计人员可通过病人的住院天数计算出实际应按天收取的床位费、护理 费、暖气费等项目,再以病人ID号为关键字进行关联,计算应收与实收的医疗费用差额,看医院是否存在多收病人医疗费的现象。

3.时间维度数据分析。审计人员可利用历史的财政、财务等数据,建立时间维度的分析模型,发现问题线索。如在预算执行方面,将近三年指标系统中可执行指标数据进行合并汇总,按年度、预算单位和项目分别重算预算指标的执行情况,筛选出连续三年执行率都低于 60%的项目,可发现项目预算编制不够准确、项目资金需求虚高的问题。财务收支方面,筛选出连续三年科目余额表中往来款的期末余额未发生变化的数据,可发现往来款长期未清理的问题。在这里,主要针对以上三个维度做了简单的表述,审计人员观察、分析数据的角度、重点、维度不同,发现问题线索的方向也会不同。

(二)横向关联分析应用

横向关联分析是指通过使用关联数据的关键字段对来自同一部门不同业务系统之间或者不同部门业务系统之间数据关联比对,实现不同数据库的整合展示,发现审计疑点线索。其中关联字段比较常用的有身份证号码、统一社会信用代码、工商登记号等。

1.同一部门不同账务系统数据分析。审计人员可借助外部数据发现关联事项,再顺藤摸瓜进行关联审计,揭示一些现象后面掩盖的真相。如通过比对被审计单位的财务账和工会账等,可发现部分房租收入列入单位工会而未做单位财务收入;部分资金,如接受捐赠、变卖资产等,长期体外循环,单位不列收列支的情况等,诸如这类违纪违法活动,单从单位财务账很难发现端倪。

2.不同部门业务系统间数据分析。不同部门间数据关联比对往往以一个数据为主,其他业务数据起到佐证作用,称为“1+N”数据模式,通常可以包含财务数据和业务数据,也可以包含多个业务数据和行业数据,例如在扶贫资金审计中,因为扶贫资金发放面广、链长、点多、量小,要做到审计监督全覆盖必须创新审计方式方法,强力推进大数据关联分析。其中各类资金发放都有相应的政策法规规定,一些还有比较严格的条件限制,而这些前提条件往往可通过其他部门业务数据间接佐证。利用多部门数据间的关联关系,以贫困人口建档立卡、危房改造、低保户信息为主,身份证号作为关键关联字段,分别与财政供养人员、工商登记、个人所得税、房产、车辆、证券、医保、死亡人员信息等数据关联比对,可发现扶贫对象、危旧房改造对象、低保户认定不精准和扶贫资金安全方面问题线索,大大提升了精准审计力度和工作效率。

3.外部数据关联分析。部分业务数据作为外部数据被广泛应用于各类审计项目中,如工商登记和税务信息等。例如通过将财政供养人员与工商登记信息比对分析,可发现公职人员经商办企业的问题;通过将企业领导干部与个人所得税信息进行比对分析,发现领导干部兼职取酬的问题。

扫一扫在手机打开当前页