大数据时代统计及可视化分析技术在银行内部审计中的应用

龙源期刊网 http://www.qikan.com.cn

大数据时代统计及可视化分析技术在银行内部审计中的应用

作者:

来源:《中国内部审计》2018年第12期

[摘要]本文在阐述大数据时代银行内部审计数据分析方法发展趋势的基础上,分析了统计与可视化分析技术应用于内部审计工作的独特优势,并通过展示真实性审计、合规性审计、效率性审计及经济性审计方面的典型应用案例,诠释了该技术应用于银行内部审计的实施方向和广阔空间。

[关键词]大数据 统计分析 可视化分析 商业银行 内部审计 一、银行内部审计数据分析方法的发展趋势

21世纪初,基于数据库管理的结构化数据查询技术开始应用到银行内部审计工作中,帮助内部审计人员定向筛查异常交易,快速锁定可疑对象,并逐渐成为主流的审计数据分析方法。但如今处于数据爆炸的时代,银行业的数据更具有数量大、种类多、变化快的特征,传统的数据存储、处理以及分析技术已捉襟见肘。内部审计要在大数据时代有效履行风险控制第三道防线的职能,需紧跟大数据技术的发展步伐,坚定地走“科技化审计”之路。银行内部审计数据分析方法的未来发展将呈现如下趋势。 (一)全量整体性分析

利用传统的数据库技术对海量数据进行查询分析,需耗用大量的计算机软硬件资源,且运行速度难以保证。因此,审计人员往往按照时间、归属单位等维度对数据进行分段查询,或者按照一定特征抽取部分样本数据进行分析,再推断总体状况。大数据技术采用集群存储、分布式运算,可以高效识别、归类和查询数据,实现了对海量数据的高速检索,从而为审计工作开展全量数据分析消除了技术壁垒。 (二)全程穿透式分析

在传统模式下,数据存储及处理成本较高,银行内部审计往往只存储和处理核心业务的关键数据,而且存储期限较短,因此,以此为基础的数据分析相对片面。而大数据平台可以长期滚存全量数据,这一升级使得审计人员可以针对跨业务条线、跨机构、跨产品的数据进行穿透式分析,也可以进行较长时段内的趋势分析,从而更加完整、准确、客观地评价相关机构或条线的整体状况,并及时揭示潜在风险。 (三)多元化综合分析

龙源期刊网 http://www.qikan.com.cn

由于技术的限制,传统的数据查询分析对象基本局限在结构化数据,审计人员在面对同样具有价值的文本、图片、声音及影像等大量非结构化数据时,往往束手无策,或需要通过人工分析处理,不仅效率低下,而且分析结果也不尽如人意。而大数据技术与自然语言处理、图像分析、语音分析等技术的结合应用,即可化繁为简,审计人员以此为基础开展多元化的数据分析,可得出更丰富的分析结论。

二、银行内部审计应用统计与可视化分析技术的优势

大数据环境下,数据量大、增速快的特点为审计数据分析工作的开展带来了机遇,但如何在庞大多样的数据中快速、准确、高效地发现数据异常,如何以种种异常为线索,透过现象看本质、发现深层次的问题,成为审计数据分析工作不得不面对的挑战。近年来,国内外审计业界尝试应用统计及可视化分析技术,为审计人员开展数据分析工作带来了崭新的思路。该技术的应用优势主要体现在如下方面。

(一)借力统计分析,快速识别异常数据,深入挖掘审计线索

与传统的结构化数据查询相比,统计数据挖掘分析一般不预设主题,主要是根据现有数据,进行基于各种算法的运算,快速发现数据中的离群值,实现高级别的数据分析需求,从而发挥估计、相关性分组、预测等作用。比较典型的算法包括用于聚类的 Kmeans、用于统计学习的SVM和用于分类的 NaiveBayes等。因此,审计人员进行数据分析时,不再局限于基于个人经验设定的异常筛查思路、脚本、模型以及异常值范围,而是通过应用聚类分析、趋势分析、回归分析等经过科学论证的统计分析方法,快速找出数据的分布特征,完整掌握数据的发展变化趋势,准确找出数据间的相互影响因素,避免分析结果的片面性。 (二)依托可视化分析,直观呈现数据特征,敏锐洞悉业务实质

可视化分析是通过图形分析处理复杂数据模型的一种方式,过去在一定程度上被简单地理解为数据分析结果的展示工具,而忽略了其在数据分析过程中发挥的重要作用。借助人类大脑对图像及文字接受处理能力的差异特性,可视化分析可通过图形图像模型,将大量枯燥的、以二维表格形式展现的数据以直观、形象的方式展示给审计人员,有助于快速发现数据的特征、系统梳理数据的规律、深入挖掘数据背后隐藏的关系,从而有效地从海量数据中发现审计线索及其背后隐藏的问题。

三、统计与可视化分析技术在银行内部审计中的应用

本课题组聚焦近年来国内外银行业关注的风险点,从真实性、合规性、效率性及经济性等不同审计角度出发,各挑选一个案例进行模拟数据演练,运用统计分析模型挖掘数据线索,并结合可视化技术梳理数据规律,具体分析思路及方法如下。 (一)真实性审计案例——企业授信客户行业真实性核查

龙源期刊网 http://www.qikan.com.cn

业务背景:为防范政策风险、信用风险及洗钱风险,银行会限制甚至停止对某些高风险行业的授信,因此,这些行业的企业可能瞒报或错报其真实行业以骗取银行信贷资金或优惠授信条件。银行贷前调查和贷后审查主要依赖客户提供的证明资料,客观性不足,而现场验证成本高且易被借款人提前安排。

审计思路:审计人员可先建立各类企业与交易对手行业匹配规则,再将授信客户的账户交易流水在大数据平台上进行统计分析,得出其偏离规则的情况,以指导现场审计,最终确认客户实际经营行业。这种方式较传统的手工逐户对碰以查找非相关交易对手,准确性高、耗时短。

统计挖掘分析:采用关联规则学习模型算法,在银行已积累或外购的大数据中学习,自动生成常规交易对手的行业相关性分析规则,具体步骤如下: 首先,定義授信客户及其交易对手的行业集合。

其次,整合客户的交易数据,用于模型训练数据集,如表1所示,以辅助建立常规交易对手行业的关联规则关系模型。

再次,建立各类客户行业的关联规则关系。如图1所示,由于在训练集的数据中,大部分处于行业甲企业客户的交易对手为行业A、B及C,因此,可以形成针对客户行业甲的关联规则。

然后,从数据中挖掘客户行业与交易对手行业的相关性,即的关联规则关系,及 。如果需要量化表达客户行业与交易对手行业的相关性,则需计算每个关联规则的置信度,即给定客户行业 X,其交易对手为 Y 公司所处行业公司的条件概率。在此过程中,可以通过调试置信度的值,控制模型训练输出关联规则关系的强度,如将置信度调为0.1,即模型训练输出的关联规则关系,是根据置信度每100名中至少有10名客户拥有此类行业交易对手的关联关系。 最后,将授信客户的交易数据输入已训练的模型,对碰已建立的关联规则关系,输出偏离模型交易对手行业规则的客户,即客户报称行业与实际交易对手行业不相关的情况。如图2所示,把报称行业甲的授信客户与已建立的关联规则关系对碰,并计算各授信客户实际交易对手行业与已建立的关联规则关系的吻合度。此步骤可以设定吻合度的阈值,筛选出吻合度低于阈值的授信户进一步调查。除了计算客户交易模式与其自身报称行业的吻合度外,同时还可以计算客户交易模式与其他行业的吻合度,如客户的交易模式是否与高风险行业相似,从而筛查出疑似高风险客户回避申报其真实行业的情况。

可视化分析:利用可视化工具,如图3所示,以分层颜色显示客户报称行业与规则吻合度的值,颜色越深代表吻合度越高。由于可视化工具具有高互动性,因此,审计人员可按实际需要调校数据显示的维度与深度,即可视化结果输出图的数据列数目、运行结果与其客户报称行业吻合度的阈值。

联系客服:779662525#qq.com(#替换为@) 苏ICP备20003344号-4