龙源期刊网 http://www.qikan.com.cn
基于主成分分析和聚类分析的医保欺诈行为主动发现
作者:尹菊芳 韩雪
来源:《科教导刊》2017年第36期
摘 要 考虑到病人医保欺诈的多种可能性,本文采用主成分分析和聚类分析方法建立病人欺诈可疑度评价模型,对病人是否存在欺诈行为作出分析和判别。 关键词 主成分分析 聚类分析 医保欺诈 防范
中图分类号:TP311 文献标识码:A DOI:10.16400/j.cnki.kjdkx.2017.12.069
Abstract Considering the many possibilities of patient's medical insurance and fraud, this paper uses principal component analysis and cluster analysis to establish the evaluation model of suspicious patients’ fraud, and analyzes and discriminates the patients' fraud.
Keywords principal component analysis; cluster analysis; medicare and fraud; prevent 0 引言
随着医改的不断深入,医疗保障体系不断拓展覆盖保障人群,做好医保欺诈的防范,尤其是在规范医疗行为方面显得尤为重要。在有关机构的调查中显示,过度医疗,分解住院,冒用出借医保卡,虚假收费等为目前欺诈比例最大的几个手段。本文将针对以深圳某医院一个月的35810个患者记录为例分析医保欺诈行为。根据病人单月内消费次数、消费金额、购药数量、购药种类及病人医保卡的使用人数等,采用主成分分析和聚类分析方法,找出可能存在欺诈行为的记录。 1 数据处理 1.1 指标变量的选取
目前社会上医保欺诈的手段多种多样,总体来说可归结为6种情况:拿着别人的医保卡配药,即一张医保卡被多个人使用;单次消费特别高,一个病人对应一个或多个账单,这些账单的费用有高有低,选取其中最高的费用作为一个考评指标;一张卡在一定时间内反复多次拿药;某段时间内消费总金额过高;某次购药数量很多;某段时间内反复购买大量药品。 因此我们选取6种评价指标进行主成分分析:对应的医保卡使用人数();单次最高消费金额();单月消费次数();消费总金额();购买药品总数量();单次最大购药数量()。
龙源期刊网 http://www.qikan.com.cn
1.2评价指标标准化
对每个病人的各个指标进行打分。设定每个变量的满分为10分,建立指标评分模型: 病人的指标变量具有不同的分数,分数越高代表欺诈的可能性越大,分数越低代表欺诈的可能性越小。例如,病人医保卡的使用人数是刻画病人是否正常使用医保卡的一个重要指标,即病人的医保卡使用人数越多,则病人欺诈的可能性越大。对于指标,病人医保卡的使用人数可能有三种情况,仅有一人使用,即 = 1;被两个人使用,即 = 2;被三个人使用,即 = 3。按照上面指标评分模型,可分别计算出相应的: 2 主成分分析
2.1 KMO和 Barrtlett的检验
使用SPSS软件对标准化的数据进行KMO和Barrtlett的检验:
由表1可以看出Barrtlett检验统计量为950.662,相应的Sig为0.000,相关系数矩阵与单位阵有显著差异,此假设被拒绝,同时,KMO值为0.792,原有变量适合作主成分分析。 2.2 相关系数矩阵
相关系数矩阵是6个变量两两之间相关系数大