自动化式识别医疗保险中的欺诈者

龙源期刊网 http://www.qikan.com.cn

自动化式识别医疗保险中的欺诈者

作者:周田

来源:《科技经济市场》2015年第12期

摘 要:对于医保欺诈的主动发现,我们采用非监督的聚类分析和监督的模式分类相结合的方法来识别欺诈记录。我们用训练的分类器对剩余的样本进行预测,识别出可能的诈骗样本。用户可根据需要选择不同的分类器识别欺诈行为,这样就可实现自动化式识别医保欺诈。 关键词:医保欺诈;主动发现;聚类分析;数据挖掘;模式识别 1 问题提出

当今我国医保制度上仍存在着一些漏洞,比如医保欺诈现象。公民、法人或者其他组织在参加医疗保险、享受医疗保险待遇过程中,故意捏造事实、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时使用了很多手段。在不同的医院和医生处重复配药,开了大量数目的医药且单个医药费用高,单张处方药费特别高。这些情况都需要考虑的医保欺诈现象。根据一定的数据需要解决问题:主动发现医疗保险欺诈。 2 问题分析

前提是有许多病人的数据,有些数据能反映出病人在不同科室看病的,有些反映出医疗账单号数目多,有些反映单张处方费用高等。这都与医保欺诈有着一定的关联。寻找这些与医保欺诈有关的数据。这些数据中提取特征,利用特征进行聚类分析并定义类别,利用支持向量机训练并构建一个能主动发现医疗保险欺诈的模型。并检测这个模型的是否具有使实用性。 3 模型的建立与求解 (一)数据的标准化处理

对数据进行标准化处理,即:新数据=(原数据-均值)/标准差 步骤如下:

(1)求出各变量(指标)的算术平均值(数学期望)xi和标准差si; (2)进行标准化处理: (二)距离相似性度量

我们采用Pearson相关系数来度量两样本之间的相似性。

龙源期刊网 http://www.qikan.com.cn

相关系数用r表示,其中n为样本量,分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。样本资料的皮尔森积矩相关系数(一般简称为样本相关系数)为样本共变异数除以的标准差与的标准差之乘积。样本的简单相关系数一般用r表示,其中n为样本量,分别为两个变量的观测值和均值。r的取值在-1与+1之间:

利用样本相关系数推断总体中两个变量是否相关,用t统计量对总体相关系数为0的原假设进行检验。若t检验显著,则拒绝原假设,即两个变量是线性相关的;若t检验不显著,则不能拒绝原假设,即两个变量不是线性相关的 (三)层次聚类 步骤:

(1)在预处理数据中提取一个样本为5000的训练集。

(3)采用Pearson相关系数来度量两样本之间的相似性。r的绝对值越大,就放入同一类,表明相关性越强。求解样本皮尔森积矩相关系数,即求解共变异数除以的标准差与的标准差之乘积。用t 统计量对总体相关系数为0的原假设进行检验。 得到下图:

图中聚类对象为一个5000×7的矩阵。每行表示1个样本,每列表示1个特征。我们对样本进行聚类,即对行聚类,具有相似特征的样本倾向于聚在同一子类。 (四)定义类别

A类:药品总价多,不同的账单号个数,药品数量,不同下医嘱的科室个数,不同医嘱子类个数,不同的医嘱项个数,执行科室不同的个数少,表明人们单笔账单很贵。

B类:药品总价,执行科室不同的个数多,这显示自然人可能多次买药,为了不被发现而在不同的地方进行。

C类:药品总价,不同的账单号个数很多,展现了自然人可能在单位时间内反复多次拿药。

(1)利用支持向量机构建分类器 运用支持向量机(SVM)的方法:

龙源期刊网 http://www.qikan.com.cn

支持向量机分类预测模型。利用5倍交叉证实,我们将随机的5000个样本随机分成5份,取其中4份,即4000个样本作为训练集,剩余的1000个样本作为检验集。使用训练集样本训练支持向量机分类器。我们采用加大欺诈样本权重的权重调整策略处理样本不平衡问题,提高分类器性能。我们分别以1)A∪B∪C;2)A;3)B;4)C作为欺诈样本建立了4个分类器,并用检验集检验分类器性能。我们用训练的分类器对剩余的5000个样本进行预测,识别出可能的诈骗样本。用户可根据需要选择不同的分类器识别欺诈行为, 这在理论上是被完全证明了是成立的,而且在实际计算中也是可行的。 (五)不平衡数据

不平衡数据分类精确度accuracy= (TP+TN) (TP+TN+FP+FN) 是分类问题中常用的评价标准,它反映分类器对数据集的整体分类性能,但不能正确反映不平衡数据集的分类性能。 Recall=TP/(TP+FN) Precision=TP/(TP+FP)

不平衡数据的解决方法:加重权数,权重越大,被定义为诈骗人的错误人数越少,被定义为非诈骗的人的错误人越多。 (六)检验分类性能 倍交叉验证法:

把总样本N随机划分为5等分,在议论实验中轮流抽出其中一份样本作为检验样本,用其余4份作为训练样本,得到5 个错误率后进行平均,作为一轮交叉验证的错误率;由于对样本的一次划分是随意的,人们往往进行多轮这样划分,得到多个交叉验证错误率估计,最后将多个估计再求平均。将数据聚类分析之后,我们用5倍交叉向量验证。将之前提取的5000个样本随机分为5组,并将其中4组合并为一个训练集,另一组分为一个检验集,对训练集中的数据进行验证。 (七)分类器分类

(1)ABC意义:满足上述那些定义的A(药品总价高,其它的数据数量少),B(药品总价,执行科室不同的个数多),C(药品总价,不同的账单号个数很多)

用5倍交叉验证可以例如:把5000样本分为4000个的训练集和1000个的检验集并设置权重比(1:10)

显示出同时符合A类,B类,C类;通过数据分析得出药品总价很多时的不同情况,得出可能是诈骗者。

(2)A类(药品总价高,其它的数据数量少药品总价高,其它的数据数量少)预测结果

联系客服:779662525#qq.com(#替换为@) 苏ICP备20003344号-4