医保欺诈行为的主动发现数学建模 - 图文 下载本文

医保欺诈行为的主动发现

摘要

本文从病人和医生两个角度分析可能存在的骗保行为。从病人的角度分析,病人的医保费用与参保人的年龄、看病次数具有一定的相关联性。首先建立年龄与医保费用关系模型,模型如下:

y=87.732e0.2247X,

y=93X2-1242.8X+4434.1,

R2=0.9908 R2=0.9806

(0-49岁) (>50岁)

第一个公式是病人的前五个年龄段与医保费用的模型,第二个公式是后五个年龄段

2

与医保费用的模型。两个R非常接近1,拟合程度较好。根据模型公式计算出拟合后的不同年龄段的医保支付平均费用,然后与原始数据进行配对T-检验,两组数据是否存在显著性差异,经验证不存在显著差异。因此,由拟合的两个公式算出的费用,再根据病人年龄判断所属的年龄段,如果超过该年龄段的医保支付平均费用,说明该病人可能存在骗保行为。随后,建立了病人就诊次数模型。该模型主要通过stata软件进行编程。与处方量相关的变量有就诊ID、病人ID以及就诊日期三个变量。并以7天为分界线对病人的看病次数进行统计分析,每次开处方为1张,7天内开处方2张以上的列为可能具有欺诈行为,这又从另一方面反映出医生对同一病人所开出的处方量,有助于推断医生的欺诈行为。

医生欺诈的手段主要有加大开处方量以及增加处方费用上。由于从病人角度和从医生角度建立的模型相互关联,因此,同一模型可从不同角度说明病人的欺诈行为以及医生的欺诈行为。首先,病人就诊次数模型可以说明如果对于同一个病人,医生开具的处方量不同,若在7天内对同一个病人的所开的处方量超过2张(包含2张),则该医生有骗保嫌疑。在单张处方费用模型中,主要涉及的变量有“就诊ID”、“下医嘱医生”以及“费用”,该模型主要通过excel对涉及的变量数据进行筛选,结果是医生开处方的费用越高,其骗保嫌疑越大。因此,要结合模型三、四决定医生的骗保行为。

0

关键词: 医保欺诈 T检验主动发现数学模型

1 问题的提出

医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。请根据附件中的数据,找出可能的欺诈记录。

1、根据附件中的资料,确定可能存在欺诈的影响因素,并给出可能出现欺诈的情况分析。

2、建立不同种欺诈情况下的模型分析与判别,并对你的模型有效进行欺诈识别进行检验。

2 问题的分析

从附件中发现,本题带有较多的数据表,首先从病人的角度分析可能的骗保行为,通过分析数据表发现,病人的医保费用与参保人的年龄、看病次数具有一定的相关联性,可以先用excel对相关数据进行预处理,然后,根据结果和用 excel 绘制的各种图表进一步分析,建立模型,求解出年龄与医保费用、以及看病次数与医保费用之间的关系。其次,从医生的角度分析,可能的骗保行为,通过分析数据表发现,医生可以通过增加开处方的量、增加单张处方的费用来推动骗保行为,因此,在该层面,主要通过分析医生对单个病人所开出的处方量以及单张处方的费用来分析医生的骗保行为,数据的处理方法与辨别病人骗保数据的处理方法相同。

3 基本假设

(1)假设数据的不完全分析,即抽取的样本可以代表整个样本库,对于模型的构建不

会产生较大的影响;

(2)假设所给出的数据具有合理性,数据间具有相关性。

(3)假设不同人群间统济,即进行统一管理和具有统一待遇水平; (4)假设医保支付费用与病人年龄、一定时间与处方次数有关; (5)假设一天内病人就诊一次,医生给同一病人开一张处方;

1

4 定义符号说明

id-就诊ID v2-病人ID v3-就诊日期 v4下医嘱医生 tag1-就诊次数 diff-就诊时间间隔

tag2-就诊时间间隔是否超过七天 tag-过度列

5骗保行为模型的分析和建立

5.1病人的年龄与医保费用模型(模型一)

5.1.1 模型建立

假设处在同一年龄段的病人的身体状况基本相同,且医疗花费基本相同,可以通过医保支付费用与年龄之间建立联系。如果病人的医保支付费用超过该年龄段的平均花费,说明可能存在骗保行为。

为了减少误差,我们组根据病人年龄以及费用数据进行分析,发现小于等于49岁的病人花费的费用明显少于50岁之后的病人,我们推断,以50岁为分界线,病人的身体状况存在明显的差异,所进行的诊疗不同,50岁以上的病人的药费和诊疗费会明显高于50岁以下的病人,因此要分为两部分进行分析建模,否则会存在很大的误差。

为了研究医保支付费用与年龄的关系,对附件1、2、3所给数据进行分析,根据出生日期计算出年龄,需要注意的是是按费用发生时的时刻计算年龄。然后根据病人ID号对不同表中的年龄、医保支付费用、性别、就诊号等进行匹配。使用SPSS将年龄分成十个阶段:0到9岁、10到19岁、20到29岁、30到39岁、40到49岁、50到59岁、60到69岁、70到79岁、80到89岁、90岁以上分别用“1、2、3、4、5、6、7、8、9、10”表示各年龄段。如果设置信区间为向上浮动5%,则可以算出平均费用置信区间的上限(由于费用越少越好,区间的下限无意义)。在EXCEL表中使用分类汇总操作,计算出各阶段医保支付费用平均值及平均费用置信区间的上限。如下表5-1:

年龄段 1 2 3 4 5 6 7 8 9

医保支付平均费用

114.50 133.14 165.99 216.47 276.25 301.08 325.17 489.51 687.77

2

置信区间的上限

120.23 139.79 174.29 227.30 290.06 316.14 341.43 513.98 722.16

10

1,345.90 1413.19

表5-1 不同年龄段的医保支付平均费用及其上限

由表5-1可知,年龄与医保支付平均费用之间并不是一直存在简单的线性函数关系。通过网络资料查阅我们发现回归分析法是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。通过观测散点走势来确定拟合函数,利用散点但又不拘泥于散点。该方法与我们的数据分析非常相似,因此我们决定采用回归分析法对数据进行建模。又由于第十个年龄段的散点与曲线不相拟合,因此十个年龄段无法用一条回归曲线准确表示。前五个年龄段和后五个年龄段分别拟合出一条曲线。根据散点的趋势(图5-1)可以看出年龄与医保支付平均费用之间存在非线性关系,通过添加趋势线得到指数曲线关系图5-2。

图5-1前五个年龄段的医保支付平均费用的回归曲线

3

图5-2 后五个年龄段的医保支付平均费用的回归曲线

得到的回归模型为

y=87.732e0.2247X,

y=93X2-1242.8X+4434.1,

R2=0.9908 R2=0.9806

(0-49岁) (>50岁)

由于R值越接近1,说明回归曲线对观测值的拟合程度越好;图5-1中得到R2=0.9908,图5-2中得到R2=0.9806,可以判断拟合程度较好。根据拟合的公式y=87.732e0.2247X和y=93X2-1242.8X+4434.1重新计算出年龄段和医保支付平均费用,如果设置信区间为向上浮动5%,则可以算出平均费用置信区间的上限(由于费用越少越好,区间的下限无意义)。如表5-2所示。

年龄段 拟合后的医保费用 置信区间的上限 1 2 3 4 5 6 7 8 9 10

109.84 137.51 172.15 215.53 269.83 325.30 291.50 443.70 781.90 1306.10

115.33 144.38 180.76 226.30 283.32 341.57 306.08 465.89 821.00 1371.41

表5-2 根据拟合曲线得到的年龄段与医保支付平均费用

由表5-2可知,根据病人年龄判断所属的年龄段,如果超过该年龄段的医保支付平

4