2015深圳杯数学建模A题笔记(1)

辅助学习(有监督)的方法 :统计回归,神经网络。
非辅助学习(无监督)方法
聚类分析 :在经典的情况下将不同指标视作等同的,忽略了指标间权重的差异,影响了分类的精度。

步骤:

  1. 引入基于指标权重的欧氏距离,刻画数据之间的相似程度
  2. 通过聚类算法将数据按照相似程度不同分成多类,分类中出现的孤立点即为意思欺诈点。 权重指标评价函数CFuzziness(w)
    该函数刻画随着权重w的改变,分类的模糊程度的变化。

粒子群优化(MPSO)算法:
极小化属性权重评价函数,得到每个指标的权重赋值。将得到的权重应用于聚类算法。

建立模型过程:

  1. 筛选与处理数据,剔除显著无关的指标与无效的交易记录;
  2. 构造属性权重评价函数CFuzziness(w),用以描述聚类效果的不确定性,通过粒子群优化算法求得属性权重评价函数取得最小值得最优解w作为各项属性的权重。
  3. 构造改进的欧氏距离函数d,用改进的欧式距离作为聚类函数的输入;
  4. 应用聚类分析算法,无监督给出样本数据分类,以区分正常医保消费与欺诈记录;

冗余项忽略:
排除身高、性别、所在省份等信息对结果影响

指标确定:

  1. 欺诈行为的主体一定是有医保的患者。故筛选掉无医保患者的取药记录。
  2. 两种欺诈类型表现为单张账单价格过高以及拿药次数过于频繁。故将单张账单总价格和单个患者拿药次数应该分别作为判断是否为欺诈的第一项和第二项的指标。
  3. 生活经验:部分科室、或者个别医生可能存在不合理开医嘱作为患者取药凭证的现象。故把执行科室以及开嘱医生ID作为影响判断是否欺诈的第三项和第四项指标。
  4. 考虑有一种欺诈类型是刷他人的医保卡,可能存在部分人经常将自己的医保卡外借的情况,所以将患者ID作为影响判断是否为欺诈的结果的第五项指标。

操作过程:

  1. 从表格2.1中,导入患者ID和医保手册号--根据是否有医保手册判断患者是否有医保,筛掉表格2.2中无医保患者的购药记录。
  2. 为了得到单张账单的总价以及患者的购药次数,从表格2.2中导入账单号、价格、患者ID==将账单号相同的记录合并,进而计算出单张单据的总价;根据患者ID来统计每位患者的购药次数。
  3. 考虑到影响判断是否欺诈的其他因素,将表格2.2执行科室和开嘱医生ID导入Matlab中。