采用基于分辨率的孤立点算法(RB算法)
RB算法:
优点: 适用于海量的数据库,无需引入参数
缺点: RB算法仅从数据集全局出发寻找孤立点,会导致孤立点的寻找过程中忽略了数据点所在的类的密集程度对孤立点的影响。
所以,在RB算法基础上,提出了密集度加权的分辨率孤立点挖掘算法(WRB算法)。
主要是通过计算每个孤立点相距最近的类的稠密度测度作为分辨率的权重,从全局和局部出发,综合考虑数据点周围的点的个数以及每个孤立点与距离本身最近的类的密集度对比计算每个数据点的孤立程度。
就病人取药时间,将病人的取药时间看作一个个点,将点的个数及密集程度赋值,将一个病人的取药时间量化成一个值,使用一维格子分布密集度算法对其密集度进行度量,从而排序。最后结合实际,进一步剔除混合度密度算法。
最后,代入模型,RB算法以及WRB算法的交集即为可能用高额处方骗保的病人,而利用混合密度算法得出的孤立程度较大的点,即为可能存在骗保的病人。
数据预处理步骤:
- 数据清洗:对于数据缺失项,根据其余各表补充,若无法补充关键则删除该数据。去除前后属性明显矛盾可能是由于记录错误而引起的数据项,如药品单价与费用为负值。
- 目标数据提取:以同一账单号为条件,对数据进行条件加和,得到一个个对应一定费用的账单。此外对于每个病人的取药次数与分布也进行了提取。
- 数据规范化: 由于给出的费用范围太大,造成计算复杂度大大提高,故将数据属性数据按比例缩放,使之落入一个小的特定区间。
假设:
- 不考虑科室只有一个人得某种病,导致此数据与儿科中其他数据明显不同,默认为每种病都有几个可用的数据。
- 不考虑某病人分开多次配药,默认每个病人就配一次或者极少次。即一个处方对应一个账单号。
- 只考虑费用的总和,某种费用有问题可视为总费用有问题。
- 不考虑由于特殊情况出现需要过多取药的情况。