目 录
健康保险业务的发展状况
健康保险数据的分析整理
健康保险数据的准备
健康保险数据的维护
健康保险数据预处理
数据清洗
遗漏数据的处理
噪声数据的处理
(3)不一致数据的处理
数据集成
数据转换
健康保险数据的挖掘应用
获得新客户
保留旧客户
确定健康保险费率
(四)识别欺诈索赔
健康保险数据管理的瓶颈及建议
瓶颈
建议
要建立独立的数据库
要建立信息共享体系
3. 要加强数据安全保障
内 容 摘 要
提纲:
一、健康保险业务的发展状况
中国的健康保险虽起步比较晚,但发展速度却很快,特别是随着《“健康中国”2030规划纲要》的出台,健康保险业务无疑迎来了更难得的发展机遇。但与此同时,我们也要清醒地认识到我国的健康保险仍存在很多不足之处,如我国的商业健康保险管理制度还很落后、市场开发程度还不够高等,另外,由于数据是风险管理的基础,是健康保险专业化经营的依托,没有强大有效的数据库,健康保险专业化难以取得实效,所以在当前情况下为了更好的经营健康保险业务、管理健康保险风险,对健康保险数据的研究意义无疑是重大的。
二、健康保险数据的分析整理
数据资源和数据能力是风险管理的基础设施,也是健康保险市场化经营的前提。要加强对健康险的风险控制能力,提高产品的市场竞争力,不仅需要搜集足够多的数据,而且还要对数据进行分析、处理,去粗取精,去伪存真。
(一)健康保险数据的准备
(二)健康保险数据的维护
(三)健康保险数据预处理
健康保险数据库系统虽然拥有大量的数据,但这里面常常包含有噪声、不完整、甚至是不一致的数据。因此,要想达到改善健康保险数据的质量,进而提高数据挖掘的准确性和有效性,还需对收集数据进行预处理。它主要包括以下几个步骤:
1. 数据清洗
(1)遗漏数据的处理
(2)噪声数据的处理
(3)不一致数据的处理
2. 数据集成
3. 数据转换
三、健康保险数据的挖掘应用
对保险公司来说,只有充分借助数据挖掘技术,正确分析分析与挖掘潜藏在这些数据中的信息,并对信息进行加工利用,才能产出更好的产品或提供更好的服务。数据挖掘在健康保险业务的应用主要有以下几方面:
(一)获得新客户
(二)保留旧客户
(三)确定健康保险费率
(四)识别欺诈索赔
四、健康保险数据管理的瓶颈及建议
(一)瓶颈
国内的健康保险业务开展时间短,经验数据有限,在健康风险和医疗信息方面的数据积累和数据能力储备是有严重不足的,而在大数据、云计算等新技术蓬勃发展的今天,健康保险数据管理也迎来更大的挑战。
(二)建议
在突破健康保险数据管理中出现的瓶颈问题上,保险公司可以通过以下几个方面来进行努力。
1. 要建立独立的数据库
2. 要建立信息共享体系
3. 要加强数据安全保障
健康保险数据及数据管理系统研究
摘 要:目前,我国的健康保险业正处于快速发展期,可是,我国的商业健康保险管理制度还很落后、市场开发程度还不够高、各保险公司所提供的健康保险产品和服务远远不能满足人民群众的需要、产品雷同程度高等。另外,由于数据是风险管理的基础,是健康保险专业化经营的依托,没有强大有效的数据库,健康保险专业化难以取得实效,所以在当前情况下为了更好的经营健康保险业务、管理健康保险风险,对健康保险数据的研究意义无疑是重大的。
关键词:健康保险 健康保险数据 健康保险数据管理
健康保险业务的发展状况
健康保险,就是利用保险工具来解决人们因健康受损导致损失的一种经济手段。[1]中国的健康保险起步比较晚,1982年,中国人民保险公司与上海市政府合作经办职工健康保险,使得我国商业健康保险登上历史舞台,之后随着整个中国保险业的发展而快速发展。[2] 2006 年,《健康保险管理办法》颁布,多家专业健康保险公司成立,形成保险公司和卫生、人社以及民政等政府部门共同经营的局面。目前,我国商业健康保险的发展正处于从传统保险向新型保险过渡的发展阶段。
传统的商业健康保险主要包括长期健康险和短期健康险业务。近年来,随着保险标的从医疗风险向健康风险转变,健康保险的内涵更加宽泛和合理,新型健康保险产品和服务也随之产生,主要包括管理式医疗、团体健康保险方案以及个人健康维护计划三类。我们可以明显感受到,经过三十多年的发展,中国的健康保险业已取得了长足进步,像2016 年我国健康险收入规模就达到了4042.5 亿元,同比增长67.71%,增速居于各类保险业务首位。随着《“健康中国”2030规划纲要》的出台,全民健康作为一项重要的国家战略,将融入到所有政策中,这无疑将为健康保险业务供了更难得的发展机遇。
但与此同时,我们也要清醒地认识到我国的健康保险仍存在很多不足之处,如目前我国商业健康的人均保费只有292 元,而美国和德国早在2013 年就已经分别达到了人均16800 元和3071 元的水平;从医疗融资体系来看,我国商业健康险的赔付额度所占为甚总费用的比重也远远低于全球平均水平。总体而言,虽然国内的健康保险业务已经有不小的规模,但与群众对健康保险的强烈需求相比,各保险公司能够提供的产品和服务还远远不能满足其需求;与巨大的市场潜力相比,目前的市场开发程度还很不够;与先进的管理制度相比,目前的健康保险管理方法还比较落后,特别是专业化的数据管理系统建设还有待进一步加强。有鉴于此,我们更有必要展开关于健康保险数据及数据管理系统方面的深入研究。
二、健康保险数据的分析整理
数据资源和数据能力是风险管理的基础设施,也是健康保险市场化经营的前提。[3]要加强对健康险的风险控制能力,提高产品的市场竞争力,不仅需要搜集足够多的数据,而且还要对数据进行分析、处理,去粗取精,去伪存真。
(一)健康保险数据的准备
保险公司应利用公司的承保和理赔数据,搜集被保险人的既往病史、投保时的身体状况、投保后的发病以及住院索赔情况的信息,从核心业务管理系统中搜集能反映各地区、各部门和各类健康保险业务经营状况的信息,包括各类业务的承保人数、保费收入、索赔人数及次均赔款金额等。此外,还应该合理利用统计和卫生行政部门发布的各年龄、性别、各地区各类疾病发病率、住院率及住院费用水平等数据以完善健康保险数据库信息。
健康保险数据包含着多方面的信息,既有和普通寿险相同的信息,比如被保险人姓名、职业、年龄、性别等,又有其特有的信息,比如被保险人住院天数、疾病种类等。要想在海量的数据中及时理出头绪迅速而高质量地完成数据准备工作,就要仔细地进行数据准备分析,这样才能做到事半功倍的效果。数据准备分析应包括对数据需求和现有的数据资源来两个方面的分析:对数据需求的分析可以使资料整理有的放矢,使准备的资料既完整又不多余;对现有的数据资源的分析可以决定资料的整理方式,提高资料整理的效率。
健康保险数据来源有多种渠道,其中来自于保险公司的经营数据是最有价值,也是最有效的,还有一部分数据来自于保险公司之外,比如再保险公司、卫生部门、刊物等,在利用这些外部资料时需要注意审查资料的权威性、可信性和准确性,以保证健康保险数据的高质量。此外,作为健康保险数据准备的组织者和参与者,也应严格要求自己,以严谨的态度和严密的计划来进行数据准备工作。
(二)健康保险数据的维护
健康保险数据维护的目的是保证健康保险数据的完整性和安全性,防止各种意外事故、硬件故障或人的无意损坏、有意破坏等事件的发生。在大数据、云计算等新技术风起云涌、蓬勃发展的今天,随着国内信息安全形势日益严峻和保险行业监管要求的不断加强,对保险企业数据中心信息安全防护提出了更高的要求。保险业作为金融支柱性行业,具有复杂的业务形态和密集的用户信息,保险业信息系统和数据本身承载的价值,使其容易成为黑客攻击的目标。2011年,中国保监会出台了《保险公司信息系统安全管理指引(试行)》,就是为了防范化解保险公司信息系统安全风险,完善信息系统安全保障体系,确保信息系统安全、稳定运行。为了保证健康保险数据的完整性和安全性,人们采取了多种办法来进行预防和修正,如备份、归档、转储、恢复、病毒防范等。在诸多的方法中,备份、恢复和病毒防范是健康保险数据维护中最为重要和经常使用的方法。但在内外部环境发生了较大变化情况下,传统数据中心信息安全防护体系已无法满足实际需要,目前一些保险企业正在尝试构建涵盖机房物理安全、网络安全、数据安全等全方位、多角度的数据中心一体化信息安全防护体系。
(三)健康保险数据预处理
数据的预处理是指对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理。[4] 通过不同的渠道,健康保险数据库系统获得了大量的数据,但这里面常常包含有噪声、不完整、甚至是不一致的数据。所谓噪声数据,也称无意义数据,是指数据中存在着错误或者异常(偏离期望值)的数据,比如被保险人的健康信息记录错误、医疗费用记录错误等; 不完整数据是指感兴趣的属性没有值,如被保险人的工资水平的遗漏;不一致数据是指数据内涵出现不一致的情况,比如医院没有严格按照国际疾病分类标准(ICD—10)来书写病历,从而造成同种疾病有不同表述的情况。因此,对保险公司提供的原始数据进行预处理事非常必要的。当然,要想达到改善健康保险数据的质量,进而提高数据挖掘的准确性和有效性,健康保险数据的预处理还必须严格遵守以下几个步骤。
1. 数据清洗
数据清洗主要通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。
(1)遗漏数据的处理:在分析健康保险数据时,可能会发现多个记录的属性值为空的情况,对此,若该条记录的属性对分析影响不大,可以忽略处理;若该条记录的属性比较重要,则需要录入人员通过各种途径,例如电话询问相关人员、查找历史手工凭证等来确定遗漏值,进而以手工方式把遗漏值填补上去;若是该条记录的属性比较重要但又无法填补时,还可以利用回归分析等来推断,利用最可能的值来替代遗漏值。
(2)噪声数据的处理:处理健康保险数据中的噪声数据可以采用聚类法和人机结合检查法。聚类法,是将相似或相邻近的数据聚合在一起形成各个聚类集合,进而检测出位于这些聚类集合之外的异常数据。比如对某种疾病住院天数的统计过程中,发现某一被保险人的住院天数远远大于其所患疾病的平均住院天数,这时可以将其作为异常值来处理。人机结合检查法,则是通过业务人员和计算机检查相结合的方法来帮助发现异常的健康保险数据。
(3)不一致数据的处理:对于健康保险数据库中出现的记录内容不一致的数据,可以利用这些这些数据与外部的关联以手工加以解决,例如数据录入错误一般可以与原始凭证进行对比来加以纠正,健康保险数据管理系统检索出这些不一致的数据可交业务员确认并改正,以消除数据的不一致性。
2. 数据集成
健康保险数据繁多而复杂,针对于这些不同来源的数据,需要把它合成同一的模式,做到模式集成,即把不同信息源中的实体匹配来进行模式集成。在集成过程中,会出现某些属性是与数据挖掘任务无关的或冗余的,例如个人资料中的电话号码等就与健康保险的数据挖掘任务无关。针对属性冗余的问题,可以用相关分析监测,删除冗余的属性。
3. 数据转换
数据转换的目的就是把数据转换成有利于进行数据挖掘的形式。健康保险数据变换的作
用一是可以缩小挖掘数据的规模使得挖掘结果更加明确;二是可以使健康保险数据标准规范化。
三、健康保险数据的挖掘应用
数据挖掘顾名思义,就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。保险业是典型的知识密集型行业,是最适合推行知识管理与数据挖掘技术的行业之一。[5] 对保险公司来说,只有充分借助数据挖掘技术,正确分析分析与挖掘潜藏在这些数据中的信息,并对信息进行加工利用,才能产出更好的产品或提供更好的服务。
健康保险业务活动主要有以下几个方面:定制新产品,销售健康保险产品,用户投保,理赔赔付等。在这些业务活动中产生了大量的数据并形成了各自的事务型健康保险数据库,如用户信息数据库、索赔数据库等,从这些数据中获取有用的信息并用于相关的业务活动是健康保险业务在竞争中取得优势的重要手段。一般来说,数据挖掘在健康保险中的应用有以下几个步骤:第一步,由事务型健康保险数据库作为源系统组成数据仓库与数据集市;第二步,根据健康保险业务的需要确定数据挖掘目标,并由此采取相应的数据挖掘方法对数据仓库与数据集市中的数据分析以得到知识,并由此构成知识库;第三步,将获取的知识应用于客户服务、新业务推广、市场营销和瓶产品定制中;最后一步,是评价应用结果并反馈到数据挖掘过程以改进挖掘方法。
很明显,数据挖掘在健康保险业务中有着较大的应用前景,至少在以下几方面的应用中已经获得了公认:
(一)获得新客户
通过对健康保险数据的挖掘,可以帮助保险公司分析现有客户的消费兴趣、习惯及消费倾向和消费需求,进而预测客户的购买行为,然后以此为基础对潜在客户进行特定内容的定向健康保险产品的营销。简单来说,就是通过健康保险数据挖掘对潜在客户进行分类,细化销售重点。
(二)保留旧客户
保留旧客户,就是通过数据挖掘以提高客户的续保率。在已有客户的数据基础上,综合考虑,客户的身体健康状况、出险情况、销售人员信息等可以通过logistic模型,分析筛选出影响客户退保或续期的关键因素,并通过这些因素和建立的模型,对客户的退保概率或续期概率进行评估。并针对不同概率区间内的客户采用相应的服务,以减少客户的退保率,提高续保率。
(三)确定健康保险费率
保险费率是保险费与保险金额的比率。若保费一定的情况下,赔付额度过大,费率就会很低,这样就会给公司带来一定的经济负担,保险公司就会处于不稳定的状态,不利于稳定发展;如果保险费率过高,对于被保险人来说,其负担的保险费与其获得的保障不相当,就会造成客户的流失。因此,保单的费率设定可以说是精算人员最为重要的工作,其目的是使设定的费率对应于投保人的风险等级,风险越小,费率越低,尽量遵循适度、合理、稳定和公平的原则。确定费率较为关键的问题就是找出“影响赔付支出的风险因素或变量”,比如疾病发生率、残疾发生率、疾病持续时间、利息率、费用率、失效率、死亡率等,甚至医院管理和医疗方法、经济发展、地理环境等条件的变化都会影响健康保险产品价格的制定和调整。但这些因素或变量,是可以通过数据挖掘技术来得到预测的。
(四)识别欺诈索赔
现在各家保险公司在激烈的市场竞争中都不断调高自己的服务时效,但就理赔服务来说,提高理赔时效,精简理赔流程对于某些客户来说是欺骗保险金的机会。医疗保险欺诈会给保险公司公司造成不必要的损失,所以核保工作就成了保险公司经营过程中最重要的环节之一。
医疗保险欺诈的表现形式主要有: 修改或伪造医疗账单或其他相关资料; 过度的或不必要的治疗; 为没有提供的医疗服务支付费用; 伪造或夸大医疗事故等。[6]但单纯凭借保险方面的经验,很难判定一个投保客户信息的真假,这时候数据挖掘即可发挥其作用。通过对保险公司存储的数据进行挖掘,建立预测模型,最后根据统计模型计算的结果即欺诈索赔的概率, 决定直接赔付或是进一步调查。
由此可见,只有借助数据挖掘技术,才能把数据变成有用的信息和商机,进而有效地控制健康保险风险;才可以为健康保险业务的经营决策提供强大的可信赖的支持,减少决策的盲目性,从而实现健康保险业务经营资源的优化配置等功能。
四、健康保险数据管理的瓶颈及建议
随着互联网科技和健康医疗技术的进步,健康保险对数据信息的依赖程度也进一步提高。但是,国内的健康保险业务开展时间短,经验数据有限,在健康风险和医疗信息方面的数据积累和数据能力储备是有严重不足的,这些不足也成了健康保险发展的瓶颈。
首先是基础数据缺乏。健康保险数据以报销数据为主,但目前缺乏较为全面的参保人参保、医疗、个人等信息,从有限的数据中运用数据管理去分析或监管,存在比较大的难度。再者,无论是对各类疾病的的发生率以及影响因素和关联因素的数据分析,还是对客户的健康状况量化评估数据,保险行业和医疗、社保行业之间都难以实现共享,而医患保三方的信息不对称对三方利益都造成了一定的损伤。此外,数据能力不足也是一个不可回避的问题。保险机构的数据中心建设还比较滞后,在2012 年之后才有越来越多地保险公司对数据中心建设进行投入,但健康保险对客户数据进行精细化管理的要求却越来越高,不仅是产品设计,还有日常保单管理等用户数据管理,都需要大数据、云计算和备灾等数据能力和数据技术支持,而这些新技术的应用也给信息安全风险防范带来新的挑战。
虽然面临着诸多的困难和瓶颈,但健康保险数据及数据管理系统仍然有着巨大的现实意义。在突破健康保险数据管理中出现的瓶颈问题上,保险公司可以通过以下几个方面来进行努力。
1. 要建立独立的数据库。健康保险业务的特殊性决定了健康保险数据管理的专业性和复杂性,这就要求保险公司应对健康保险业务建立相对独立、功能完整的数据库,比如专门对全国各个地区不同疾病在不同人群的经验发生率进行数据统计和研究。如果没有这种相对独立的数据系统,保险公司要实现高效率、低成本的运作及有效的风险管控几乎是不可能的。
2.要建立信息共享体系。当前,国家卫生计生委有关司局正在制定数据共享开放制度,明确数据开放的范围、边界和使用方式等,这为健康医疗大数据的开放应用提供了一个很好政策机遇。虽然在用户终端的互联网化方面整个保险行业正处在起步阶段[7],还-要与许多新兴互联网金融机构进行竞争,但在社会信息体系的构建中,特别是健康保险方面,需要保险机构的信息数据与医疗机构的信息数据实现共享,以促进业务协同。保险机构需要尽快建立统一的保险信息平台,一方面要将内部的业务和面向用户的渠道进行梳理和连接,另一方面需要将社保部门和各类医疗机构之间的信息进行有效共享和交换。通过信息共享,可以最大程度地保证健康保险数据的完整性,为健康保险产品设计的定价和费率调整做支撑。
3. 要加强数据安全保障。大数据、云计算、移动互联等新技术的广泛应用带来了新的安全风险,同样也会丰富安全防范手段。保险机构既要应用先进成熟的技术产品,降低安全风险, 包括安全产品的购置与配置加固、防病毒、加强安全域和网络访问控制, 统一监控管理平台、统一身份认证与授权管理平台等;又要进一步落实全行业信息安全等级保护制度,加强信息安全通报和年度安全检查等信息安全检查工作,对于涉及个人隐私的部分要加强数据“脱敏”和“去标识化”;此外,保险机构还需要全力打造一支素质过硬、技术精良的数据中心信息安全技术队伍,毕竟任何系统如果没有专业的安全运维队伍,就不能稳定地运行,更谈不上发挥作用。
参 考 文 献
[1]陈滔.健康保险精算:模型、方法和应用,北京:中国统计出版社。2006,P2
[2]潘兴. 我国商业健康保险发展的制度环境分析[J]. 商业经济研究,2014, (16):110-112.
[3]周灵灵,孙长青. 我国发展商业健康保险的瓶颈及破解对策 [J].金融理论与实践,2017,(9)109-113
[4] 李卫东主编.应用统计学.北京:清华大学出版社,2014:55-56
[5]王伟辉,耿国华,陈莉. 数据挖掘技术在保险业务中的应用[J]. 计算机应用与软件,2008,(3):123-125
[6] Health C areFraud PreventionM easures. Financlal Crim es Repo rt to the Pub lic, Fisca lY ear,2007,October 1,2006-September 30,2007.
[7]张亮.移动医疗在商业健康保险领域的应用[J].中国保险,2015,(5):45-49.