过去,由于技术手段和数据安全的限制,保险公司的各个系统间无法完成高效的数据交换和沟通,系统间就像一个个孤岛。由于担心部门内部信息共享不当,即便是大型保险公司,内部很多部门仍处于“信息独立”的运营状态中。
目前,为了实现数据价值,众安在内部实行了包含数据管理体系、数据流通体系以及数据价值体系的数据中台战略。
在数据管理层面,数据中台可以对每张数据表进行自动扫描,并和过去积累的近3000多种规则进行比较,自动预警出哪一张表或哪一事业部的数据质量问题,自动发邮件提醒业务部门改正。
在数据流通层面,针对过去把数据安全重心都放在审批中,审批流程非常严,拿到审批特征之后,数据流通风险急剧增高的情况,众安通过数据分发超市,将数据获取、挖掘、分析等流程完全集中在系统之内,提高数据流通的基础上,降低流失风险。
以下为孙谷飞演讲全文内容,医健AI掘金志做了不改变原意的编辑:
大家晚上好,非常荣幸接受邀请,今晚给大家做一次分享。我来自于众安保险,目前主要从事众安保险AI、大数据的研究和落地。
数据价值体系的现实困境
首先跟大家分享一本书《思考,快与慢》,来自2002年诺贝尔经济学奖获得者丹尼尔?卡尼曼。
这本书把人的思维模式分为两种类型:
第一种是意识快速的自主思维模式,普通人几秒钟就完成的一些判断,比如看一张照片,立马识别照片内容;看一张人脸,立马识别出是谁。
为什么会举这本书作为例子?
机器学习平台
为什么正常业务中需要花精力思考的智能场景,没有快思考智能发展快?有人觉得背后技术不一样,所以快思考技术发展比慢思考更加成熟,但两者背后都是常见的机器学习算法,产生这种差异的本质问题还是数据。
但现实中,特别是保险业务,数据并没有被很好地管理起来,背后因为几大困难:
第一,数据资产不清晰。保险业务,本身数据来源非常多样,比如财险数据,从健康到车险、从金融到电商,涉及的数据随着保障的内容不断变化。
另外保险的流程也很多,咨询、承保、理赔、服务等,各个环节都会产生结构不同的数据。另外随着互联网化业务的发展,数据来源多样性和复杂度也在加大,从最早的业务数据,到社交分享数据,用户营销数据,甚至可穿戴数据等,结构化程度非常不一样,既包括传统业务数据,也包含图片、声音等客服数据。
首先通过数据去了解“发生了什么”;
另外,处理数据门槛越来越高,以前数据量在小的时候,对于分析的技术没有要求,下载下来,用Excel也可以完成。现在很多公司每天可能要面对几T、甚至几百T的新增数据,如果想对如此大体量的数据进行分析,就需要非常强大的数据处理能力,相应的技术门槛越来越高,造成数据价值困难重重。
众安的数据中台
一般在市场上,数据分析平台的产品都是按照数据处理的流程或者某一数据形态来区分的,比如ETL工具、流数据处理、OLAP引擎、报表系统、机器学习系统等,这是一个十分自然的挖掘数据价值的步骤,但是直接采用这些组件的一个缺点就是数据在衔接流转会变得异常复杂与难于管理,比如权限,上下游变动等等。
这是众安数据中台总体架构,主要分为两大块,应用层和平台工具层:
接下来,我会重点讲下平台层的内容,通过数据管理体系、流通体系、价值体系三个方面,分享众安内部数据中台经验。
另外一种方式是慢思考,需要数年知识积累,花一定时间去思考。例如工作流程中决策、用户增长、用户营销等行为。
数据管理体系第二块是指标字典。
众安在数据质量方面怎么做的呢?
第一,众安作为一家金融公司,首先需要满足监管要求,需要把监管对保险行业的数据要求整理成规则。
第二,注意技术维度规范,例如数据命名是否规范,是否符合技术规范要求。
第三,业务需求层面也需要规范,通过业务需求反推现有数据是否满足要求,比如关键字段是否缺失等。
基于以上三个维度,众安内部已经积累3000多个规则,此外这个规则库还在不断的丰富。
但光建立规则还不够,像众安这样数据体量,人工已经很难判断每条数据情况,还需一个平台去帮助我们每天自动去监控数据的质量??数据质量管理平台。平台会对数据中每张表自动扫描,判断是否符合上面规则库中的3000多条规则,并自动统计和预警哪一张表或哪一事业部出现了数据质量问题。
第四,删除将数据融入到辅助决策。系统可以为业务变化,提供一些趋势分析,适时给业务一些费用调整或预测建议。上线车点通车险业务一站式智慧经营及管控中心,半年时间一线业务人员在车点通内追踪了193个(建议虚化具体数字)目标业务模式,边际成本平均下降建议虚化具体数字
另外,数据质量问题,不光是数据部门的问题,数据部门的主要职责是发现和警示数据问题,但数据产生的源头其实是在业务生产系统中,需要有一个强有力的合作组织去推动数据的治理。
数据洞察平台
数据委员会需要制定一系列公司的规章制度,去保障数据质量问题的治理推进;另外也需要牵头举办定期和不定期的会议,去牵头解决目前难点或者重点数据的问题。
数据质量是一个不断发展,需要不断跟进的问题,具体的解决之道就是,一把尺子(数据质量规则库)、一个平台(数据质量管理平台)、一个组织(数据治理委员会)。
数据管理体系??数据资产盘点(指标字典)
数据管理体系??数据资产盘点(数据地图)
众安数据地图基于众安数据仓库和从各系统获取的的异构数据,分析其中执行关系,做了一个数据管理平台,用一张全景图把每张图血缘关系都罗列出来。
例如AlphaGo下围棋,机器通过慢思考已经可以超越人类,原因在于围棋运动包括棋盘、棋谱等都已经进行很好地数据化。
数据管理体系里面,首先重要就是质量问题,任何人,不管是业务还是技术人员,拿到数据之后思考的第一件事情,肯定是拿到的数据准不准,就需要思考数据质量好与坏,如果数据质量差,就会导致垃圾数据进垃圾产品出,不能给业务提供可靠的支持。
但是以往大家都是按需出发管理报表,接到一个业务需求,把报表做出来,具体意义并没有统一管理,只有做的人知道,一旦这个人离职,或者报表更新迭代、既往报表基本作废。
目前众安把业务、管理层、BI分析师等所有指标都进行统一管理,搭建平台对所有指标进行溯源,发掘哪些表属于基础指标、哪些属于衍生指标、哪些属于计算指标。
把这些指标在系统里面进行完整记录,从名称到定义,再到来源都管理起来。此外指标还可以动态跟报表联动,改变过去报表是报表,指标是指标,两套系统的情况。
众安在做完指标字典之后,可以自动把字典关联到BI分析报表上,业务看报表过程中可以立马查看背后指标顺序定义方式,把指标系统设置成外链,嵌入到报表系统里。
数据管理体系??数据资产盘点(数据超市)
一套流程下来,可以发现现有业务问题;BI分析可以知道问题为什么会发生;通过预测建模可以了解问题还会不会发生;通过优化算法,可以知道这些问题需要什么动作解决。
数据洞察平台和机器学习平台
第二,平台可以提供一些已经开发好的数据服务,别人不需要重复性开发,而且可以统一进行服务扩容、降级、以及多供应商接入,通过简单接口配置就可以将服务接入到新应用场景当中。
而且算法人员写的代码往往达不到生产级别,需要配备相应开发工程师帮助辅助优化。优化包括DOCKER、做镜像、上线做A\Btest,上线之后还需要定期到生产系统中捞数据,整个流程风险点非常多,过程也非常长。
数据服务资产,还需要统一地方进行管理。
现在数据人员积累了很多数据服务、数据接口,各事业部数据团队之间并不相通,可能造成重复对接以及接口数据的孤岛。因此整个体系需要一个平台或工具,把数据服务化统一管理起来,在众安,整套系统叫做“数据超市”这样做主要有几个好处:
众安通过这样一个平台,将管理累计超过5万多张表,涉及万亿级数据量。其中各张表、各个字段之间的血缘关系通过自动化的方式进行监测维护,将原本散落在不同事业部的所有数据都以资产的形式非常低成本地维护起来。
首先是为了解决大数据处理速度问题,千万行数据集在业务中是很常见的现象,报表响应可能需要几分钟或几个小时,对业务分析影响非常大,如果可以达到秒级响应,对整个分析思路都是很好的帮助,也是为什么需要大数据处理能力的原因。
每家公司都会接入大量的数据服务,也会积累很多有价值的数据。数据超市就是数据接口服务的一站式服务平台,通过这个接口平台对接的数据服务,平台也会自动帮助各事业部进行自动分账。从而达到减少接口的重复性开发,也最大化地把存量数据协同利用起来,达到降本提效的目的。
数据流通体系??众相(用户标签系统)
数据流通体系??安全流通
为此,目前众安建立了数据治理委员会,委员会既包括数据部门、也包括业务部门,以及公司的的一些职能部门,比如发展规划部、内审部等。。
使得每天报表需求、数据加工需求,从凌晨开始,在数小时之内就可加工完成,在业务上班之前就可以给到一些移动报表或分析报告支持。
假如A事业部,想利用B事业部的数据,第一个问题就是怎么保障数据安全,整个过程需要大量申请,其他事业部也会用安全理由,拒绝这些数据使用。
另外,我们也支持通过接口的方式,对接各类应用系统。比如,如果我们想进行客户的圈选和投放,可以直接打通数据服务和投放系统,数据不会脱离管控环境。所以说,整个数据加工和消费是在一个受安全管控的闭环环境。
数据流通体系最重要的就是安全,众安数据安全体系主要包括两方面:数据安全分级和集成数据应用。
第三,数据价值挖掘链路较长。例如数据采集,业务系统采集、生成都离不开数据工程师,而数据报表又需要依赖BI同事,价值挖掘由算法同事完成,参与角色非常多、价值链路非常长。
孙谷飞曾在世界人工智能大会上呼吁,“保险公司不仅要丰富自身结构化场景数据,更需要加强保险公司间和其他行业的数据交流。数据开放和隐私安全并非悖论,运用联邦学习技术的数据隔离特性和加密机制,能够有效解决不同公司间数据共享和联合建模问题,解决隐私泄露风险。”
最后总结一下,众安数据中台三大体系??数据管理体系、数据流通体系以及数据价值体系。
第二,加强数据安全管理,我们以集成系统应用的形式,尽量让数据不要出安全的环境。使得数据在封闭的环境中,就能完成数据的消费。数据审批通过之后,并不是把数据下载下来开放使用,如果这样,前面所有安全措施都会形同虚设,众安以集成系统方式提供数据访问,减少不可控的数据分发。
过去数据审批,往往都是前面审批流程非常严,拿到审批批准之后,数据流通就会变得非常不可控,如果员工主动或者无意操控失误,就一定会造成数据流失,需要保证所有数据都在可控环境之内。
这种可控主要分为几类:
第一,单纯数据服务,可以通过集成数据服务,利用“数据超市”进行发布。例如客服想选择一部分经授权的用户群体进行营销,就可以在名单不出系统的情况下,通过加密等技术,直接由系统数据服务打通营销系统。
第二,如果仅仅拿一份数据做报表,可以在数据不出系统的情况下,建立分析建模可视化环境,而不需要把数据直接导出去。
众安2019年我们就承保了70亿张保单,我们如何串联这些保单数据?这些保单数据属于不同产品和不同的险种。其实无论险企内部车险、健康险等各个部门,真正需要流通的就是用户数据,现在互联网化就是从以往产品为中心,转化成用户为中心。
保证用户数据的流通,就要建立用户标签系统,这个用户标签系统主要包括几件事:
第一,从用户层次把不同事业部的用户数据打通,从用户层面把整个公司的操作行为,购买行为打通,沉淀成标签,目前众安内部已经有1000多个标签。我们支持离线和实时标签的圈选,并且能立马得出客户的洞察分析,从而支撑我们基于用户的业务交叉营销和联合风控。
第二,交叉风控。这部分众安也有很好的案例,例如在信用保证保险和健康险之间进行风控,当金融事业部出现一些逾期的客户,又突然来买非常高额的健康险、意外险,这就可能存在欺诈风险。通过类似这样交叉风控手段,每年减少的损失可以达到近千万。
第三,通过用户标签打通客户数据,众安将包括在线、电话、APP、短信等全渠道客户营销数据打通之后,可以做到实时感知,触达用户之前,就可以知道有什么样的诉求。比如在线客服这边,客户问你一个问题,客户又从电话渠道过来的时候,众安能立刻知道他买了什么保单,之前有什么问题,从而可以整体提升服务质量。
主要因为近两年大家都在谈大数据、AI,而其中比较成功的AI应用都属于快思考范畴,比如人脸识别和语音识别等
这是众安内部众相用户关系系统,可以从用户信息、保险行为、行为偏好、资产状况等标签维度对用户进行刻画,在营销或风控之前,就可以通过标签找到相应客户。
数据价值体系??价值路径
图中所示,这是典型的数据价值的挖掘路径,包括从源数据、清洗报表、到OLAP分析、BI机器建模,最终人工智能优化。基本上分为四个步骤点,
这是众安内部主推的可视化系统案例。这个车点通可视化系统,主要有四点好处:
这套平台的最大优势就是在一个平台中囊括了数据从数仓到分析产出结果的所有步骤,数据开发、数据分析师、数据科学家在一个统一的平台上对于数据进行加工、分析、建模、可视化。具体来说,集智平台分为2个模块,数据洞察平台与机器学习平台。
数据中台是什么?他不是单一的系统或平台,实际是一整套管理体系。每家公司进行数据中台建设的时候,也都有不一样的矩阵选择,但本质上都符合一个逻辑,怎样最大化把数据资产管理起来,让数据更好流通,让数据发挥价值。
第二,通过数据的分析和洞察,多维分析,就了解“为什么会发生”;
第三,借助算法的力量,如何在未来帮助我们去预测和做提前预警,做到了解“什么时候回发生”;
有了机器学习平台之后,算法工程师可以直接在数据应用空间中获取数据,平台自动帮助分配DOCKER资源,保证DOCKER资源最终上线后的一致性,同时保证模型测试阶段和模型上线阶段环境以及数据的一致性。
第二,数据孤岛问题。每家公司壮大之后,都可能出现各部门之间数据成烟囱式发展。数据孤岛产生之后,就会忽略数据流通建设。
另一方面,开源社区虽然推出了许多优秀的项目,但是百家争鸣,连一个OLAP分析引擎可能就有若干个,各有特色,没有“silver bullet”(银弹)。
对于众安来说,我们基于开源优秀的组件以及我们在互联网保险与金融科技的最佳实践,自研了一套覆盖整个数据价值挖掘链路的分析平台:集智平台。
数据中台这两年非常火,我今天跟大家分享下我们对这个概念的理解,以及数据中台在众安的实际落地经验,在众安我们是如何保障数据管理、加速数据流通,促进数据价值挖掘。 数据洞察平台主要解决发生什么、为什么发生这两件事情。 传统数据都是看报表,众安已经有这么多报表平台的情况下,为什么还要做数据洞察平台? 业务一般看数据主要是关键指标,所以指标定义对整个数据管理非常重要。 传统路径需要数据人员和算法工程师先去数仓中找到数据,再编辑到Python环境下运行。经过一系列建模工作之后,再进行封装。 此外,现在大数据平台越来越多,隔几个月就会出现一个新的大数据平台,使用门槛越来越高,他们的使用方,业务或BI很难理解大数据平台本身的复杂性,造成使用屏障,需要有一个平台把所有复杂性都封装起来。 数据洞察平台是众安数据分析的基础工具。其最主要的功能有3点。 第一,洞察平台是一个对数据分析师透明的数据查询加速引擎,分析师可以自助式地将数据导入洞察平台,对于亿级的数据进行即席的查询与多维下钻,在技术上我们针对不同的数据形态,采用了不同的数据加速引擎,做了一个可插拔式的架构,可以很快地适应新的开源工具而不需要改造上游数据消费的应用。 如果没有对指标字典进行准确定义,就一定会导致管理层次、业务层次,每个人对业务出现不同解释和定义,指标如果不能统一,报表也就没有任何价值。 第二,我们在洞察平台同时支持了流处理与批处理,并且抽象出了统一的数据模型层,对于分析师来说,不论是近1分钟的数据还是平均30天的数据,都可以在一个模型里进行可视化或者分析。 数据管理体系里,第二大内容就是数据资产盘点。 第三,洞察平台也是一个可视化的系统,可以非常高效地搭建出各种大屏、报表与移动端应用,与业务系统非常简单地进行对接与嵌入。 数据洞察平台也是一个可视化的系统。 数据除了辅助提供决策价值以外,还要让业务看到数据。现在业务对数据的需求变得越来越多,搭建这些可视化、实时、离线报表,需要把大型报表嵌入到系统里面,让业务决策可以立马获得数据支持。 现在很少有业务打开报表系统看数据,报表都是BI分析师在看,业务更加关心操纵系统怎样进行业务操作,需要把报表嵌入到他的业务系统当中。 第一,增加数据可视化程度。不同角色可以通过系统实时看到自己现在保费收入、业务指标、每生成一张保单,数据就会发生变化,所有系统都是移动端,可以做到完全脱离以前报表系统,打开手机查看。 这样的实时展示可以让车险业务部使用人数得到很大扩展,覆盖率达到97%,每天业务看数据的次数也大范围增加,以前一天看一次,现在次数可以增加4次以上。 第二,支持业务多维度实时透视。在全量数据上如何进行任意维度的查询在一般的离线数仓中是很难做到的,往往需要业务重复地提出取数需求。在车点通,业务可以自主地进行透视,这里面整个流程最重要的就是大数据引擎支持,如果一个维度就需要几分钟,就会严重影响用户使用积极性。 第三,把数据问题融入到运营当中。在车点通中,系统会自动把相关问题发送给相关负责人,按照时间点把所有问题变化、改进情况发送给业务进行比较。系统可以对每个问题进行追踪,避免出现遗漏、没有解决的情况。 应用层主要包含两大方向,1.如何利用技术去帮助业务自动化、降低人力依赖,比如智能客服、自动核身等;2.如何利用数据去帮助业务去实时洞悉业务进展、并提供关键决策支持,BI、异常监控、用户画像等等。 第二,把建模数据和算法过程保存下来。以往数据资产可能只有数据表,随着算法模型应用和落地越来越多,模型资产也非常重要。包括用了什么算法,使用什么样数据,整个机器学习平台可以起到快速上线和管理模型的作用。 流通的最大困难是什么? 整套流程可以使业务部门通过数据更加了解业务,进行多维度技术分析,通过数据沟通帮助解决业务问题。 消息,近日,「医健AI掘金志」邀请众安保险智能中心负责人孙谷飞,以“数据中台赋能未来保险生态”为题,对险企内部数据管理、流通、价值挖掘技术逻辑进行了解析。 集智平台秉持着BI与AI同一个系统的理念,当我们从数据中知道了历史的状况,我们很自然地就想知道未来的情况并相对应地进行策略地改变,为此众安搭建了机器学习平台。 搭建高效可视化系统 这个平台主要让机器学习模型落地更加简单。 最后,借助机器学习等算法,帮助我们做到优化,告诉我们“什么是最佳决策”。 第一,确保可以统一查询,降低成本。例如在安全合规的情况下,事业部可以直接利用其他部门已对接的数据接口,这就不需要重复采购、重复调用,大大降低外部数据接口调用成本。 一套模型从训练到上线,往往需要数据工程师、算法人员、数据开发工程师至少三个角色,约两周时间。
在整个过程中,平台主要解决几个问题:
第一,帮助算法工程师快速申请资源,快速进行服务化,快速上线,进行数据回流,弥补算法工程师与应用工程师的开发鸿沟;
第一,把已有数据表和数据资产按照监管以及公司的规范,进行安全分级。目前众安有几万张表,每一张表根据数据敏感程度都进行分级,可以分为内部公开或不公开,外部公开不公开等等,根据数据安全等级在权限管理、数据访问,下载也可以进行相应OA流程制定,保证敏感数据进行严格流程审批,安全等级清晰,最大化缩小审批流程路径。
众安在数据安全方面,主要做了两件事情:
- 上一篇: 寻找工业AI『独角兽』的发源地
- 下一篇: 大数医达林?煜:「电子病历+NLP」的实战经验全复盘