张冬梅:“数据淘金”之道

(本文浏览时光:7分钟)

编者按:近日,在 微软亚洲研究院第三届立异论坛上,各成员企业与微软亚洲研究院的计算机科学家们合营就 AI+ 行业的落地开展了一场跨越空间的思惟碰撞。在论坛上, 微软亚洲研究院副院长张冬梅博士做了题为 《从数据处理到数据淘金》的主题演讲,分享了数据淘金的几大年夜原则,以及她在研 究过程中的感触与领会。本文是演讲的文字精简版。

▲ 微软亚洲研究院副院长 张冬梅博士

今天我的演讲主题是 “从数据处理到数据淘金”,这个中的重点是数据淘金,也就是从数据中发明价值,并且要在实际营业中表现价值,如许才是真正淘到了“金子”。其实,“淘金”的别的一种说法就是在实践傍边,我们怎么去践行数据驱动的理念。今天我将跟大年夜家重要分享 三个原则,这不仅是我们多年研究和实践的领会,也是学界业界同业交换中的合营感触感染。

重要性原则

都知道数据很重要,但看重程度仍有不合

所谓重要性原则,是指数据以及从数据中获取价值的才能是异常重要的计谋资产。该原则看似显而易见,但深刻懂得却并非易事。

我们先来看一个信用卡行业的例子。在上世纪八十年代以前,断定花费者是否会违约都是经由过程手工评估完成的。在八十年代今后,专业人员应用数据建立了关于违约的概率模型,如许一方面进步了评估的精确性,另一方面扩大年夜了评估的范围。这两个变更给花费者信用行业带来了根本性的改变。可是在改变之后,那个年代的信用卡根本上是同一订价的。个中的原因之一是信用卡公司还没有足够强大年夜的信息体系来支撑大年夜范围的价格定制化办事。

九十年代,美国十大年夜信用卡中间之一的 Capital One 公司开创人 Richard Fairbank 和 Nigel Morris 灵敏地意识到,应用当时的信息技巧已经可以处理加倍复杂的猜测模型,从而使银行可以向本身的客户供给信用卡方面的定制化办事,例如不合的定制价格、不合的嘉奖积分以及不合的信用额度等等。随后,他们与各大年夜银行分享了这个设法主意,欲望有机会将设法主意付诸实践。遗憾的是,当时没有大年夜银行愿意测验测验。最后,只有一家区域性的小银行 Signet 接收了他们的设法主意。

Richard Fairbank 和 Nigel Morris 还面对着一个问题:因为银行以前对于所有的顾客一向是同一订价,所以没有汗青数据可以用来建立他们两人认为须要的模型。于是他们决定投资去收集这种数据。两人开端随机向客户发放信用卡,而这导致最初几年 Signet 的违约金额从2.9%上升到了6%。几年之后,柳暗花明,Fairbank 和 Morris 的尽力获得了成功,并使得这个信用卡部分从 Signet 分别出来零丁运行,成长为今天我们所熟知的,在全球拥有跨越48000名员工,年收入280亿美金的 Capital One。

从这个例子中,我们可以看到重要性原则的两个关键点:

一是,数据。我们所须要的数据今朝可能并不存在,所以我们须要投资去收集数据,这个过程可能很漫长,须要耐烦,也须要投入,并且可能是很高的投入。

二是,人才。Richard Fairbank 和 Nigel Morris 就是人才。在 Capital One 的案例中,当时数据已经被用来猜测花费者违约的可能性了,应用已稀有据持续改进这个猜测模型也是有意义的工作。可是,Fairbank 和 Morris 并没有如许做,他们对花费者信用卡行业有着深刻地思虑,对数据也有深刻的思虑和熟悉,从而发清楚明了颠覆性的立异机会。

价值性原则:必须以成果为导向

无论是数据科学项目,照样数据智能项目,所有的成果和产出都必须有价值。这些价值表如今两个方面:

1. Insightful,洞察性。成果可所以之前未知的,也可所以之前模糊地知道但没稀有据支撑的,亦或是之前只有浅层次的懂得,知其然不知其所以然的。

2. Actionable,可行性。成果要可以或许对制订出具体行动办法有赞助,可以或许去改变近况。不然,它的价值就会大年夜打扣头。

体系性原则:价值发掘,有章可循

体系性原则就是若何从数据中发掘出价值。它是有章可循的,要遵守一个体系性的,且各阶段定义相对明白的流程。这个流程叫 CRISP Data Mining Process,是一个跨行业的数据发掘标准。CRISP 在1999年由一个有5个公司构成的联盟提出,它不绑定于任何行业、对象以及具体应用。这个抽象的特质使得 CRISP 是迄今为止在工业界应用最广泛的实践数据驱动(data-driven)的指导原则。

流程的六个步调分别是:

步调一: Business Understanding,营业懂得。

“营业懂得” 就是必定要明白所要解决的问题到底是什么。这看起来似乎很显然、很简单,但在实践中开端做一个项目标时刻,很少能碰到一个定义明白的机械进修问题,既没有歧义也没有差距,立时就可以开端建模。为了更好地舆解营业,我们须要思虑几个问题:我们毕竟要实现什么目标,我们的用户场景是什么,我们具体要如何做,有什么样的要乞降限制,在全部问题中有哪些部分可以用机械进修或是数据发掘的办法去解决?

除此之外,我们还要留意几点:一是对营业的懂得往往不是一蹴而就的,它可能是个循序渐进的迭代过程,这在 CRISP 流程中也是有表现的。二是数据分析团队必定要和营业团队慎密合作,深刻懂得营业目标和痛点,不要自认为是,凭空假造。

步调二: Data Understanding,数据懂得。

在讲数据懂得之前,我要强调和数据相干的每一个步调,包含收集、处理、应用等等,都必须合规。对数据价值的发掘必定要建立在合规的基本上。

数据懂得这一步共有六个方面:

a) Relevance,相干性。即已稀有据和要解决的问题到底有关系照样没紧要,有若干关系,有如何的关系。

b) Completeness,完全性。多问为什么,懂得全部营业蓝图是否获取了所能拿到的所稀有据?是否还有之前没有想到的数据也可以拿来应用?不 要只局限于已有的数据,要从更大年夜的范围去思虑

c) Reliability,靠得住性。数据中可能存在很大年夜的噪声,不必定全部靠得住。例如,市场调研中在用户反馈时,有的用户填得很卖力,有的只是随便填填,这就会造成反馈的信息傍边有很多噪声,须要经由处理才能应用。

d) Collation,是把不合来源的数据整合到一路。比如企业中有客户数据、有交易数据、有市场反馈数据等等。假如把这些数据整合到一路,就可以获得深层次的用户与商品之间的关系。在这里,collation 实际上提出的就是避免数据孤岛的问题,强调了 企业中的各个组织在数据方面必定要合作共享

e) Cost,关于投入。在这个阶段,我们要评估每一个数据源的成本和它的效益,从而决定是否要持续投资,获取更多质量更高的数据。

f) Availability,即有没有可用的数据。这个问题看似简单,但实际中因为场景不合,所以“有没稀有据”的谜底可能截然不合。举个例子,在信用卡讹诈的检测傍边,假如用户在本身的账单上看到了她没有买过的商品,她会向信用卡公司进行申报,那么响应的交易就会被标记为讹诈。也就是说信用卡公司有关信用卡讹诈的数据是被天然标注好的,并且质量很高,因为在这个场景中存在好处诉求完全相反的两个群体。我们再来思虑一下医保讹诈的场景。为了防止医保讹诈,我们同样要建立猜测模型,可是这个情况下我们并没有标记数据,因为我们不知道哪些是正常的花费,哪些是夸大年夜或者虚报的费用。造成这个问题的原因是在医保过程中,不存在好处相反的群体,骗保人可能是合法医疗办事供给商的一小部分,或者可能是合法应用医保体系的一小部分患者。

步调三:Data Preparation,数据处理及预备。

这个步调的目标是把数据进行加工处理为下一步建模做预备。常见的处理办法包含同一数据格局、处理缺掉数据、给数据去噪声、转换数据格局,以及汇总、标准化等等。

步调四:Modeling,建模。

建模是数据分析中一个关键的步调。下图是我列出的一些常见的数据发掘义务。建模平日由富有经验的数据分析师、数据科学家,或者机械进修专业人员完成。

步调五: Evaluation,严格和严谨的评测。

评测在 CRISP 流程中至关重要。我们在做评测的时刻要留意以下几个要点:

第一, 评测要严格、严谨。在机械进修和数据发掘中有很多成熟的评测办法和准则,这些可以构成我们对模型评测的基本。

第二,评测阶段供给了 一个很好的机会让我们再次核阅我们的解决筹划,看看它到底能不克不及很好地解决我们所面对的营业问题。在实践中我们经常会看到,模型的线下评测成果很好,但安排后却对营业问题赞助不大年夜。这个时刻我们一方面要反思对营业问题的懂得,另一方面要查看评测指标是否恰当,是否在机械进修的常用评测办法之外,还须要定义和营业问题密切相干的评测指标。

第三,我们 要对解决筹划安排后在临盆情况中可能产生的影响有精确的预期和预案。例如,假如我们的筹划掉败了怎么办?会引起什么样的后果?会对营业造成什么样的影响?我们有没有预案去控制影响的范围并且尽快调剂筹划以便快速恢复从新运行?作为营业负责人,这些问题都是必须思虑和追问的。在决定是不是安排数据驱动的解决筹划时,找到这些问题的谜底就是精确决定计划的基本。

步调六:Deployment,安排。

安排的方法千差万别,有的安排方法异常简单,贴个公告就好;有的安排方法异常复杂,须要修改筹划、方针、政策等。假如是后者,那就可能牵扯到成本问题,因为做这些工作的时刻,只稀有据分析的团队是不可的,还须要具稀有据处理常识的优良工程人员一路合作,才能把安排做好。

对于全部闭环流程下的体系性原则,我们再次强调 迭代、迭代再迭代

最后,再回到数据淘金,这四个字本身与三个原则其实可以一一对应。“数据”反应了重要性原则;“金”表现的是价值性原则,告诉我们什么是金子;“淘”则表现了体系性原则。欲望这些原则可以赞助到大年夜家,在实际的工作中从数据里淘到真金,实现价值。

*参考文献

[1] Data Science for Business, Foster Provost and Tom Fawcett, July 2013, first edition.

[2] Software Analytics in Practice, Dongmei Zhang, Shi Han, Yingnong Dang, Jian-Guang Lou, Haidong Zhang, Tao Xie, IEEE Software 30(5):30-37, September 2013.