第 1 章 绪论:数据分析式思维

第 1 章  绪论:数据分析式思维

不要做渺小的梦,因为它们没有撼动人心的力量。

——歌德

在过去的十五年中,各企业在商业基础设施上大量投入,因此具备了更好的数据收集能力。如今,几乎每个商业环节都可以收集数据,有些环节甚至装备了专供数据收集之用的设备,比如运营管理、生产制造、供应链管理、用户行为、市场营销和工作流管理等环节。与此同时,外部数据,如市场趋势、业界新闻和竞争对手的一举一动等,可以通过互联网获得。在此背景下,人们自然更有兴趣从丰富的数据中获取有用的信息和知识——这恰好就是“数据科学”所特指的领域。

1.1 数据机遇无处不在

当大量的数据触手可及时,几乎各行各业的公司都关注通过数据开发来获得竞争优势。过去,公司可以聘用统计学家、建模工程师和分析师,组队对数据进行人工分析。然而,当今的数据量和复杂度已远远超出人工分析的能力范围。与此同时,随着计算机和互联网的普及以及其算力的增强,覆盖多种数据集的分析方法和挖掘算法不断被开发出来,使得数据分析的深度和广度达到了前所未有的程度。这些现象的集中出现,使得数据科学原理和数据挖掘技术在商业领域的应用变得越来越广泛。

数据挖掘技术最常见的应用是在营销领域,尤其是在目标市场营销、线上广告和交叉销售的推荐系统中。一般客户关系管理系统使用数据挖掘技术来分析客户行为,以提高客户留存率和最大化客户价值。金融业使用数据挖掘技术来进行信用评分和量化交易,并在运营中用它检测欺诈行为和优化生产资源。亚马逊和沃尔玛等大型零售商在其经营的各个环节——从市场营销到供应链管理——都使用了数据挖掘技术。很多公司由于战略性地应用了数据科学,因而在市场中崭露头角,有的甚至变成了数据挖掘公司。

本书的首要目标是帮助读者从数据的角度看待商业问题,并从原理上理解如何从数据中获取有用的信息和知识(即建立数据分析式思维)。数据分析式思维包含一个基础架构和一套基本原理,理解它们至关重要。诚然,解决某些具体问题时,人们需要具备直觉、创意、常识以及领域知识。但数据视角可以提供一个基于上述架构和原理的框架,来系统地分析这些问题。这样,你在逐渐熟悉这种数据分析式思维之后,就会自然地培养出一种直觉,懂得在何处以何种方式运用你的创意和领域知识(这样的好处显而易见,因为宝贵的创意和知识需要用在最需要的地方)。

本书的第 1 章和第 2 章将详细讨论与数据科学和数据挖掘相关的多个话题和技术。本书会频繁使用“数据科学”和“数据挖掘”这两个术语,两者在很多情况下是可以混用的,不过“数据科学”这个字眼在各种以获利为目的的炒作中已经失去了它本来的意义。严格地说,“数据科学”是一套指导人们从数据中获取知识的基本原理,而“数据挖掘”则是将这些原理以具体技术的形式实现并从数据中获取知识的过程。作为术语,“数据科学”比传统意义上的“数据挖掘”涵盖的范围更广,而后者则对前者的原理进行了最清晰的阐释。

 即使你没有任何亲自应用数据科学的打算,理解数据科学也是至关重要的

这是因为数据分析式思维可以帮助你评估与数据挖掘有关的商业提案。譬如当你的一位员工、一位咨询师或者一个潜在的投资对象提议通过对数据进行分析和挖掘来改善某一商业环节时,你应该有能力系统地评估该提案,判断它是否可行。当然,这并不意味着让你判断它是否一定会成功,因为“尝试”是数据挖掘项目的家常便饭,不成功的风险总是存在。但是至少你应该有能力发现一个提案是否存在明显的缺陷、不现实的假设或者缺失的环节。

本书将介绍大量的数据科学基础原理,同时每一条原理都会通过列举至少一项应用了该原理的数据挖掘技术来解释。由于每一条原理都会对应多项技术,因此本书把重点放在原理解释而非具体技术应用上。换言之,除非对理解概念有关键作用,否则本书不会大费周章地区分“数据科学”和“数据挖掘”这两个概念。

让我们来看两个通过分析数据发现预测性模式的简单案例。

1.2 案例:飓风Frances

2004 年,《纽约时报》刊登了这样一则报道:

飓风 Frances 正快速穿越加勒比海,并将直击佛罗里达洲东海岸地区。当地居民忙着前往海拔较高的地方避灾,而远在阿肯色州本顿维尔市的沃尔玛管理层却把这场灾害视为一个绝佳的机会,并计划借此展示他们最新的数据驱动法宝——预测技术。

飓风登陆前一周,沃尔玛首席信息官 Linda M. Dillman 让员工们根据数周前飓风 Charley 袭击的影响设计并开发出一套预测系统。依靠沃尔玛数据库中数万亿字节的客户消费记录数据,Linda 认为公司可以“化被动为主动,预测会发生什么事,而不是等着事情发生”。(Hays, 2004)

现在,思考一下,为什么数据驱动型预测在这种情况下能够派上用场。它也许能预测出飓风路线上的居民会需要更多的瓶装水。可这太显而易见了吧?即使不使用数据科学,我们也能知道。也许它能计算出飓风引起的瓶装水销售增量,进而保障飓风路线上的沃尔玛店有不多不少的库存。也许通过挖掘数据,可以发现在飓风路线上的沃尔玛商店里,某种 DVD 脱销了。但是有可能在那一周内,该 DVD 在全国所有的沃尔玛商店里都脱销了,而非仅限于那些飓风经过的沃尔玛店。数据驱动型预测或许多少有些作用,但是它的应用范围很可能比 Linda M. Dillman 最初计划的要更加广泛。

更有价值的是,数据驱动型预测可以用来发现在飓风影响下产生的隐含模式。为了做到这一点,分析师可能需要分析沃尔玛在相似情况下(比如数周前飓风 Charley 登陆期间)的海量数据,从中识别出当地不同寻常的产品需求。通过这样的一些模式,沃尔玛就能在飓风登陆之前预测到特殊的产品需求,并迅速补充相应库存。

实际上,这种情况真的发生了。《纽约时报》写道:“……专家在挖掘数据之后发现,除了那些常规的应急物资,某些特定商品的销量出人意料地增加了。‘我们之前从没想到,飓风到来前,草莓馅饼的销量会涨到平时的 7 倍!’Dillman 在采访中透露,‘而且销售冠军居然是啤酒。’”1

1当然啦,冰镇啤酒和草莓馅饼更配哦!

1.3 案例:预测用户流失

这类数据分析的效果如何?现在再来看一个更典型的商业案例,并审视该如何从数据视角思考商业问题。这个案例将在本书中反复出现,我们把它作为一个通用的参考例子,以便更好地阐明本书中的一些问题。

假设你刚在美国最大的一家电信公司 MegaTelCo 找到一份不错的分析师工作,然而公司目前正面临着严峻的无线业务用户流失问题。比如在美国东海岸中部,20% 的手机用户在合约到期后选择不再续约,而获得新用户却变得越来越艰难。由于手机市场已经饱和,因而曾经呈井喷式增长的无线业务如今也已势微。各家电信公司正在为了争夺对方的用户和留存自己的老用户斗得头破血流。“用户流失”是指用户未能留存在一个公司而转移至对手公司的情形。这种情形背后的代价是巨大的:用户转入的公司需要花大价钱才能吸引用户,而失去用户的公司也会损失收益。

分析并解决上述难题,就是你需要做的工作。因为吸引新用户比留存老用户的成本高得多,所以大部分预算应该用于留存老用户。市场部门已经制订了一份给留存用户的优惠方案,你的工作就是设计出一份精确、具体的计划,告诉数据部门如何依靠 MegaTelCo 庞大的数据资源,找出哪些用户最应该得到上述优惠,从而有效地防止这些用户在合约到期后流失。

仔细想想:你会用到什么数据?又该怎么运用这些数据?尤其是在留存用户的奖励方案的预算已经确定的条件下,如何挑选一批特定用户,才能使公司的用户流失率达到最低?实际上,这个问题比看上去难得多。这个案例会在本书中被反复讨论,并且,随着你对数据科学的理解逐步加深,本书对这个问题的解答也会逐步深入。

 现实中,用户留存是数据挖掘技术的主要应用方向之一,尤其是在电信业和金融业。这些行业通常也是使用数据挖掘技术最早和最广泛的,之后本书会讨论其原因。

1.4 数据科学、数据工程和数据驱动型决策

数据科学涉及从数据的自动化分析结果中理解现象的原理、过程和技巧。在商业领域,人们最关注的是如何改进决策过程,这也是数据科学的终极目标。因此,本书将侧重于讲解这一点。

图 1-1 把数据科学置于组织中其他过程之间,这些过程与数据相关且联系密切。该图将数据科学同其他在商业中日渐受到关注的数据处理过程区分开来。让我们从图中的最上部开始讨论。

图 1-1:组织中的各个数据处理过程如何运用数据科学

数据驱动型决策(data-driven decision-making,DDD)指的是基于数据分析做出决策,而非仅凭直觉。比如,一位市场营销人员既可以凭多年的从业经验和一双火眼金睛选出最优的一支广告,也可以通过分析顾客对不同广告的反应数据来做决策,还可以把这两种方法结合起来。运用 DDD 不需要在完全依赖它和彻底不用它之间做选择,不同的公司可以不同程度地运用它。

DDD 的优势毋庸置疑。经济学家 Erik Brynjolfsson 及其在麻省理工学院和宾夕法尼亚大学沃顿商学院的同事进行了一项关于 DDD 如何影响公司绩效的研究(Brynjolfsson, Hitt & Kim, 2011)。他们开发出了一种评分方法,用于评估整个公司的 DDD 程度。统计研究表明,公司 DDD 程度越高,其生产力就越高——即使在控制了其他众多可能的混淆因素后,结论也是如此。而且 DDD 的影响不容小觑:得分每增加一个标准差,公司的生产力就相应提高 4%~6%。此外,DDD 不但与资产收益率、股本回报率、资产利用率和公司市值正相关,而且可能与它们存在因果关系。

本书主要关注两类决策:需要从数据中找到“新发现”的决策,以及将会重复做出的决策(特别是大规模重复的决策)。这样一来,即便数据分析仅仅略微地提升了决策的准确度,也能使决策效果得到很大提升。前文提到的沃尔玛案例属于第一类决策:Linda M. Dillman 想发现新知识以帮助沃尔玛做好准备,应对即将来临的飓风 Frances。

2012 年,沃尔玛的竞争对手 Target 百货也因为一次第一类决策而受到了媒体关注(Duhigg, 2012)。和大多数零售商一样,Target 关心顾客的消费习惯、消费动机和影响顾客消费的因素。顾客通常会产生消费惯性,这种惯性很难改变。但是,Target 的决策者们知道,当顾客们的家庭迎来新生儿时,他们的消费习惯就会发生显著变化。Target 的分析师说:“只要能让顾客从我们这里购买尿不湿,他们就会开始从这儿买各种其他商品。”大部分零售商深谙此道,于是他们相互竞争,以期把自己的母婴用品卖给新生儿父母。由于大部分新生儿记录是公开的,因此零售商会基于这些信息针对新生儿父母进行促销。

然而,Target 想在这场竞争中快人一步。他们想预测顾客是否怀孕了,如果预测成功,那么他们就可以赶在竞争对手之前给目标顾客发送母婴用品的促销信息。Target 运用数据科学技术分析了准妈妈们被确认怀孕之前的历史数据,并提取出了能够预测哪位顾客正在怀孕的信息,比如,准妈妈们往往会改变饮食习惯、穿衣风格和维生素摄入方案等。以上种种迹象被从历史数据中提取出来,整合成预测模型,然后应用于市场营销活动。随着内容的深入,本书会详细讨论预测模型。目前你只需要知道,预测模型可以将复杂的世界抽象化、简单化,只关注一系列与我们所关心的问题(比如哪些顾客会流失、哪些顾客会购买、哪些顾客怀孕了等)相关的因素。重要的是,在沃尔玛和 Target 的案例中,数据分析不是为了验证某一假设。相反,分析师探索数据,是为了发现有用的信息。2

2Target 的成功案例也引发了关于使用数据科学技术的伦理问题的讨论。伦理和隐私固然有趣且重要,但是它们目前不在我们的讨论范围之内。

前文的用户流失案例则属于第二类决策。MegaTelCo 有数亿用户,其中的每一个人都有流失的风险。每个月都有数千万的用户合约到期,因此他们当中的任何一位在近期流失的概率都会不断增加。如果能开发出更加精确的估计方法,可以估计出挽留一位特定用户所带来的收益,那么就可以将其应用到千万级的用户群上,从而收获巨额利润。该思路同样适用于其他大量应用数据科学和数据挖掘技术的领域,如直接营销、线上广告、信用评估、金融交易、服务台管理、欺诈检测、检索排名、产品推荐等。

图 1-1 表明,数据科学既支撑着 DDD,也与之部分重合。这指出了一个往往被忽略的事实,即企业越来越多地使用计算机系统进行自动化决策。不同行业使用自动化决策的程度不同。金融业和通信业是较早使用 DDD 的领域,主要原因是它们的数据网络和大规模计算早已成熟,从而实现了大规模的数据聚合和数据建模,以及模型成果在决策中的应用。

20 世纪 90 年代,自动化决策给银行业和消费信贷业带来了巨变,银行和电信公司应用大规模系统来管理以数据驱动的反欺诈决策。随着零售业的信息化程度越来越高,销售决策也越来越自动化。著名的案例有 Harrah's 赌场的积分项目,以及亚马逊和 Netflix 的自动推荐系统。此时,广告业正经历着一场变革,这主要是因为消费者上网的时间越来越长,以及在线系统瞬间做出广告决策的能力得到了极大提升。

1.5 数据处理和“大数据”

在此有必要谈一下另一点:数据处理过程的许多方面并不属于数据科学。这可能和我们从媒体中得到的印象有些出入。数据工程和数据处理过程都是数据科学中至关重要的支撑,但它们更宽泛。比如,当下很多数据处理技能、系统和技术都被误称为数据科学。要想正确理解数据科学和数据驱动型业务,就必须先理解数据科学与数据工程及数据处理技术的差异。数据科学需要使用数据,它通常得益于基于各种数据处理技术的复杂的数据工程,但这些技术本身并不等同于数据科学。正如图 1-1 所示,这些技术支撑着数据科学,但除此之外,它们的用途还有很多。数据处理技术对于许多面向数据但是与知识获取或 DDD 无关的业务至关重要,例如高效的交易处理、现代 Web 系统处理和线上广告营销管理等。

“大数据”技术(如 Hadoop、HBase 和 MongoDB)最近深受媒体青睐。大数据其实指的是大型数据集,因其过于庞大而无法使用传统的数据处理系统,所以新的处理技术应运而生。和传统技术一样,大数据技术的应用领域也十分广泛,其中包括数据工程。有时,大数据技术也会被用于实现数据挖掘技术。而图 1-1 表明,大名鼎鼎的大数据技术更常用于数据处理,以支撑数据挖掘及其他数据科学行为。

前文提到,Brynjolfsson 的研究展示了 DDD 的优势,而纽约大学斯特恩商学院的经济学家 Prasanna Tambe 进行的另一项研究,则衡量了大数据技术对公司的帮助程度(Tambe, 2012)。在控制了许多可能的混淆因素后,他发现大数据技术的应用程度与显著的额外产出增长相关。具体来说,大数据技术的应用程度每增加一个标准差,公司的生产力就提高 1%~3%;每减少一个标准差,生产力就降低 1%~3%。也就是说,对于两家大数据技术应用程度分别处于两个极端的公司而言,它们的生产力存在天壤之别。

1.6 从大数据1.0到大数据2.0

如果想更好地理解大数据技术的现状,可以类比互联网技术在商业领域的应用过程。在 Web 1.0 时代,各企业想在互联网世界占据一席之地、打造电商业务和提升运营效率,因此忙着采用基本的互联网技术。我们可以认为目前正是大数据 1.0 时代。各个企业正为了支撑他们目前的运营(如提升效率),而忙着获取大数据处理能力。

一旦完全吸收了 Web 1.0 技术(基础技术的费用也在这个过程中降低了),各个企业就会变得目光长远,开始思考互联网还能做什么,以及如何利用它改进他们的工作。自此,我们便迈进了 Web 2.0 时代:新系统和新公司开始利用互联网的交互性来获益。这种思维转变带来的变化无处不在,最明显的现象就是各种社交网络功能的合并,以及个人客户(和公民)的意见变得越来越难以忽视。

大数据 1.0 时代之后,大数据 2.0 时代指日可待。一旦各个公司能灵活处理大量数据,他们就会想知道:“有什么以前做不到的事我们现在能做到了?有什么事现在可以做得比以前好了?”这时很可能就是数据科学的黄金时代。届时,本书介绍的原理和技术可能会得到更深、更广泛的应用。

 值得一提的是,一些走在技术前沿的公司在 Web 1.0 时代就早已先于主流应用 Web 2.0 时代的概念了。亚马逊就是极好的例子。该公司早期就注重顾客的意见,并根据这些意见进行产品评级和产品评价(甚至对产品评价进行评级)。同样,可以看到,现在已经有一些企业在应用大数据 2.0 了。比如,亚马逊这回再一次走在了技术的前沿,基于海量数据为其顾客提供数据驱动的商品推荐。还有很多其他的例子。线上广告商不仅需要处理体量极其庞大的数据(每天数十亿的广告曝光量是常事),还得维持极高的货流量(如实时拍卖系统往往几十毫秒之内就会给出结果)。我们应该留意这些行业和其他类似的行业,并从中找出大数据和数据科学进步的迹象,因为这些进步随后必将被应用于其他产业中。

1.7 数据与数据科学能力:一种战略性资产

前几节提出了数据科学的一个基本概念:从数据中获取有用知识的能力和数据本身,都应被视作关键的战略性资产。太多企业认为数据分析主要就是从现存数据中发现价值,而往往忽视了企业自身是否有足够的分析能力。而将数据和分析能力都视作战略性资产,就能清醒地认识到该对它们投入多少。我们经常缺乏合适的数据来进行最优决策,或缺乏运用数据进行最优决策的能力,或这两种情况并存。进一步讲,把它们视作战略性资产,还能让我们明白一个事实——它们是相互补充的。即使是最优秀的团队,如果没有合适的数据,也难以取得有价值的成果。反过来,如果缺少优秀的数据科学团队,再合适的数据也无法优化决策。和其他资产一样,数据与数据科学能力也需要投资。组建顶尖的数据科学团队虽不寻常,却能给决策带来极大帮助。第 13 章将详细讲述有关数据科学的战略思想。接下来这个案例将说明,对如何投资数据资产有清醒的认识,往往能带来高回报。

小银行 Signet 在 20 世纪 90 年代的经典故事就是一个恰当的例子。早在 20 世纪 80 年代,数据科学就改变了消费信贷业。通过对违约概率建模,这个行业从个人违约风险评估到大规模和市场占有率的战略都发生了变化。这种变化还带来了大规模的伴生经济。虽然现在看起来也许有点奇怪,但当时信用卡的收费标准基本上是统一的,其原因有二:各个企业没有能够处理大规模差异化价格的信息系统;银行管理层认为顾客无法接受价格歧视。

1990 年前后,两位有长远战略眼光的人(Richard Fairbanks 和 Nigel Morris)意识到,信息技术已经足够强大,可以让他们(通过使用本书提及的一些技术)建立更精准的预测模型,并提供差异化服务(比如现今的定价、信贷限额、低原利率余额代偿、现金返还、积分体系等)。可是,这两位没能如愿说服大型银行聘用他们为咨询顾问,也就无从实验他们的想法。在被所有大型银行拒绝后,他们终于得到了美国弗吉尼亚州一家区域性小型银行的青睐,这便是 Signet 银行。这家银行的管理层相信了他们的理论,认为正确的做法是不仅要模拟违约概率,还要模拟收益率。这是因为他们明白,银行的信用卡业务的全部利润其实仅来自于一小部分信用卡用户,而在其他用户身上不是不赚不赔就是亏损。如果他们能模拟收益率,那么就能为最优质的用户提供更优惠的政策,从而把他们从大银行挖走。

然而,Signet 银行在实施这项策略时遇到了大麻烦。他们没有合适的数据来进行收益率建模,也就无法对不同客户进行差异化定价。当时哪家银行都没有这样的数据。由于各家银行一直根据一套特定条款和一个特定的违约模型来发放信用贷款,因此他们只有能模拟他们曾经提供过的条款和他们曾经发放过贷款的客户(即在现有模型中信誉优良的客户)的收益率的数据。

而 Signet 银行能怎么办呢?他们遵循了数据科学的基础策略,即不惜代价地获取数据。一旦把数据看作一项商业资产,我们就要考虑是否投资和投资多少的问题。在 Signet 银行的案例中,银行只能通过实验,给客户提供不同的信贷合约条款,来获得其收益率等数据。随机地给不同客户提供不同条款,这种做法如果脱离数据分析的视角来看会很蠢——你很可能会亏钱!没错,在这个案例中,亏掉的钱恰恰就是收集数据的成本。具有数据分析式思维的人应该关注的问题是,这些数据能否带来符合预期的、与对数据的投资对等的回报。

那么,Signet 银行后来如何了呢?你大概猜到了,因为要收集数据,所以他们随机给客户分配条款,这导致坏账数量暴涨。其坏账率从以前行业领先的 2.9%(即 2.9% 的余额没有被支付)飙升至接近 6%。这样的亏损持续了数年。与此同时,数据科学家们致力于使用这些数据来构建预测模型,评估其效果,最后将其用于提升盈利。因为 Signet 银行把这些亏损当作对数据的投资,所以尽管股东们怨声载道,但是他们坚持了下去。最终,Signet 银行的信用卡业务扭亏为盈并获利丰厚,以至于它最后从银行的业务中拆分了出来。这个成绩至今让整个消费信贷业相形见绌。

Fairbanks 成为了新公司的董事长兼 CEO,而 Morris 成为了总裁兼 COO,他们继续在业务中实践数据科学的概念。这些业务不仅包括用户获取业务,还包括用户留存业务。当一个用户打电话来咨询优惠政策时,以数据驱动的模型会计算各种情形下(采取不同的优惠政策,包括维持现状时)的潜在利润,然后客服代表会向客户报出利润最优的那个优惠政策。

你或许没听说过 Signet 这家小银行,却极有可能听说过那家拆分出来的金融公司:Capital One(第一资本)。Fairbanks 和 Morris 的新公司已经成长为业内最大的一家信用卡发行商,同时它还拥有业内最低的坏账率。据报道,2000 年,这家银行进行了 45 000 项类似的“科学实验”。3

3若想了解更多关于 Capital One 的故事,请参考以下资料:Clemons, E. & Thatcher, M(.(1998);McNamee, M.2001)。

我们很难找到对数据资产的价值进行了清晰量化的研究资料,这主要是因为一般企业不愿意透露有关战略性价值的数据。但是 David Martens 和 Foster Provost 在 2011 年做的一项研究却是个例外,他们对银行用户的交易数据进行评估,衡量了特定数据对银行的优惠政策决策模型的改善程度。银行基于数据建立了这些模型,用来决策向哪些用户推荐哪些产品。此项研究试验了若干类型的数据对预测模型的作用。社会人口学数据可以赋予模型大致区分消费者类型的基础能力,也可以用来预测他们更倾向于购买哪一种产品,但是它也只能做到这些。数据量可以不断增长,但其对模型的贡献却有一个上限。然而,(匿名的)个体消费者的交易明细数据可以大大改进模型。而且这类数据与模型效果的关系清晰且显著:数据量越大,预测模型的表现越好。而且这个趋势在 Martens 和 Provost 的调研范围内没有减退的迹象。这给我们一个重要的启示:拥有较大数据资产的银行跟拥有较小数据资产的竞争者相比,享有重要的战略优势。如果这个趋势可以推广,而且银行有能力进行复杂的分析,那么拥有更大数据资产的银行应该能更好地识别适合每种产品的最优客户,最终结果就是银行产品的采用率增加,或是客户获取成本降低,或两者兼有。

把数据作为战略性资产这一概念既不仅仅适用于 Capital One,也不仅仅适用于银行业。亚马逊很早就开始收集线上用户消费数据,虽然付出了巨额的成本,但是这使用户发现了亚马逊提供的排名和推荐的价值。亚马逊因此能够更容易地留存用户,甚至可以向用户收取一些附加费用(Brynjolfsson & Smith, 2000)4。Harrah's 赌场的一项著名投资是收集和挖掘赌场客户的数据,这项投资让它从 20 世纪 90 年代中期的一个小赌场成长为世界上最大的博彩公司(2005 年收购了 Caesar's 娱乐后)。而 Facebook 的巨额估值要归功于其庞大且独特的数据集(Sengupta, 2012),其中包括用户的信息、喜好和社交网络的结构。社交网络的结构对建立预测模型非常重要,因为它可以有效地帮助商家预测什么人会购买特定商品(Hill, Provost & Volinsky, 2006)。当然,虽然 Facebook 拥有非常好的数据,但其是否拥有合适的数据科学策略来发挥这些数据的作用就不得而知了。

4亚马逊推出了付费会员服务。——译者注

随着对数据挖掘原理和数据分析式思维的探索,本书会进一步讨论这些成功故事背后的基本概念。

1.8 数据分析式思维

分析和研究诸如用户流失这类问题,有助于提高“数据分析式”的问题处理能力,而本书的首要目标就是提倡采用这种看待问题的视角。当面对一个商业问题时,你应该能够评估数据是否可以改善这个问题以及如何改善这个问题。我们将探讨一系列基本概念和原理,来促进谨慎思考。同时我们也将开发出一套框架,以便于系统性地组织分析。

前文提到过,即使你从未打算亲自应用数据科学,鉴于数据科学如今在商业策略中的关键地位,理解它也是至关重要的。各个行业越来越多地受数据分析驱动,在这种情况下,有效地与这些行业进行互动或在这些行业中进行互动的能力,将赋予你相当大的专业优势。理解基本概念和掌握用于构建数据分析式思维的框架,不仅可以提升你的互动能力,还可以帮你预见改善数据驱动型决策的机会,以及洞察数据方面的竞争威胁。

许多传统行业的公司正在通过开发新的数据资源或者利用现存的数据资源来获得竞争优势。他们组建了数据科学团队,利用先进的技术来增加收入和降低成本。另外,很多新兴企业正把数据挖掘技术当作关键战略要素来发展,比如 Facebook、Twitter 和其他“Digital 100”企业(Business Insider, 2012)均是由于其业务所获取或创造的数据资产而获得了高额估值。5 管理者逐渐开始监督数据分析团队和数据分析项目,市场人员慢慢开始理解和组织数据驱动的市场活动,风险投资者必须明智地投资那些拥有大量数据资产的企业,而企业策划人员必须有能力在方案中利用数据。

5当然,这并非新现象。亚马逊和谷歌就是公认的因数据资产而拥有巨大价值的成熟公司。

再举几个例子:如果一位咨询师给出的提案是通过对数据资产进行挖掘来改善经营状况,那么你应该有能力评定该提案是否行得通;如果你的一个竞争对手宣布他们有了一家新的数据合作方,那么你应该能够判断这是否会使你们在战略上处于劣势。假设你在一家风投公司取得了一个职位,而你的第一个项目就是评估一家广告公司的潜在投资价值。这家公司创始人非常令人信服地提出,他们将通过收集特殊的数据实现巨大的价值,并据此要求提高该公司的估值。这样的要求合理吗?当你理解了数据科学的基本原理时,就应该有能力设计出一连串层层递进的问题,来判断对方关于提高估值的要求是否真的合理。

还有一种规模更小但是更常见的情况,就是各个业务部门都面临着数据分析任务。这些业务部门的员工不得不与数据科学团队打交道。如果他们对数据科学的基本思维方式毫无概念,那么他们恐怕根本就无法理解业务细节。相对于其他技术类项目,这种理解上的缺乏对数据科学项目的破坏性要大得多。由于数据科学是用来支撑更好的决策的,因此数据科学家和业务方面的决策负责人必须紧密合作。下一章会详细讨论这一点。如果一家公司里的业务人员不理解数据科学家的工作,那么这家公司会处于劣势,因为他们会浪费时间和精力,甚至最终可能会做出错误的决策。

 管理人员需要掌握数据分析式技能

咨询公司麦肯锡估计:“能让企业从大数据中获益的相关人才短缺。截止到 2018 年,仅美国就短缺 14 万~19 万名具有深层分析技能的人才,以及 150 万名能够基于大数据分析结果做出有效决策的管理和分析人才。”(Manyika, 2011)为什么管理和分析人才的缺口是深层分析人才的 10 倍?这当然不是因为数据科学家太难管理,以至于每个科学家需要 10 个管理人员,而是因为,同一业务的不同领域可以使用同一个数据科学团队来辅助决策,提升业务水平。但是正如麦肯锡公司指出的,只有这些不同领域的管理人员理解数据科学的基本原理,才能真正实现业务水平的提升。

1.9 关于本书

本书聚焦于数据科学和数据挖掘的基础知识,囊括了一系列用来搭建数据分析式思维和分析方式的原理、概念以及技术。有了这些基础知识,无须钻研大量具体的数据挖掘算法,就可以深入地理解数据科学的过程与方法。

介绍数据挖掘算法和技术的好书有很多,其中既有实战指南,也有数学书和统计学书。与它们不同,本书只介绍基本概念以及如何使用这些概念来解决数据挖掘的相关问题。但这不意味着可以忽略数据挖掘技术,因为很多算法正是基本概念的具体体现。除了个别几个问题以外,本书不会关注具体技术的细节及它们的运作方式,而是尽可能恰到好处地解释一下细节,以帮助读者理解某项技术的作用以及它所依赖的基本原理。

1.10 重新审视数据挖掘和数据科学

本书花了大量的篇幅介绍如何从大量数据中获取有用的(即重要且最好是可行的)模式或者模型(Fayyad, Piatetsky-Shapiro & Smyth, 1996),以及这种数据挖掘背后的数据科学基本原理。在用户流失预测的案例中,我们可以从之前的用户流失记录中提取数据获取有用的模式(如用户行为模式),它既有助于预测将来哪些用户更有可能流失,也有助于设计出更好的用户服务。

本书所介绍的数据科学的基本概念是从很多研究数据分析的领域中总结出来的。尽管对这些概念的介绍将会贯穿本书,但是在此会先做一些简单的描述,以给读者一个大致的感觉。在后续章节会一一详细阐述这些概念。

基本概念:从数据中获取有用的知识来解决商业问题的过程可以系统地分为若干有明确定义的环节。“数据挖掘的交叉产业标准”[简称 CRISP-DM(CRISP-DM 项目,2000)]就是这种处理的一个体现。这种处理方式可以提供一个框架,用于组织对数据分析问题的思考。例如,在实践中,尽管我们会反复遇到一些所谓的分析“解决方案”,然而它们却不是基于对问题的谨慎分析或评估得出的。结构化的分析思维则强调那些常常被低估的数据辅助决策的方面,同时这种结构化的思维也有助于更明确地区分人类创造性与高效分析工具的适用范围。

基本概念:信息技术可以从海量数据中提取出含有信息的、描述目标实体的属性。用户流失案例中,用户就是目标实体,而每个用户都可以被若干属性所描述,比如用户的使用量、用户使用客户服务的历史记录和许多其他因素。这些属性里面,有哪些会实质性地告诉我们该客户在合约到期时流失的可能性?每个属性又包含多少信息量?回答上述问题的过程有时候被称作“寻找与流失‘相关’的变量”(后续会精确地讨论这个概念)。对此,商业分析师应该做出一些假设并加以验证。他既可以使用分析工具辅助完成这类实验(参照 2.6 节的其他分析技术)也可以(特别是在大规模自动实验的情况下)应用信息技术自动发现含有信息的属性。而且,在根据多个属性来预测流失时,可以递归地应用本概念,后文会对此进行介绍。

基本概念:如果你过度关注一组数据,那么你或许可以从中获取一些模式,但这些模式可能无法推广至其他数据。这被称作对数据集的过拟合。数据挖掘技术的能力非常强大,因而当它被应用于实际问题时,我们需要识别和避免过拟合。这是我们需要掌握的最重要的概念之一。过拟合,以及避免过拟合的概念将贯穿整个数据科学的过程、算法、评估方法等方面。

基本概念:阐述和评估数据挖掘的结论时,需要谨慎地考虑它的使用场景。如果目标是获取可能有用的知识,那么又该如何定义“有用”?这个问题的答案很大程度上取决于它的应用场景。以用户流失管理的案例为例,究竟应该如何使用从历史数据中获取的模式?除了用户流失概率外,是否还应该考虑用户价值?概括来说,这个模式是否比其他合理的模式更有助于进行辅助决策?如果不使用任何模式,随机决策,效果会如何?如果使用一个智能的预设状况来替代,效果又如何呢?

以上四条仅是将要探讨的数据科学基本概念中的一部分。本书将详细讨论十几条这样的基本概念,并大体演示它们如何帮助我们构建数据分析式思维以及理解数据挖掘技术、算法和数据科学的应用。

1.11 数据科学:一门新兴的实验性学科

在继续之前,应该简要回顾一下数据科学的工程应用。撰写本书之际,人们谈论数据科学时,不仅会谈到用于解读数据的数据分析技能和技术,还会提到常用的数据科学工具。数据科学家的定义(以及招聘广告中的职位描述)中不仅会明确专业领域,还会明确具体的编程语言及工具。招聘数据科学家的广告中经常会提及数据挖掘技术(如随机森林、支持向量机)、具体的应用领域(如推荐系统、广告布局优化)以及常用的大数据处理软件(如 Hadoop、MongoDB)。通常,人们很少明确区分数据科学和大型数据集处理技术。

必须指出,数据科学和计算机科学一样,是一个年轻的领域。大众刚刚开始特别地关注数据科学,而其基本原理也刚开始出现。数据科学如今的状态可以类比 19 世纪中叶的化学科学,那时候化学理论和化学基本原理日渐规范化,而这个领域又是非常依赖实验的,因此当时每位优秀的化学家都必须是一位合格的实验室技术员。与之相似,现在一名合格的数据科学家也必须能够熟练使用特定的软件和工具。

总而言之,本书聚焦于科学而非技术。这里没有关于在 Hadoop 集群上执行大数据挖掘的最佳实践指导,甚至没有 Hadoop 的定义或学习它的理由。6 本书聚焦于数据科学中业已形成的基本原理。10 年后,占主导地位的技术很可能会改变或进步,而我们现在对技术的讨论也会过时,但是,鉴于基本原理现在仍与 20 年前相同,所以它们在接下来的 10 年中极有可能仍然变化甚微。

6Hadoop 是一个应用广泛的、高度可并行的开源计算框架,是当今用于处理超过常规数据库系统处理能力的大型数据集的“大数据”技术之一。Hadoop 是基于谷歌提出的并行处理框架 MapReduce 开发的。

1.12 小结

本书的主题是如何从大数据中获取有用的信息和知识,以改善商业决策。当今,几乎所有行业部门和业务单位都积累了海量的数据,而数据挖掘的机遇也已经遍布各行各业。潜藏在数据挖掘技术庞大身躯下的,是一套更加简洁的基本概念,而这套基本概念构成了数据科学。这些概念是普适的,囊括了数据挖掘和商业分析的大部分精髓。

若想在当今数据导向的商业环境中取得成功,就必须考虑如何将数据科学的基本概念应用到具体的商业问题上,也就是要进行数据分析式的思考。例如,本章提到过,数据应该被视为一项商业资产。一旦确立了这个思考方向,我们就会开始考虑投资于数据的必要性(和力度)。因此,理解数据科学基本概念,不仅对数据科学家本身至关重要,对任何与数据科学家共事的人、聘用数据科学家的人、投资重数据资产的人,以及各机构中领导数据分析应用的人同样至关重要。

构建数据分析式思维离不开概念性框架的帮助(本书会通篇讨论后者)。例如,下一章的主题——从数据中自动提取模式——就是一个可分为明确环节的流程。理解这些流程和环节有助于构建数据分析式思维,使之更加系统化,并减少错误与遗漏。

事实证明,数据驱动型决策和大数据技术可以显著提升经营业绩。数据科学支撑着(有时也执行)数据驱动型决策,同时依赖于“大数据”存储和工程技术,但是数据科学的原理是独立的。本书所讨论的数据科学原理与其他重要的技术(如统计假设检验和数据库查询,读者可另寻相关图书和课程学习)既相互区别,又相互补充。下一章将详细探讨它们的区别。

目录