前言

前言

本书适合以下几种读者:

  • 准备与数据科学家合作、管理面向数据科学的项目或投资数据科学企业的商业人士;
  • 即将实施数据科学解决方案的开发人员;
  • 志向远大的数据科学家。

本书不讨论算法,不能取代算法主题的图书。我们故意没有采用以算法为中心的方法,是因为我们相信,在从数据中提取有用信息的技术的背后,存在着一套精简的基本概念或原理,而它们构成了许多著名的数据挖掘算法的基础。此外,它们还支撑着以数据为中心的行业问题的分析、数据科学解决方案的构建和评估,以及一般性数据科学策略和提案的评估。因此,我们围绕这些一般性概念和原理而非具体算法组织了本书内容。当有必要描述程序细节时,本书会用文字和图表相结合的方式进行解释,因为我们认为这样比列出详细的算法步骤更易于理解。

尽管本书不要求读者有专业的数学背景,但本书内容具有一定的技术性——本书旨在让读者深入理解数据科学,而非仅对其有个大体认识。本书尽量少用数学语言,多做概念性阐述。

业界同行评价说,本书是能帮助业务团队、技术 / 研发团队和数据科学团队形成统一认识的无价之宝。这个结论是从一小部分人身上得出的,而我们想知道本书的适用范围到底有多广(详见第 5 章)。我们希望每位数据科学家都能把这本书推荐给其开发团队或者业务团队里的同事,并对他们说“如果你们迫切希望通过设计 / 实施顶尖的数据科学解决方案来解决商业问题,那么我们必须对这本书的内容有共同的理解”。

同行还告诉我们,这本书还有个意料之外的作用:可以用来准备数据科学类职位的面试。企业对数据科学家的需求日益增长,相应地,越来越多的求职者自称是数据科学家。每个数据科学岗位的求职者都需要理解本书中呈现的基本原理。(业界同行说,他们很惊讶竟然有那么多人做不到这一点。我们甚至半开玩笑地讨论,是不是紧接着写一本《数据科学求职者笔记》。)

学习数据科学的概念性方法

本书介绍了数据科学中最重要的基本概念。其中一些概念直接体现在了章名中,其他的则会在讨论过程中自然而然地呈现出来(因此不会被标注为“基本概念”)。这些概念贯穿整个学习过程,从构想问题到应用数据科学方法,再到运用结果改进决策。同时,它们也构成了大量商业分析方法与技术的基础。

这些概念主要分为以下三种。

(1) 关于数据科学如何融入组织和竞争环境的概念,包括如何吸引、组织和培养数据科学团队,如何让数据科学转化为竞争优势,以及如何做好数据科学项目。

(2) 形成数据分析式思维的一般方法。它们有助于识别合适的数据,选择合适的方法。这些概念包括数据挖掘过程和一系列不同的高级数据挖掘任务

(3) 从数据中获取信息的一般性概念。这些概念为大量的数据科学任务及其算法奠定了基础。

比如,有一条基本概念是如何判定两个由数据描述的个体之间的相似性。这项能力是执行多种具体任务的基础:它可以直接用于寻找与指定用户相似的用户;它构成了许多预测算法的核心,可以用来估计目标值,如资源使用量或用户响应促销活动的概率;它还是聚类方法的基础,即在没有特定目标的情况下,按照个体之间共有的特征将它们分组。相似性同样是信息检索的基础,可以检索出一系列与查询词条相关的文件或网页。最后,它也是许多推荐算法的基础。在传统的面向算法的书中,这些任务可能会以不同的名字分布于不同章节,其中的共同点却被掩盖在重重的算法与数学命题之下。本书关注的是统一的概念,而各个具体的任务和算法就是它们的自然呈现。

再举一个例子,在对模式的效用进行评估时,提升度(lift)这一指标在数据科学领域随处可见。它指的是某一模式在多大程度上是由非随机情况导致的。它可以用于在不同场景下对不同模式进行评估。例如,通过计算目标人群的提升度,可以评估定向广告算法。它还可以用于判断结论的正负证据权重(WOE),以及判断数据中的共现情况是否有意义,不同于仅是高频事件的自然结果。

我们相信,运用这些基本概念来解释数据科学,不仅能帮助读者学习,还能促进企业利益相关者与数据科学家之间的交流。这种方式使得双方语言共通,从而能更好地理解彼此。而概念共通又能让各方进行更深入的讨论,从而发现之前可能被忽略的关键问题。

写给教师们

本书被许多数据科学课程用作教材,而且颇为成功。本书最初的灵感来源于 2005 年秋季 Foster 在纽约大学斯特恩商学院开设的跨学科数据科学课程。1 尽管最初这门课程是为 MBA(工商管理硕士)和 MSIS(信息系统硕士)开设的,却吸引了校内各个学科的学生。这门课最有趣的地方不是它吸引了 MBA 和 MSIS——原本就是为他们开设的,而是它对有机器学习和其他技术类学科背景的学生同样非常有价值。我们猜想,部分原因大概是他们的课程仅聚焦在算法上,缺失了基本原理和其他内容。

1当然了,一本书的每个作者都认为自己做的贡献更多。

目前,纽约大学用这本书来辅助众多与数据科学相关的教学项目,如最初的 MBA 和 MSIS 项目、本科商业分析课程、斯特恩商学院的商业分析硕士项目,以及纽约大学最新的数据科学硕士项目中的数据科学入门课程。此外,本书(出版前)已被 9 个国家的 20 余所高校采用(数目仍在增长),用于商学院、计算机科学项目和数据科学初级课程。

其他技能及概念

除了数据科学的基本原理外,实干的数据科学家还需要了解和掌握许多其他概念与技能,这些会在第 1 章和第 2 章讲到。

本书结构及体例

除了偶尔出现的脚注,本书还会出现用方框框起的“补充栏”。它们本质上是扩展了的脚注,用于阐释那些有趣、有价值,但作为脚注过长,又偏离主题的内容。

 前方有技术细节 —— 关于带星号的小节的说明

我们把偶尔出现的数学细节归入了带星号的选读小节中。这些小节的标题前带有星号,小节开头还有这样的一段辅文。这些小节包含更多的数学 / 技术细节,这段文字就解释了其目的。读者在阅读本书时,即使跳过这些部分也不会影响阅读的连续性,但本书仍会在一些地方提醒读者该处将介绍技术细节。

本书中如“(Smith & Jones, 2003)”这样的文本表示对参考文献中一个条目的引用(此处即指,Smith 和 Jones 在 2003 年发表的文章或出版的图书);“Smith & Jones(2003)”与之类似。全书使用的参考文献列在正文后面。

本书尽可能少讲数学,并且在讲到数学的时候进行了简化,以免造成困惑。针对有技术背景的读者,我们有必要对简化方式稍作解释。

(1) 我们没有使用教科书中普遍使用的 Sigma(Σ,连加)和 Pi(Π,连乘)符号,而是使用了如下带省略号的公式:

f(x)=w_1x_1+w_2x_2+\cdots+w_nx_n

在介绍技术细节的带星号小节中,若上述方法过于繁冗,本书偶尔也会使用 Σ 和 Π 符号。我们假定阅读这些部分的读者习惯使用这种符号,不会感到困惑。

(2) 统计学图书通常会在估计值上加上“帽子”符号,以区分真实值和其估计值,因此在这类书中,你往往会看到实际概率表示为 p,而其估计值表示为 \hat p。本书几乎一直讨论基于数据的估计值,加上帽子符号会让公式又复杂又难看,因此除非特别指出,否则这些值默认都是基于数据的估计值。

(3) 一些符号和变量在上下文中不言自明,因此我们会在文中简化或删除它们。比如,在用数学语言讨论分类器时,技术上讲,本书表示的是基于特征向量所进行的决策预测。以较为正式的方式表示,就会得到如下公式:

{\hat f}_R(\boldsymbol{x})=x_{{\rm Age}}\times(-1)+0.7\times x_{{\rm Balance}}+60

其中,Age 表示年龄,Balance 表示账户余额。但我们把它写得更通俗易懂:

f(\boldsymbol{x})={\rm Age}\times(-1)+0.7\times{\rm Balance}+60

其中,\boldsymbol{x}是向量,Age 和 Balance 是向量的元素。

为了尽量保持版式一致,本书用等宽字体(如 sepal_width)表示数据中的属性或关键字。比如,在第 10 章中,discuss 表示数据中的一个输出标记。

本书采用了如下排版约定。

  • 黑体字

    表示新术语或重点强调的内容。

  • 等宽字体(constant width

    表示程序片段,以及正文中出现的变量、函数名、数据库、数据类型、环境变量、语句和关键字等。

  • 等宽斜体(constant width italic

    表示应该由用户输入的值或根据上下文确定的值替换的文本。

本书中,我们在正文中穿插了一些与内容相关的提示和警告。根据阅读载体(纸质书、PDF 或电子书)的不同,它们的呈现形式会不大一样,如下所示。

 该图标表示提示或建议。

 该图标表示一般注解。

 该图标表示警告或警示。它比提示重要得多,且出现得较少。

示例的使用

本书除了作为数据科学的入门读物,对在日常工作中进行探讨也颇有帮助。引用本书中的示例来回答问题无须获得许可。我们很希望但并不强制要求你在引用本书内容时加上引用说明。引用说明一般包括书名、作者、出版社和 ISBN。比如:“Data Science for Business by Foster Provost and Tom Fawcett (O'Reilly). Copyright 2013 Foster Provost and Tom Fawcett, 978-1-449-36132-7.”

如果你觉得自己对示例的使用超出了合理使用或上述许可的范围,请通过 [email protected] 联系我们。

Safari® Books Online

Safari Books Online 是应运而生的数字图书馆。它同时以图书和视频的形式出版世界顶级技术和商务作家的专业作品。技术专家、软件开发人员、Web 设计师、商务人士和创意专家等,在开展调研、解决问题、学习和认证培训时,都将 Safari Books Online 视作获取资料的首选渠道。

对于组织团体、政府机构和个人,Safari Books Online 提供各种产品组合和灵活的定价策略。用户可通过一个功能完备的数据库检索系统访问 O'Reilly Media、Prentice Hall Professional、Addison-Wesley Professional、Microsoft Press、Sams、Que、Peachpit Press、Focal Press、Cisco Press、John Wiley & Sons、Syngress、Morgan Kaufmann、IBM Redbooks、Packt、Adobe Press、FT Press、Apress、Manning、New Riders、McGraw-Hill、Jones & Bartlett、Course Technology 以及其他几十家出版社的上千种图书、培训视频和正式出版之前的书稿。要了解 Safari Books Online 的更多信息,我们网上见。

联系我们

请把对本书的评价和问题发给出版社。

美国:

  O'Reilly Media, Inc.

  1005 Gravenstein Highway North

  Sebastopol, CA 95472

中国:

  北京市西城区西直门南大街 2 号成铭大厦 C 座 807 室(100035)

  奥莱利技术咨询(北京)有限公司

对于本书的评论和技术性问题,请发送电子邮件到:[email protected]

要了解更多 O'Reilly 图书、培训课程、会议和新闻的信息,请访问以下网站:

  

我们在 Facebook 的地址如下:

请关注我们的 Twitter 动态:

我们的 YouTube 视频地址如下:

致谢

感谢在与我们讨论或阅读手稿后,为我们提供宝贵思路、反馈、意见、建议和鼓励的所有同事和其他人。虽然可能有所遗漏,但我们想在此一一感谢:Panos Adamopoulos、Manuel Arriaga、Josh Attenberg、Solon Barocas、Ron Bekkerman、Josh Blumenstock、Ohad Brazilay、Aaron Brick、Jessica Clark、Nitesh Chawla、Peter Devito、Vasant Dhar、Jan Ehmke、Theos Evgeniou、Justin Gapper、Tomer Geva、Daniel Gillick、Shawndra Hill、Nidhi Kathuria、Ronny Kohavi、Marios Kokkodis、Tom Lee、Philipp Marek、David Martens、Sophie Mohin、Lauren Moores、Alan Murray、Nick Nishimura、Balaji Padmanabhan、Jason Pan、Claudia Perlich、Gregory Piatetsky-Shapiro、Tom Phillips、Kevin Reilly、Maytal Saar-Tsechansky、Evan Sadler、Galit Shmueli、Roger Stein、Nick Street、Kiril Tsemekhman、Craig Vaughan、Chris Volinsky、Wally Wang、Geoff Webb、Debbie Yuster 以及 Rong Zheng。我们还想感谢 Foster 课上的同学们,这些课程包括商业分析的数据挖掘、实用数据科学、数据科学导论、数据科学研讨班。你们在使用本书早期手稿期间提出的相关问题,为本书的改进提供了重要参考。

感谢这些年来所有教过我们数据科学知识和数据科学教学方法的同事,尤其是 Maytal Saar- Tsechansky 和 Claudia Perlich。Maytal 曾在多年前慷慨地与 Foster 分享了她的数据挖掘课笔记。本书中的很多示例都基于她的思路和案例,比如第 3 章的分类树案例(尤其是“主体”可视化的部分),第 4 章中以可视化方式比较树模型和线性判别函数对实例空间的分割,第 6 章的“David 会响应吗”案例,等等。Claudia 过去几年曾经与 Foster 同期讲授过商业分析的数据挖掘以及数据科学导论课程,Foster 也从 Claudia 那里受益良多。

感谢 David Stillwell、Thore Graepel 和 Michael Kosinski 为书中的一些案例提供 Facebook 上的点赞数据。感谢 Nick Street 为我们提供细胞核数据,并允许我们在第 4 章中使用细胞核图像。感谢 David Martens 在手机定位可视化方面提供的帮助。感谢 Chris Volinsky 提供他在 Netflix 挑战赛中作品的数据。感谢 Sonny Tambe 很早就为我们提供了他在大数据技术与生产力方面的成果。感谢 Patrick Perry 为我们提供了第 12 章使用的银行电话中心案例。感谢 Geoff Webb 允许我们使用 Magnum Opus 关联挖掘系统。

最重要的是要感谢我们的家人,感谢他们给予我们的耐心、鼓励和爱。

我们在撰写本书时,使用了大量的开源软件及其案例。因此,我们还需感谢以下软件和程序包的开发者和贡献者:

  • Python 和 Perl
  • SciPy、NumPy、Matplotlib 和 Scikit-Learn
  • Weka
  • 加利福尼亚大学欧文分校的机器学习仓库(Bache & Lichman, 2013)

电子版

扫描如下二维码,即可购买本书电子版。

目录