如果你是一名Scala、Java或Python开发者,对机器学习和数据分析感兴趣,并想借助Spark框架来实现常见机器学习技术的大规模应用,那么本书便是为你而写。最好有Spark的基础知识,但并不要求你有实践经验。

通过学习本书,你将能够:

用Scala、Java或Python语言编写你的第一个Spark程序;
在你的本机和Amazon EC2上创建和配置Spark开发环境;
获取公开的机器学习数据集,以及使用Spark对数据进行载入、处理、清理和转换;
借助Spark机器学习库,利用协同过滤、分类、回归、聚类和降维等常见的机器学习模型来编写程序;
编写Spark函数来评估你的机器学习模型的性能;
了解大规模文本数据的处理方法,包括特征提取和将文本数据作为机器学习模型的输入;
探索在线学习方法,利用Spark Streaming来进行在线学习和模型评估。" />

Spark机器学习

Nick Pentreath (作者) 蔡立宇 , 黄章帅 , 周济民 (译者)
本书介绍了Spark的基础知识,从利用Spark API来载入和处理数据,到将数据作为多种机器学习模型的输入。此外还通过详细的例子和现实应用讲解了常见的机器学习模型,包括推荐系统、分类、回归、聚类和降维。最后还介绍了一些高阶内容,如大规模文本数据的处理,以及Spark Streaming下的在线机器学习和模型评估方法。

如果你是一名Scala、Java或Python开发者,对机器学习和数据分析感兴趣,并想借助Spark框架来实现常见机器学习技术的大规模应用,那么本书便是为你而写。最好有Spark的基础知识,但并不要求你有实践经验。

通过学习本书,你将能够:

用Scala、Java或Python语言编写你的第一个Spark程序;
在你的本机和Amazon EC2上创建和配置Spark开发环境;
获取公开的机器学习数据集,以及使用Spark对数据进行载入、处理、清理和转换;
借助Spark机器学习库,利用协同过滤、分类、回归、聚类和降维等常见的机器学习模型来编写程序;
编写Spark函数来评估你的机器学习模型的性能;
了解大规模文本数据的处理方法,包括特征提取和将文本数据作为机器学习模型的输入;
探索在线学习方法,利用Spark Streaming来进行在线学习和模型评估。
纸质书
¥46.61 ¥59.00

其他购买方式?

出版信息

  • 书  名Spark机器学习
  • 执行编辑关于本书的内容有任何问题,请联系 岳新欣
  • 出版日期2015-08-31
  • 书  号978-7-115-39983-0
  • 定  价59.00 元
  • 页  数240
  • 印刷方式黑白
  • 开  本16开
  • 出版状态上市销售
  • 原书名
  • 原书号

所属分类

本书特色

Apache Spark是一个分布式计算框架,专为满足低延迟任务和内存数据存储的需求而优化。现有并行计算框架中,鲜有能兼顾速度、可扩展性、内存处理以及容错性,同时还能简化编程,提供灵活、表达力丰富的强大API的,Apache Spark就是这样一个难得的框架。

目录

版权声明 阅读
前言 阅读
致谢 阅读
第1章 Spark的环境搭建与运行 阅读
第2章 设计机器学习系统
第3章 Spark上数据的获取、处理与准备
第4章 构建基于Spark的推荐引擎
第5章 Spark构建分类模型
第6章 Spark构建回归模型
第7章 Spark构建聚类模型
第8章 Spark应用于数据降维
第9章 Spark高级文本处理技术
第10章 Spark Streaming在实时机器学习上的应用

作者介绍


Nick Pentreath是Graphflow公司联合创始人。Graphflow是一家大数据和机器学习公司,专注于以用户为中心的推荐系统和客户服务智能化技术。Nick拥有金融市场、机器学习和软件开发背景,曾任职于高盛集团,之后去在线广告营销创业公司Cognitive Match Limited(伦敦)担任研究科学家,后又去非洲最大的社交网络Mxit领导数据科学与分析团队。Nick是Apache Spark项目管理委员会成员之一。

大家也喜欢

  • Spark机器学习(第2版)

    [印]拉结帝普•杜瓦   [印]曼普利特•辛格•古特拉   [南非]尼克•彭特里思   蔡立宇   黄章帅   周济民   译

    本书结合案例研究讲解Spark 在机器学习中的应用,并介绍如何从各种公开渠道获取用于机器学习系统的数据。内容涵...

  • Spark高级数据分析(第2版)

    [美] 桑迪·里扎   [美] 于里·莱瑟森   [英] 肖恩·欧文   [美] 乔希·威尔斯   龚少成   邱鑫   译

    本书是使用Spark进行大规模数据分析的实战宝典,由知名数据科学家撰写。本书在第1版的基础上,针对Spark近...

  • Spark最佳实践

    本书是Spark实战指南,全书共分8章。前4章介绍Spark的部署、工作机制和内核,后4章分别通过实战项目介绍...

  • Spark高级数据分析

    Sandy Ryza   Uri Laserson   Sean Owen   Josh Wills   龚少成   译

    本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金...

  • Spark快速大数据分析

    Holden Karau   Andy Konwinski   Patrick Wendell   Matei Zaharia   王道远   译

    本书由 Spark 开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具—...

  • 快点上市 快点立马可以兑换~~~
    慕瑾  发表于 2015-08-17 23:13:52
  • 期待啊!
    imitn2015  发表于 2015-08-31 21:44:11
  • 此书的错误很多啊。翻译此书的三位老师估计都没把书中的实例测试一遍。囧啊
    zhaolianrui  发表于 2016-05-26 08:57:47