如果你是一名Scala、Java或Python开发者,对机器学习和数据分析感兴趣,并想借助Spark框架来实现常见机器学习技术的大规模应用,那么本书便是为你而写。最好有Spark的基础知识,但并不要求你有实践经验。 通过学习本书,你将能够: 用Scala、Java或Python语言编写你的第一个Spark程序; 在你的本机和Amazon EC2上创建和配置Spark开发环境; 获取公开的机器学习数据集,以及使用Spark对数据进行载入、处理、清理和转换; 借助Spark机器学习库,利用协同过滤、分类、回归、聚类和降维等常见的机器学习模型来编写程序; 编写Spark函数来评估你的机器学习模型的性能; 了解大规模文本数据的处理方法,包括特征提取和将文本数据作为机器学习模型的输入; 探索在线学习方法,利用Spark Streaming来进行在线学习和模型评估。" />
本书结合案例研究讲解Spark 在机器学习中的应用,并介绍如何从各种公开渠道获取用于机器学习系统的数据。内容涵...
本书是使用Spark进行大规模数据分析的实战宝典,由知名数据科学家撰写。本书在第1版的基础上,针对Spark近...
本书是Spark实战指南,全书共分8章。前4章介绍Spark的部署、工作机制和内核,后4章分别通过实战项目介绍...
本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金...
本书由 Spark 开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具—...