Spark机器学习实战-专栏介绍

前言

目前国内关于Spark机器学习实战的优质资料比较欠缺，很多文章抄来抄去，写的不清不楚，随着Spark技术生态的成熟，很多公司都把它作为大数据处理的框架，但是在实际应用中，难免遇到很多的坑。作者从多年实际工作经验出发，参考多方面的资料，编写这个实战性质的专栏，希望能够给即将使用到或者正在使用Spark进行机器学习的同学一些帮助。

背景

近年来，大规模数据的存储、处理、分析和建模，已经越来越普及了，像Google、Facebook、Alibaba这样的大公司都搭建了一套自己的机器学习平台来面对处理海量数据的挑战。大部分这些机器学习平台都是通过在计算机集群上进行分布式数据存储和计算来简化大数据处理。

Apache hadoop是最广为人知的大数据技术，它极大地简化了海量数据的存储和计算，并极大地降低了相应的学习成本。但是Hadoop在启动任务时开销高及需要把中间数据和计算结果写入磁盘，这种使得Hadoop不适合迭代式或低延迟的任务。Apache Spark是一个新的分布式计算框架，在设计起初就针对Hadoop的缺点进行了优化，并通过内存实现中间数据和结果的读写。此外，Spark提供了简洁明了的函数式API可完全兼容Hadoop生态系统。

Spark提供了针对Scala、Java和Python语言的原生API，并且还自带一个分布式机器学习和数据挖掘工具包MLlib。

本专栏主要关注Spark机器学习的实际应用，会简要介绍机器学习算法的一些理论知识，并会把重心放在Spark机器学习的技术实践上来。考虑到目前学术界和工业界普遍使用Spark python进行编程，本专栏将通过示例程序和样例代码，举例说明如何借助Spark、MLlib以及一些开源的机器学习库来搭建一个有用的机器学习系统。

专栏内容

本专栏至少由8篇核心文章构成：

Spark介绍及安装与使用：介绍Spark的基础知识以及如何安装和搭建Spark框架的本地环境。并利用python语言创建一个简单的Spark应用
使用Spark进行数据预处理及数据转换：详细介绍如何进行数据处理和清理并将数据转换成符合要求的数据，使之具备可用于机器学习的特征
使用Spark构建分类模型：详细介绍如何创建一个二元分类模型，以及如何评估模型分类效果
使用Spark构建回归模型：详细介绍如何创建一个回归模型，以及如何评估回归模型的效果
使用Spark构建聚类模型：探索如何创建聚类模型以及相关评估方法的使用，并分析及可视化聚类结果
使用Spark进行数据降维：通过多种方式从数据中提取期内在结构并降低其维度，学习一些常用的降维方法
使用Spark进行文本处理：介绍处理大规模文本数据的方法：特征提取及文本数据处理
深度学习在Spark上的应用：介绍深度学习在Spark上的具体应用

预备知识

本专栏假设读者已经有基本的python编程经验，以及机器学习、数据分析方面的基础知识。

其他

本专栏定期更新文章并上传，同时也会做好订阅用户的答疑工作，同时作者也会基于读者的阅读反馈，新增更多Spark的实战项目文章。

Spark机器学习实战-专栏介绍

Python相关栏目本月热门文章