基于HBase和Spark构建企业级数据处理平台

面临的场景

金融风控

用户画像库爬虫抓取信息反欺诈系统订单数据

个性化推荐

用户行为分析用户画像推荐引擎海量实时数据处理

社交Feeds

海量帖子、文章聊天、评论海量实时数据处理

时空时序

监控数据轨迹、设备数据地理信息区域分布统计区域查询

大数据

维表和结果表离线分析海量实时数据存储新的挑战

Apache Hbase(在线查询) 的特点有：

松散表结构(Schema free) 随机查询、范围查询原生海量数据分布式存储高吞吐、低延迟在线分布式数据库多版本、增量导入、多维删除

面临的新的挑战：

流式及批量入库复杂分析机器学习、图计算生态及联邦分析选择Spark的原因

快：通过query的执行优化、Cache等技术，Spark能够对任意数据量的数据进行快速分析。逻辑回归场景比Hadoop快100倍一站式：Spark同时支持复杂SQL分析、流式处理、机器学习、图计算等模型，且一个应用中可组合上面多个模型解决场景问题开发者友好：同时友好支持SQL、Python、Scala、Java、R多种开发者语言优秀的生态：支持与Ka=a、Hbase、Cassandra、MongoDB、Redis、MYSQL、SQL Server等配合使用平台机构及案例

一站式数据处理平台架构

数据入库：借助于Spark Streaming，能够做流式ETL以及增量入库到Hbase/Phoenix。在线查询：Hbase/Phoenix能够对外提供高并发的在线查询离线分析及算法：如果Hbase/Phoenix的数据需要做复杂分析及算法分析，可以使用Spark的SQL、机器学习、图计算等

典型业务场景：爬虫+搜索引擎

性能：流吞吐 20万条/秒查询能力：Hbase自动同步到solr对外提供全文检索的查询一站式解决方案：Spark服务原生支持通过SQL读取Hbase 数据能力进行ETL，Spark + Hbase +Solr一站式数据处理平台

典型业务场景：大数据风控系统

Spark同时支持事中及事后风控 Spark友好对接Hbase、RDS、MongoDB多种在线库

典型业务场景：构建数据仓库(推荐、风控)

毫秒级识别拦截代充订单，并发十万量级 Spark优秀的计算能力：Spark基于列式存储Parquet的分析在数据量大的情况下比Greenplum集群有10倍的性能提升一站式解决方案：Spark服务原生支持通过SQL读取 Hbase SQL(Phoenix)数据能力聚焦业务：全托管的Spark服务保证了作业运行的稳定性，释放运维人力，同时数据工作台降低了spark作业管理成本

原理及实践

Spark API的发展经历了RDD、Dataframe、DataSet