使用SequoiaDB Connector和Apache Spark整合

文章目录

1 为什么选择Spark
2 Spark-SequoiaDB Connector使得SequoiaDB能够和Spark整合
3 金融服务行业使用案例：改进交易历史记录存档系统
4 金融服务行业使用案例：使用Spark和SequoiaDB整合来进行产品推荐
5 Spark和SequoiaDB整合的下一步计划

为什么选择Spark

　　SequoiaDB是NoSQL数据库，它可以将数据复制到不同的物理节点上，而且用户可以在应用程序中指定使用哪个备份块。它能够在同一个集群中使用最少的I/O或者CPU来分析或者操作一些工作。

　　Apache Spark和SequoiaDB的整合允许用户创建单个平台来在同一个物理集群上同时运行多种不同的workloads 。

Spark-SequoiaDB Connector使得SequoiaDB能够和Spark整合

　　Spark-SequoiaDB Connector是Spark数据源，它运行用户使用Spark SQL对SequoiaDB collections中的数据集进行读写操作。它的用处就是使得SequoiaDB和Spark能够整合，充分利用带有动态索引的无模式存储模型和Spark集群的优势。

　　Spark和SequoiaDB可以安装在同一个物理节点或者不同集群上，Spark-SequoiaDB Connector可以将查询条件下传到SequoiaDB，并且仅仅遍历那些匹配到的数据。这种优化使得我们可以直接在源数据集上操作分析，而不需要在SequoiaDB和Spark之间进行一些ETL的操作。

　　下面是如何在SparkSQL中使用Spark-SequoiaDB Connector的例子：

/**
 * User: 过往记忆
 * Date: 2015-08-05
 * Time: 上午01:26
 * bolg: 
 * 本文地址：/archives/1418
 * 过往记忆博客，专注于hadoop、hive、spark、shark、flume的技术博客，大量的干货
 * 过往记忆博客微信公共帐号：iteblog_hadoop
 */

sqlContext.sql("CREATE temporary table org_department ( deptno string, deptname string,
mgrno string, admrdept string, location string ) using com.sequoiadb.spark 
OPTIONS ( host 'host-60-0-16-2:50000', collectionspace 'org', collection 'department', 
username 'sdbreader', password 'sdb_reader_pwd')")
res2: org.apache.spark.sql.DataFrame = []

sqlContext.sql("CREATE temporary table org_employee ( empno int, firstnme string, 
midinit string, lastname string, workdept string, phoneno string, hiredate date, 
job string, edlevel int, sex string, birthdate date, salary int, bonus int, 
comm int ) using com.sequoiadb.spark 
OPTIONS ( host 'host-60-0-16-2:50000', collectionspace 'org', 
collection 'employee', username 'sdb_reader', password 'sdb_reader_pwd')")
res3: org.apache.spark.sql.DataFrame = []

sqlContext.sql("select * from org_department a, org_employee b where a.deptno='D11'")
.collect().take(3).foreach(println)
[D11,MANUFACTURING SYSTEMS,000060,D01,null,10,CHRISTINE,I,HAAS,A00,3978,null,PRES,18,F,null,152750,1000,4220]
[D11,MANUFACTURING SYSTEMS,000060,D01,null,20,MICHAEL,L,THOMPSON,B01,3476,null,MANAGER,18,M,null,94250,800,3300]
[D11,MANUFACTURING SYSTEMS,000060,D01,null,30,SALLY,A,KWAN,C01,4738,null,MANAGER,20,F,null,98250,800,3060]