标签：Spark

使用Cassandra和Spark 2.0实现Rest API服务

　　在这篇文章中，我将介绍如何在Spark中使用Akka-http并结合Cassandra实现REST服务，在这个系统中Cassandra用于数据的存储。　　我们已经见识到Spark的威力，如果和Cassandra正确地结合可以实现更强大的系统。我们先创建一个build.sbt文件，内容如下：[code lang="scala"]name := "cassandra-spark-akka-http-starter-kit"version := "1.0"

w397090770 9年前 (2016-10-17) 3892℃ 1评论5喜欢

Hadoop

Hadoop&Spark解决二次排序问题(Spark篇)

我在《Hadoop&Spark解决二次排序问题(Hadoop篇)》文章中介绍了如何在Hadoop中实现二次排序问题，今天我将介绍如何在Spark中实现。问题描述二次排序就是key之间有序，而且每个Key对应的value也是有序的；也就是对MapReduce的输出(KEY, Value(v1,v2,v3,......,vn))中的Value(v1,v2,v3,......,vn)值进行排序（升序或者降序），使得Value(s1,s2,s3,......,sn)，si

w397090770 9年前 (2016-10-08) 6267℃ 0评论12喜欢

Spark

Apache Spark 2.0.1稳定版正式发布

今天凌晨（2016-10-05）Apache Spark 2.0.1稳定版正式发布。Apache Spark 2.0.1是一个维护版本，一共处理了300个Issues，推荐所有使用Spark 2.0.0的用户升级到此版本。Apache Spark 2.0为我们带来了许多新的功能： DataFrame和Dataset统一（可以参见《Spark 2.0技术预览：更容易、更快速、更智能》）：https://www.iteblog.com/archives/1668.html SparkSession：一个

w397090770 9年前 (2016-10-05) 3190℃ 0评论7喜欢

Kafka

为什么Spark Streaming + Kafka很难保证exactly once？

Streaming job 的调度与执行　　我们先来看看如下 job 调度执行流程图：如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop为什么很难保证 exactly once　　上面这张流程图最主要想说明的就是，job 的提交执行是异步的，与 checkpoint 操作并不是原子操作。这样的机制会引起数据重复消费问题：

zz~~ 9年前 (2016-09-08) 8922℃ 5评论12喜欢

Spark

使用Spark处理存储于Hive中的Twitter数据的一些技巧

本文将介绍使用Spark batch作业处理存储于Hive中Twitter数据的一些实用技巧。首先我们需要引入一些依赖包，参考如下：[code lang="scala"]name := "Sentiment"version := "1.0"scalaVersion := "2.10.6"assemblyJarName in assembly := "sentiment.jar"libraryDependencies += "org.apache.spark" % "spark-core_2.10" % "1.6.0&qu

zz~~ 9年前 (2016-08-31) 3340℃ 0评论5喜欢

Spark

如何在Apache Spark 2.0中使用SparkSession

　　Apache Spark 2.0引入了SparkSession，其为用户提供了一个统一的切入点来使用Spark的各项功能，并且允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序。最重要的是，它减少了用户需要了解的一些概念，使得我们可以很容易地与Spark交互。　　本文我们将介绍在Spark 2.0中如何使用SparkSession。更多关于SparkSession的文章请参见：

w397090770 9年前 (2016-08-24) 15190℃ 2评论11喜欢

ElasticSearch

使用Apache Spark将数据写入ElasticSearch

　　ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。　　本文并不打算介绍ElasticSearch的概

w397090770 9年前 (2016-08-10) 36872℃ 2评论73喜欢

Spark

Apache Spark 2.0重大功能介绍

　　Apache Spark 2.0发布信息可以参见《Apache Spark 2.0.0正式发布及其功能介绍》　　我们很荣幸地宣布，自7月26日起Databricks开始提供Apache Spark 2.0的下载，这个版本是基于社区在过去两年的经验总结而成，不但加入了用户喜爱的功能，也修复了之前的痛点。　　本文总结了Spark 2.0的三大主题：更简单、更快速、更智能，另有Spark

w397090770 9年前 (2016-07-28) 14428℃ 0评论28喜欢

Spark

Apache Spark 2.0.0正式发布及其功能介绍

　　《Apache Spark 2.0重大功能介绍》：/archives/1721　　《Apache Spark作为编译器：深入介绍新的Tungsten执行引擎》：/archives/1679　　《Spark 2.0技术预览：更容易、更快速、更智能》：/archives/1668　　Apache Spark 2.0.0于2016-07-27正式发布。它是2.x版本线上的第一个版本。主要的更新是API可用性，SQL 2003的支持，性能提升，structured streaming

w397090770 9年前 (2016-07-27) 7649℃ 4评论7喜欢

Flink

Tumbling Windows vs Sliding Windows区别与联系

　　在流系统中通常会经常使用到Windows来统计一定范围的数据，比如按照固定时间、按个数等统计。一般会存在两种类型的Windows：Tumbling Windows vs Sliding Windows，它们很容易被初学者混淆，那么Tumbling Windows vs Sliding Windows之间到底有啥区别与联系呢？这就是本文将要展开的。　　Tumbling的中文意思是摔跤，翻跟头，翻筋斗；Sliding中

w397090770 9年前 (2016-07-26) 3517℃ 0评论4喜欢

上一页
1
···
16
17
18
19
20
21
22
23
24
25
26
...
44
下一页
共 44 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

标签：Spark

使用Cassandra和Spark 2.0实现Rest API服务

Hadoop&Spark解决二次排序问题(Spark篇)

Apache Spark 2.0.1稳定版正式发布

为什么Spark Streaming + Kafka很难保证exactly once？

使用Spark处理存储于Hive中的Twitter数据的一些技巧

如何在Apache Spark 2.0中使用SparkSession

使用Apache Spark将数据写入ElasticSearch

Apache Spark 2.0重大功能介绍

Apache Spark 2.0.0正式发布及其功能介绍

Tumbling Windows vs Sliding Windows区别与联系