欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

 分类:Spark

Spark:Yarn-cluster和Yarn-client区别与联系

Spark:Yarn-cluster和Yarn-client区别与联系
  《Spark on YARN集群模式作业运行全过程分析》  《Spark on YARN客户端模式作业运行全过程分析》  《Spark:Yarn-cluster和Yarn-client区别与联系》  《Spark和Hadoop作业之间的区别》  《Spark Standalone模式作业运行全过程分析》(未发布)  我们都知道Spark支持在yarn上运行,但是Spark on yarn有分为两种模式yarn-cluster和yarn-cl

w397090770   10年前 (2014-12-15) 58330℃ 4评论94喜欢

Akka学习笔记:Actor生命周期

Akka学习笔记:Actor生命周期
  Akka学习笔记系列文章:  《Akka学习笔记:ACTORS介绍》  《Akka学习笔记:Actor消息传递(1)》  《Akka学习笔记:Actor消息传递(2)》    《Akka学习笔记:日志》  《Akka学习笔记:测试Actors》  《Akka学习笔记:Actor消息处理-请求和响应(1) 》  《Akka学习笔记:Actor消息处理-请求和响应(2) 》  《Akka学

w397090770   10年前 (2014-12-12) 10178℃ 1评论5喜欢

Spark学习书籍收集[持续更新]

Spark学习书籍收集[持续更新]
目前关于Spark方面的书籍已经有好几本了,这里列出了下面关于Spark 的书籍。部分书目前还没有发布,所以无法提供下载地址。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop如果你要找Hadoop相关书籍,可以看这里《精心收集的Hadoop学习资料(持续更新)》  1、大数据技术丛书:Spark快速

w397090770   10年前 (2014-12-08) 36141℃ 3评论58喜欢

Spark北京Meetup第四次活动(SparkSQL专题)

Spark北京Meetup第四次活动(SparkSQL专题)
  这是Spark北京Meetup第四次活动,主要是SparkSQL专题。可以在这里报名,活动免费。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop活动时间  12月13日下午14:00活动地点  地址:淀区中关村软件园二期,西北旺东路10号院东区,亚信大厦 一层会议室  时间:13:20-13:40活动内容:

w397090770   10年前 (2014-12-02) 5028℃ 0评论3喜欢

Spark 1.1.1发布

Spark 1.1.1发布
  Spark 1.1.1于美国时间的2014年11月26日正式发布。基于branch-1.1分支,主要修复了一些bug。推荐所有的1.1.0用户更新到这个稳定版本。本次更新共有55位开发者参与。  spark.shuffle.manager仍然使用Hash作为默认值,说明了SORT的Shuffle还不怎么成熟。等待1.2版本吧。Fixes  Spark 1.1.1修复了几个组件的bug。在下面将会列出一些代表性的b

w397090770   10年前 (2014-11-28) 3344℃ 0评论5喜欢

Spark和Hadoop作业之间的区别

Spark和Hadoop作业之间的区别
  Spark目前被越来越多的企业使用,和Hadoop一样,Spark也是以作业的形式向集群提交任务,那么在内部实现Spark和Hadoop作业模型都一样吗?答案是不对的。  熟悉Hadoop的人应该都知道,用户先编写好一个程序,我们称为Mapreduce程序,一个Mapreduce程序就是一个Job,而一个Job里面可以有一个或多个Task,Task又可以区分为Map Task和Reduce T

w397090770   10年前 (2014-11-11) 21157℃ 1评论34喜欢

Spark优化:禁止应用程序将依赖的Jar包传到HDFS

Spark优化:禁止应用程序将依赖的Jar包传到HDFS
  每次当你在Yarn上以Cluster模式提交Spark应用程序的时候,通过日志我们总可以看到下面的信息:[code lang="java"]21 Oct 2014 14:23:22,006 INFO [main] (org.apache.spark.Logging$class.logInfo:59) - Uploading file:/home/spark-1.1.0-bin-2.2.0/lib/spark-assembly-1.1.0-hadoop2.2.0.jar to hdfs://my/user/iteblog/...../spark-assembly-1.1.0-hadoop2.2.0.jar21 Oct 2014 14:23:23,465 INFO [main] (org.ap

w397090770   10年前 (2014-11-10) 10943℃ 2评论12喜欢

北京第三次Spark meetup会议资料分享

北京第三次Spark meetup会议资料分享
  《Spark meetup(Beijing)资料分享》  《Spark meetup(杭州)PPT资料分享》  《北京第二次Spark meetup会议资料分享》  《北京第三次Spark meetup会议资料分享》  《北京第四次Spark meetup会议资料分享》  《北京第五次Spark meetup会议资料分享》》  《北京第六次Spark meetup会议资料分享》  第三次北京Spark Meetup活动

w397090770   10年前 (2014-11-06) 15698℃ 134评论11喜欢

Spark作业代码(源码)IDE远程调试

Spark作业代码(源码)IDE远程调试
我们在编写Spark Application或者是阅读源码的时候,我们很想知道代码的运行情况,比如参数设置的是否正确等等。用Logging方式来调试是一个可以选择的方式,但是,logging方式调试代码有很多的局限和不便。今天我就来介绍如何通过IDE来远程调试Spark的Application或者是Spark的源码。本文以调试Spark Application为例进行说明,本文用到的I

w397090770   10年前 (2014-11-05) 24019℃ 16评论21喜欢

Spark on YARN客户端模式作业运行全过程分析

Spark on YARN客户端模式作业运行全过程分析
《Spark on YARN集群模式作业运行全过程分析》《Spark on YARN客户端模式作业运行全过程分析》《Spark:Yarn-cluster和Yarn-client区别与联系》《Spark和Hadoop作业之间的区别》《Spark Standalone模式作业运行全过程分析》(未发布)  在前篇文章中我介绍了Spark on YARN集群模式(yarn-cluster)作业从提交到运行整个过程的情况(详情见《Spar

w397090770   10年前 (2014-11-04) 19582℃ 5评论12喜欢