为当前RDD设置检查点。该函数将会创建一个二进制的文件,并存储到checkpoint目录中,该目录是用SparkContext.setCheckpointDir()设置的。在checkpoint的过程中,该RDD的所有依赖于父RDD中的信息将全部被移出。对RDD进行checkpoint操作并不会马上被执行,必须执行Action操作才能触发。
函数原型
def checkpoint()
实例
/** * User: 过往记忆 * Date: 15-03-08 * Time: 上午06:30 * bolg: * 本文地址:/archives/1278 * 过往记忆博客,专注于hadoop、hive、spark、shark、flume的技术博客,大量的干货 * 过往记忆博客微信公共帐号:iteblog_hadoop */ scala> val data = sc.parallelize(1 to 100000 , 15) data: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[12] at parallelize at <console>:12 scala> sc.setCheckpointDir("/iteblog") scala> data.checkpoint scala> data.count 15/02/15 11:47:47 INFO RDDCheckpointData: Done checkpointing RDD 12 to hdfs://iteblogcluster/iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12, new parent is RDD 13 res17: Long = 100000 [iteblog.com@ ~]$ bin/hadoop fs -ls /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12 Found 15 items -rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00000 -rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00001 -rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00002 -rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00003 -rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00004 -rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00005 -rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00006 -rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00007 -rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00008 -rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00009 -rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00010 -rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00011 -rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00012 -rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00013 -rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00014
执行完count之后,会在/iteblog目录下产生出多个(数量和你分区个数有关)二进制的文件。
本博客文章除特别声明,全部都是原创!原创文章版权归过往记忆大数据(过往记忆)所有,未经许可不得转载。
本文链接: 【Spark函数讲解:checkpoint】(https://www.iteblog.com/archives/1278.html)