最新发布第91页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139218)474喜欢
1Hive数据类型转换
浏览 (115724)87喜欢
2Hive常用字符串函数
浏览 (102005)66喜欢
3Hive insert into语句用法
浏览 (92970)179喜欢
4Hive常用函数大全一览
浏览 (92445)128喜欢
5Hive几种数据导入方式
浏览 (90883)75喜欢
6Apache Spark SQL自适应执行实践
浏览 (87845)294喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84661)69喜欢
8使用HttpClient通过post方式发送json数据
浏览 (83716)73喜欢
9Hive:ORC File Format存储格式详解
浏览 (83658)88喜欢
10Spark: sortBy和sortByKey函数详解

Spark分区器HashPartitioner和RangePartitioner代码详解

　　在Spark中分区器直接决定了RDD中分区的个数；也决定了RDD中每条数据经过Shuffle过程属于哪个分区；也决定了Reduce的个数。这三点看起来是不同的方面的，但其深层的含义是一致的。　　我们需要注意的是，只有Key-Value类型的RDD才有分区的，非Key-Value类型的RDD分区的值是None的。　　在Spark中，存在两类分区函数：HashPartitioner

w397090770 9年前 (2015-11-10) 18469℃ 2评论40喜欢

算法

水塘抽样(Reservoir Sampling)问题

　　在高德纳的计算机程序设计艺术中，有如下问题：可否在一未知大小的集合中，随机取出一元素？。或者是Google面试题： I have a linked list of numbers of length N. N is very large and I don’t know in advance the exact value of N. How can I most efficiently write a function that will return k completely random numbers from the list（中文简化的意思就是：在不知道文件总行

w397090770 9年前 (2015-11-09) 10181℃ 0评论16喜欢

网站建设

过往记忆微信公共帐号自动回复升级啦

为了提高本博客的用户体验，我于去年七月写了一份代码，将博客与微信公共帐号关联起来（可以参见本博客），用户可以在里面输入相关的关键字（比如new、rand、hot），但是那时候关键字有限制，只能对文章的分类进行搜索。不过，今天我修改了自动回复功能相关代码，目前支持对任意的关键字进行全文搜索，其结果相关与调用

w397090770 9年前 (2015-11-07) 2079℃ 0评论8喜欢

Spark

怎么在Idea IDE里面打开Spark源码而不报错

　　我们在学习或者使用Spark的时候都会选择下载Spark的源码包来加强Spark的学习。但是在导入Spark代码的时候，我们会发现yarn模块的相关代码总是有相关类依赖找不到的错误（如下图），而且搜索（快捷键Ctrl+N）里面的类时会搜索不到！这给我们带来了很多不遍。。　　本文就是来解决这个问题的。我使用的是Idea IDE工具阅读代

w397090770 9年前 (2015-11-07) 9019℃ 4评论11喜欢

Hadoop

脱离JVM？ Hadoop生态圈的挣扎与演化

　　新世纪以来，互联网及个人终端的普及，传统行业的信息化及物联网的发展等产业变化产生了大量的数据，远远超出了单台机器能够处理的范围，分布式存储与处理成为唯一的选项。从2005年开始，Hadoop从最初Nutch项目的一部分，逐步发展成为目前最流行的大数据处理平台。Hadoop生态圈的各个项目，围绕着大数据的存储，计算，

w397090770 9年前 (2015-11-06) 7958℃ 0评论9喜欢

Scala

Scala模式匹配泛型类型擦除问题

　　在Scala中一个很强大的功能就是模式匹配，本文并不打算介绍模式匹配的概念以及如何使用。本文的主要内容是讨论Scala模式匹配泛型类型擦除问题。先来看看泛型类型擦除是什么情况：scala> def test(a:Any) = a match { | case a :List[String] => println("iteblog is ok"); | case _ => |} 　　按照代码的意思应该是匹配L

w397090770 9年前 (2015-10-28) 6374℃ 0评论11喜欢

网站建设

如何让网页的footer一直固定在底端

　　我们在开发网站的时候一般都会分header、main、side、footer。这些模块分别包含了各自公用的信息，比如header一般都是本网站所有页面需要引入的模块，里面一般都是放置菜单等信息；而footer一般是放在网站所有页面的底部。当网页的内容比较多的时候，我们可以看到footer一般都是在页面的底部。但是，当页面的内容不足以填满一

w397090770 9年前 (2015-10-28) 4518℃ 0评论8喜欢

Spark

通过spark-redshift工具包读取Redshift上的表

　　Spark Data Source API是从Spark 1.2开始提供的，它提供了可插拔的机制来和各种结构化数据进行整合。Spark用户可以从多种数据源读取数据，比如Hive table、JSON文件、Parquet文件等等。我们也可以到http://spark-packages.org/（这个网站貌似现在不可以访问了）网站查看Spark支持的第三方数据源工具包。本文将介绍新的Spark数据源包，通过它我们

w397090770 9年前 (2015-10-21) 3825℃ 0评论4喜欢

Scala

Scala编译器是如何解析for循环语句

　　你可能会在Scala中经常使用for循环已经，所以理解Scala编译器是如何解析for循环语句是非常重要的。我们记住以下四点规则即可：　　1、对集合进行简单的for操作，Scala编译器会将它翻译成对集合进行foreach操作；　　2、带有guard的for循环，编译器会将它翻译成一序列的withFilter操作，紧接着是foreach操作；　　3、带有yield的for

w397090770 9年前 (2015-10-20) 3976℃ 0评论6喜欢

Spark

Spark中parallelize函数和makeRDD函数的区别

　　我们知道，在Spark中创建RDD的创建方式大概可以分为三种：（1）、从集合中创建RDD；（2）、从外部存储创建RDD；（3）、从其他RDD创建。　　而从集合中创建RDD，Spark主要提供了两中函数：parallelize和makeRDD。我们可以先看看这两个函数的声明：[code lang="scala"]def parallelize[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParalle

w397090770 9年前 (2015-10-09) 48248℃ 0评论60喜欢

上一页
1
···
86
87
88
89
90
91
92
93
94
95
96
...
139
下一页
共 139 页