最新发布第77页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139218)474喜欢
1Hive数据类型转换
浏览 (115726)87喜欢
2Hive常用字符串函数
浏览 (102010)66喜欢
3Hive insert into语句用法
浏览 (92972)179喜欢
4Hive常用函数大全一览
浏览 (92445)128喜欢
5Hive几种数据导入方式
浏览 (90883)75喜欢
6Apache Spark SQL自适应执行实践
浏览 (87845)294喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84661)69喜欢
8使用HttpClient通过post方式发送json数据
浏览 (83720)73喜欢
9Hive:ORC File Format存储格式详解
浏览 (83660)88喜欢
10Spark: sortBy和sortByKey函数详解

Spark中函数addFile和addJar函数介绍

　　我们在使用Spark的时候有时候需要将一些数据分发到计算节点中。一种方法是将这些文件上传到HDFS上，然后计算节点从HDFS上获取这些数据。当然我们也可以使用addFile函数来分发这些文件。addFile　　addFile方法可以接收本地文件（或者HDFS上的文件），甚至是文件夹（如果是文件夹，必须是HDFS路径），然后Spark的Driver和Exector

w397090770 8年前 (2016-07-11) 12521℃ 0评论13喜欢

前端框架

网站优化：图片异步加载

　　随着网站的文章越来越多，网站的图片也不知不觉的多了起来，图片多起来带来的问题就是访问的人多的时候会导致页面加载速度越来越慢，这严重影响了网站的用户体验，所以网站图片异步加载势在必行。　　图片异步加载就是图片只有在视野范围内才加载，没出现在范围内的图片就暂不加载，等用户滑动滚动条时再逐步

w397090770 8年前 (2016-07-08) 3400℃ 0评论7喜欢

CarbonData

　　我们在《Apache CarbonData快速入门编程指南》文章中介绍了如何快速使用Apache CarbonData，为了简单起见，我们展示了如何在单机模式下使用Apache CarbonData。但是生产环境下一般都是使用集群模式，本文主要介绍如何在集群模式下使用Apache CarbonData。启动Spark shell这里以Spark shell模式进行介绍，master为yarn-client，启动Spark shell如下

w397090770 8年前 (2016-07-07) 2614℃ 1评论3喜欢

Spark

Spark 2.0介绍：Catalog API介绍和使用

《Spark 2.0技术预览：更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化，为该框架明年的发展奠定了方向，所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一序列的介

w397090770 8年前 (2016-07-05) 8771℃ 0评论11喜欢

CarbonData

Apache CarbonData快速入门编程指南

　　CarbonData是由华为开发、开源并支持Apache Hadoop的列式存储文件格式，支持索引、压缩以及解编码等，其目的是为了实现同一份数据达到多种需求，而且能够实现更快的交互查询。目前该项目正处于Apache孵化过程中。详情参见《CarbonData：华为开发并支持Hadoop的列式文件格式》，本文是单机模式下使用CarbonData的，如果你需要集群模

w397090770 8年前 (2016-07-01) 8355℃ 3评论6喜欢

Thrift

CentOS上编译安装Apache Thrift

Thrift 最初由Facebook开发，目前已经开源到Apache，已广泛应用于业界。Thrift 正如其官方主页介绍的，“是一种可扩展、跨语言的服务开发框架”。简而言之，它主要用于各个服务之间的RPC通信，其服务端和客户端可以用不同的语言来开发。只需要依照IDL（Interface Description Language）定义一次接口，Thrift工具就能自动生成 C++, Java, Python, PH

w397090770 8年前 (2016-06-30) 3629℃ 0评论7喜欢

Hive

Hive中Reduce个数是如何计算的

　　我们在使用Hive查询数据的时候经常会看到如下的输出：[code lang="java"]Query ID = iteblog_20160704104520_988f81d4-0b82-4778-af98-43cc1950d357Total jobs = 1Launching Job 1 out of 1Number of reduce tasks determined at compile time: 1In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer=<number>In order to limit the maximum number of reducers:

w397090770 8年前 (2016-06-28) 15014℃ 1评论39喜欢

Spark meetup

上海第九次Spark Meetup资料分享

　　Shanghai Apache Spark Meetup第九次聚会在6月18日下午13:00-17:00由Intel联手饿了么在上海市普陀区金沙江路1518弄2号近铁城市广场饿了么公司5楼会议室(榴莲酥+螺狮粉)举行。分享主题演讲者1: 史鸣飞，英特尔大数据工程师演讲者2: 史栋杰，英特尔大数据工程师演讲者3: 毕洪宇，饿了么数据运营部副总监演讲者4: 张家劲，

w397090770 8年前 (2016-06-25) 2087℃ 0评论4喜欢

Spark

通过分区(Partitioning)提高Spark的运行性能

在Sortable公司，很多数据处理的工作都是使用Spark完成的。在使用Spark的过程中他们发现了一个能够提高Spark job性能的一个技巧，也就是修改数据的分区数，本文将举个例子并详细地介绍如何做到的。查找质数比如我们需要从2到2000000之间寻找所有的质数。我们很自然地会想到先找到所有的非质数，剩下的所有数字就是我们要找

w397090770 8年前 (2016-06-24) 23428℃ 2评论45喜欢

Hadoop

Hadoop集群监控：jmx信息获取

　　Hadoop集群的监控可以通过多种方式来实现（比如REST API、jmx、内置API等等）。虽然监控方式有多种，但是我们需要根据监控的指标选择不同的监控方式，比如如果你想监控作业的情况，那么你选择jmx是不能满足的；你想监控各节点的运行情况，REST API也是不能满足的。所以在选择不同当时监控时，我们需要详细了解需要我们的需

w397090770 8年前 (2016-06-23) 21120℃ 0评论34喜欢

上一页
1
···
72
73
74
75
76
77
78
79
80
81
82
...
139
下一页
共 139 页