最新发布第47页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139555)481喜欢
1Hive数据类型转换
浏览 (116271)90喜欢
2Hive常用字符串函数
浏览 (102319)70喜欢
3Hive insert into语句用法
浏览 (94132)183喜欢
4Hive常用函数大全一览
浏览 (92771)132喜欢
5Hive几种数据导入方式
浏览 (91098)78喜欢
6Apache Spark SQL自适应执行实践
浏览 (88084)297喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84885)72喜欢
8使用HttpClient通过post方式发送json数据
浏览 (84199)76喜欢
9Hive:ORC File Format存储格式详解
浏览 (84006)91喜欢
10Spark: sortBy和sortByKey函数详解

Apache CarbonData 1.4.0 中文文档翻译完成

Apache CarbonData 1.4.0 于 2018年06月06日正式发布。更新内容请参见 Apache CarbonData 1.4.0 正式发布，多项新功能及性能提升。Apache CarbonData 是一种新的融合存储解决方案，利用先进的列式存储，索引，压缩和编码技术提高计算效率，从而加快查询速度，其查询速度比 PetaBytes 数据快一个数量级。鉴于目前使用 Apache CarbonData 用户越来越

w397090770 7年前 (2018-06-12) 4304℃ 0评论18喜欢

CarbonData

Apache CarbonData 1.4.0 正式发布，多项新功能及性能提升

本文原文：https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=85475081。Carbondata 1.4.0 下载Carbondata 官方文档Carbondata 源码Apache CarbonData社区很高兴发布1.4.0版本，在社区开发者和用户的共同努力下，1.4.0解决了超过230个JIRA Tickets（新特性和bug修复），欢迎大家试用。简介CarbonData是一个高性能的数据解决方案，目标是实现一份数据支持

w397090770 7年前 (2018-06-05) 4363℃ 0评论4喜欢

Guava

网络速率限制以及 Guava 的 RateLimiter

在互联网网络中，当网络发生拥塞（congestion）时，交换机将开始丢弃数据包。这可能导致数据重发（retransmissions）、数据包查询（query packets），这些操作将进一步导致网络的拥塞。为了防止网络拥塞（network congestion），需限制流出网络的流量，使流量以比较均匀的速度向外发送。主要有两种限流算法：漏桶算法（Leaky Bucket）和

w397090770 7年前 (2018-06-04) 3371℃ 0评论4喜欢

Spark

Spark Streaming 反压（Back Pressure）机制介绍

背景在默认情况下，Spark Streaming 通过 receivers (或者是 Direct 方式) 以生产者生产数据的速率接收数据。当 batch processing time > batch interval 的时候，也就是每个批次数据处理的时间要比 Spark Streaming 批处理间隔时间长；越来越多的数据被接收，但是数据的处理速度没有跟上，导致系统开始出现数据堆积，可能进一步导致 Executor 端出现

w397090770 7年前 (2018-05-28) 27277℃ 409评论62喜欢

Flink

Apache Flink 1.5.0 正式发布，多项重要更新

Apache Flink 1.5.0 于昨天晚上正式发布了。在过去五个月的时间里，Flink 社区共解决了超过 780 个 issues。完整的 changelog 看这里: https://issues.apache.org/jira/secure/ReleaseNote.jspa?version=12341764&projectId=12315522。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoopFlink 1.5.0 是 1.x.y 版本线上的第六个主要发行版。

w397090770 7年前 (2018-05-26) 3120℃ 0评论12喜欢

常用工具

在 Shell 中下载 ftp 文件的几种方法

FTP 是 File Transfer Protocol（文件传输协议）的英文简称，而中文简称为“文传协议”。用于 Internet 上的控制文件的双向传输。同时，它也是一个应用程序（Application）。基于不同的操作系统有不同的 FTP 应用程序，而所有这些应用程序都遵守同一种协议以传输文件。在 FTP 的使用当中，用户经常遇到两个概念：下载（Download）和上传（Up

w397090770 7年前 (2018-05-23) 5274℃ 0评论7喜欢

Hadoop

HDFS 块和 Input Splits 的区别与联系(源码版)

在《HDFS 块和 Input Splits 的区别与联系》文章中介绍了HDFS 块和 Input Splits 的区别与联系，其中并没有涉及到源码级别的描述。为了补充这部分，这篇文章将列出相关的源码进行说明。看源码可能会比直接看文字容易理解，毕竟代码说明一切。为了简便起见，这里只描述 TextInputFormat 部分的读取逻辑，关于写 HDFS 块相关的代码请参

w397090770 7年前 (2018-05-16) 2393℃ 0评论19喜欢

Hadoop

HDFS 块和 Input Splits 的区别与联系

相信大家都知道，HDFS 将文件按照一定大小的块进行切割，（我们可以通过 dfs.blocksize 参数来设置 HDFS 块的大小，在 Hadoop 2.x 上，默认的块大小为 128MB。）也就是说，如果一个文件大小大于 128MB，那么这个文件会被切割成很多块，这些块分别存储在不同的机器上。当我们启动一个 MapReduce 作业去处理这些数据的时候，程序会计算出文

w397090770 7年前 (2018-05-16) 2692℃ 4评论28喜欢

Kafka

Spring Boot 中读写 Kafka header 信息

Apache Kafka 从 0.11.0.0 版本开始支持在消息中添加 header 信息，具体参见 KAFKA-4208。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop本文将介绍如何使用 spring-kafka 在 Kafka Message 中添加或者读取自定义 headers。本文使用各个系统的版本为：Spring Kafka: 2.1.4.RELEASESpring Boot: 2.0.0.RELEASEApache Kafka: kafka

w397090770 7年前 (2018-05-13) 4853℃ 0评论0喜欢

Flink

杭州第六次 Spark & Flink Meetup 资料分享

杭州第六次 Spark & Flink Meetup 于2018年05月12日在华为杭研所1号楼1楼报告厅进行。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop议题本次会议的议题如下：冯叶磊 - 华为云《Time GeoSpatial on Flink SQL》范文臣 - Spark PMC 《deep dive into structural streaming》梁永峰 - 阿里《基于Flink的流计算平台

w397090770 7年前 (2018-05-13) 3941℃ 1评论8喜欢

上一页
1
···
42
43
44
45
46
47
48
49
50
51
52
...
140
下一页
共 140 页