欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

w397090770的文章

Spark

Spark Summit North America 201806 全部PPT下载[共147个]

Spark Summit North America 201806 全部PPT下载[共147个]
为期三天的 Spark Summit 在美国时间 2018-06-04 ~ 06-06 于旧金山的 Moscone Center 举行,不少人已经注意到,今年的会议已经更名为 Spark+AI, 去年 12 月份时,Databricks 在他们的博客中就已经提到过,2018 年的会议将包括更多人工智能的内容,某种意义上也代表着 Spark 未来的发展方向。作为大数据领域的顶级会议,Spark Summit 2018 吸引了全球近 200

  7年前 (2018-06-18) 3680℃ 0评论14喜欢

资料分享

使用 LFS 解决 GitHub 无法上传大文件问题

使用 LFS 解决 GitHub 无法上传大文件问题
如果你使用 Git 上传大于 100M 的文件时,你会遇到如下的问题:[code lang="bash"]iteblog@www.iteblog.com /d/spark-summit-north-america-2018-06 (master)$ git push origin masterfatal: AggregateException encountered. ▒▒▒▒һ▒▒▒▒▒▒▒▒▒▒Username for 'https://github.com': 397090770Counting objects: 78, done.Delta compression using up to 4 threads.Compressing objects: 100% (78/7

  7年前 (2018-06-17) 7676℃ 0评论7喜欢

ElasticSearch

Elasticsearch 6.3 发布,你们要的 SQL 功能来了

Elasticsearch 6.3 发布,你们要的 SQL 功能来了
Elasticsearch 6.3 于前天正式发布,其中带来了很多新特性,详情请参见:https://www.elastic.co/blog/elasticsearch-6-3-0-released。这个版本最大的亮点莫过于内置支持 SQL 模块!我在早些时间就说过 Elasticsearch 将会内置支持 SQL,参见:ElasticSearch内置也将支持SQL特性。我们可以像操作 MySQL一样使用 Elasticsearch,这样我们就可以减少 DSL 的学习成本,

  7年前 (2018-06-15) 8996℃ 3评论14喜欢

CarbonData

Apache CarbonData 1.4.0 中文文档翻译完成

Apache CarbonData 1.4.0 中文文档翻译完成
Apache CarbonData 1.4.0 于 2018年06月06日正式发布。更新内容请参见 Apache CarbonData 1.4.0 正式发布,多项新功能及性能提升。Apache CarbonData 是一种新的融合存储解决方案,利用先进的列式存储,索引,压缩和编码技术提高计算效率,从而加快查询速度,其查询速度比 PetaBytes 数据快一个数量级。 鉴于目前使用 Apache CarbonData 用户越来越

  7年前 (2018-06-12) 4309℃ 0评论18喜欢

CarbonData

Apache CarbonData 1.4.0 正式发布,多项新功能及性能提升

Apache CarbonData 1.4.0 正式发布,多项新功能及性能提升
本文原文:https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=85475081。Carbondata 1.4.0 下载Carbondata 官方文档Carbondata 源码Apache CarbonData社区很高兴发布1.4.0版本,在社区开发者和用户的共同努力下,1.4.0解决了超过230个JIRA Tickets(新特性和bug修复),欢迎大家试用。简介CarbonData是一个高性能的数据解决方案,目标是实现一份数据支持

  7年前 (2018-06-05) 4368℃ 0评论4喜欢

Guava

网络速率限制以及 Guava 的 RateLimiter

网络速率限制以及 Guava 的 RateLimiter
在互联网网络中,当网络发生拥塞(congestion)时,交换机将开始丢弃数据包。这可能导致数据重发(retransmissions)、数据包查询(query packets),这些操作将进一步导致网络的拥塞。为了防止网络拥塞(network congestion),需限制流出网络的流量,使流量以比较均匀的速度向外发送。主要有两种限流算法:漏桶算法(Leaky Bucket)和

  7年前 (2018-06-04) 3398℃ 0评论4喜欢

Spark

Spark Streaming 反压(Back Pressure)机制介绍

Spark Streaming 反压(Back Pressure)机制介绍
背景在默认情况下,Spark Streaming 通过 receivers (或者是 Direct 方式) 以生产者生产数据的速率接收数据。当 batch processing time > batch interval 的时候,也就是每个批次数据处理的时间要比 Spark Streaming 批处理间隔时间长;越来越多的数据被接收,但是数据的处理速度没有跟上,导致系统开始出现数据堆积,可能进一步导致 Executor 端出现

  7年前 (2018-05-28) 27464℃ 409评论62喜欢

Flink

Apache Flink 1.5.0 正式发布,多项重要更新

Apache Flink 1.5.0 正式发布,多项重要更新
Apache Flink 1.5.0 于昨天晚上正式发布了。在过去五个月的时间里,Flink 社区共解决了超过 780 个 issues。完整的 changelog 看这里: https://issues.apache.org/jira/secure/ReleaseNote.jspa?version=12341764&projectId=12315522。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopFlink 1.5.0 是 1.x.y 版本线上的第六个主要发行版。

  7年前 (2018-05-26) 3131℃ 0评论12喜欢

常用工具

在 Shell 中下载 ftp 文件的几种方法

在 Shell 中下载 ftp 文件的几种方法
FTP 是 File Transfer Protocol(文件传输协议)的英文简称,而中文简称为“文传协议”。用于 Internet 上的控制文件的双向传输。同时,它也是一个应用程序(Application)。基于不同的操作系统有不同的 FTP 应用程序,而所有这些应用程序都遵守同一种协议以传输文件。在 FTP 的使用当中,用户经常遇到两个概念:下载(Download)和上传(Up

  7年前 (2018-05-23) 5290℃ 0评论7喜欢

Hadoop

HDFS 块和 Input Splits 的区别与联系(源码版)

HDFS 块和 Input Splits 的区别与联系(源码版)
在 《HDFS 块和 Input Splits 的区别与联系》 文章中介绍了HDFS 块和 Input Splits 的区别与联系,其中并没有涉及到源码级别的描述。为了补充这部分,这篇文章将列出相关的源码进行说明。看源码可能会比直接看文字容易理解,毕竟代码说明一切。为了简便起见,这里只描述 TextInputFormat 部分的读取逻辑,关于写 HDFS 块相关的代码请参

  7年前 (2018-05-16) 2403℃ 0评论19喜欢