w397090770的文章

Spark Summit North America 201806 全部PPT下载[共147个]

为期三天的 Spark Summit 在美国时间 2018-06-04 ~ 06-06 于旧金山的 Moscone Center 举行，不少人已经注意到，今年的会议已经更名为 Spark+AI, 去年 12 月份时，Databricks 在他们的博客中就已经提到过，2018 年的会议将包括更多人工智能的内容，某种意义上也代表着 Spark 未来的发展方向。作为大数据领域的顶级会议，Spark Summit 2018 吸引了全球近 200

7年前 (2018-06-18) 3680℃ 0评论14喜欢

资料分享

使用 LFS 解决 GitHub 无法上传大文件问题

如果你使用 Git 上传大于 100M 的文件时，你会遇到如下的问题：[code lang="bash"]iteblog@www.iteblog.com /d/spark-summit-north-america-2018-06 (master)$ git push origin masterfatal: AggregateException encountered. ▒▒▒▒һ▒▒▒▒▒▒▒▒▒▒Username for 'https://github.com': 397090770Counting objects: 78, done.Delta compression using up to 4 threads.Compressing objects: 100% (78/7

7年前 (2018-06-17) 7676℃ 0评论7喜欢

ElasticSearch

Elasticsearch 6.3 发布，你们要的 SQL 功能来了

Elasticsearch 6.3 于前天正式发布，其中带来了很多新特性，详情请参见：https://www.elastic.co/blog/elasticsearch-6-3-0-released。这个版本最大的亮点莫过于内置支持 SQL 模块！我在早些时间就说过 Elasticsearch 将会内置支持 SQL，参见：ElasticSearch内置也将支持SQL特性。我们可以像操作 MySQL一样使用 Elasticsearch，这样我们就可以减少 DSL 的学习成本，

7年前 (2018-06-15) 8996℃ 3评论14喜欢

CarbonData

Apache CarbonData 1.4.0 中文文档翻译完成

Apache CarbonData 1.4.0 于 2018年06月06日正式发布。更新内容请参见 Apache CarbonData 1.4.0 正式发布，多项新功能及性能提升。Apache CarbonData 是一种新的融合存储解决方案，利用先进的列式存储，索引，压缩和编码技术提高计算效率，从而加快查询速度，其查询速度比 PetaBytes 数据快一个数量级。鉴于目前使用 Apache CarbonData 用户越来越

7年前 (2018-06-12) 4309℃ 0评论18喜欢

CarbonData

Apache CarbonData 1.4.0 正式发布，多项新功能及性能提升

本文原文：https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=85475081。Carbondata 1.4.0 下载Carbondata 官方文档Carbondata 源码Apache CarbonData社区很高兴发布1.4.0版本，在社区开发者和用户的共同努力下，1.4.0解决了超过230个JIRA Tickets（新特性和bug修复），欢迎大家试用。简介CarbonData是一个高性能的数据解决方案，目标是实现一份数据支持

7年前 (2018-06-05) 4368℃ 0评论4喜欢

Guava

网络速率限制以及 Guava 的 RateLimiter

在互联网网络中，当网络发生拥塞（congestion）时，交换机将开始丢弃数据包。这可能导致数据重发（retransmissions）、数据包查询（query packets），这些操作将进一步导致网络的拥塞。为了防止网络拥塞（network congestion），需限制流出网络的流量，使流量以比较均匀的速度向外发送。主要有两种限流算法：漏桶算法（Leaky Bucket）和

7年前 (2018-06-04) 3398℃ 0评论4喜欢

Spark

Spark Streaming 反压（Back Pressure）机制介绍

背景在默认情况下，Spark Streaming 通过 receivers (或者是 Direct 方式) 以生产者生产数据的速率接收数据。当 batch processing time > batch interval 的时候，也就是每个批次数据处理的时间要比 Spark Streaming 批处理间隔时间长；越来越多的数据被接收，但是数据的处理速度没有跟上，导致系统开始出现数据堆积，可能进一步导致 Executor 端出现

7年前 (2018-05-28) 27464℃ 409评论62喜欢

Flink

Apache Flink 1.5.0 正式发布，多项重要更新

Apache Flink 1.5.0 于昨天晚上正式发布了。在过去五个月的时间里，Flink 社区共解决了超过 780 个 issues。完整的 changelog 看这里: https://issues.apache.org/jira/secure/ReleaseNote.jspa?version=12341764&projectId=12315522。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoopFlink 1.5.0 是 1.x.y 版本线上的第六个主要发行版。

7年前 (2018-05-26) 3131℃ 0评论12喜欢

常用工具

在 Shell 中下载 ftp 文件的几种方法

FTP 是 File Transfer Protocol（文件传输协议）的英文简称，而中文简称为“文传协议”。用于 Internet 上的控制文件的双向传输。同时，它也是一个应用程序（Application）。基于不同的操作系统有不同的 FTP 应用程序，而所有这些应用程序都遵守同一种协议以传输文件。在 FTP 的使用当中，用户经常遇到两个概念：下载（Download）和上传（Up

7年前 (2018-05-23) 5290℃ 0评论7喜欢

Hadoop

HDFS 块和 Input Splits 的区别与联系(源码版)

在《HDFS 块和 Input Splits 的区别与联系》文章中介绍了HDFS 块和 Input Splits 的区别与联系，其中并没有涉及到源码级别的描述。为了补充这部分，这篇文章将列出相关的源码进行说明。看源码可能会比直接看文字容易理解，毕竟代码说明一切。为了简便起见，这里只描述 TextInputFormat 部分的读取逻辑，关于写 HDFS 块相关的代码请参

7年前 (2018-05-16) 2403℃ 0评论19喜欢

上一页
1
···
40
41
42
43
44
45
46
47
48
49
50
...
134
下一页
共 134 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据