w397090770的文章

如何选择Apache Spark和Apache Flink

　　Spark Streaming和Flink都能提供恰好一次的保证，即每条记录都仅处理一次。与其他处理系统（比如Storm）相比，它们都能提供一个非常高的吞吐量。它们的容错开销也都非常低。之前，Spark提供了可配置的内存管理，而Flink提供了自动内存管理，但从1.6版本开始，Spark也提供了自动内存管理。这两个流处理引擎确实有许多相似之处，

9年前 (2016-04-02) 4770℃ 0评论5喜欢

Kafka

如何移动Kafka部分分区的数据

　　在《Kafka集群扩展以及重新分布分区》文章中我们介绍了如何重新分布分区，在那里面我们基本上把所有的分区全部移动了，其实我们完全没必要移动所有的分区，而移动其中部分的分区。比如我们想把Broker 1与Broker 7上面的分区数据互换，如下图所示：可以看出，只有Broker 1与Broker 7上面的分区做了移动。来看看移动分区之

9年前 (2016-03-31) 3357℃ 0评论4喜欢

Flink

Flink on YARN部署快速入门指南

　　Apache Flink是一个高效、分布式、基于Java和Scala(主要是由Java实现)实现的通用大数据分析引擎，它具有分布式 MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案，它支持批量和基于流的数据分析，且提供了基于Java和Scala的API。　　从Flink官方文档可以知道，目前Flink支持三大部署模式：Local、Cluster以及Cloud

9年前 (2016-03-30) 24281℃ 6评论22喜欢

Kafka

Key为null时Kafka如何选择分区(Partition)

我们往Kafka发送消息时一般都是将消息封装到KeyedMessage类中：[code lang="scala"]val message = new KeyedMessage[String, String](topic, key, content)producer.send(message)[/code]Kafka会根据传进来的key计算其分区ID。但是这个Key可以不传，根据Kafka的官方文档描述：如果key为null，那么Producer将会把这条消息发送给随机的一个Partition。If the key is null, the

9年前 (2016-03-30) 16381℃ 0评论10喜欢

Kafka

Kafka Producer是如何动态感知Topic分区数变化

　　我们都知道，使用Kafka Producer往Kafka的Broker发送消息的时候，Kafka会根据消息的key计算出这条消息应该发送到哪个分区。默认的分区计算类是HashPartitioner，其实现如下：[code lang="scala"]class HashPartitioner(props: VerifiableProperties = null) extends Partitioner { def partition(data: Any, numPartitions: Int): Int = { (data.hashCode % numPartitions) }}[/code]

9年前 (2016-03-29) 9242℃ 0评论9喜欢

Spark meetup

北京第十次Spark meetup会议资料分享

　　北京第十次Spark Meetup活动于北京时间2016年03月27日在北京市海淀区丹棱街5号微软亚太研发集团总部大厦1号楼进行。活动内容如下：1. Spark in TalkingData,阎志涛.TalkingData研发副总裁2. Spark in GrowingIO,田毅,GrowingIO数据平台工程师,主要分享GrowingIO使用Spark进行数据处理过程中的各种小技巧，包括：多数据源的访问和使用Bitmap进行

9年前 (2016-03-28) 2131℃ 0评论4喜欢

Kafka

Kafka日志删除源码分析

　　昨天Kafka集群磁盘容量达到了90%，于是赶紧将Log的保存时间设置成24小时，但是发现设置完之后Log仍然没有被删除。于是今天特意去看了一下Kafka日志删除相关的代码，于是有了这篇文章。　　在使用Kafka的时候我们一般都会根据需求对Log进行保存，比如保存1天、3天或者7天之类的，我们可以通过以下的几个参数实现：[code lan

9年前 (2016-03-28) 5545℃ 0评论17喜欢

Spark

Spark MLlib 1.6.1之特征抽取和变换

7.1 TF-IDF　　TF-IDF是一种特征向量化方法，这种方法多用于文本挖掘，通过算法可以反应出词在语料库中某个文档中的重要性。文档中词记为t，文档记为d , 语料库记为D . 词频TF(t,d) 是词t 在文档d 中出现的次数。文档频次DF(t,D) 是语料库中包括词t的文档数。如果使用词在文档中出现的频次表示词的重要程度，那么很容易取出反例，

9年前 (2016-03-27) 6053℃ 0评论6喜欢

Java

JMX监控权限认证配置

　　JMX（Java Management Extensions，即Java管理扩展）是一个为应用程序、设备、系统等植入管理功能的框架。JMX可以跨越一系列异构操作系统平台、系统体系结构和网络传输协议，灵活的开发无缝集成的系统、网络和服务管理应用。启动JMX监控，在启动java程序的时候最少需要在环境变量里面配置以下的选项：[code lang="bash"]-Dcom.sun.m

9年前 (2016-03-25) 6270℃ 0评论10喜欢

Kafka

Kafka集群Leader均衡(Balancing leadership)

　　当一个broker停止或者crashes时，所有本来将它作为leader的分区将会把leader转移到其它broker上去。这意味着当这个broker重启时，它将不再担任何分区的leader，kafka的client也不会从这个broker来读取消息，从而导致资源的浪费。比如下面的broker 7是挂掉重启的，我们可以发现Partition 1虽然在broker 7上有数据，但是由于它挂了，所以Kafka重新

9年前 (2016-03-24) 8386℃ 0评论5喜欢

上一页
1
···
72
73
74
75
76
77
78
79
80
81
82
...
133
下一页
共 133 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

w397090770的文章

如何选择Apache Spark和Apache Flink

如何移动Kafka部分分区的数据

Flink on YARN部署快速入门指南

Key为null时Kafka如何选择分区(Partition)

Kafka Producer是如何动态感知Topic分区数变化

北京第十次Spark meetup会议资料分享

Kafka日志删除源码分析

Spark MLlib 1.6.1之特征抽取和变换

JMX监控权限认证配置

Kafka集群Leader均衡(Balancing leadership)