分类：Kafka

Kafka客户端是如何找到 leader 分区的

在正常情况下，Kafka中的每个Topic都会有很多个分区，每个分区又会存在多个副本。在这些副本中，存在一个leader分区，而剩下的分区叫做 follower，所有对分区的读写操作都是对leader分区进行的。所以当我们向Kafka写消息或者从Kafka读取消息的时候，必须先找到对应分区的Leader及其所在的Broker地址，这样才可以进行后续的操作。本文将

w397090770 8年前 (2017-07-28) 2079℃ 0评论6喜欢

Java API方式调用Kafka各种协议

众所周知，Kafka自己实现了一套二进制协议(binary protocol)用于各种功能的实现，比如发送消息，获取消息，提交位移以及创建topic等。具体协议规范参见：Kafka协议这套协议的具体使用流程为：客户端创建对应协议的请求客户端发送请求给对应的brokerbroker处理请求，并发送response给客户端如果想及时了解Spark、Hadoop或者HBase

w397090770 8年前 (2017-07-27) 425℃ 0评论0喜欢

Kafka分区分配策略(Partition Assignment Strategy)

问题用过 Kafka 的同学应该都知道，每个 Topic 一般会有很多个 partitions。为了使得我们能够及时消费消息，我们也可能会启动多个 Consumer 去消费，而每个 Consumer 又会启动一个或多个streams去分别消费 Topic 对应分区中的数据。我们又知道，Kafka 存在 Consumer Group 的概念，也就是 group.id 一样的 Consumer，这些 Consumer 属于同一个Consumer Group

w397090770 8年前 (2017-07-22) 17894℃ 3评论27喜欢

使用idea阅读Kafka源码

本文涉及到的环境：操作系统：Windows 7Idea 版本：IntelliJ IDEA 2016.3.4 Build #IU-163.12024.16, built on January 31, 2017Kafka 版本：Kafka 0.8.2.0Gradle 版本：gradle-4.0.1JDK 版本：jdk1.7.0Scala 版本：2.10.4首先到http://archive.apache.org/dist/kafka/里面下载你需要的Kafka源码，本文选自的是kafka-0.8.2.0。因为Kafka代码自0.8.x之后就使用 Gradle 来进行编译

w397090770 8年前 (2017-07-21) 6214℃ 0评论16喜欢

Apache Kafka 0.10.2.0正式发布

Apache Kafka 0.10.2.0正式发布，此版本供修复超过200个bugs，合并超过500个 PR。本版本添加了一下的新功能：　　1、支持session windows，参见KAFKA-3452　　2、提供ProcessorContext中低层次Metrics的访问，参见KAFKA-3537　　3、不用配置文件的情况下支持为 Kafka clients JAAS配置，参见KAFKA-4259　　4、为Kafka Streams提供全局Table支持，参见KAFKA-4490

w397090770 8年前 (2017-02-23) 2631℃ 0评论1喜欢

基于Spark的公安大数据实时运维技术实践

　　公安行业存在数以万计的前后端设备，前端设备包括相机、检测器及感应器，后端设备包括各级中心机房中的服务器、应用服务器、网络设备及机房动力系统，数量巨大、种类繁多的设备给公安内部运维管理带来了巨大挑战。传统通过ICMP/SNMP、Trap/Syslog等工具对设备进行诊断分析的方式已不能满足实际要求，由于公安内部运维管

w397090770 8年前 (2017-01-01) 11316℃ 1评论39喜欢

Kafka集群调优

　　Kafka Cluster模式最大的优点：可扩展性和容错性，下图是关于Kafka集群的结构图：Kafka Broker个数决定因素　　磁盘容量：首先考虑的是所需保存的消息所占用的总磁盘容量和每个broker所能提供的磁盘空间。如果Kafka集群需要保留 10 TB数据，单个broker能存储 2 TB，那么我们需要的最小Kafka集群大小 5 个broker。此外，如果启用副

w397090770 9年前 (2016-11-18) 13767℃ 0评论28喜欢

Structured Streaming和Kafka 0.8\0.9整合开发

$Structured Streaming和Kafka 0.8\0.9整合开发$

　　流式处理是大数据应用中的非常重要的一环，在Spark中Spark Streaming利用Spark的高效框架提供了基于micro-batch的流式处理框架，并在RDD之上抽象了流式操作API DStream供用户使用。　　随着流式处理需求的复杂化，用户希望在流式数据中引入较为复杂的查询和分析，传统的DStream API想要实现相应的功能就变得较为复杂，同时随着Spark

w397090770 9年前 (2016-11-16) 6116℃ 0评论13喜欢

在Spring中使用Kafka：Producer篇

　　在某些情况下，我们可能会在Spring中将一些WEB上的信息发送到Kafka中，这时候我们就需要在Spring中编写Producer相关的代码了；不过高兴的是，Spring本身提供了操作Kafka的相关类库，我们可以直接通过xml文件配置然后直接在后端的代码中使用Kafka，非常地方便。本文将介绍如果在Spring中将消息发送到Kafka。在这之前，请将下面的依赖

w397090770 9年前 (2016-11-01) 6263℃ 0评论11喜欢

如何为Kafka集群选择合适的Topics/Partitions数量？

　　这是许多kafka使用者经常会问到的一个问题。本文的目的是介绍与本问题相关的一些重要决策因素，并提供一些简单的计算公式。越多的分区可以提供更高的吞吐量　　首先我们需要明白以下事实：在kafka中，单个patition是kafka并行操作的最小单元。在producer和broker端，向每一个分区写入数据是可以完全并行化的，此时，可

w397090770 9年前 (2016-09-08) 10351℃ 2评论22喜欢

上一页
1
2
3
4
5
6
7
8
9
10
下一页
共 10 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据