wuzhenren's blog

项目部署Kafka踩坑记录

zookeeper单机部署三个节点，一直启动失败，原因需要在每个data节点文件中写入一个myid文件。
echo 1 > dir/data/zk1/myid

查看所有topic

bin/kafka-topics.sh –bootstrap-server 9.135.76.106:9092 –list

创建topic first

bin/kafka-topics.sh –bootstrap-server 9.135.76.106:9092 –topic first –create –partitions 1 – replication-factor 3

查看topic详情

bin/kafka-topics.sh –bootstrap-server 9.135.76.106:9092 –topic first –describe

bin/kafka-topics.sh –bootstrap-server 9.135.76.106:9092 –topic first –alter –partitions 3

分区只能增加，不能减少。

bin/kafka-console-producer.sh –bootstrap-server 9.135.76.106:9092 –topic first
向分区发送消息

接收消息

/usr/local/kafka]# bin/kafka-console-consumer.sh –bootstrap-server 9.135.76.106:9092 –topic first

从初始开始消费

bin/kafka-console-consumer.sh –bootstrap-server 9.135.76.106:9092 –topic first –from-beginning

sh bin/zkCli.sh 进入zookeeper客户端

下载prettyzoo，客户端，比较方便查看信息

zookeeper选举过程

1。broker在zookeeper里面注册，新服务服务只需要配置cnfig文件即可

新服务服役，不会立即同步分片，需要进行负载均衡操作。

创建一个要均衡的主题，

vim topics-to-move.json
{“topics”: [{“topic”:”first”}], “version”: 1}

生成一个负载均衡的计划

bin/kafka-reassign-partitions.sh – bootstrap-server host:9092 –topics-to-move.json –broker-list “0,1,2,3” –generate

创建副本存储计划

vim increase-replication-factor.json

退役旧节点流程类似

Kafka概述
一、 Kafka定义

分布式发布订阅的消息队列，消息队列

发布订阅，消息分为多种类型（topic），订阅者根据需求，选择性订阅

高效读写数据

(1) kafka本身是分布式集群，可以采用分区技术，并行度高

(2) 该数据采用稀疏索引，即4kb记录一条索引，通过二分法查找快速定位到要消费的数据

(3) 顺序写磁盘

Kafka的producer生产数据，要写入到log文件中，追加到文件末尾

segment为单位，一个是1G。顺序写，速度可以高达600M/s，而随机写只能达到100k/s

与磁盘的机械结构有关，顺序写之所以快，是因为其省去了大量的磁头寻址时间

回忆操作系统。电梯算法

零拷贝

Kafka的数据加工处理操作交由Kafka生产者和Kafka消费者处理。Kafka broker应用层不关心存储的数据

所以不用走应用层，传输效率高 如何理解这句话？

零拷贝就是生产者数据发送到Kafka集群中，不需要关心数据是什么样到，

因为拦截器、序列化工具都是在生产者客户端和消费者端完成，

输出流到了Kafka端口，由内核完成转发过程，消费者拉取到输入流，

一切到消费者客户端处理

PageCache页缓存

Kafka中毒依赖底层操作系统提供的pageCache功能。

当上层有写操作时，操作系统只是将数据写入PageCache。

当读操作发生时，先从PageCache中查找，如果找不到，再去磁盘中读取。

即所谓的缺页中断，实际上pageCache是把更可能多的空闲内存都当作了磁盘缓存来使用。

消费者

pull 拉取模式
push 推送模式

Kafka没有采取push模式，为什么？

因为broker决定消息发送速率，很难适用所有消费者到消费速率。

例如推送到速度为50m/s，消费者1 2 就来不及消费，但是消息堆积甚至丢失

pull模式不足之处是，如果Kafka没有数据，消费者可能会陷入循环中，一直返回空数据

一个topic也只能由消费者组中的一个消费者消费。一个主题是绝不能由多个消费者消费的，流式处理。

消费者组原理

消费者都维护一个groupID，消费者数量不能超过主题数量

不同消费者组之中的消费者是可以消费同一个主题的。

coordinator：辅助实现消费者组的初始化和分区的分配

节点选择，groupid的hashcode值%50

例如，groupid=1，1%50=1，那么该主题的1号分区，在3号broker上，就选择这个节点的coordinator作为这个消费者组的老大

相当于选出了一个leader节点，制定一个消费方案。消费者组下的所有的消费者提交offset的时候就往这个分区去提交offset

每个消费者都会和coordinator保持心跳，默认3s，一旦超时45s，该消费者会被移除，并触发再平衡

或者消费者处理消息的时间过长，最大处理时间5分钟，也会触发再平衡