Apache Kafka 快速学习大纲

家电修理 2023-07-16 19:16www.caominkang.com电器维修

Kafka 概述

定义

Kafka传统定义Kafka是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域。

Kafka 最新定义Kafka是一个开源的分布式事件流平台（Event Streaming Platform），被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。

kafka 场景

（1）日志收集收集各种服务的 log，通过 kafka 以统一接口服务的方式开放给各种 consumer，例如 Hadoop、Hbase、Solr 等；

（2）消息系统解耦和生产者和消费者、缓存消息等；

（3）用户活动跟踪Kafka 经常被用来记录 eb 用户或者 app 用户的各种活动，如浏览网页、搜索、点击等活动，这些活动信息被各个服务器发布到 kafka 的 ic 中，然后订阅者通过订阅这些 ic 来做实时的监控分析，或者装载到 Hadoop、数据仓库中做离线分析和挖掘；

（4）运营指标Kafka 也经常用来记录运营监控数据。包括收集各种分布式应用的数据，生产各种操作的集中反馈，比如报警和报告；

基础组件

角色

broker节点，就是你看到的机器

provider生产者，发消息的

consumer消费者，读消息的

zookeeper信息中心，记录 kafka 的各种元数据的地方

controller其中的一个 broker，作为 leader 身份来负责管理整个集群。如果挂掉，借助 zk 重新选主

逻辑组件

ic主题，一个消息的通道，收发总得知道消息往哪投

partition分区，每个主题可以有多个分区分担数据的传递，多条路并行，吞吐量大

Replicas副本，每个分区可以设置多个副本，副本之间数据一致。相当于备份，有备胎更可靠

leader & folloer主从，上面的这些副本里有 1 个身份为 leader，其他的为 folloer。leader 处理 partition 的所有读写请求

实操 ics 操作

bin/kafka-ics.sh

参数描述–bootstrap-server 连接的 Kafka Broker 主机名称和端口号–ic 操作的 ic 名称–create创建主题–delete删除主题–alter修改主题–list查看所有主题–describe查看主题详细描述–partitions 设置分区数–replication-factor设置分区副本–config 更新系统默认的配置

查看服务器中的所有 ic

kafka-ics.sh --bootstrap-server kafka.big-data.svc.cluster.local:9092 --describe

创建 demo ic

kafka-ics.sh --bootstrap-server kafka.big-data.svc.cluster.local:9092 --create --partitions 3 --replication-factor 3 --ic  demo

删除 ic

kafka-ics.sh --bootstrap-server kafka.big-data.svc.cluster.local:9092 --delete --ic demo

生产者命令

 bin/kafka-console-producer.sh

参数名称描述bootstrap.servers生产者连接集群所需的broker地址清单。例如hadoop102:9092,hadoop103:9092,hadoop104:9092可以设置1个或者多个，中间用逗号隔开。注意这里并非需要所有的broker地址，因为生产者从给定的broker里查找到其他broker信息key.serializer 和 value.serializer指定发送消息的 key 和 value 的序列化类型。一定要写全类名buffer.memoryRecordAumulator 缓冲区总大小，默认32mbatch.size缓冲区一批数据最大值，默认16k。适当增加该值，可以提高吞吐量，如果该值设置太大，会导致数据传输延迟增加。linger.ms如果数据迟迟未达到 batch.size，sender 等待 linger.time之后就会发送数据。单位 ms，默认值是 0ms，表示没有延迟。生产环境建议该值大小为 5-100ms 之间。acks0生产者发送过来的数据，不需要等数据落盘应答。
1生产者发送过来的数据，Leader 收到数据后应答。
-1（all）生产者发送过来的数据，Leader+和 isr 队列
里面的所有节点收齐数据后应答。默认值是-1，-1 和 all 是等价的max.in.flight.requests.per.connection允许最多没有返回 ack 的次数，默认为 5，开启幂等性要保证该值是 1-5 的数字retries当消息发送出现错误的时候，系统会重发消息。retrie表示重试次数。默认是 int 最大值，2147483647。
如果设置了重试，还想保证消息的有序性，需要设置MAX_IN_FLIGHT_REQUESTS_PER_CONNECTION=1 否则在重试此失败消息的时候，其他的消息可能发送成功了retry.backoff.ms两次重试之间的时间间隔，默认是 100msenable.idempotence是否开启幂等性，默认 true，开启幂等性。pression.type生产者发送的所有数据的压缩方式。默认是 none，就是不压缩。
支持压缩类型none、gzip、snappy、lz4 和 zstd。

发送消息

bin/kafka-console-producer.sh --bootstrap-server kafka.big-data.svc.cluster.local:9092 --ic demo
> hello orld
> hello vip-mall

消费者命令

bin/kafka-console-consumer.sh

参数名称描述bootstrap.servers向 Kafka 集群建立初始连接用到的 host/port 列表。key.deserializer和value.deserializer指定接收消息的 key 和 value 的反序列化类型。一定要写全类名。group.id标记消费者所属的消费者组。enable.auto.mit默认值为 true，消费者会自动周期性地向服务器提交偏移量。auto.mit.interval.ms如果设置了 enable.auto.mit 的值为 true，则该值定义了消费者偏移量向 Kafka 提交的频率，默认 5s。auto.offset.reset当 Kafka 中没有初始偏移量或当前偏移量在服务器中不存在（如，数据被删除了），该如何处理？ earliest自动重置偏移量到最早的偏移量。 latest默认，自动重置偏移量为最新的偏移量。 none如果消费组原来的（previous）偏移量不存在，则向消费者抛异常。 anything向消费者抛异常。offsets.ic.num.partitions__consumer_offsets 的分区数，默认是 50 个分区。heartbeat.interval.msKafka 消费者和 coordinator 之间的心跳时间，默认 3s。该条目的值必须小于 session.timeout.ms ，也不应该高于session.timeout.ms 的 1/3。session.timeout.msKafka 消费者和 coordinator 之间连接超时时间，默认 45s。超过该值，该消费者被移除，消费者组执行再平衡。max.poll.interval.ms消费者处理消息的最大时长，默认是 5 分钟。超过该值，该消费者被移除，消费者组执行再平衡。fetch.min.bytes默认 1 个字节。消费者获取服务器端一批消息最小的字节数。fetch.max.ait.ms默认 500ms。如果没有从服务器端获取到一批数据的最小字节数。该时间到，仍然会返回数据。fetch.max.bytes默认 Default: 52428800（50 m）。消费者获取服务器端一批消息最大的字节数。如果服务器端一批次的数据大于该值（50m）仍然可以拉取回来这批数据，，这不是一个绝对最大值。一批次的大小受 message.max.bytes （broker config）or max.message.bytes （ic config）影响。max.poll.records一次 poll 拉取数据返回消息的最大条数，默认是 500 条。

消费消息

bin/kafka-console-consumer.sh --bootstrap-server kafka.big-data.svc.cluster.local:9092 --ic  demo

把ic 中所有的数据都读取出来（包括历史数据）

bin/kafka-console-consumer.sh --bootstrap-server kafka.big-data.svc.cluster.local:9092 --ic  demo --from-beginning

进阶 1. 自定义分区 2. 数据可靠性 ack 3. 数据去重幂等有序性 4. Broker 调优 5. 分区副本,分区的分配以及再平衡 6. 数据积压吞吐量调优学习资料

官方文档
滴滴KnoStreaming

Kafka使用场景

为何使用消息系统
我们为何需要搭建Apache Kafka分布式系统
消息队列中点对点与发布订阅区别

Kafka设计与原理分析

apache Kafka概要介绍
Kafka副本同步机制理解
Kafka文件存储机制那些事
Kafka数据可靠性与一致性解析
Kafka集群partitions/replicas默认分配解析
Apache Kafka消息传递可靠性分析
Apache Kafka中Folloer如何与Leader同步数据
Apache Kafka Broker HA机制
《Kafka & Mafka技术分享及讨论》
Kafka内部网络框架模型分析
Kafka延时分析
MQ关注和共性分享
Kafka delivery保证
apache Kafka Replication设计分析
带你去MQ的世界旅行

Kafka优化分析

kafka运行环境优化分析
kafka server部署配置优化

Apache Kafka 快速学习大纲

电脑维修网搜索

电脑维修导航

电脑维修知识

笔记本电脑维修

电脑维修培训

Apache Kafka 快速学习大纲

空调维修

电脑维修网搜索

电脑维修导航

电脑维修知识

笔记本电脑维修

电脑维修培训