kafka定时清除过期数据分析
《p》Kafka将数据持久化到了硬盘上,允许你配置一定的策略对数据清理,清理的策略有两个,删除和压缩。 《br》 数据清理的方式 《br》 删除 《br》 log.cleanup.policy=delete启用删除策略 《br》 直接删除,删除后的消息不可恢复。可配置以下两个策略: 《br》 清理超过指定时间清理: 《br》 log.retention.hours=16 《br》 超过指定大小后,删除旧的消息: 《br》 log.retention.bytes=1073741824 《br》 为了避免在删除时阻塞读操作,采用了copy-on-write形式的实现,删除操作进行时,读取操作的二分查找功能实际是在一个静态的快照副本上进行的,这类似于Java的CopyOnWriteArrayList。 《br》 压缩 《br》 将数据压缩,只保留每个key最后一个版本的数据。 《br》 首先在broker的配置中设置log.cleaner.enable=true启用cleaner,这个默认是关闭的。 《br》 在topic的配置中设置log.cleanup.policy=compact启用压缩策略。 《br》 压缩策略的细节《/p》《p》如上图,在整个数据流中,每个Key都有可能出现多次,压缩时将根据Key将消息聚合,只保留最后一次出现时的数据。这样,无论什么时候消费消息,都能拿到每个Key的最新版本的数据。 《br》 压缩后的offset可能是不连续的,比如上图中没有5和7,因为这些offset的消息被merge了,当从这些offset消费消息时,将会拿到比这个offset大的offset对应的消息,比如,当试图获取offset为5的消息时,实际上会拿到offset为6的消息,并从这个位置开始消费。 《br》 这种策略只适合特俗场景,比如消息的key是用户ID,消息体是用户的资料,通过这种压缩策略,整个消息集里就保存了所有用户最新的资料。 《br》 压缩策略支持删除,当某个Key的最新版本的消息没有内容时,这个Key将被删除,这也符合以上逻辑
Kafka定时清除过期数据2017-09-04 14:04《p》Kafka将数据持久化到了硬盘上,允许你配置一定的策略对数据清理,清理的策略有两个,删除和压缩。 《br》 数据清理的方式 《br》 删除 《br》 log.cleanup.policy=delete启用删除策略 《br》 直接删除,删除后的消息不可恢复。可配置以下两个策略: 《br》 清理超过指定时间清理: 《br》 log.retention.hours=16 《br》 超过指定大小后,删除旧的消息: 《br》 log.retention.bytes=1073741824 《br》 为了避免在删除时阻塞读操作,采用了copy-on-write形式的实现,删除操作进行时,读取操作的二分查找功能实际是在一个静态的快照副本上进行的,这类似于Java的CopyOnWriteArrayList。 《br》 压缩 《br》 将数据压缩,只保留每个key最后一个版本的数据。 《br》 首先在broker的配置中设置log.cleaner.enable=true启用cleaner,这个默认是关闭的。 《br》 在topic的配置中设置log.cleanup.policy=compact启用压缩策略。 《br》 压缩策略的细节《/p》《p》如上图,在整个数据流中,每个Key都有可能出现多次,压缩时将根据Key将消息聚合,只保留最后一次出现时的数据。这样,无论什么时候消费消息,都能拿到每个Key的最新版本的数据。 《br》 压缩后的offset可能是不连续的,比如上图中没有5和7,因为这些offset的消息被merge了,当从这些offset消费消息时,将会拿到比这个offset大的offset对应的消息,比如,当试图获取offset为5的消息时,实际上会拿到offset为6的消息,并从这个位置开始消费。 《br》 这种策略只适合特俗场景,比如消息的key是用户ID,消息体是用户的资料,通过这种压缩策略,整个消息集里就保存了所有用户最新的资料。 《br》 压缩策略支持删除,当某个Key的最新版本的消息没有内容时,这个Key将被删除,这也符合以上逻辑
非常好我支持^.^
(0) 0%
不好我反对
(0) 0%