flume与hdfs

2021-03-28 07:28

阅读：738

标签：direct 自定义允许 src commit bsp 为什么提取 flume

Flume定义：

Flume是Cloudera提供的一个高可用的、高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。

为什么选用Flume

　　主要作用：实时读取服务器本地磁盘的数据，将数据写入到HDFS

技术图片

Flume的组织架构

　　1、最简单的组织架构

技术图片

　　2、Flume流式处理过程

技术图片

　　说明：

　　　　source: 数据输入端

　　　　　　常见类型： spooling directory, exec, syslog, avro, netcat等

　　　　channel:位于source和sink之间的缓冲区

　　　　　　memory: 基于内存缓存，允许数据有丢失

　　　　　　file: 持久化channel, 系统宕机不会丢失数据

　　　　sink: 数据输出端

　　　　　　常见的目的地有: HDFS, Kafka, logger, avro, File, 自定义

　　　　Put事务流程:

　　　　　　doPut: 将批数据写入临时缓冲区putList

　　　　　　doCommit: 检查channel内存队列是否足够合并

　　　　　　doRollback: 内存队列空间不足，回滚数据

　　　　Take事务流程:

　　　　　　doTake: 将批数据提取到临时缓冲区takeList

　　　　　　doCommit: 如果数据全部发送成功，则清空临时缓冲区takeList

　　　　　　doRollback: 如果数据发送过程中出现异常，则将临时缓冲区takeList中数据返还给channel

flume与hdfs

标签：direct 自定义允许 src commit bsp 为什么提取 flume

原文地址：https://www.cnblogs.com/kongzhagen/p/12623208.html

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：flume与hdfs
文章链接：http://soscw.com/index.php/essay/68954.html

亲，登录后才可以留言！