相信大家对Hadoop、spark这些都不陌生,这些作为大数据的核心模块,接触的是最多的。而今天我们就来了解一下Flume。
Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统,Flume可以采集文件,将采集好的文件输出到HDFS、hbase、hive、kafka等众多外部存储系统中。
下面我们就来具体的了解一下Flume:
1、Flume的架构
Flume是有source、channel、sink组成,传输过程:日志源-->source-->channel-->sink-->HDFS
Source::采集源,用于跟数据源对接,以获取数据;
Sink::下沉地,采集数据的传送目的,用于往下一级agent传递数据或者往最终存储系统传递数据;
Channel : angent内部的数据传输通道,用于从source将数据传递到sink。
2、Flume多个agent串联
3、agent的配置文件
A.需要定义agent的名字,还需要定义source,channel,sink(名字,有几个)
B.需要对source,channel,sink指明具体的类型和配置
C.需要指明source,channel,sink三者之间的一个关系
注意:一个sink只能对应一个channel,一个channel可以对应多个sink
以上就是对Flume的介绍了,希望对大家能有所帮助,如果想了解更多详情,请点击成都加米谷大数据官网吧!
页面更新:2024-05-14
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号