栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > PHP

Flume 入门

PHP 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Flume 入门

Apache Flume 是一个高可用、高可靠的,分布式的海量日志采集、聚合、传输系统,基于流式架构,灵活简单。


Flume 最主要的作用就是实时读取服务器本地磁盘的数据,将数据写入HDFS中。

Flume组成架构详解:

Source输入端常用的类型有:spooling directory、exec、avro、syslog、netcat 等

Put事务的流程:

doPut:将批数据先写入临时缓冲区putList
doCommit:检查channel内存队列是否足够合并
doRollback;channel内存队列空间不足,回滚数据

Channel是位于Source和Sink之间的缓冲区,Flume自带两种channel:MemoryChannel和FileChannel
MemoryChannel是基于内存的缓存,在不需要关心数据丢失的情景下使用。
FileChannel是Flume的持久化Channel,系统宕机不会丢失数据。

Take事务:

doTake:先将数据取到临时缓冲区takeList
doCommit:如果数据发送成功,则清除临时缓冲区的takeList
doRollback:数据发送过程中如果出现异常,rollback将临时缓冲区takeList中的数据归还给channel内存队列

Sink组件常见的目的地包括:

HDFS、Kafka、avro、logger、File、自定义。
Sink不断地轮询Channel中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。
Sink是完全事务性的。在从Channel批量删除数据之前,每个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent,Sink就利用Channel提交事务。事务一旦被提交,该Channel从自己的内部缓冲区删除事件。
Sink组件目的地包括hdfs、logger、avro、thrift、ipc、file、null、Hbase、solr、自定义。

Agent是一个JVM进程,是flume数据传输的基本单元
Agent主要有3个部分组成,Source、Channel、Sink。

Flume Agent 原理:

Flume安装地址

1) Flume官网地址

http://flume.apache.org/

2)文档查看地址

http://flume.apache.org/FlumeUserGuide.html

3)下载地址

http://archive.apache.org/dist/flume/
安装部署

1)将apache-flume-1.7.0-bin.tar.gz上传到linux的/opt/software目录下
2)解压apache-flume-1.7.0-bin.tar.gz到/opt/module/目录下

[root@hadoop102 software]$ tar -zxf apache-flume-1.7.0-bin.tar.gz -C /opt/module/

3)修改apache-flume-1.7.0-bin的名称为flume

[root@hadoop102 module]$ mv apache-flume-1.7.0-bin flume

4)将flume/conf下的flume-env.sh.template文件修改为flume-env.sh,并配置flume-env.sh文件

[root@hadoop102 conf]$ mv flume-env.sh.template flume-env.sh
[root@hadoop102 conf]$ vi flume-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/268836.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号