栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 其他 > Hadoop

基于流的数据处理可以使Hadoop运行更快吗?

Hadoop 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

基于流的数据处理可以使Hadoop运行更快吗?

Apache Hadoop分布式文件处理系统是有好处的,而且它正在获得注意力。然而,它也有坏处。有些组织发现从Hadoop开始的话需要重新思考软件架构,而且它所需要的数据技能也是必要的。

对于一些人来说,Hadoop的批处理模型的一个问题是,它估计在突增数据采集之间的进行批处理时会有宕机的时间。这是许多企业都的情况,当他们在本地操作,或者在白天有大量事务,但很少在晚上(如果有的话)。如果夜间窗口足够大可以处理前一天积累的数据,那么一切都会顺利。虽然对于一些企业,窗口的停机时间是小或不存在的,甚至使用Hadoop的高性能的处理,他们仍然在一天内得到的数据比他们可以在24内小时处理的要多。

对于可接受小窗口的组织,添加基于数据处理组件的方法可能有帮助,GigaSpaces的***技术官Nati Shalom在最近的一篇关于使用Hadoop更快的博客中写到。通过不断地处理传入的数据转化成有用的包和删除那些不需要企业处理(或再加工)的静态数据,可以显著加速他们的大数据的批处理过程。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/796389.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号