实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

名师互学网

名师互学网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Spark Streaming

大数据系统更新时间：2026-06-04 05:29:19 发布时间：1621天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

ssc.textFileStream("/Users/dzzxjl/SStest/")

如果是在集群上运行，需要将程序打成JAR包，通过spark主目录下的bin/spark-submit 提交，并不断上传文档到HDFS上指定监听路径下以模拟实时数据流。SparkStreaming需要读取流式的数据，而不能直接从datas文件夹中创建。
如果是本地目录用file:///home/data 你不能移动文件到这个目录，必须用流的形式写入到这个目录形成文件才能被监测到。
在 Spark 官方提供关于集成 Kafka 和 Spark Streaming 的指导文档中，提到了两种方式，

第一种是 Receiver based Approach，即通过在 Receiver 里实现 Kafka consumer 的功能来接收消息数据;
第二种是 Direct Approach, 即不通过 Receiver，而是周期性的主动查询 Kafka 消息分区中的最新 offset 值，进而去定义在每个 batch 中需要处理的消息的 offset 范围。本文采用的是第一种方式，因为目前第二种方式还处于试验阶段。

Streaming + Kafka

在Spark Streaming中消费Kafka数据，保证Exactly-once的核心有三点：
使用Direct方式连接Kafka；自己保存和维护Offset；更新Offset和计算在同一事务中完成；
用spark streaming流式处理kafka中的数据，第一步当然是先把数据接收过来，转换为spark streaming中的数据结构Dstream。
接收数据的方式有两种：

利用Receiver接收数据
直接从kafka读取数据

Structured Streaming

参考

https://cloud.tencent.com/developer/article/1004821
https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice2/index.html
https://zhuanlan.zhihu.com/p/51883927

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/677002.html

上一篇 Flutter开发：遇到库冲突问题的解决方法

下一篇聚合电商供应链管理系统定制开发

大数据系统相关栏目本月热门文章

热门相关搜索

路由器设置木托盘宝塔面板儿童python教程心情低落朋友圈 vim 双一流学科专升本我的学校日记学校西点培训学校汽修学校情书化妆学校塔沟武校异形模板西南大学排名最精辟人生短句 6步教你追回被骗的钱南昌大学排名清朝十二帝北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名北京舞蹈学院排名北京电影学院排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名北京邮电大学(宏福校区)排名北京网络职业学院排名北京大学医学部排名河北科技大学排名河北地质大学排名河北体育学院排名

关于我们文章归档网站地图联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号：晋ICP备2021003244-6号