栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

山东大学软件工程应用与实践——Spark(十三)

山东大学软件工程应用与实践——Spark(十三)

2021SC@SDUSC

总结

目录

2021SC@SDUSC

总结

一、为什么需要图计算

二、图(Graph)的基本概念

三、图的术语

四、总结:

五、个人总结


一、为什么需要图计算


1.许多大数据以大规模图或网络的形式呈现
2.许多非图结构的大数据,常会被转换为图模型进行分析
3.图数据结构很好地表达了数据之间的关联性


二、图(Graph)的基本概念


·图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种网状数据结构
·通常表示为二元组:Gragh=(V,E)
·可以对事物之间的关系建模


三、图的术语


顶点(Veretex)
边(Edge)

Graph=(V,E)
集合V={v1,v2,v3}
集合E={(v1,v2),(v1,v3),(v2,v3)}

四、总结

        “图计算”是以“图论”为基础的对现实世界的一种“图”结构的抽象表达,以及在这种数据结构上的计算模式。通常,在图计算中,基本的数据结构表达就是:G = (V,E,D) V = vertex (顶点或者节点) E = edge (边) D = data (权重)。  图数据结构很好的表达了数据之间的关联性,因此,很多应用中出现的问题都可以抽象成图来表示,以图论的思想或者以图为基础建立模型来解决问题。 

       GraphX遵循BSP模式,因此拥有整体同步并行计算的能力。GraphX中实现的图由顶点 和边的集 合组成。属性图包含属性、结构、连接、聚合等操作。创建Graph包括两种方式: 使用GraphLoader.edgeListFile从磁盘文件加载和使用Graph对象构造。为适应分布式图计算, GraphX还提供了图分割的能力。通过介绍Dijkstra、PageRank、Connected Components等图论 中的算法,让读者对Pregel API能有更深层次的理解。

       GraphX是 Spark中用于图(如Web-Graphs and Social Networks)和图并行计算(如 PageRank and Collaborative Filtering)的API,可以认为是GraphLab(C++)和Pregel(C++)在Spark(Scala)上的重写及优化,跟其他分布式 图计算框架相比,GraphX最大的贡献是,在Spark之上提供一站式数据解决方案,可以方便且高效地完成图计算的一整套流水作业。
Graphx是Spark生态中的非常重要的组件,融合了图并行以及数据并行的优势,虽然在单纯的计算机段的性能相比不如GraphLab等计算框架,但是如果从整个图处理流水线的视角(图构建,图合并,最终结果的查询)看,那么性能就非常具有竞争性了。 

五、个人感悟

  此次的软件工程应用与实践课程让我接触到了spark,起初并不知道这是什么,但是在慢慢了解spark之后便沉迷其中。虽然在这段时间里有许多的困惑,但是通过一点一点的将困难解决,一点一滴的积累,理解spark便是不是什么难事。在这段时间的学习里,我收获了许多,更深入的理解了将大问题转化成一个个的小问题并进行解决。通过与周围同学讨论和到csdn上搜索问题,不仅认识了许多大牛,更增长了自己的见识,受益匪浅!
 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/682491.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号