栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Spark GraphX

Spark GraphX

为什么需要图计算

        许多大数据以大规模图或网络的形式呈现

        许多非图结构的大数据,常会倍转换为图模型进行分析

        图数据结构很好的表达了数据之间的关联性

图(Graph)的基本概念

        图是由顶点集合(vertex)以及顶点间的关系集合(边edge)组成的一种网状数据结构

                通常表示为二元组:Graph=(V,E)

                可以对事物之间的关系建模

        应用场景

                在地图应用中寻找最短路径

                社交网络关系

                网页间超链接关系

图的术语

        顶点(Vertex):V{v1,v2,v3}

        边(Edge): E={(v1,v2),(v1,v3),(v2,v3)}

        有向图:V={A,B,C,D}, E={,,,,,}

        无向图:V={A,B,C,D,E},E={(A,B),(A,D),(B,C),(B,D),(C,E),(D,E)}

        有环图:包含一系列顶点连接的回路(环路) 

        无环图:DAG即为有向无环图

        度:一个顶点所有边的数量

                入度:其他顶点指向当前顶点的边的数量

                出度:指从当前顶点指向其他顶点的边的数量

图的经典表示法

        邻接矩阵

                

 

GraphX是Spark提供分布式图计算API

GraphX特点

        基于内存实现了数据的复用与快速读取

        通过弹性分布式属性图(Property Graph)统一了图视图与表视图

        与Spark Streaming、Spark SQL和Spark MLlib等无缝衔接

GraphX核心抽象

        弹性分布式属性图(Resilient Distributed Property Graph)

                顶点和边都带属性的有向多重图

                一份物理存储,两种视图

                对Graph视图的所有操作,最终都会转换成其关联的Table视图的RDD操作来完成

GraphX API

        Graph[VD,ED]

        VertexRDD[VD]

        EdgeRDD[ED]

        EdgeTriplet[VD,ED]

        Edge:样例类

        VertexId:Long的别名

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/674326.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号