Skip to content

dongma/distributed-data-computing

Repository files navigation

基于Spark和Neo4j进行图数据分析

基础环境基于Hadoop搭建,HadoopApache的一个开源分布式计算平台,核心是以HDFS分布式文件系统和MapReduce分布式计算框架构成,为用户提供了一套底层透明的分布式基础设施。其中HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。

使用docker在本地快速构建hadoop服务,镜像名称为sequenceiq/hadoop-docker:latest

> docker run -p 50070:50070 -p 9000:9000 -p 8088:8088 -it sequenceiq/hadoop-docker /etc/bootstrap.sh -bash

部署Neo4j图数据库,可以通过docker部署或直接从官网下载community社区版本。建议下载社区版,其对apocgraph algorithm插件的支持比较好。

> docker run -d --name neo4j_db -p 7474:7474 -p 7687:7687 -v /tmp/neo4j/data:/data -v /tmp/neo4j/logs:/logs -v /tmp/neo4j/conf:/var/lib/neo4j/conf -v /tmp/neo4j/import:/var/lib/neo4j/import -v /tmp/neo4j/plugins:/plugins --env NEO4J_AUTH=neo4j/password neo4j

图计算平台为apache-spark 3.0,使用pyspark基于graphframe-0.8进行图计算。基础数据点、边表数据为csv文件,在代码仓库dataset的文件夹下,图数据导入Neo4j后展示如下: neo4j_transport_data

Neo4j中的数据集主要用来演示一些图算法,如closeness接近中心性算法、betweenness中间中心性、pageRank等,也支持一些社区发现算法,如:triangleCount三角计数、scc强连通分量等。

About

hadoop (GFS)、mapreduce programming model、prestro、apache spark etc

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published