基于Spark和Neo4j进行图数据分析

基础环境基于Hadoop搭建，Hadoop是Apache的一个开源分布式计算平台，核心是以HDFS分布式文件系统和MapReduce分布式计算框架构成，为用户提供了一套底层透明的分布式基础设施。其中HDFS提供了海量数据的存储，MapReduce提供了对数据的计算。

使用docker在本地快速构建hadoop服务，镜像名称为sequenceiq/hadoop-docker:latest

> docker run -p 50070:50070 -p 9000:9000 -p 8088:8088 -it sequenceiq/hadoop-docker /etc/bootstrap.sh -bash

部署Neo4j图数据库，可以通过docker部署或直接从官网下载community社区版本。建议下载社区版，其对apoc和graph algorithm插件的支持比较好。

> docker run -d --name neo4j_db -p 7474:7474 -p 7687:7687 -v /tmp/neo4j/data:/data -v /tmp/neo4j/logs:/logs -v /tmp/neo4j/conf:/var/lib/neo4j/conf -v /tmp/neo4j/import:/var/lib/neo4j/import -v /tmp/neo4j/plugins:/plugins --env NEO4J_AUTH=neo4j/password neo4j

图计算平台为apache-spark 3.0，使用pyspark基于graphframe-0.8进行图计算。基础数据点、边表数据为csv文件，在代码仓库dataset的文件夹下，图数据导入Neo4j后展示如下：

Neo4j中的数据集主要用来演示一些图算法，如closeness接近中心性算法、betweenness中间中心性、pageRank等，也支持一些社区发现算法，如：triangleCount三角计数、scc强连通分量等。

Name		Name	Last commit message	Last commit date
Latest commit History 42 Commits
databricks-app		databricks-app
dataset		dataset
hadoop-mapreduce		hadoop-mapreduce
hive-sql		hive-sql
neo4j_analytics		neo4j_analytics
pyspark_graph		pyspark_graph
yelp_airport_analysis		yelp_airport_analysis
.gitignore		.gitignore
README.md		README.md
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

databricks-app

databricks-app

dataset

dataset

hadoop-mapreduce

hadoop-mapreduce

hive-sql

hive-sql

neo4j_analytics

neo4j_analytics

pyspark_graph

pyspark_graph

yelp_airport_analysis

yelp_airport_analysis

.gitignore

.gitignore

README.md

README.md

pom.xml

pom.xml

Repository files navigation

基于Spark和Neo4j进行图数据分析

About

Releases

Packages

Languages

dongma/distributed-data-computing

Folders and files

Latest commit

History

Repository files navigation

基于Spark和Neo4j进行图数据分析

About

Topics

Resources

Stars

Watchers

Forks

Languages