Possiamo accedere al file system HDFS e filati di pianificazione in Apache Spark?

https://datascience.stackexchange.com/questions/4995

16-10-2019
|

Domanda

Siamo in grado di accedere al file system HDFS e filati scheduler Nel Apache Hadoop. Ma Spark ha un più alto livello di codifica. E 'possibile HDFS di accesso e filati in Apache-Spark troppo?

Grazie

Soluzione

Sì.

Ci sono esempi di scintilla documento ufficiale: https://spark.apache.org/examples.html Basta mettere le uri di file HDFS nel percorso del file di input, come di seguito (sintassi Scala).

val file = spark.textFile("hdfs://train_data")

Altri suggerimenti

HDFS

Spark è stato costruito come alternativa al MapReduce e supporta in tal modo la maggior parte delle sue funzionalità. In particolare, ciò significa che "Spark può creare set di dati distribuiti da qualsiasi fonte di archiviazione supportato dal Hadoop, compreso il vostro file system locale, HDFS, Cassandra, HBase, Amazon S3, ecc." 1 . Per la maggior parte le fonti di dati comuni (come HDFS o S3) Spark riconosce automaticamente lo schema, ad es .:

val sc = SparkContext(...)
val localRDD = sc.textFile("file://...")
val hdfsRDD  = sc.textFile("hdfs://...")
val s3RDD    = sc.textFile("s3://...")

Per i casi più complicati può essere necessario lavorare con le funzioni di livello inferiore come newAPIHadoopFile:

val hBaseRDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat], 
      classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],
      classOf[org.apache.hadoop.hbase.client.Result])
val customRDD = sc.newAPIHadoopRDD(conf, classOf[MyCustomInputFormat], 
      classOf[MyCustomKeyClass],
      classOf[MyCustomValueClass])

Ma regola generale è che se qualche fonte dei dati è disponibile per MapReduce, può essere facilmente riutilizzato in Spark.

FILATO

Attualmente supporti Spark 3 responsabili di cluster / modi:

Standalone
Mesos
FILATO

proprio server e lavori per Spark maestro autonomo utilizza la modalità di Spark solo, mentre le modalità filati e Mesos mirano a condividere lo stesso insieme di risorse di sistema tra i diversi quadri (ad esempio Spark, MapReduce, Impala, etc.). Confronto di filati e Mesos può essere trovato qui , e dettagliata descrizione della scintilla su FILATO < a href = "http://blog.cloudera.com/blog/2014/05/apache-spark-resource-management-and-yarn-app-models/"> qui .

E, in migliori tradizioni di Spark, è possibile passare da una modalità all'altra semplicemente cambiando .

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange