Apache Spark: differenze tra le versioni

Naviga nella cronologia in modo interattivo

← Differenza precedente Differenza successiva →

Contenuto cancellato Contenuto aggiunto

In linea

Versione delle 10:04, 1 apr 2016

Apache Spark è un framework open source sviluppato dall'AMPlab della Università della California e successivamente donato alla Apache Software Foundation.

A differenza del paradigma MapReduce basato sul disco a due livelli di Hadoop, le primitive "in-memory" multilivello fornisce prestazioni fino a 100 volte migliori per talune applicazioni^[1]. Ciò permette ai programmi utente di caricare dati in un gruppo di memorie e interrogarlo ripetutamente, Spark è studiato apposta per algoritmi di apprendimento automatico^[2].

Spark richiede un gestore di cluster e un sistema di archiviazione distribuita. Per il primo supporta nativamente un cluster Spark ma anche Hadoop YARN, o Apache Mesos, per il secondo Spark può interfacciarsi con Hadoop Distributed File System (HDFS), Apache Cassandra^[3] , OpenStack Swift, Amazon S3, Apache Kudu ma anche soluzioni personalizzabili. Spark supporta anche soluzioni pseudo-distribuite in modalità locale, usate di solito per lo sviluppo o scopo di test, dove l'archiviazione distribuita non è richiesta e si usa il file system locale; in tale scenario, Spark è eseguito su una macchina singola.

La versione attuale^[attuale?] è la 1.6.0 del 4 gennaio 2016.

Note

^ Template:Cita paper
^ Matei Zaharia, Spark: In-Memory Cluster Computing for Iterative and Interactive Applications, su youtube.com, Invited Talk at NIPS 2011 Big Learning Workshop: Algorithms, Systems, and Tools for Learning at Scale.
^ Template:Cite mailing list

Collegamenti esterni

Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica

[1] Template:Cita paper

[2] Matei Zaharia, Spark: In-Memory Cluster Computing for Iterative and Interactive Applications, su youtube.com, Invited Talk at NIPS 2011 Big Learning Workshop: Algorithms, Systems, and Tools for Learning at Scale.

[3] Template:Cite mailing list

[1]

[2]

[3]

@@ Riga 1: / Riga 1: @@
-'''Apache Spark''' è un [[framework]] [[open source]] sviluppato dall'[[AMPlab]] della [[Università della California]] ma fu successivamnente donata alla [[Apache Software Foundation]].
+'''Apache Spark''' è un [[framework]] [[open source]] sviluppato dall'[[AMPlab]] della [[Università della California]] e successivamente donato alla [[Apache Software Foundation]].
-A differenza del paradigma [[MapReduce]] basato sul disco a due livelli di [[Hadoop]], le primitive "in-memory" multilivello fornisce prestazioni fino a 100 volte migliori per talune applicazioni<ref>{{cita paper|first1=Reynold| last1=Xin| first2=Josh |last2=Rosen| first3=Matei| last3=Zaharia| first4=Michael| last4=Franklin| first5=Scott| last5=Shenker| first6=Ion| last6=Stoica|title=Shark: SQL and Rich Analytics at Scale| conference=SIGMOD 2013|date=June 2013| url=https://amplab.cs.berkeley.edu/wp-content/uploads/2013/02/shark_sigmod2013.pdf}}</ref>. Ciò permette ai programmi utente di caricare dati in  un gruppo di memorie e interrogarlo ripetutamente, Spark è studiato apposta per algoritmi di [[apprendimento automatico]]<ref>{{cita web| url=http://www.youtube.com/watch?v=qLvLg-sqxKc|città=Invited Talk at NIPS 2011 Big Learning Workshop: Algorithms, Systems, and Tools for Learning at Scale
-|autore=Matei Zaharia|titolo=Spark: In-Memory Cluster Computing for Iterative and Interactive Applications}}</ref>
-.
+A differenza del paradigma [[MapReduce]] basato sul disco a due livelli di [[Hadoop]], le primitive "in-memory" multilivello fornisce prestazioni fino a 100 volte migliori per talune applicazioni<ref>{{cita paper|first1=Reynold| last1=Xin| first2=Josh |last2=Rosen| first3=Matei| last3=Zaharia| first4=Michael| last4=Franklin| first5=Scott| last5=Shenker| first6=Ion| last6=Stoica|title=Shark: SQL and Rich Analytics at Scale| conference=SIGMOD 2013|date=June 2013| url=https://amplab.cs.berkeley.edu/wp-content/uploads/2013/02/shark_sigmod2013.pdf}}</ref>. Ciò permette ai programmi utente di caricare dati in un gruppo di memorie e interrogarlo ripetutamente, Spark è studiato apposta per algoritmi di [[apprendimento automatico]]<ref>{{cita web| url=http://www.youtube.com/watch?v=qLvLg-sqxKc|città=Invited Talk at NIPS 2011 Big Learning Workshop: Algorithms, Systems, and Tools for Learning at Scale
-Spark richiedere un gestore di cluster e un sistema di archiviazione distribuita. Per il primo supporta nativemante un cluster Spark ma anche Hadoop YARN, o Apache Mesos, per il secondo Spark può interfacciarsi con [[Hadoop Distributed File System]] (HDFS), [[Apache Cassandra]]<ref>{{cite mailing list |url=http://mail-archives.apache.org/mod_mbox/cassandra-user/201409.mbox/%3CCABNXB2DE5Apmvn1nNg79+VdPCSZiCsGdt=ZB4s4OF_5JzS60iA@mail.gmail.com%3E |title=Re: cassandra + spark / pyspark |date=2014-09-10 |accessdate=2014-11-21 |mailinglist=Cassandra User |last=Doan |first=DuyHai }}</ref> , [[OpenStack Swift]], [[Amazon S3]], [[Apache Kudu]] ma anche soluzioni personalizzabili.
+|autore=Matei Zaharia|titolo=Spark: In-Memory Cluster Computing for Iterative and Interactive Applications}}</ref>.
+Spark richiede un gestore di cluster e un sistema di archiviazione distribuita. Per il primo supporta nativamente un cluster Spark ma anche Hadoop YARN, o Apache Mesos, per il secondo Spark può interfacciarsi con [[Hadoop Distributed File System]] (HDFS), [[Apache Cassandra]]<ref>{{cite mailing list |url=http://mail-archives.apache.org/mod_mbox/cassandra-user/201409.mbox/%3CCABNXB2DE5Apmvn1nNg79+VdPCSZiCsGdt=ZB4s4OF_5JzS60iA@mail.gmail.com%3E |title=Re: cassandra + spark / pyspark |date=2014-09-10 |accessdate=2014-11-21 |mailinglist=Cassandra User |last=Doan |first=DuyHai }}</ref> , [[OpenStack Swift]], [[Amazon S3]], [[Apache Kudu]] ma anche soluzioni personalizzabili.
 Spark supporta anche soluzioni pseudo-distribuite in modalità locale, usate di solito per lo sviluppo o scopo di test, dove l'archiviazione distribuita non è richiesta e si usa il [[file system]] locale; in tale scenario, Spark è eseguito su una macchina singola.
-La versione attuale è la 1.6.0 del 4 gennaio [[2016]].
+La {{Chiarire|versione attuale|attuale?}} è la 1.6.0 del 4 gennaio [[2016]].
 == Note ==

Apache Spark: differenze tra le versioni

Versione delle 10:04, 1 apr 2016

Note

Collegamenti esterni

Menu di navigazione

Ricerca