Apache Spark: differenze tra le versioni
Nessun oggetto della modifica |
fixù |
||
Riga 1: | Riga 1: | ||
'''Apache Spark''' è un [[framework]] [[open source]] sviluppato dall'[[AMPlab]] della [[Università della California]] |
'''Apache Spark''' è un [[framework]] [[open source]] sviluppato dall'[[AMPlab]] della [[Università della California]] e successivamente donato alla [[Apache Software Foundation]]. |
||
⚫ | A differenza del paradigma [[MapReduce]] basato sul disco a due livelli di [[Hadoop]], le primitive "in-memory" multilivello fornisce prestazioni fino a 100 volte migliori per talune applicazioni<ref>{{cita paper|first1=Reynold| last1=Xin| first2=Josh |last2=Rosen| first3=Matei| last3=Zaharia| first4=Michael| last4=Franklin| first5=Scott| last5=Shenker| first6=Ion| last6=Stoica|title=Shark: SQL and Rich Analytics at Scale| conference=SIGMOD 2013|date=June 2013| url=https://amplab.cs.berkeley.edu/wp-content/uploads/2013/02/shark_sigmod2013.pdf}}</ref>. Ciò permette ai programmi utente di caricare dati in |
||
⚫ | |||
. |
|||
⚫ | A differenza del paradigma [[MapReduce]] basato sul disco a due livelli di [[Hadoop]], le primitive "in-memory" multilivello fornisce prestazioni fino a 100 volte migliori per talune applicazioni<ref>{{cita paper|first1=Reynold| last1=Xin| first2=Josh |last2=Rosen| first3=Matei| last3=Zaharia| first4=Michael| last4=Franklin| first5=Scott| last5=Shenker| first6=Ion| last6=Stoica|title=Shark: SQL and Rich Analytics at Scale| conference=SIGMOD 2013|date=June 2013| url=https://amplab.cs.berkeley.edu/wp-content/uploads/2013/02/shark_sigmod2013.pdf}}</ref>. Ciò permette ai programmi utente di caricare dati in un gruppo di memorie e interrogarlo ripetutamente, Spark è studiato apposta per algoritmi di [[apprendimento automatico]]<ref>{{cita web| url=http://www.youtube.com/watch?v=qLvLg-sqxKc|città=Invited Talk at NIPS 2011 Big Learning Workshop: Algorithms, Systems, and Tools for Learning at Scale |
||
⚫ | Spark |
||
⚫ | |||
⚫ | Spark richiede un gestore di cluster e un sistema di archiviazione distribuita. Per il primo supporta nativamente un cluster Spark ma anche Hadoop YARN, o Apache Mesos, per il secondo Spark può interfacciarsi con [[Hadoop Distributed File System]] (HDFS), [[Apache Cassandra]]<ref>{{cite mailing list |url=http://mail-archives.apache.org/mod_mbox/cassandra-user/201409.mbox/%3CCABNXB2DE5Apmvn1nNg79+VdPCSZiCsGdt=ZB4s4OF_5JzS60iA@mail.gmail.com%3E |title=Re: cassandra + spark / pyspark |date=2014-09-10 |accessdate=2014-11-21 |mailinglist=Cassandra User |last=Doan |first=DuyHai }}</ref> , [[OpenStack Swift]], [[Amazon S3]], [[Apache Kudu]] ma anche soluzioni personalizzabili. |
||
Spark supporta anche soluzioni pseudo-distribuite in modalità locale, usate di solito per lo sviluppo o scopo di test, dove l'archiviazione distribuita non è richiesta e si usa il [[file system]] locale; in tale scenario, Spark è eseguito su una macchina singola. |
Spark supporta anche soluzioni pseudo-distribuite in modalità locale, usate di solito per lo sviluppo o scopo di test, dove l'archiviazione distribuita non è richiesta e si usa il [[file system]] locale; in tale scenario, Spark è eseguito su una macchina singola. |
||
La versione attuale è la 1.6.0 del 4 gennaio [[2016]]. |
La {{Chiarire|versione attuale|attuale?}} è la 1.6.0 del 4 gennaio [[2016]]. |
||
== Note == |
== Note == |
Versione delle 10:04, 1 apr 2016
Apache Spark è un framework open source sviluppato dall'AMPlab della Università della California e successivamente donato alla Apache Software Foundation.
A differenza del paradigma MapReduce basato sul disco a due livelli di Hadoop, le primitive "in-memory" multilivello fornisce prestazioni fino a 100 volte migliori per talune applicazioni[1]. Ciò permette ai programmi utente di caricare dati in un gruppo di memorie e interrogarlo ripetutamente, Spark è studiato apposta per algoritmi di apprendimento automatico[2].
Spark richiede un gestore di cluster e un sistema di archiviazione distribuita. Per il primo supporta nativamente un cluster Spark ma anche Hadoop YARN, o Apache Mesos, per il secondo Spark può interfacciarsi con Hadoop Distributed File System (HDFS), Apache Cassandra[3] , OpenStack Swift, Amazon S3, Apache Kudu ma anche soluzioni personalizzabili. Spark supporta anche soluzioni pseudo-distribuite in modalità locale, usate di solito per lo sviluppo o scopo di test, dove l'archiviazione distribuita non è richiesta e si usa il file system locale; in tale scenario, Spark è eseguito su una macchina singola.
La versione attuale[attuale?] è la 1.6.0 del 4 gennaio 2016.
Note
- ^ Template:Cita paper
- ^ Matei Zaharia, Spark: In-Memory Cluster Computing for Iterative and Interactive Applications, su youtube.com, Invited Talk at NIPS 2011 Big Learning Workshop: Algorithms, Systems, and Tools for Learning at Scale.
- ^ Template:Cite mailing list
Collegamenti esterni
- (EN) Spark SQL
- (EN) Spark Streaming
- (EN) MLlib machine learning library
- (EN) GraphX graph processing library