Apache Spark: differenze tra le versioni

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca
Contenuto cancellato Contenuto aggiunto
Nessun oggetto della modifica
fixù
Riga 1: Riga 1:
'''Apache Spark''' è un [[framework]] [[open source]] sviluppato dall'[[AMPlab]] della [[Università della California]] ma fu successivamnente donata alla [[Apache Software Foundation]].
'''Apache Spark''' è un [[framework]] [[open source]] sviluppato dall'[[AMPlab]] della [[Università della California]] e successivamente donato alla [[Apache Software Foundation]].
A differenza del paradigma [[MapReduce]] basato sul disco a due livelli di [[Hadoop]], le primitive "in-memory" multilivello fornisce prestazioni fino a 100 volte migliori per talune applicazioni<ref>{{cita paper|first1=Reynold| last1=Xin| first2=Josh |last2=Rosen| first3=Matei| last3=Zaharia| first4=Michael| last4=Franklin| first5=Scott| last5=Shenker| first6=Ion| last6=Stoica|title=Shark: SQL and Rich Analytics at Scale| conference=SIGMOD 2013|date=June 2013| url=https://amplab.cs.berkeley.edu/wp-content/uploads/2013/02/shark_sigmod2013.pdf}}</ref>. Ciò permette ai programmi utente di caricare dati in un gruppo di memorie e interrogarlo ripetutamente, Spark è studiato apposta per algoritmi di [[apprendimento automatico]]<ref>{{cita web| url=http://www.youtube.com/watch?v=qLvLg-sqxKc|città=Invited Talk at NIPS 2011 Big Learning Workshop: Algorithms, Systems, and Tools for Learning at Scale
|autore=Matei Zaharia|titolo=Spark: In-Memory Cluster Computing for Iterative and Interactive Applications}}</ref>
.


A differenza del paradigma [[MapReduce]] basato sul disco a due livelli di [[Hadoop]], le primitive "in-memory" multilivello fornisce prestazioni fino a 100 volte migliori per talune applicazioni<ref>{{cita paper|first1=Reynold| last1=Xin| first2=Josh |last2=Rosen| first3=Matei| last3=Zaharia| first4=Michael| last4=Franklin| first5=Scott| last5=Shenker| first6=Ion| last6=Stoica|title=Shark: SQL and Rich Analytics at Scale| conference=SIGMOD 2013|date=June 2013| url=https://amplab.cs.berkeley.edu/wp-content/uploads/2013/02/shark_sigmod2013.pdf}}</ref>. Ciò permette ai programmi utente di caricare dati in un gruppo di memorie e interrogarlo ripetutamente, Spark è studiato apposta per algoritmi di [[apprendimento automatico]]<ref>{{cita web| url=http://www.youtube.com/watch?v=qLvLg-sqxKc|città=Invited Talk at NIPS 2011 Big Learning Workshop: Algorithms, Systems, and Tools for Learning at Scale
Spark richiedere un gestore di cluster e un sistema di archiviazione distribuita. Per il primo supporta nativemante un cluster Spark ma anche Hadoop YARN, o Apache Mesos, per il secondo Spark può interfacciarsi con [[Hadoop Distributed File System]] (HDFS), [[Apache Cassandra]]<ref>{{cite mailing list |url=http://mail-archives.apache.org/mod_mbox/cassandra-user/201409.mbox/%3CCABNXB2DE5Apmvn1nNg79+VdPCSZiCsGdt=ZB4s4OF_5JzS60iA@mail.gmail.com%3E |title=Re: cassandra + spark / pyspark |date=2014-09-10 |accessdate=2014-11-21 |mailinglist=Cassandra User |last=Doan |first=DuyHai }}</ref> , [[OpenStack Swift]], [[Amazon S3]], [[Apache Kudu]] ma anche soluzioni personalizzabili.
|autore=Matei Zaharia|titolo=Spark: In-Memory Cluster Computing for Iterative and Interactive Applications}}</ref>.

Spark richiede un gestore di cluster e un sistema di archiviazione distribuita. Per il primo supporta nativamente un cluster Spark ma anche Hadoop YARN, o Apache Mesos, per il secondo Spark può interfacciarsi con [[Hadoop Distributed File System]] (HDFS), [[Apache Cassandra]]<ref>{{cite mailing list |url=http://mail-archives.apache.org/mod_mbox/cassandra-user/201409.mbox/%3CCABNXB2DE5Apmvn1nNg79+VdPCSZiCsGdt=ZB4s4OF_5JzS60iA@mail.gmail.com%3E |title=Re: cassandra + spark / pyspark |date=2014-09-10 |accessdate=2014-11-21 |mailinglist=Cassandra User |last=Doan |first=DuyHai }}</ref> , [[OpenStack Swift]], [[Amazon S3]], [[Apache Kudu]] ma anche soluzioni personalizzabili.
Spark supporta anche soluzioni pseudo-distribuite in modalità locale, usate di solito per lo sviluppo o scopo di test, dove l'archiviazione distribuita non è richiesta e si usa il [[file system]] locale; in tale scenario, Spark è eseguito su una macchina singola.
Spark supporta anche soluzioni pseudo-distribuite in modalità locale, usate di solito per lo sviluppo o scopo di test, dove l'archiviazione distribuita non è richiesta e si usa il [[file system]] locale; in tale scenario, Spark è eseguito su una macchina singola.


La versione attuale è la 1.6.0 del 4 gennaio [[2016]].
La {{Chiarire|versione attuale|attuale?}} è la 1.6.0 del 4 gennaio [[2016]].


== Note ==
== Note ==

Versione delle 10:04, 1 apr 2016

Apache Spark è un framework open source sviluppato dall'AMPlab della Università della California e successivamente donato alla Apache Software Foundation.

A differenza del paradigma MapReduce basato sul disco a due livelli di Hadoop, le primitive "in-memory" multilivello fornisce prestazioni fino a 100 volte migliori per talune applicazioni[1]. Ciò permette ai programmi utente di caricare dati in un gruppo di memorie e interrogarlo ripetutamente, Spark è studiato apposta per algoritmi di apprendimento automatico[2].

Spark richiede un gestore di cluster e un sistema di archiviazione distribuita. Per il primo supporta nativamente un cluster Spark ma anche Hadoop YARN, o Apache Mesos, per il secondo Spark può interfacciarsi con Hadoop Distributed File System (HDFS), Apache Cassandra[3] , OpenStack Swift, Amazon S3, Apache Kudu ma anche soluzioni personalizzabili. Spark supporta anche soluzioni pseudo-distribuite in modalità locale, usate di solito per lo sviluppo o scopo di test, dove l'archiviazione distribuita non è richiesta e si usa il file system locale; in tale scenario, Spark è eseguito su una macchina singola.

La versione attuale[attuale?] è la 1.6.0 del 4 gennaio 2016.

Note

  1. ^ Template:Cita paper
  2. ^ Matei Zaharia, Spark: In-Memory Cluster Computing for Iterative and Interactive Applications, su youtube.com, Invited Talk at NIPS 2011 Big Learning Workshop: Algorithms, Systems, and Tools for Learning at Scale.
  3. ^ Template:Cite mailing list

Collegamenti esterni

  Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica