Big Data w wersji open source

Big Data w wersji open source (1 z 9)

Apache Hadoop

<a href="http://hadoop.apache.org/" target="new">Apache Hadoop</a> jest platformą dla aplikacji intensywnie przetwarzających znaczne ilości danych. Prace nad nią rozpoczął Doug Cutting i pierwotnie służyła jako wsparcie dla opracowywanej przez niego open source'owej wyszukiwarki internetowej. Aby sprostać potrzebie przetwarzania równoległego na wielu maszynach, Cutting zaimplementował MapReduce i rozproszony system plików. Hadoop dystrybuuje Big Data po węzłach platformy. Zalicza się do najpopularniejszych technologii przechowywania strukturalnych, częściowo strukturalnych bądź pozbawionych struktury danych, z których składają się zbiory Big Data.

Hadoop objęty jest Apache License 2.0.

Big Data w wersji open source (2 z 9)

R

<a href="http://www.r-project.org/%20target=" target="new">R</a> to open source'owy język programowania i środowisko programistyczne do obliczeń statystycznych i wizualizacji danych. Jest bardzo popularny w środowiskach akademickich, zresztą z nich się wywodzi - napisali go w roku 1993 Ross Ihaka oraz Robert Gentleman z University of Auckland w Nowej Zelandii. Platforma szybko stała się narzędziem, po które chętnie sięgano w celu analizy statystycznej bardzo dużych zbiorów danych. Została skomercjalizowana przez firmę Revolution Analytics, która świadczy wsparcie i usługi podobnie jak to czyni Red Hat dla Linuksa.

R jest dostępny w modelu w ramach GNU General Public License.

Big Data w wersji open source (3 z 9)

Cascading

To narzędzie jest nakładką na Hadoop. <a href="http://www.cascading.org/" target="new">Cascading</a> pozwala użytkownikom tworzyć i przetwarzać dane w klastrach Hadoop korzystając z dowolnego języka opartego na JVM, co z punktu widzenia użytkownika jest prostsze niż złożone zadania MapReduce. Pracę nad Cascading jako alternatywą dla MapReduce rozpoczął Chris Wensel. Rozwiązanie jest często stosowane do ukierunkowywania reklam, analizy logów, bioinformatyce, uczeniu maszynowym (machine learning), analizy predyktywnej, wydobywaniu wiedzy z treści internetowych i rozwiązaniach ETL (Extract, Transform and Load ).

Komercyjne wsparcie dla Cascading świadczy założona przez Wensela firma Concurrent. Z wersji Cascading Enterprise korzysta m.in.. Twitter.

Licencja GNU GPL.

Big Data w wersji open source (4 z 9)

Scribe

<a href="https://github.com/facebook/scribe" target="new">Scribe</a> to napisany przez Facebooka i udostępniony w 2008 roku serwer. Jego zadaniem jest agregacja logów strumieniowanych w czasie rzeczywistym z dużej liczby serwerów. Facebook zaprojektował go by sprostać własnym potrzebom skalowalności i wykorzystuje go do obsługi dziesiątek miliardów wiadomości dziennie.

Licencja Apache License 2.0

Big Data w wersji open source (5 z 9)

ElasticSearch

Oparty na Apache Lucene <a href="http://www.elasticsearch.org/" target="new">ElasticSearch</a> został napisany przez Shaya Banona. Jest to rozproszonym serwerem wyszukiwania spełniającym REST (Representational State Transfer) . Jest skalowalny i pozwala na wyszukiwania w czasie zbliżonym do rzeczywistego oraz wielodzierżawność bez potrzeby specjalnej konfiguracji. Sięgnęło po niego wiele firm takich jak StumbleUpon czy Mozilla. ElasticSearch objęty jest licencją Apache 2.0.

Big Data w wersji open source (6 z 9)

Apache HBase

Napisany w Javie <a href="http://hbase.apache.org/" target="new">Apache HBase</a> jest nierelacyjnym rozproszonym systemem baz danych, zaprojektowanym do pracy nad HDFS (Hadoop Distributed Filesystem). Oferuje system przechowywania danych odporny na awarie oraz szybki dostęp do rozproszonych danych. HBase jest jednym z wielu magazynów danych NoSQL pojawiających się w ostatnich latach. Facebook zaadaptował go do obsługi wiadomości.

Licencja Apache 2.0.

Big Data w wersji open source (7 z 9)

Apache Cassandra

Kolejny magazyn danych NoSQL - <a href="http://cassandra.apache.org/" target="new">Apache Cassandra</a>. Ten rozproszony system baz danych napisali programiści Facebooka na potrzeby wsparcia funkcji Inbox Search. W roku 2010 Facebook porzucił to rozwiązanie na rzecz Hbase.

Korzystanie z Casandry regulowane jest licencją Apache 2.0.

Big Data w wersji open source (8 z 9)

MongoDB

Stworzony przez założycieli DoubleClick <a href="http://www.mongodb.org/" target="new">MongoDB </a>to kolejny popularny open source'owy system NoSQL. Przechowuje dane w dokumentach o strukturze podobnej do JSON (JavaScript Object Notation) ze schematami dynamicznymi określanymi jako BSON (Binary JSON). MongoDB jest wykorzystywana przez wiele korporacji związanych z multimediami jak MTV Networks, Disney Interactive Media Group czy New York Times. Platforma objęta jest licencją GNU GPL, zaś pakiety językowe do niej licencją Apache. Komercyjną wersję MongoDB oferuje firma <a href="http://www.10gen.com/" target="new">10gen</a>

Big Data w wersji open source (9 z 9)

Apache CouchDB

Jeszcze jedna z baz NoSQL, <a href="http://couchdb.apache.org/" target="new">Apache CouchDB</a> przechowuje dane w strukturach JSON. Językiem zapytań tej bazy jest JavaScript, zas interfejsem API są MapReduce oraz HTTP. System CouchDB został stworzony w roku 2005 przez Damiena Katza - byłego dewelopera IBM Lotus Notes, jako system do przechowywania bardzo dużych obiektów. CouchDB jest wykorzystywana m.in. przez BBC i Credit Suisse.

Apache CouchDB dostępny jest w licencji Apache 2.0.

Computerworld.pl

Big Data w wersji open source

Big Data w wersji open source (1 z 9)

Big Data w wersji open source (2 z 9)

Big Data w wersji open source (3 z 9)

Big Data w wersji open source (4 z 9)

Big Data w wersji open source (5 z 9)

Big Data w wersji open source (6 z 9)

Big Data w wersji open source (7 z 9)

Big Data w wersji open source (8 z 9)

Big Data w wersji open source (9 z 9)

Tematy

Serwisy IDG

Zamów reklamę

(+48) 662 287 830

Computerworld.pl

Big Data w wersji open source

Big Data w wersji open source (1 z 9)

Big Data w wersji open source (2 z 9)

Big Data w wersji open source (3 z 9)

Big Data w wersji open source (4 z 9)

Big Data w wersji open source (5 z 9)

Big Data w wersji open source (6 z 9)

Big Data w wersji open source (7 z 9)

Big Data w wersji open source (8 z 9)

Big Data w wersji open source (9 z 9)

Tematy

Serwisy IDG

Znajdź nas:

Zamów reklamę

(+48) 662 287 830