Najważniejsze zalety Apache Hadoop:
- Skalowalność – ponieważ jest to bezpłatna platforma oparta na architekturze klastrowej, klaster Hadoop można łatwo rozbudować o dodatkowe serwery w sposób niezauważalny dla już zapisanych i zdefiniowanych procesów
- Elastyczność – mnogość narzędzi wchodzących w skład ekosystemu Hadoop umożliwia przetwarzanie zarówno danych ustrukturyzowanych, jak i nieustrukturyzowanych (głównie w przypadku Big Data)
- Odporność na awarie – dzięki replikacji danych i narzędziom umożliwiającym pracę klastra w trybie High Availability, oferuje spójny i ciągły dostęp do przechowywanych danych, pomimo awarii któregokolwiek z serwerów
- Szybkość przetwarzania danych – rozproszone przetwarzanie danych powoduje, że przetwarzanie dużych wolumenów danych jest znacznie szybsze niż w przypadku standardowego mechanizmu ETL i przetwarzania wsadowego
- Zadania efektywnego zarządzania zasobami są odpowiednio alokowane pomiędzy maszyny tak, aby w pełni wykorzystać moc klastra.
Te cechy sprawiają, że Apache Hadoop jest jednym z najczęściej wybieranych rozwiązań do budowania szkieletów złożonych rozwiązań Big Data.
Z Apache Hadoop korzystają takie firmy jak Adobe, Ebay, Facebook, Google, IBM, Spotify, Twitter, Yahoo i wiele innych wiodących firm informatycznych.
Hadoop składa się z następujących modułów:
- Hadoop Common zestaw bibliotek i narzędzi do obsługi innych modułów
- Hadoop Distributed File System (HDFS) rozproszony system plików, który dzieli dane na mniejsze bloki i przechowuje je w sposób równomiernie rozproszony w węzłach klastra o odpowiednich poziomach replikacji
- MapReduce implementacja paradygmatu programistycznego, która umożliwia przetwarzanie dużych ilości danych w sposób rozproszony
- YARN (Yet Another Resource Navigator) platforma do zarządzania zasobami klastra.
Oprócz modułów podstawowych, o których mowa powyżej, na cały ekosystem Hadoop składa się szeroki wybór aplikacji ułatwiających dostęp do danych klastra, ich przetwarzanie, monitorowanie usług, administrowanie klastrem oraz zarządzanie dostępem.
Najpopularniejsze narzędzia to:
- Hive
- HBase
- Pig
- Ambari
- Ranger
- Hue
- Spark
- Oozie
- Sqoop
- ZooKeeper
- Flume
Najpopularniejsze dystrybucje
Hadoop w formie open source został opracowany przez Apache Software Foundation. Jednak poza standardowym rozwiązaniem wiele firm oferuje własne dystrybucje oparte na Apache Hadoop – są one wzbogacane o dodatkowe narzędzia tworzące gotowy do użycia ekosystem Big Data. Kolejną zaletą takich dystrybucji jest obsługa całego ekosystemu, a nie tylko jego poszczególnych modułów.
Najpopularniejsze dystrybucje platformy Hadoop to:
- Dystrybucja Cloudera, w tym Apache Hadoop (CDH)
- Platforma danych Hortonworks (HDP)
- Konwergentna platforma danych MapR
Doświadczenie BlueSoft z platformą Hadoop
BlueSoft stale buduje swoje portfolio kompetencji Big Data i aktywnie uczestniczy w projektach opartych na Hadoop. Posiadamy bogate doświadczenie zarówno w projektowaniu, jak i wdrażaniu klastrów Hadoop, tworzeniu aplikacji umożliwiających agregację i przetwarzanie danych oraz tworzeniu kompleksowych modeli analitycznych.