Należymy do Grupy Orange Polska

Apache Hadoop

Apache Hadoop

Apache Hadoop to platforma typu open source do rozproszonego przechowywania i przetwarzania dużych zbiorów danych.

Najważniejsze zalety Apache Hadoop:

  • Skalowalność – ponieważ jest to bezpłatna platforma oparta na architekturze klastrowej, klaster Hadoop można łatwo rozbudować o dodatkowe serwery w sposób niezauważalny dla już zapisanych i zdefiniowanych procesów
  • Elastyczność – mnogość narzędzi wchodzących w skład ekosystemu Hadoop umożliwia przetwarzanie zarówno danych ustrukturyzowanych, jak i nieustrukturyzowanych (głównie w przypadku Big Data)
  • Odporność na awarie – dzięki replikacji danych i narzędziom umożliwiającym pracę klastra w trybie High Availability, oferuje spójny i ciągły dostęp do przechowywanych danych, pomimo awarii któregokolwiek z serwerów
  • Szybkość przetwarzania danych – rozproszone przetwarzanie danych powoduje, że przetwarzanie dużych wolumenów danych jest znacznie szybsze niż w przypadku standardowego mechanizmu ETL i przetwarzania wsadowego
  • Zadania efektywnego zarządzania zasobami są odpowiednio alokowane pomiędzy maszyny tak, aby w pełni wykorzystać moc klastra.

    Te cechy sprawiają, że Apache Hadoop jest jednym z najczęściej wybieranych rozwiązań do budowania szkieletów złożonych rozwiązań Big Data.

    Z Apache Hadoop korzystają takie firmy jak Adobe, Ebay, Facebook, Google, IBM, Spotify, Twitter, Yahoo i wiele innych wiodących firm informatycznych.

Hadoop składa się z następujących modułów:

  • Hadoop Common zestaw bibliotek i narzędzi do obsługi innych modułów
  • Hadoop Distributed File System (HDFS) rozproszony system plików, który dzieli dane na mniejsze bloki i przechowuje je w sposób równomiernie rozproszony w węzłach klastra o odpowiednich poziomach replikacji
  • MapReduce implementacja paradygmatu programistycznego, która umożliwia przetwarzanie dużych ilości danych w sposób rozproszony
  • YARN (Yet Another Resource Navigator) platforma do zarządzania zasobami klastra.

    Oprócz modułów podstawowych, o których mowa powyżej, na cały ekosystem Hadoop składa się szeroki wybór aplikacji ułatwiających dostęp do danych klastra, ich przetwarzanie, monitorowanie usług, administrowanie klastrem oraz zarządzanie dostępem.

Najpopularniejsze narzędzia to:

  • Hive
  • HBase
  • Pig
  • Ambari
  • Ranger
  • Hue
  • Spark
  • Oozie
  • Sqoop
  • ZooKeeper
  • Flume

Najpopularniejsze dystrybucje

Hadoop w formie open source został opracowany przez Apache Software Foundation. Jednak poza standardowym rozwiązaniem wiele firm oferuje własne dystrybucje oparte na Apache Hadoop – są one wzbogacane o dodatkowe narzędzia tworzące gotowy do użycia ekosystem Big Data. Kolejną zaletą takich dystrybucji jest obsługa całego ekosystemu, a nie tylko jego poszczególnych modułów.

Najpopularniejsze dystrybucje platformy Hadoop to:

  • Dystrybucja Cloudera, w tym Apache Hadoop (CDH)
  • Platforma danych Hortonworks (HDP)
  • Konwergentna platforma danych MapR

Doświadczenie BlueSoft z platformą Hadoop

BlueSoft stale buduje swoje portfolio kompetencji Big Data i aktywnie uczestniczy w projektach opartych na Hadoop. Posiadamy bogate doświadczenie zarówno w projektowaniu, jak i wdrażaniu klastrów Hadoop, tworzeniu aplikacji umożliwiających agregację i przetwarzanie danych oraz tworzeniu kompleksowych modeli analitycznych.

Co możemy zrobić Dla Twojego biznesu?

Skontaktuj się z nami!
×