Należymy do Grupy Orange Polska

Spark

Spark

Co to jest?

Można powiedzieć, że Apache Spark to uniwersalna platforma obliczeniowa składająca się z wielu elementów, takich jak Spark Core, Spark SQL, Spark Streaming czy sam Spark MLlib, który odpowiada za uczenie maszynowe.

Apache Spark to środowisko open source, które umożliwia przetwarzanie dużych ilości danych z wykorzystaniem pamięci operacyjnej. W efekcie daje to nawet 100-krotny wzrost szybkości przetwarzania w porównaniu do takich technologii jak np. Hadoop. Jest to system rozproszony, co pozwala na jego łatwe skalowanie wraz z rosnącymi potrzebami biznesowymi.

Spark może zostać uruchomiony obok Hadoop, Mesos, w zupełnie nowym środowisku lub w chmurze. Łączy się z takimi źródłami danych jak: HDFS, Cassandra, HBase, S3 czy popularne bazy danych SQL – PostreSQL, Oracle, MySQL. Spark może działać zarówno w trybie samodzielnym, jak i w klastrze, dzięki czemu istnieje wiele opcji konfiguracyjnych i najczęściej można go dostosować do istniejących środowisk IT.

Spark MLLib jest jednym z elementów frameworka Apache Spark i wykorzystuje wszystkie jego zalety. Pozwala to na zastosowanie uczenia maszynowego do dużych zbiorów danych bez obaw o skalowalność. System posiada kilkadziesiąt wbudowanych algorytmów uczenia maszynowego, które mogą być stosowane w zależności od konkretnego przypadku biznesowego.

Obejmują one:

  • Klasyfikacja: regresja logistyczna, klasyfikator Bayes
  • Regresja: uogólniona regresja liniowa, regresja izotoniczna
  • Drzewa decyzyjne: lasy losowe i drzewa gradientowo-boostowane
  • Zalecenie: naprzemienne najmniejsze kwadraty (ALS)
  • Klasteryzacja: K-średnich, modele mieszanin Gaussa (GMMs)
  • Modelowanie tematyczne: alokacja latentna Dirichleta (LDA)
  • Transformacje cech: standaryzacja, normalizacja, haszowanie
  • Ocena modelu i dostrajanie hiper-parametrów
  • ML Budowa rurociągów
  • Trwałość ML: zapisywanie i ładowanie modeli i potoków
  • Analiza przeżycia: model przyspieszonego czasu trwania awarii
  • Eksploracja częstych zbiorów elementów i wzorców sekwencyjnych:
    FP-growth, reguły asocjacyjne, PrefixSpan
  • Algebra liniowa: dekompozycja wartości pojedynczych (SVD), analiza składowych głównych (PCA)
  • Statystyka: statystyki zbiorcze, testowanie hipotez

Dodatkowym atutem jest niewątpliwie fakt, że system działa na licencji open source i jest jednym z wyróżnionych projektów Apache Foundation, nad którym pracują tacy komercyjni partnerzy jak IBM, Facebook, Yahoo!, Intel, Cloudera, Hortonworks, Netflix i wielu innych. Wykorzystanie Sparka w projektach komercyjnych jest możliwe dzięki licencji Apache.

Do czego jest używany?

Firmy wykorzystują Apache Spark MLLib do poprawy jakości swoich działań. Dzięki zastosowaniu algorytmów uczenia maszynowego możliwe jest odkrywanie nowych informacji dotyczących działalności firmy.

W konsekwencji można usprawnić procesy obsługi klienta, produkcji, dystrybucji czy UX.
Przykładem mogą być firmy działające w sektorze ubezpieczeniowym, technologicznym lub finansowym.

Poniżej wymieniono kilka przykładowych zastosowań:

  • Ubezpieczenie:

Optymalizacja obsługi klienta poprzez zastosowanie uczenia maszynowego do sortowania zapytań klientów według tematów. Wiadomości są kierowane do wyspecjalizowanych pracowników, a klient otrzymuje odpowiedź na zadane pytanie.

  • Ubezpieczenia, finanse:

Optymalizacja modelu scoringowego dla klientów.

  •  Finanse:

Wykorzystanie modeli predykcyjnych do przewidywania profili kredytowych klientów dla poszczególnych produktów bankowych.

  • Finanse:

Analiza danych giełdowych w czasie rzeczywistym, która pomaga przewidzieć przyszłe zachowania giełdy.

  • Instytucje publiczne:

Analiza wydatków w zależności od sytuacji, czasu, kategorii.

  • Opieka zdrowotna:

Analiza danych pacjenta w celu przyspieszenia diagnostyki.

Spark MLlib przewiduje również opóźnienia lotów dla firm lotniczych, ceny nieruchomości na różnych rynkach, wspiera procesy marketingowe poprzez przeszukiwanie mediów społecznościowych i tym podobne.

Nasze doświadczenie

BlueSoft z powodzeniem wykorzystuje technologię Apache Mahout u swoich klientów reprezentujących takie branże jak finansowa, telekomunikacyjna czy nauki przyrodnicze.

Firma posiada bogate doświadczenie w zakresie analizy biznesowej, dzięki czemu klienci mogą z łatwością wybrać zagadnienia, które można zoptymalizować za pomocą uczenia maszynowego. Doświadczeni pracownicy BlueSoft wdrażają Apache Spark w sposób terminowy i z zachowaniem kontroli kosztów.

Spark to platforma, która, jeśli jest właściwie wykorzystywana, przynosi ogromne korzyści organizacji, jednak to, co jest niezbędne do wyciągnięcia maksymalnej wartości z danych, to pewien stopień wiedzy z zakresu data science.

Niewątpliwie jednak, dobrze dobrany zespół i platforma Apache Spark znacznie optymalizują działanie organizacji i poprawiają jakość jej produktów.

BlueSoft z powodzeniem zrealizował wiele projektów w tym zakresie. Chętnie zaprezentujemy bezpośrednio nasze portfolio, jak również odpowiemy na więcej pytań dotyczących samej technologii i korzyści, jakie może przynieść jej wdrożenie.

Co możemy zrobić Dla Twojego biznesu?

Skontaktuj się z nami!
×