Flink jest młodszym bratem Spark i Hadoop. Podobnie jak one, jest skalowalny i umożliwia szybkie przetwarzanie dużych ilości danych. Umożliwia również połączenie z różnymi źródłami danych (Kafka, HDFS, Cassandra, HBase, bazy SQL etc.) i, podobnie, pasuje do różnych środowisk IT, bo można go uruchomić w tych samych co Spark i Hadoop, w trybie autonomicznym, w klastrze i oczywiście w chmurze. Co więcej, oferuje zarówno przetwarzanie wsadowe, jak i strumieniowe.
Flink jest dostępny na licencji open source, co oznacza, że można swobodnie analizować to, co dzieje się w systemie. Posiada również prężnie działającą społeczność, co znacznie ułatwia znalezienie rozwiązań problemów. Mimo młodego wieku, jest to dojrzała technologia z licznymi uruchomieniami produkcyjnymi w takich firmach jak: ING, Ericsson, Alibaba, Uber, Zalando, Netflix, Telefonica.
Do czego to służy?
Wartością dodaną Flink wśród systemów starszej generacji jest jego doskonałe wsparcie dla przetwarzania strumieni danych. Spośród wszystkich rozwiązań open source oferuje najlepsze wsparcie dla niezawodnego wykonywania operacji na danych, które wymagają szybkiej reakcji z bardzo małymi opóźnieniami (np. wykrywanie oszustw finansowych na podstawie transakcji). Dzięki innowacyjnej obsłudze stanu obliczeń doskonale nadaje się do wykonywania bardziej skomplikowanych operacji. Wiele z nich jest możliwych do zaimplementowania w starszych systemach (np. Spark), ale tylko Flink daje takie możliwości przy zachowaniu bardzo wysokiej wydajności. Flink jest również szybszy, jeśli chodzi o obliczenia iteracyjne, takie jak uczenie maszynowe.
Przykłady zastosowania
- monitorowanie infrastruktury sieciowej, np. w celu wykrywania anomalii
- wykrywanie oszustw finansowych z opóźnieniem zaledwie kilku milisekund
- analiza w czasie rzeczywistym takich zachowań jak kliknięcia na stronie e-commerce, aktywność w grze on-line lub w mediach społecznościowych (np. analiza sentymentu)
- telemetria, czyli np. monitorowanie korzystania z usługi w celu naliczania opłat
- reagowanie na zmiany na rynku finansowym
- wykrywanie wzorców poprzez złożone przetwarzanie zdarzeń, np. gdy użytkownik wypełnia formularz, ale zatrzymuje się po dotarciu do 3. strony i nie wraca do niej
- obliczenie średniej ruchomej dla ilości w ciągu ostatnich 30 minut
- IoT: monitorowanie czujników w pojazdach, maszynach przemysłowych i rolniczych, wykorzystywanie uczenia maszynowego do szybkiego wykrywania usterek
- jako narzędzie dla zespołu data science do wykonywania zapytań SQL na strumieniu danych