Przez długi czas niemal każda biznesowa dyskusja o sztucznej inteligencji zmierzała nieuchronnie do tego samego pytania: „To którego modelu powinniśmy używać?”. I ja — jak przystało na konsultanta — odpowiadałem czymś w rodzaju:„To skomplikowane”. Odpowiedź uczciwa, ale mało pomocna. Postanowiłem więc spróbować naprawdę zmierzyć się z pytaniem. Tak powstał MortAI Kombat — zestaw wyzwań, który testuje możliwości modele AI w codziennej pracy: pisaniu kodu, analizie danych, tworzeniu prezentacji, tłumaczeniu dokumentów itd. Żadnych technicznych, laboratoryjnych benchmarków.
Do pierwszego „turnieju” wybrałem następujące modele: Claude, ChatGPT, Gemini, Copilot oraz Meta AI.
Problem “ruchomego” celu
Jest jedna rzecz, o której rzadko się mówi, gdy zaczynasz benchmarkować modele AI: one nigdy nie pozostają takie same wystarczająco długo, żebyś zdążył dokończyć ocenę. Testy rozpocząłem w sierpniu 2025. Do końca listopada Claude został zaktualizowany raz, ChatGPT dwa razy, a Gemini wprowadził istotne ulepszenia przetwarzania multimodalnego. Żeby było jasne: ciągły rozwój modeli to dobra wiadomość. Ale dla kogoś, kto próbuje przygotować rzetelne porównanie, oznacza to jedno: każdy ranking ma termin ważności liczony nie w latach, ani nawet miesiącach, lecz w tygodniach.
To nie jest porównywanie klasycznych aplikacji czy narzędzi. To raczej próba recenzowania restauracji, w której szef kuchni nie tylko zmienia menu co trzy dni, ale czasem podmienia nawet składniki w daniach, które już zamówiłeś. 😊Niezrażony kontynuowałem jednak testy, ponieważ mimo, że konkretne wyniki się szybko się zdezaktualizują, to wzorce, które zaobserwowałem pomagają zrozumieć jak “myślą” modele AI.
Metodologia testów
Wszystkie modele przeszły przez 47 zadań uporządkowanych w 10 kategorii:
- Złożone rozumowanie, czyli logiczne łamigłówki, analizy przyczynowo‑skutkowe i wieloetapowe równania matematyczne.
- Kreatywne rozwiązywanie problemów, na przykład wymyślanie modeli biznesowych w określonych ograniczeniach lub tworzenie innowacyjnych, a przy tym realistycznych rozwiązań.
- Techniczne rozwiązywanie problemów, uwzględniające debugowanie kodu, projektowanie architektury oraz analizę algorytmów.
- Komunikację biznesową, w której modele tworzyły materiały dla zarządu, komunikaty dla interesariuszy czy symulowane odpowiedzi kryzysowe.
- Pisanie kreatywne, obejmujące storytelling, adaptację tekstu do różnych odbiorców i pracę z głosem marki.
- Ekstrakcję informacji, wymagającą nie tylko streszczania, ale także analizy, syntezy i sprawdzania faktów.
- Adaptację w czasie rzeczywistym, czyli utrzymanie wątku rozmowy, zmianę kontekstu, przechodzenie między stylami.
- Tłumaczenia, zarówno ogólne, jak i specjalistyczne: techniczne, medyczne, prawne.
- Rozumienie multimodalne, w tym analizę diagramów, wykresów, dokumentów i obrazów.
- Rozumowanie etyczne, na przykład rozpoznawanie uprzedzeń czy analizę dylematów moralnych.
Każde zadanie było oceniane pod kątem: poprawności, kompletności, przejrzystości, liczby iteracji oraz szybkości. Wagi kryteriów nie były identyczne: dla przykładu poprawność i kompletność były ważniejsze, niż szybkość, ponieważ (przynajmniej dla mnie) lepiej otrzymać poprawną odpowiedź wolniej niż szybką, ale błędną.
Końcowa punktacja była liczona według wzoru:
response_value = ∑ (kryterium × waga)
i normalizowana do skali 1–5.
Rozpoczynając MortAI Kombat zakładałem, że zobaczę wyraźną hierarchię: jeden lub dwa modele zdominują większość kategorii i tyle. Jak bardzo się myliłem…
Pięć największych zaskoczeń
#1: paradoks tłumaczeń
Microsoft Copilot uzyskał idealny wynik 5.0 w tłumaczeniach, podczas gdy Claude – lider we wszystkich bardziej złożonych zadaniach – zaledwie 2,75.
Zastanówmy się nad tym przez chwilę. Model, który świetnie radził sobie z zaawansowaną strategią biznesową i architekturą techniczną, miał problemy z płynnym, naturalnym przekładem tekstu. Tymczasem Copilot, który słabo lub średnio wypadał w innych kategoriach, bezbłędnie przeszedł to zadanie. To mocno podważyło moje założenie, że ogólna inteligencja znajdzie odzwierciedlenie w każdej kategorii. Najwyraźniej tłumaczenia wymagają innego rodzaju „architektury poznawczej” niż myślenie strategiczne. Kto by się spodziewał?
Wniosek praktyczny: jeśli Twoim głównym zadaniem są tłumaczenia dokumentów, Copilot jest najlepszym wyborem spośród tych modeli.
#2: szybkość i jakość nie idą w parze
Czasy odpowiedzi mierzyłem bardzo dokładnie. Meta AI odpowiadał średnio w 35 sekund. Claude? Ponad 3 minuty (niemal 6x wolniej)! Problem polega na tym, że dłuższy czas nie przekłada się proporcjonalnie na jakość – odpowiedzi Claude’a były tylko 1.6x lepsze (3,81 vs 2,43). Oznacza to, że Meta AI jest tak szybki, że w praktyce mało użyteczny: jego odpowiedzi są powierzchowne i wymagają intensywnej edycji. Claude jest z kolei tak skrupulatny, że potrafi analizować temat w nieskończoność, dorzucając informacje, o które nikt nie prosił. Złoty środek? ChatGPT i Gemini. Wystarczająco szybkie (1–2 minuty), by umożliwić iteracje, i zadowalająco dobre jakościowo (3,3–3,7), by wykonać profesjonalną pracę.
Wniosek praktyczny: szybkie modele sprawdzają się przy burzach mózgów i szkicach. Wolniejsze – przy finalnych materiałach.
Zaskoczenie #3: etyka komunikacji kryzysowej
W jednym z zadań “etycznych” modele miały przygotować komunikat prasowy dla firmy, której drony zaczęły spadać z nieba z powodu wadliwych baterii. Oczekiwałem profesjonalnego, uspokajającego i transparentengo tonu odpowiedzi.
Odpowiedź Gemini była dla mnie szokująca (choć w sumie, jak się nad tym zastanowić, nie powinna). Model wprost zasugerował manipulowanie przekazem, tak aby sytuacja wyglądała lepiej, niż w rzeczywistości. Bez kłamstw, ale z zastosowaniem „roztropnej selekcji informacji”, która akcentowała przyszłe bezpieczeństwo, minimalizując bieżące ryzyko. Co więcej, Gemini uzasadniał to logicznymi, choć cynicznymi, argumentami biznesowymi: minimalizacja paniki, ochrona kursu akcji, utrzymanie zaufania klientów, kontrola narracji. Pozostałe modele były mniej bezwzględne, ale wykazywały podobne tendencje. W końcu uczyły się na rzeczywistych przykładach komunikacji korporacyjnej, która, nie oszukujmy się, często stawia tzw. damage control ponad pełną transparentność.
Te wyniki skłoniły mnie do postawienia dość niewygodnego pytania: czy modele powinniśmy uczyć na podstawie tego, jak firmy faktycznie działają, czy tego, jak powinny działać? Nie znam odpowiedzi. Ale fakt, że wszystkie modele instynktownie wybierają pragmatyzm biznesowy zamiast etycznego idealizmu, wiele mówi o danych, na których były trenowane.
Wniosek praktyczny: nigdy nie używaj AI do komunikacji kryzysowej bez wieloetapowej weryfikacji przez ludzi, najlepiej z udziałem prawników i doradców etycznych.
#4: iluzja multimodalności
Każdy model deklaruje dziś zaawansowane zdolności multimodalne: wykresy, dokumenty, obrazy — „obsługujemy wszystko”. Sprawdziłem to prostym testem. Obrazek przedstawiał regał z książkami oraz flipchart z napisem „Klucz jest ukryty za piątą książką od lewej na drugiej półce od góry”. Pytanie: jaki kolor ma ta książka?
Wszystkie modele poległy. Wszystkie! Nawet wtedy, gdy zaznaczyłem właściwą książkę na obrazku. Każda odpowiedź była inna… i błędna. I to pomimo wielokrotnych prób. A mówimy przecież o modelach określanych jako „frontier models” z zaawansowanym rozumieniem obrazu. A one nie potrafią nawet określić koloru zaznaczonego obiektu na statycznym obrazie.
Podobnie było z wykresami i diagramami: raz modele odczytywały dane poprawnie, innym razem myliły wartości lub interpretowały je w sposób pozbawiony sensu. W skomplikowanych przypadkach błędna interpretacja była niemal pewna.
Wniosek praktyczny: mimo szumnych deklaracji marketingowych, precyzyjna interpretacja danych wizualnych nadal pozostawia wiele do życzenia. Weryfikacja ludzka jest obowiązkowa.
#5: koszt iteracji
Nawet najlepsze modele rzadko trafiały w sedno za pierwszym razem — średnio potrzebowały niemal dwóch podejść na zadanie. Co ciekawe, powodem dodatkowych iteracji nie zawsze jest słaba jakość merytoryczna.
Claude notorycznie przekracza limity objętości. Prosisz o 200 słów, dostajesz 380. Potem 295. Potem 227. Iterujesz nie dlatego, że treść jest zła, ale dlatego, że model nie potrafi przestać dodawać „jeszcze jednego ważnego punktu”.
Copilot z kolei ma odwrotny problem – jego odpowiedzi są minimalistyczne. Prosisz o pełny business case, dostajesz sześć punktów. W większości zadań musiałem dopraszać się o więcej szczegółów.
ChatGPT i Gemini utrzymywały najzdrowszy balans. Nadal wymagały 1-2 iteracji, ale z właściwego powodu: dopracowania treści, a nie formatowania i liczby znaków.
Powyższe wyniki pokazują, że mamy do czynienia z 2 rodzajami iteracji:
- Iteracje jakościowe (pożądane): poprawa logiki, usuwanie błędów, doprecyzowanie niejasności
- Iteracje formatu (niechciane): formatowanie treści, skracanie zbyt długich lub rozbudowywanie lakoniczych odpowiedzi
ChatGPT i Gemini generują głównie iteracje jakościowe. Claude i Copilot – formatu. Jedne usprawniają pracę, drugie po prostu spalają czas.
Wniosek praktyczny: wybierając model, zadaj sobie pytanie „Czy więcej czasu stracę na poprawianiu lub doszczegółowianiu odpowiedzi, czy na formatowanie poprawnych?”. Do pracy eksploracyjnej Claude’owa gadatliwość bywa zaletą, ale przy napiętych terminach ChatGPT i Gemini sprawdzą się lepiej. Dla końcowych materiałów i tak przygotuj się na 3–4 rundy.
Narzędzia w warsztacie
Zapomnij o idei „jednego, najlepszego modelu AI”. To błędne podejście. Modele AI są jak narzędzia. Nikt nie porównuje młotka do śrubokręta pytając, który jest „lepszy”. Odpowiedź brzmi: zależy do czego.
Po setkach iteracji mój obecny „zestaw narzędzi” wygląda tak:
- Decyzje strategiczne i prezentacje zarządcze: Claude
- Kreatywne treści i marketing: Gemini
- Tłumaczenia: Copilot – i nic innego
- Szybkie debugowanie techniczne: Copilot lub Gemini
- Kod produkcyjny i dokumentacja: ChatGPT lub Claude
- Uniwersalne zastosowania: ChatGPT
- Nigdy: Meta AI w obecnej formie
To zróżnicowanie nie jest błędem – modele są po prostu projektowane z myślą o różnych zastosowaniach. Problem w tym, że większość użytkowników traktuje je wymiennie, nie zdając sobie sprawy z ich mocnych i słabych stron.
Niewygodna prawda o (braku) spójności AI
Jedna z definicji szaleństwa mówi o wielokrotnym wykonywaniu tej samej czynności z oczekiwaniem różnych rezultatów. Cóż, dokładnie tak wygląda rzeczywistość pracy z AI 🙂 Ten sam prompt, inny dzień – inna odpowiedź. Niby podobna, ale wystarczająco różna, by miało to znaczenie biznesowe. Czy to kwestia obciążenia serwerów? Aktualizacji modelu? Halucynacji? Trudno powiedzieć. I właśnie ta niepewność wydaje się największym problemem w zastosowaniach biznesowych.
Modele AI nie są deterministyczne. Nie można na nich polegać tak, jak na kalkulatorze. Nawet jeśli dziś podadzą poprawną odpowiedź, jutro mogą wygenerować inną. To ma poważne konsekwencje biznesowe. Wyniki generowane przez AI wymagają weryfikacji człowieka. Nie dlatego, że AI zwykle jest w błędzie – w większości przypadków ma rację – ale dlatego, że nie da się przewidzieć, kiedy się pomyli.
Najważniejsza lekcja
Czego więc nauczyłem się dzięki MortAI Kombat? Na pewno nie tego, że „Claude jest lepszy od ChatGPT, bo zdobył 3,77 vs. 3,70”. Te liczby i tak pewnie się już zdezaktualizowały, zanim zdążyłem skończyć pisanie tej analizy. Nie odkryłem również jednego modelu „do wszystkiego”. Ale dostrzegłem pewne wzorce:
- modele mają swoje specjalizacje i radzą sobie dobrze z różnymi typami zadań
- zależność między szybkością a jakością nie jest liniowa
- analiza wizualna wciąż pozostaje słabością wszystkich modeli
- spójność odpowiedzi jest ich największą wadą
- Nadzór ludzki jest nadal niezbędny
Pozostaje jednak pytanie: skoro modele zmieniają się co kilka tygodni, a każda aktualizacja może unieważnić wcześniejsze wyniki benchmarku, jak podejmować świadome decyzje o wyborze modelu? W takiej sytuacji, gdy modele zmieniają się szybciej niż procesy ich oceny, najrozsądniej jest patrzeć nie na konkretne rezultaty, lecz na ogólną charakterystykę modeli. Claude prawdopodobnie pozostanie drobiazgowy, Gemini — kreatywny, Copilot — najlepszy w tłumaczeniach, ChatGPT — najlepiej zbalansowany. Jakość odpowiedzi może się zmieniać (i na pewno będzie!), ale fundamentalne cechy i swoista „osobowość” modeli wydają się bardziej stabilne.
Przynajmniej taką mam nadzieję. 😊
Gdy opadnie kurz
Kiedy dziś ktoś pyta mnie: „Którego modelu AI powinniśmy używać?”, nadal odpowiadam: „To skomplikowane”. Ale teraz dodaję: „Powiedz mi dokładnie, co chcesz zrobić, a ja pomogę znaleźć ci najlepsze narzędzie AI do tego zadania”.
PS. Zgadnijcie, który model AI pomógł mi napisać tę analizę. 😊
Szczegółowe wyniki z wszystkich 10 rund MortAI Kombat znajdziecie na moim profilu LinkedIn:
https://www.linkedin.com/in/rafalbielicki/.
Zapoznaj się z artykułami na blogu, gdzie dzielimy się najnowszymi osiągnięciami w IT, które zmieniają naszą przyszłość.
Odkryj nowe możliwości dla Twojego biznesu!
Dzięki BlueSoft zyskujesz dostęp do najnowszych technologii oraz wsparcia ekspertów, którzy chętnie dzielą się swoją wiedzą.