← Wróć do bloga AI & Tech PL

Claude Opus 4.8 — co nowego w modelu Anthropica: Dynamic Workflows, kontrola wysiłku, ceny

Anthropic wypuścił Claude Opus 4.8 — 41 dni po 4.7. Co realnie się zmienia: Dynamic Workflows uruchamiające setki podagentów, kontrola wysiłku, tańszy tryb szybki, nowości w API i model, który rzadziej zostawia własne błędy bez komentarza. Ceny bez zmian.

Claude Opus 4.8 — Dynamic Workflows orkiestrujące setki podagentów

28 maja 2026 Anthropic wypuścił Claude Opus 4.8 — najnowszy i, według samej firmy, najmocniejszy ogólnodostępny model, zaledwie 41 dni po Opus 4.7. To „umiarkowane, ale wyczuwalne” ulepszenie poprzednika, dostępne w tej samej cenie. Według CNBC nowy model wypada lepiej niż GPT-5.5 i Gemini 3.1 Pro w benchmarkach kodowania agentowego, analizy finansowej i obsługi komputera.

Premiera to jednak nie tylko lepsze wyniki. Razem z modelem ruszają Dynamic Workflows w Claude Code, kontrola wysiłku w claude.ai i Cowork oraz tańszy tryb szybki. Poniżej rozkładamy, co realnie się zmienia — i dla kogo to ma znaczenie.

Co to jest Claude Opus 4.8 i co się zmieniło

Opus 4.8 to bezpośrednie rozwinięcie Opus 4.7 z poprawą w wielu benchmarkach i — według wczesnych testerów — z lepszym „osądem” w zadaniach agentowych. Identyfikator modelu w API to claude-opus-4-8. Specyfikacja techniczna pozostaje na poziomie 4.7: okno kontekstu 1 mln tokenów (domyślnie w Claude API, Amazon Bedrock i Vertex AI; 200 tys. w Microsoft Foundry), do 128 tys. tokenów wyjścia i adaptacyjne myślenie (model sam decyduje, kiedy „pomyśleć” przed odpowiedzią).

Anthropic skupił poprawki na trzech obszarach zachowania: długodystansowym kodowaniu agentowym (lepsza obsługa długiego kontekstu i odzyskiwanie po kompakcji), kalibracji wysiłku rozumowania oraz wyzwalaniu narzędzi (rzadsze pomijanie wywołania, którego zadanie wymagało). To odpowiedź na skargi użytkowników 4.7.

Dynamic Workflows — setki podagentów w jednej sesji

Najważniejsza nowość obok modelu to Dynamic Workflows (faza wczesnego dostępu testowego, ang. research preview) w Claude Code. Pozwala Claude’owi zaplanować dużą pracę i uruchomić setki równoległych podagentów w jednej sesji, a następnie zweryfikować wyniki, zanim przedstawi je użytkownikowi. Z Opus 4.8 podagenci mogą działać jeszcze dłużej.

Sztandarowy przykład: Claude Code z Opus 4.8 potrafi przeprowadzić migrację w skali całej bazy kodu — przez setki tysięcy linii — od startu do merge / scalenia zmian, traktując istniejący zestaw testów jako poprzeczkę. Funkcja jest dostępna w planach Claude Code dla Enterprise, Team i Max.

Kontrola wysiłku (effort) — od „high” po „max”

W claude.ai i Cowork pojawił się suwak wysiłku obok wyboru modelu. Na wyższych ustawieniach Claude myśli częściej i głębiej (lepsze odpowiedzi), na niższych — odpowiada szybciej i wolniej zużywa limity. Funkcja jest dostępna na wszystkich planach.

Domyślnym poziomem Opus 4.8 jest „high” — według Anthropica najlepszy kompromis jakości i komfortu. Dla trudnych zadań i długich procesów asynchronicznych można wybrać „extra” („xhigh” w Claude Code) lub „max”, gdzie model zużywa więcej tokenów dla lepszego wyniku. W Claude Code podniesiono limity, by pomieścić wyższe zużycie tokenów.

Tryb szybki — 2,5× szybciej i trzy razy taniej niż wcześniej

Tryb szybki (fast mode) dla Opus 4.8 daje do 2,5× wyższą przepustowość (tokenów wyjściowych na sekundę) z tego samego modelu, za dopłatą. Co istotne, dla Opus 4.8 jest on trzykrotnie tańszy niż dla wcześniejszych modeli. W Claude API tryb szybki działa jako research preview (ustawienie speed: "fast").

Nowości w API dla deweloperów

Najważniejsza zmiana dla budujących na Claude API to wiadomości systemowe w trakcie rozmowy. Opus 4.8 przyjmuje wpisy role: "system" wewnątrz tablicy messages (po turze użytkownika). Dzięki temu można aktualizować instrukcje w długiej sesji bez przepisywania całego promptu systemowego. Co ważne, nie psuje to trafień pamięci podręcznej promptu (prompt cache) na wcześniejszych turach. W praktyce: tańsze pętle agentowe, w których w locie zmienia się uprawnienia, budżet tokenów czy kontekst środowiska.

Pozostałe zmiany:

  • Niższy próg cache — minimalna długość promptu do zapisania w pamięci podręcznej spada do 1 024 tokenów. Krótsze prompty, które nie mieściły się w cache na 4.7, teraz tworzą wpisy bez zmian w kodzie.
  • Szczegóły odmów (stop_details) — przy odmowie API zwraca kategorię, co ułatwia odpowiednie pokierowanie użytkownikiem.
  • Bez zmian względem 4.7 — brak temperature, top_p, top_k (wartości inne niż domyślne zwracają błąd 400) i tylko adaptacyjne myślenie (brak ręcznych budżetów myślenia).

Mniej zgadywania — model rzadziej udaje pewność

Najczęściej podkreślaną poprawą jest to, co Anthropic nazywa „honesty” (uczciwością). Modele AI bywają skłonne wyciągać pochopne wnioski i zbyt pewnie twierdzić, że zrobiły postęp, mimo wątłych dowodów. Według Anthropica Opus 4.8 częściej sygnalizuje niepewność i rzadziej formułuje nieuzasadnione twierdzenia. W ocenach wewnętrznych jest około czterokrotnie rzadziej skłonny zostawić błąd we własnym kodzie bez komentarza niż poprzednik.

To samo zgłaszają testerzy: największą różnicą bywa „skłonność Opus 4.8 do proaktywnego wskazywania problemów z danymi wejściowymi i wynikami analizy — czegoś, co inne modele rutynowo przeoczały, zostawiając to użytkownikowi”.

Dopasowanie i bezpieczeństwo — blisko najlepiej dopasowanego modelu Anthropica

Przed premierą zespół ds. dopasowania (alignment) Anthropica przeprowadził pełną ocenę modelu. Wniosek: Opus 4.8 osiąga nowe maksima w cechach prospołecznych — wspieraniu autonomii użytkownika i działaniu w jego najlepszym interesie. Poziom zachowań niezgodnych (np. wprowadzanie w błąd czy współudział w nadużyciu) jest istotnie niższy niż w Opus 4.7 i zbliżony do najlepiej dopasowanego modelu firmy, Claude Mythos Preview. Pełna ocena i zestaw testów bezpieczeństwa są w karcie systemowej (System Card) Opus 4.8.

Benchmarki i porównanie — gdzie Opus 4.8 wypada najlepiej

Anthropic pozycjonuje Opus 4.8 jako swój najmocniejszy ogólnodostępny model do złożonego rozumowania i wysoce autonomicznej pracy. Co wynika z danych premierowych i ocen partnerów:

  • Obsługa komputera (computer use): według jednego z testerów Opus 4.8 uzyskał 84% na Online-Mind2Web — wyraźny skok wobec Opus 4.7 i GPT-5.5.
  • Kodowanie agentowe, analiza finansowa, obsługa komputera: według CNBC model wypada lepiej niż GPT-5.5 i Gemini 3.1 Pro.
  • Efektywność narzędzi: na CursorBench Opus 4.8 przewyższa wcześniejsze modele Opus na każdym poziomie wysiłku, używając mniejszej liczby kroków.
  • Praca na danych nieustrukturyzowanych: w agencie Genie (Databricks) Opus 4.8 rozumuje nad PDF-ami i diagramami przy 61% niższym koszcie tokenów niż Opus 4.7.
  • Terminal-Bench 2.1: wyniki raportowane w publicznym harnessie Terminus-2 (dla porównania GPT-5.5 osiąga 83,4% w harnessie Codex CLI).

Ceny i dostępność

Opus 4.8 jest dostępny w głównych kanałach od dnia premiery. Ceny standardowego użycia nie zmieniły się względem Opus 4.7:

  • Tryb standardowy: 5 USD za milion tokenów wejściowych, 25 USD za milion tokenów wyjściowych.
  • Tryb szybki: 10 USD za milion tokenów wejściowych, 50 USD za milion tokenów wyjściowych.

Model działa w claude.ai, Claude Code i Cowork, a deweloperzy korzystają z claude-opus-4-8 przez Claude API, Amazon Bedrock, Google Vertex AI i Microsoft Foundry.

Dla kogo jest Opus 4.8 i jak zacząć

Jeśli korzystasz z claude.ai lub Cowork, Opus 4.8 jest już domyślnie dostępny — wystarczy ustawić poziom wysiłku adekwatny do zadania (do trudnych zadań rozważ „extra”). Dla zespołów inżynierskich największą wartością są Dynamic Workflows w Claude Code (plany Enterprise, Team, Max) — zwłaszcza przy migracjach i pracy w skali całej bazy kodu. Deweloperzy budujący pętle agentowe zyskują najwięcej na wiadomościach systemowych w trakcie rozmowy i niższym progu cache — obniżają one koszt długich sesji.

Co dalej — modele klasy Mythos „w nadchodzących tygodniach”

Anthropic zapowiada dwa kierunki. Po pierwsze, modele o zbliżonych do Opus możliwościach, ale niższym koszcie. Po drugie — nowa klasa modeli inteligentniejszych niż Opus: w ramach Project Glasswing nieliczne organizacje używają dziś Claude Mythos Preview do zadań cyberbezpieczeństwa. Modele tej klasy wymagają silniejszych zabezpieczeń, ale firma deklaruje, że udostępni je wszystkim klientom „w nadchodzących tygodniach”.

MML Studio

Autor:

MML Studio

Komentarze

Zostaw komentarz

Komentarze są publikowane po zatwierdzeniu przez administratora.

← Poprzedni Nowości w AI — podsumowanie tygodnia 25–31 maja 2026 | Anthropic 965 mld USD, Claude Opus 4.8, encyklika o AI
Następny → Nowości w AI — podsumowanie tygodnia 1–7 czerwca 2026 | Microsoft Build, rozporządzenie Białego Domu, S-1 Anthropica