← Wróć do bloga AI i technologia PL

Claude Opus 4.7 — co nowego i dlaczego to ma znaczenie

Claude Opus 4.7 — najlepszy publicznie dostępny LLM: SWE-bench Pro 64,3%, 3× lepsza wizja, 3× mniej błędów agentowych. Benchmarki, zmiany, cena i Mythos.

Claude Opus 4.7 — grafika artykułu

Claude Opus 4.7 to nowy lider wśród publicznie dostępnych LLM-ów — najlepszy w kodowaniu, 3× lepsza wizja, trzykrotnie mniej błędów agentowych, ta sama cena. W tle czai się Mythos.

Anthropic wypuścił dzisiaj (16 kwietnia 2026) Claude Opus 4.7. Nowy model flagowy, najlepszy publicznie dostępny LLM na rynku — przynajmniej do momentu, gdy OpenAI i Google odpowiedzą. Oto co się zmieniło, co to oznacza w praktyce i dlaczego warto zwrócić uwagę na to, czego Anthropic nie wypuścił.

Najważniejsze zmiany w skrócie

Kodowanie — ogromny skok. SWE-bench Pro: 64,3% (vs 53,4% w Opus 4.6). CursorBench: 70,0% (vs 58,0%). To nie jest drobna poprawka — to skok o 10–12 punktów procentowych na benchmarkach, które mierzą realne zadania programistyczne. GPT-5.4 ma 57,7% na SWE-bench Pro. Gemini 3.1 Pro — 54,2%. Opus 4.7 prowadzi.

Wizja 3× lepsza. Nowa maksymalna rozdzielczość: 2576 pikseli na dłuższym boku (~3,75 megapiksela) — ponad 3× więcej niż wcześniej. W testach nawigacji wizualnej (bez narzędzi): 79,5% vs 57,7% dla Opus 4.6. Oznacza to, że Claude teraz realnie „widzi” screenshoty, interfejsy, dokumenty — nie zgaduje z rozmytych miniaturek.

Mniej błędów narzędziowych. 14% lepsze wyniki na złożonych wielokrokowych workflow agentowych, przy jednoczesnym zużyciu mniejszej liczby tokenów i trzykrotnie mniejszej liczbie błędów tool-use. Dla ludzi budujących agentów AI to ogromna zmiana — mniej retry, mniej debugowania, mniej frustracji.

Nowy poziom effort: „xhigh”. Między dotychczasowym „high” a „max”. Daje lepsze wyniki niż „high” bez kosztu tokenowego „max”. Praktyczny sweet spot dla większości zadań.

/ultrareview. Nowa komenda w Claude Code — dogłębny code review analizujący architekturę, bezpieczeństwo, wydajność i utrzymywalność. Bardziej dokładny niż standardowy review. Według testów CodeRabbit: Opus 4.7 znalazł 68 na 100 prawdziwych bugów, vs 55 na Opus 4.6 — poprawa o 24%.

Nowy tokenizer. Tokenizer to komponent, który dzieli tekst na „tokeny” (fragmenty słów) przed przetworzeniem przez model — od niego zależy, ile tokenów zużywa dane zapytanie. Ulepszony tokenizer poprawia efektywność przetwarzania tekstu. Uwaga: niektóre inputy mogą generować 1,0–1,35× więcej tokenów niż wcześniej — warto to uwzględnić w budżecie API.

Benchmarki — Opus 4.7 vs konkurencja

Oficjalne benchmarki Anthropic to jedno, ale warto spojrzeć na niezależne pomiary Vals.ai z 16 kwietnia 2026 — obejmują Opus 4.7, Opus 4.6, Sonnet 4.6, Gemini 3.1 Pro i GPT-5.4:

Benchmarki Vals.ai — Claude Opus 4.7 vs konkurencja, 16 kwietnia 2026
Benchmarki Vals.ai — Claude Opus 4.7 vs konkurencja, 16 kwietnia 2026

 

Dodatkowo z oficjalnych benchmarków Anthropic:

Benchmark Opus 4.7 Opus 4.6 GPT-5.4
SWE-bench Pro 64,3% 53,4% 57,7%
CursorBench 70,0% 58,0%
Wizja (nawigacja bez narzędzi) 79,5% 57,7%
Cena API (input/output za 1M) $5/$25 $5/$25 $2,50/$15

Kilka rzeczy rzuca się w oczy:

Opus 4.7 prowadzi w 6 z 8 kategorii Vals.ai. Wyjątki: CorpFin v2 (umowy kredytowe), gdzie starszy Opus 4.6 jest minimalnie lepszy (67,02% vs 66,08%), oraz ProofBench (dowody matematyczne), gdzie GPT-5.4 wygrywa (56,00% vs 54,00%).

Vibe Coding Bench (budowanie apek od zera): 71,00% vs 67,42% dla GPT-5.4. To benchmark, który mierzy to, co ludzie faktycznie robią — mówisz AI „zbuduj mi apkę” i patrzysz co wyjdzie. Opus 4.7 jest najlepszy. Co ciekawe, Gemini 3.1 Pro ma tu katastrofalne 32,03%.

Terminal-Bench: Opus 4.7 wreszcie prowadzi (68,54%). Wcześniej Terminal-Bench był domeną Codexa/GPT. Teraz Opus 4.7 bije zarówno GPT-5.4 (58,43%), jak i Gemini 3.1 Pro (67,42%). To zmienia obraz z naszego porównania Codex vs Claude Code.

Co to oznacza w praktyce

Dla programistów

Opus 4.7 rozwiązuje zadania, z którymi Opus 4.6 sobie nie radził. Developerzy raportują, że model przeszedł testy Terminal-Bench, na których wcześniejsze wersje Claude polegały, i rozwiązał trudny bug z concurrency, którego Opus 4.6 nie ogarnął. Jeśli używasz Claude Code — po prostu działa lepiej. Mniej poprawek, mniej „nie, miałem na myśli coś innego”, mniej iteracji.

Dla ludzi budujących agentów

Trzykrotnie mniejsza liczba błędów tool-use to game-changer. Agenci AI, którzy wcześniej potrzebowali retry-logiki i error-handlingu na każdym kroku, teraz przechodzą przez złożone workflow z mniejszą liczbą wpadek. Jeśli budujesz automatyzacje w n8n, Make czy bezpośrednio na API — Opus 4.7 jest znacząco bardziej niezawodny.

Dla zwykłych użytkowników

Lepsza wizja to lepsza analiza screenshotów, dokumentów, zdjęć. Jeśli wrzucasz do Claude’a zdjęcie faktury, screenshot błędu, skan dokumentu — wyniki będą dokładniejsze. Reszta zmian (kodowanie, agenci) to bardziej domena developerów.

Słoń w pokoju: Claude Mythos

Anthropic przy okazji premiery Opus 4.7 wspomniał o czymś ciekawszym: Claude Mythos Preview. To ich naprawdę najmocniejszy model — dostępny tylko na zaproszenie, w ramach programu Project Glasswing (cyberbezpieczeństwo defensywne).

Liczby Mythosa są z innej ligi: 93,9% SWE-bench, 97,6% USAMO (USA Mathematical Olympiad — prestiżowa olimpiada matematyczna), zdolność odkrywania zero-day exploitów. Opus 4.7 jest świadomie słabszy od Mythosa — Anthropic celowo ograniczył jego capabilities w zakresie cyberbezpieczeństwa.

Dlaczego to ważne? Bo Anthropic otwarcie mówi: „mamy coś znacznie potężniejszego, ale wypuszczamy słabszą wersję, bo najpierw musimy przetestować zabezpieczenia”. To rzadkość w branży, gdzie wszyscy pędzą do releaseu. I sugeruje, że Mythos (lub model klasy Mythos) trafi do publicznej dystrybucji w ciągu kilku miesięcy — po tym, jak Opus 4.7 posłuży jako poligon do testowania safety filters.

Gizmodo podsumował to celnie: „Anthropic Releases Claude Opus 4.7 to Remind Everyone How Great Mythos Is.”

Cena

Bez zmian: $5 input / $25 output za milion tokenów — identycznie jak Opus 4.6. Dostępny na API Anthropic, Amazon Bedrock, Google Cloud i Azure.

Plany subskrypcyjne (Claude Pro, Max) też się nie zmieniają — Opus 4.7 zastępuje 4.6 jako domyślny model.

Moja opinia

Opus 4.7 to solidny upgrade, nie rewolucja. Skoki na benchmarkach kodowania są realne i odczuwalne — model jest wyraźnie lepszy w trudnych zadaniach. Wizja 3× lepsza to duży plus. Mniej błędów tool-use to coś, na co czekał każdy, kto buduje agentów.

Ale prawdziwa historia to Mythos. Anthropic pokazał, że ma model, który bije wszystko na rynku — i celowo go nie wypuścił. To jest strategia firmy, która myśli o bezpieczeństwie inaczej niż OpenAI (wypuść wszystko, poprawiaj później). Czy to dobrze, czy źle — zależy od perspektywy. Ale fakt jest taki: Anthropic siedzi na czymś, czego jeszcze nie widzieliśmy.

Na dzisiaj: jeśli używasz Claude — update jest darmowy i warto. Jeśli nie używasz — Opus 4.7 to dobry moment, żeby spróbować.

Źródła: Anthropic (anthropic.com) — oficjalne ogłoszenie Opus 4.7. Benchmarki: SWE-bench Pro, CursorBench, wizja bez narzędzi. Reakcje branży: VentureBeat, CNBC, Axios, Gizmodo, 9to5Mac, The Decoder, CodeRabbit. Stan na 16 kwietnia 2026.

MML Studio

Autor:

MML Studio

Komentarze

Zostaw komentarz

Komentarze są publikowane po zatwierdzeniu przez administratora.

← Poprzedni Nowości w AI — podsumowanie tygodnia 6–12 kwietnia 2026 | Mythos, Terafab
Następny → Nowości w AI — podsumowanie tygodnia 13–19 kwietnia 2026 | Opus 4.7 kontra Mythos, GPT-5.4-Cyber, NVIDIA Ising