Claude Opus 4.7 — co nowego i dlaczego to ma znaczenie
Claude Opus 4.7 — najlepszy publicznie dostępny LLM: SWE-bench Pro 64,3%, 3× lepsza wizja, 3× mniej błędów agentowych. Benchmarki, zmiany, cena i Mythos.
Claude Opus 4.7 to nowy lider wśród publicznie dostępnych LLM-ów — najlepszy w kodowaniu, 3× lepsza wizja, trzykrotnie mniej błędów agentowych, ta sama cena. W tle czai się Mythos.
Anthropic wypuścił dzisiaj (16 kwietnia 2026) Claude Opus 4.7. Nowy model flagowy, najlepszy publicznie dostępny LLM na rynku — przynajmniej do momentu, gdy OpenAI i Google odpowiedzą. Oto co się zmieniło, co to oznacza w praktyce i dlaczego warto zwrócić uwagę na to, czego Anthropic nie wypuścił.
Najważniejsze zmiany w skrócie
Kodowanie — ogromny skok. SWE-bench Pro: 64,3% (vs 53,4% w Opus 4.6). CursorBench: 70,0% (vs 58,0%). To nie jest drobna poprawka — to skok o 10–12 punktów procentowych na benchmarkach, które mierzą realne zadania programistyczne. GPT-5.4 ma 57,7% na SWE-bench Pro. Gemini 3.1 Pro — 54,2%. Opus 4.7 prowadzi.
Wizja 3× lepsza. Nowa maksymalna rozdzielczość: 2576 pikseli na dłuższym boku (~3,75 megapiksela) — ponad 3× więcej niż wcześniej. W testach nawigacji wizualnej (bez narzędzi): 79,5% vs 57,7% dla Opus 4.6. Oznacza to, że Claude teraz realnie „widzi” screenshoty, interfejsy, dokumenty — nie zgaduje z rozmytych miniaturek.
Mniej błędów narzędziowych. 14% lepsze wyniki na złożonych wielokrokowych workflow agentowych, przy jednoczesnym zużyciu mniejszej liczby tokenów i trzykrotnie mniejszej liczbie błędów tool-use. Dla ludzi budujących agentów AI to ogromna zmiana — mniej retry, mniej debugowania, mniej frustracji.
Nowy poziom effort: „xhigh”. Między dotychczasowym „high” a „max”. Daje lepsze wyniki niż „high” bez kosztu tokenowego „max”. Praktyczny sweet spot dla większości zadań.
/ultrareview. Nowa komenda w Claude Code — dogłębny code review analizujący architekturę, bezpieczeństwo, wydajność i utrzymywalność. Bardziej dokładny niż standardowy review. Według testów CodeRabbit: Opus 4.7 znalazł 68 na 100 prawdziwych bugów, vs 55 na Opus 4.6 — poprawa o 24%.
Nowy tokenizer. Tokenizer to komponent, który dzieli tekst na „tokeny” (fragmenty słów) przed przetworzeniem przez model — od niego zależy, ile tokenów zużywa dane zapytanie. Ulepszony tokenizer poprawia efektywność przetwarzania tekstu. Uwaga: niektóre inputy mogą generować 1,0–1,35× więcej tokenów niż wcześniej — warto to uwzględnić w budżecie API.
Benchmarki — Opus 4.7 vs konkurencja
Oficjalne benchmarki Anthropic to jedno, ale warto spojrzeć na niezależne pomiary Vals.ai z 16 kwietnia 2026 — obejmują Opus 4.7, Opus 4.6, Sonnet 4.6, Gemini 3.1 Pro i GPT-5.4:

Dodatkowo z oficjalnych benchmarków Anthropic:
| Benchmark | Opus 4.7 | Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| SWE-bench Pro | 64,3% | 53,4% | 57,7% |
| CursorBench | 70,0% | 58,0% | — |
| Wizja (nawigacja bez narzędzi) | 79,5% | 57,7% | — |
| Cena API (input/output za 1M) | $5/$25 | $5/$25 | $2,50/$15 |
Kilka rzeczy rzuca się w oczy:
Opus 4.7 prowadzi w 6 z 8 kategorii Vals.ai. Wyjątki: CorpFin v2 (umowy kredytowe), gdzie starszy Opus 4.6 jest minimalnie lepszy (67,02% vs 66,08%), oraz ProofBench (dowody matematyczne), gdzie GPT-5.4 wygrywa (56,00% vs 54,00%).
Vibe Coding Bench (budowanie apek od zera): 71,00% vs 67,42% dla GPT-5.4. To benchmark, który mierzy to, co ludzie faktycznie robią — mówisz AI „zbuduj mi apkę” i patrzysz co wyjdzie. Opus 4.7 jest najlepszy. Co ciekawe, Gemini 3.1 Pro ma tu katastrofalne 32,03%.
Terminal-Bench: Opus 4.7 wreszcie prowadzi (68,54%). Wcześniej Terminal-Bench był domeną Codexa/GPT. Teraz Opus 4.7 bije zarówno GPT-5.4 (58,43%), jak i Gemini 3.1 Pro (67,42%). To zmienia obraz z naszego porównania Codex vs Claude Code.
Co to oznacza w praktyce
Dla programistów
Opus 4.7 rozwiązuje zadania, z którymi Opus 4.6 sobie nie radził. Developerzy raportują, że model przeszedł testy Terminal-Bench, na których wcześniejsze wersje Claude polegały, i rozwiązał trudny bug z concurrency, którego Opus 4.6 nie ogarnął. Jeśli używasz Claude Code — po prostu działa lepiej. Mniej poprawek, mniej „nie, miałem na myśli coś innego”, mniej iteracji.
Dla ludzi budujących agentów
Trzykrotnie mniejsza liczba błędów tool-use to game-changer. Agenci AI, którzy wcześniej potrzebowali retry-logiki i error-handlingu na każdym kroku, teraz przechodzą przez złożone workflow z mniejszą liczbą wpadek. Jeśli budujesz automatyzacje w n8n, Make czy bezpośrednio na API — Opus 4.7 jest znacząco bardziej niezawodny.
Dla zwykłych użytkowników
Lepsza wizja to lepsza analiza screenshotów, dokumentów, zdjęć. Jeśli wrzucasz do Claude’a zdjęcie faktury, screenshot błędu, skan dokumentu — wyniki będą dokładniejsze. Reszta zmian (kodowanie, agenci) to bardziej domena developerów.
Słoń w pokoju: Claude Mythos
Anthropic przy okazji premiery Opus 4.7 wspomniał o czymś ciekawszym: Claude Mythos Preview. To ich naprawdę najmocniejszy model — dostępny tylko na zaproszenie, w ramach programu Project Glasswing (cyberbezpieczeństwo defensywne).
Liczby Mythosa są z innej ligi: 93,9% SWE-bench, 97,6% USAMO (USA Mathematical Olympiad — prestiżowa olimpiada matematyczna), zdolność odkrywania zero-day exploitów. Opus 4.7 jest świadomie słabszy od Mythosa — Anthropic celowo ograniczył jego capabilities w zakresie cyberbezpieczeństwa.
Dlaczego to ważne? Bo Anthropic otwarcie mówi: „mamy coś znacznie potężniejszego, ale wypuszczamy słabszą wersję, bo najpierw musimy przetestować zabezpieczenia”. To rzadkość w branży, gdzie wszyscy pędzą do releaseu. I sugeruje, że Mythos (lub model klasy Mythos) trafi do publicznej dystrybucji w ciągu kilku miesięcy — po tym, jak Opus 4.7 posłuży jako poligon do testowania safety filters.
Gizmodo podsumował to celnie: „Anthropic Releases Claude Opus 4.7 to Remind Everyone How Great Mythos Is.”
Cena
Bez zmian: $5 input / $25 output za milion tokenów — identycznie jak Opus 4.6. Dostępny na API Anthropic, Amazon Bedrock, Google Cloud i Azure.
Plany subskrypcyjne (Claude Pro, Max) też się nie zmieniają — Opus 4.7 zastępuje 4.6 jako domyślny model.
Moja opinia
Opus 4.7 to solidny upgrade, nie rewolucja. Skoki na benchmarkach kodowania są realne i odczuwalne — model jest wyraźnie lepszy w trudnych zadaniach. Wizja 3× lepsza to duży plus. Mniej błędów tool-use to coś, na co czekał każdy, kto buduje agentów.
Ale prawdziwa historia to Mythos. Anthropic pokazał, że ma model, który bije wszystko na rynku — i celowo go nie wypuścił. To jest strategia firmy, która myśli o bezpieczeństwie inaczej niż OpenAI (wypuść wszystko, poprawiaj później). Czy to dobrze, czy źle — zależy od perspektywy. Ale fakt jest taki: Anthropic siedzi na czymś, czego jeszcze nie widzieliśmy.
Na dzisiaj: jeśli używasz Claude — update jest darmowy i warto. Jeśli nie używasz — Opus 4.7 to dobry moment, żeby spróbować.
Źródła: Anthropic (anthropic.com) — oficjalne ogłoszenie Opus 4.7. Benchmarki: SWE-bench Pro, CursorBench, wizja bez narzędzi. Reakcje branży: VentureBeat, CNBC, Axios, Gizmodo, 9to5Mac, The Decoder, CodeRabbit. Stan na 16 kwietnia 2026.
Komentarze