Claude Opus 4.5: Analýza nového AI modelu Anthropic

Anthropic vydal nový model Claude Opus 4.5, který patří do interní třídy modelů zvané Mythos, a internet okamžitě explodoval jak nadšením, tak kritikou. Tento článek rozebírá, co tento model skutečně je, co umí, kde má limity a co je pouze hype. Pokud vás zajímá širší kontext, přečtěte si také přehled oblastí umělé inteligence, kde modely jako Claude Opus působí.

Co je Claude Opus 4.5 a třída modelů Mythos

Anthropic má interní kategorii modelů nazvanou Mythos class, která stojí nad dosavadní třídou Opus. Claude Opus 4.5 je prvním modelem z této třídy zpřístupněným pro širokou veřejnost. Podle Anthropicu dosahuje nejlepších výsledků téměř na každém benchmarku. Platí přitom: čím delší a složitější úkol, tím větší náskok tohoto modelu nad ostatními. Jako příklad společnost uvádí, že Stripe pomocí tohoto modelu provedl migraci Ruby codebase (kódové základny) o 50 milionech řádků za jediný den, přičemž tato práce by týmu zabrala více než dva měsíce. Takové využití ilustruje, k čemu jsou dnes velké jazykové modely schopné v reálném firemním prostředí.

Důležité upřesnění: veřejný model není totéž co plný Mythos

V online prostoru se šíří dezinformace, že „Mythos konečně přišel“. To není přesné. Situace je následující:

V dubnu Anthropic vydal první Mythos class model nazvaný Mythos Preview, ale pouze pro úzkou skupinu kybernetických obránců a provozovatelů kritické infrastruktury prostřednictvím programu Project Glass Wing.
Souběžně s veřejným modelem byl vydán také Mythos 5. Ten je postaven na stejném základním modelu, ale se zčásti odstraněnými bezpečnostními omezeními.
Mythos 5 zůstává dostupný výhradně partnerům programu Glass Wing: profesionálům v kybernetické bezpečnosti, vládním institucím a několika dalším prověřeným firmám.
Veřejnost získala přístup k verzi s nasazenými bezpečnostními filtry, což je v podstatě stejný „mozek“, ale s přísnějšími omezeními. Problematice bezpečnostních principů velkých jazykových modelů se podrobněji věnujeme v samostatném článku.

Co model skutečně dokáže – reálné ukázky

Server Dana Shippera testoval model týden napříč programováním, psaním, marketingem a editací. Model dosáhl skóre 91 ze 100 na jejich interním benchmarku pro seniorní inženýry, zatímco předchozí rekord byl 63 bodů. Shipper ho označil za „one-shot wonder“, tedy model, který lze spustit na velké kódovací úkoly a nechat ho pracovat hodiny nebo přes noc. Mezi zdokumentovanými ukázkami od různých uživatelů jsou:

Kompletní klon Minecraftu vytvořený za 20 minut jedním promptem.
Klon Pokémonu s 8 000 řádky kódu, všemi 151 Pokémony první generace včetně reálných spritů, statistik, pohybů a evolucí, vše jedním promptem za hodinu.
Klon aplikace Lovable pro mobilní zařízení.
Simulátor městského bloku s multiagentní dopravou a cyklem den/noc.
Reálný případ z praxe: model přepisoval zákaznický hovor v reálném čase a zároveň rovnou stavěl požadované funkce. Na konci hovoru byl k dispozici plně funkční produkt.

Tyto výsledky jsou možné mimo jiné díky pokročilým technikám, jako jsou AI agenti schopní autonomně plnit dlouhodobé úkoly. Podobné agentní chování je základem toho, proč model zvládá tak rozsáhlé projekty jedním zadáním.

Nevýhody: cena, rychlost a cenzura

Model má několik zásadních nevýhod, na které upozorňují i nadšení uživatelé:

Cena: 15 dolarů za milion vstupních tokenů a 75 dolarů za milion výstupních tokenů, což je výrazně více než u předchozích modelů.
Model je extrémně „token-hungry“ (hladový po tokenech): běžně spotřebuje 500 000 až 1 milion tokenů na jeden úkol. Dan Shipper to přirovnal k „drcení mravence raketometem“ při běžné práci.
Model je pomalý a nevhodný jako každodenní nástroj pro běžné uživatele nebo příležitostné programátory.
Bezpečnostní filtry jsou nastaveny velmi přísně a zachytávají i zcela nevinné dotazy. Například samotné slovo „cancer“ nebo otázka „Co dělá srdce?“ dokázaly přepnout model na nižší variantu.

Skrytá omezení pro vývoj AI modelů

Anthropic ve svých vlastních dokumentech přiznává, že implementoval specifická omezení pro dotazy týkající se vývoje frontier LLM modelů (velkých jazykových modelů na hranici současných možností), jako je předtrénování, distribuovaná infrastruktura nebo ML akcelerátory. Na rozdíl od oblastí jako kybernetická bezpečnost nebo biologie, kde model uživatele upozorní na přepnutí, tato omezení fungují skrytě. Model odpoví, ale odpověď bude záměrně méně kvalitní, přičemž uživatel o tom nebude informován. Tato praxe vyvolala kritiku ze strany CEO Hugging Face, profesorů z Carnegie Mellon i dalších odborníků, kteří argumentují koncentrací moci a omezením přístupu k AI schopnostem. Obavy z podobného vývoje blíže popisujeme v článku o tom, proč se lidé bojí umělé inteligence.

Benchmarky: co říkají čísla a kde je háček

Anthropic staví svůj marketing na výsledcích benchmarku SWE-bench Verified, kde model dosahuje výrazně nadprůměrných výsledků. Tento benchmark má však závažné problémy:

Společnost Datacurve zjistila, že úlohy v benchmarku mají průměrně jen 120 řádků kódu a verifikátor chybně hodnotí výstupy s 8% mírou falešně pozitivních a 24% mírou falešně negativních výsledků.
Bylo zjištěno, že starší modely v více než 12 % případů „podváděly“, tedy místo řešení problému vyhledaly odpověď v Git historii.
Novější benchmark Deep SWE je navržen jako contamination-free (bez rizika kontaminace trénovacími daty) s úlohami psanými od nuly. Jeho výsledky pro nový model nebyly v době vydání videa ještě k dispozici.
Na leaderboardu Artificial Analysis model vede, ale s výrazně vyšší cenou. V LM Arena vede v kategorii agentů, ale chybí v textové a kódovací kategorii.

Nejnovější model Anthropicu je skutečně nejlepší veřejně dostupný model, který tato společnost kdy vydala. Pro náročné kódovací a dlouhodobé agentní úlohy představuje výrazný posun vpřed. Zároveň je drahý, pomalý a přísně cenzurovaný v oblasti biologie, kybernetické bezpečnosti a vývoje AI. Pokud patříte mezi power users s náročnými projekty, rozhodně stojí za vyzkoušení. Pro maximální výsledky se vyplatí věnovat pozornost také prompt engineeringu – správně formulované výzvy dokážou z modelu vytěžit výrazně lepší výstupy. Zajímavý kontext nabízí i přehled Claude business asistentů a způsoby, jak model nasadit pro firemní účely. Celkový dopad podobných nástrojů na průmysl shrnuje článek o technologiích budoucnosti.

Co je Claude Opus 4.5 a třída modelů Mythos

Důležité upřesnění: veřejný model není totéž co plný Mythos

Co model skutečně dokáže – reálné ukázky

Nevýhody: cena, rychlost a cenzura

Skrytá omezení pro vývoj AI modelů

Benchmarky: co říkají čísla a kde je háček

Vladimír Matula

AI SLUŽBY

Rubriky Blogu:

Umělá inteligence (AI)

Podnikatelské strategie

Marketing

Web design

Produkce & Kreativa

📅 Naplánovat Google Meet hovor

Claude Opus 4.5: Analýza nového AI modelu Anthropic

Co je Claude Opus 4.5 a třída modelů Mythos

Důležité upřesnění: veřejný model není totéž co plný Mythos

Co model skutečně dokáže – reálné ukázky

Nevýhody: cena, rychlost a cenzura

Skrytá omezení pro vývoj AI modelů

Benchmarky: co říkají čísla a kde je háček

Související příspěvky:

Vladimír Matula

AI SLUŽBY

Rubriky Blogu:

Umělá inteligence (AI)

Podnikatelské strategie

Marketing

Web design

Produkce & Kreativa