Náklad neplyne jen z toho, co napíšete do chatu. Sčítá se z mnoha vrstev:
- Vždy-zapnuté instrukce —
AGENTS.md, custom instructions, hooky - Vybrané a otevřené soubory v kontextu
- Historie chatu a shrnutí mezi tahy
- Definice MCP nástrojů a jejich JSON schémata — i ty, které nepoužijete
- Výsledky tool callů zopakované jako input v dalším kroku
- Výstup modelu (output tokeny jsou nejdražší)
- Retries, subagents, smyčky v agent módu
Tři typy tokenů — proč na nich záleží:
- Input — vše, co posíláte modelu poprvé (prompt, kontext, tool results)
- Cached input — opakovaný prefix, který model už viděl v předchozím tahu téže session. ~10× levnější než fresh input.
- Output — to, co model vygeneruje. ~6× dražší než fresh input, ~60× dražší než cached input.
Příklad z reálného aktuálního ceníku (USD za 1M tokenů):
| Model | Krátký cache | Krátký input | Krátký output | Dlouhý cache | Dlouhý input | Dlouhý output |
|---|---|---|---|---|---|---|
| gpt-5.5 | $0,50 | $5,00 | $30,00 | $1,00 | $10,00 | $45,00 |
| gpt-5.4 | $0,25 | $2,50 | $15,00 | $0,50 | $5,00 | $22,50 |
| gpt-5.4-mini | $0,075 | $0,75 | $4,50 | — | — | — |
| gpt-5.4-nano | $0,02 | $0,20 | $1,25 | — | — | — |
Mini a nano dlouhý kontext nemají.
Ballpark pravidla:
- Cache : Input : Output ≈ 1 : 10 : 60
- Každý tier dolů je ~3–4× levnější
- Dlouhý kontext zdraží ~2× input/cache a ~1,5× output
- Cache je důvod, proč
/compactnení zadarmo