Modele AI

Context window (okno kontekstowe modelu)

Maksymalna liczba tokenów (cząstek słownictwa), które LLM może przyjąć i przetwarzać jednocześnie w jednym zapytaniu. Context window obejmuje zarówno prompt użytkownika, jak i odpowiedź modelu. Stan na 2026: GPT-4o 128 000 tokenów, Claude 3.7 Sonnet 200 000, Gemini 2.5 Pro 2 000 000.

Źródło pierwotne: Anthropic Claude 3.7 Technical Report 2025, Google Gemini 2.5 Documentation 2026, OpenAI GPT-4o Reference 2024

Context window jest najbardziej widoczną metryką techniczną LLM dla zarządów, bo bezpośrednio przekłada się na to "ile dokumentu można pokazać modelowi w jednym zapytaniu". W 2022 GPT-3 miał 4 000 tokenów. W 2024 GPT-4 Turbo miał 128 000. W 2025 Gemini 1.5 Pro miał 1 milion. W 2026 Gemini 2.5 Pro ma 2 miliony. Tempo wzrostu około 5x rocznie.

Co to znaczy w słowach polskich

Anthropic Claude 3.7 Technical Report 2025 podaje konwersję: 200 000 tokenów to około 150 000 słów polskiego tekstu lub 500 stron książki A4. 2 miliony tokenów Gemini to równowartość 5 000 stron, czyli pełnej biblioteki firmowej.

Praktyczne konsekwencje

Google Gemini 2.5 Documentation z 2026 wymienia trzy use case'y, które stały się możliwe przy dużych context windows. Pierwsze, analiza pełnych raportów rocznych bez wcześniejszego summarization. Drugie, kod źródłowy dużych aplikacji można analizować jako całość zamiast kawałkami. Trzecie, prawnicze umowy 200 stron można sprawdzić w jednym przebiegu zamiast kawałkować na chunks.

Gdzie context window nie pomaga

Trzy mity. Pierwszy, większe okno znaczy lepsze odpowiedzi. OpenAI GPT-4o Reference z 2024 potwierdza efekt "lost in the middle": informacje w środku długiego kontekstu są pamiętane gorzej niż na początku lub końcu. Duże okno nie zastępuje retrieval (RAG).

Drugi, koszty rosną liniowo z długością kontekstu. Zapytanie z 200 000 tokenów do GPT-4o kosztuje około 0,5 dolara za odpowiedź. Sto takich zapytań dziennie to 50 dolarów dziennie, 1 500 dolarów miesięcznie, 18 000 dolarów rocznie. Dla pojedynczego use case'u zarządczego.

Trzeci, latencja rośnie znacząco. Odpowiedź na zapytanie z 200 000 tokenów trwa 30-90 sekund. Dla aplikacji real-time to wykluczające ograniczenie.

RAG vs duże context window

Praktyczna zasada z 2026: jeśli baza wiedzy jest większa niż 100 tysięcy tokenów lub aktualizuje się częściej niż raz na tydzień, lepiej zbudować RAG niż wrzucać wszystko w context. Jeśli zasób jest jednorazowy (jeden duży raport, jedna umowa), large context window jest prostsze.

Architektura wykorzystująca context window i RAG razem jest częścią Wdrożenia AI w procesy.