Fine-tuning (dostrojenie modelu AI do konkretnego zadania), definicja i kontekst biznesowy, yesfor

Pierwsza dekada NLP (2010-2020) opierała się na fine-tuningu jako głównej metodzie adaptacji modeli. W erze LLM-ów (2022+) jego rola maleje. W roku 2025 fine-tuning jest narzędziem niszowym, używanym w mniej niż 8 procentach enterprise GenAI wdrożeń (szacunki Gartner Q1 2026).

Kiedy fine-tuning ma sens

Replikowanie stylu organizacji. Bank chce, żeby chatbot pisał oferty w identycznym tonie co dział produktu. Prompt engineering osiąga 70-80 procent podobieństwa. Fine-tuning na 5 000 historycznych ofertach osiąga 95-99 procent. Różnica brand-critical.

Narrowing scope. Model fine-tuned do diagnostyki radiologicznej halucynuje rzadziej niż GPT-4 z RAG, bo nie ma rozszerzonej wiedzy "ogólnej" do wmieszania.

Cost reduction at scale. Fine-tuned mniejszy model (Llama 3.1 8B) może zastąpić GPT-4 dla konkretnego zadania przy 1/30 kosztu inferencji. Opłaca się powyżej 10 milionów zapytań miesięcznie.

Kiedy fine-tuning nie ma sensu

Wiedza zmienna w czasie. Każda zmiana danych wymaga ponownego treningu (od kilku godzin do kilku dni). RAG aktualizuje się natychmiast.

Mała baza danych. Fine-tuning poniżej 1 000 przykładów daje gorsze wyniki niż dobry prompt. Anthropic rekomenduje minimum 500-1 000 przykładów per task.

Pytania faktualne. RAG jest tańszy i precyzyjniejszy dla "co napisał klient X w raporcie z marca 2024".

Koszt operacyjny

OpenAI fine-tuning GPT-4o-mini (Q1 2026): około 25 dolarów za milion tokenów treningu, 0,30 dolarów za milion tokenów inferencji (vs 0,15 dla nie-fine-tuned). Dla bazy 5 000 przykładów, każdy 1 000 tokenów, koszt treningu wynosi około 125 dolarów. Skromnie. Koszt operacyjny: dwukrotny w porównaniu do base modelu.

Open-weights modele (Llama, Mistral) fine-tunowane na własnej infrastrukturze: koszt sprzętu (1-4× A100 GPU = 30-120 tysięcy dolarów lub równowartość chmurowa) plus koszt operacyjny GPU plus koszt zespołu ML utrzymującego model.

Polski kontekst

W polskich firmach w 2025-2026 fine-tuning był używany głównie przez sektor finansowy (3 banki z grupy top-10), sektor prawniczy (2 kancelarie), oraz duże firmy e-commerce. Łączna populacja wdrożeń: mniej niż 30 case'ów. Dominującym wzorcem jest prompt engineering plus RAG, nie fine-tuning.

Decyzja czy fine-tuning ma sens dla konkretnego use case'u jest częścią AI Readiness Audit.