Ryzyko techniczne

Halucynacje LLM

Wytwarzanie przez model językowy odpowiedzi formalnie poprawnych syntaktycznie, ale faktycznie nieprawdziwych. Halucynacja nie jest błędem implementacji ani uszkodzeniem, jest cechą architektoniczną modeli probabilistycznych. Wskaźnik halucynacji w produkcyjnych zastosowaniach enterprise oscyluje od 3 do 27 procent zależnie od typu zapytania i benchmarku.

Źródło pierwotne: Stanford CRFM HELM, Vectara Hallucination Leaderboard 2025

Termin jest mylący językowo: model nie halucynuje w sensie psychologicznym, generuje statystycznie najbardziej prawdopodobną sekwencję tokenów dla danego promptu. Jeśli prawda jest mniej prawdopodobna niż wiarygodna fikcja, model wybiera fikcję. Dotyczy każdego LLM, nie tylko OpenAI.

Pomiar

Vectara Hallucination Leaderboard, aktualizowany kwartalnie, mierzy wskaźnik halucynacji w zadaniu summarization. Stan z Q1 2026:

  • GPT-4o: 1,5 procent
  • Claude 3.7 Sonnet: 0,8 procent
  • Gemini 2.5 Pro: 2,4 procent
  • Llama 3.3 70B: 4,1 procent

Te liczby dotyczą zadania kontrolowanego z dostarczonym kontekstem. W zadaniach otwartych (Q&A bez RAG) wskaźniki są pięcio do dziesięciokrotnie wyższe.

Typy halucynacji

Stanford CRFM wyróżnia trzy klasy. Pierwsza, faktualne błędy: model podaje konkretne dane (rok, nazwisko, kwota) i się myli. Druga, fabrykacja źródeł: model cytuje publikacje, które nie istnieją. Trzecia, niespójność wewnętrzna: model w obrębie jednej odpowiedzi przeczy sam sobie.

W zastosowaniach enterprise najbardziej kosztowna jest klasa druga. Klient prawniczy dostaje od chatbota orzecznictwo, którego nie ma w bazie. Klient finansowy dostaje cytat z raportu KNF, który nigdy nie został opublikowany.

Mityganty

Cztery techniczne podejścia stoso­wane w produkcji. RAG (retrieval-augmented generation) z verified sources obniża wskaźnik halucynacji do 0,5-3 procent dla zadań informacyjnych. Function calling z external validators (np. SQL przez bazę zamiast generowania liczb) eliminuje klasę faktualną. Constrained decoding ogranicza output do dozwolonej gramatyki. Multi-model verification, w którym drugi model weryfikuje output pierwszego, obniża wskaźnik o około 40 procent kosztem latencji.

Ograniczenie strukturalne

Halucynacji nie da się wyeliminować całkowicie bez zmiany architektury modelu. To znaczy, że każde zastosowanie AI w procesach o wysokiej wadze decyzji (medycyna, prawo, finanse) wymaga human-in-the-loop. Nie jako safety net na wszelki wypadek, jako element architektury, bez którego rozwiązanie nie jest gotowe do wdrożenia.

Ten temat jest częścią analizy ryzyka w audycie gotowości.