Architektura systemów

Embeddings (osadzenia wektorowe)

Reprezentacja tekstu, obrazu lub innego artefaktu jako wektor liczbowy w wielowymiarowej przestrzeni, w której geometryczna bliskość odpowiada semantycznej bliskości. Embeddings są fundamentem nowoczesnego wyszukiwania semantycznego, systemów rekomendacyjnych i architektury RAG. Wymiar typowego embeddings: 768 do 3 072 liczb.

Źródło pierwotne: Google word2vec (Mikolov 2013), OpenAI text-embedding-3 documentation 2024, Pinecone Vector Database Whitepaper 2024

Pojęcie pochodzi z fundamentalnej publikacji "Efficient Estimation of Word Representations in Vector Space" autorstwa Tomasza Mikolova i zespołu Google z 2013 roku (word2vec). Idea: każde słowo można reprezentować jako wektor 300 liczb, w którym podobne słowa mają geometrycznie podobne wektory. Słynne odkrycie: "King" minus "Man" plus "Woman" daje wektor blisko "Queen". W ciągu dekady pomysł rozrósł się do reprezentacji zdań, dokumentów, obrazów, dźwięku.

Mechanizm techniczny

Model embedding (osobny od LLM, choć często z tej samej rodziny) przekształca input w wektor liczbowy o ustalonej długości. OpenAI text-embedding-3-large documentation z 2024 opisuje typowy embedding tekstu jako wektor 3 072 liczb zmiennoprzecinkowych. Każda liczba reprezentuje wartość w jakiejś abstrakcyjnej osi semantycznej, której znaczenia nie da się bezpośrednio zinterpretować.

Wektory są porównywane za pomocą metryki kosinusowej lub euklidesowej. Dwa dokumenty o podobnej tematyce mają wektory o małym kącie między sobą, dwa dokumenty o różnej tematyce mają wektory rozbieżne.

Zastosowania enterprise

Pinecone Vector Database Whitepaper z 2024 wymienia pięć dominujących use case'ów. Pierwsze, semantic search bazy wiedzy (np. szukam "jak rozwiązać problem X", system znajduje dokumenty pasujące koncepcyjnie, nie tylko po keywords). Drugie, RAG dla LLM (znajdź kontekst, podaj modelowi do generacji). Trzecie, system rekomendacji (znajdź podobne produkty, klientów, treści). Czwarte, deduplication i clustering (grupuj rekordy o podobnym znaczeniu). Piąte, anomaly detection (wykryj rekord nietypowy w korpusie).

Wybór modelu embedding

Trzy główne kategorie. Proprietary API: OpenAI text-embedding-3, Cohere embed-v3, Voyage AI. Wyższa jakość, koszt 0,02-0,13 dolarów za milion tokenów. Open-weights: bge-large, e5-large, multilingual-e5. Można hostować lokalnie, niższy koszt operacyjny, niższa jakość benchmark. Specjalistyczne: legal-bert, finbert, biobert. Dla wąskich domen lepsze od ogólnych.

Dla polskiej firmy ze sporą bazą wiedzy w polskim języku, multilingual-e5-large jest często dobrym kompromisem. Ma rozsądną jakość polskiego, można hostować lokalnie (16 GB GPU).

Koszt operacyjny

Vector database (Pinecone, Weaviate, Qdrant, ChromaDB) plus embedding API to dwie pozycje kosztowe. Dla bazy 100 tysięcy dokumentów: jednorazowo 50-200 zł za embedding (proprietary API), 5-15 dolarów miesięcznie za vector DB (hosted). Skala enterprise (10 milionów dokumentów): 5-20 tysięcy zł jednorazowo, 200-2 000 dolarów miesięcznie.

Embeddings są podstawą architektury RAG, którą wdrażamy w ramach Wdrożenia AI w procesy.