🎨 Test Embeddingów dla Języka Polskiego

Który model AI najlepiej rozumie polski tekst w RAG/wyszukiwaniu semantycznym?

5 modeli przetestowanych 6 testów polskich Luty 2026

📊 Metodologia testu

Metryka: Separacja = avg(podobieństwo do powiązanych) - avg(podobieństwo do niepowiązanych). Im wyższa separacja, tym model lepiej odróżnia tematy.
Zapytanie: "trenowanie modeli text-to-speech po polsku"
Powiązane (3): Qwen3-TTS, fine-tuning TTS, CosyVoice/XTTS
Niepowiązane (3): Drukarka 3D Klipper, algorytmy sortowania, przepis na bigos

🏆 Ranking modeli

SEPARACJA (wyższa = lepsza) — skala 0→0.50
🥇 text-embedding-3-large
0.4482
🥈 text-embedding-3-small
0.4405
🥉 bge-m3 (Ollama)
0.2993
4️⃣ mxbai-embed-large
0.2476
5️⃣ nomic-embed-text
0.2282
💀 hermes-3 (poprzedni)
0.058
🥇
openai/text-embedding-3-large
via OpenRouter API • 3072 wymiary • $0.13/1M tokenów
0.4482
separacja
Powiązane
0.7608
Niepowiązane
0.3126
Separacja
0.4482
⚡ Czas: 2.2s
📐 Dims: 3072
💰 $0.13/1M
🌐 OpenRouter API
🥈
openai/text-embedding-3-small
via OpenRouter API • 1536 wymiary • $0.02/1M tokenów
0.4405
separacja
Powiązane
0.6975
Niepowiązane
0.2570
Separacja
0.4405
⚡ Czas: 3.1s
📐 Dims: 1536
💰 $0.02/1M ⭐ Złoty środek
🌐 OpenRouter API
🥉
BAAI/bge-m3
Ollama lokalnie • 1024 wymiary • DARMOWY • 1.2GB
0.2993
separacja
Powiązane
0.6115
Niepowiązane
0.3122
Separacja
0.2993
📐 Dims: 1024
💰 DARMOWY lokalnie
🌐 Ollama
🌍 100+ języków
✅ Najlepszy darmowy multilingualny
4️⃣
mxbai-embed-large
Ollama lokalnie • 1024 wymiary • DARMOWY • 638MB
0.2476
separacja
Powiązane
0.8370
Niepowiązane
0.5893
Separacja
0.2476
⚡ Czas: 0.5s — najszybszy!
💰 DARMOWY
⚠️ Wysoka bazowa podobność — słabsza separacja
5️⃣
nomic-embed-text
Ollama lokalnie • 768 wymiary • DARMOWY • 261MB
0.2282
separacja
Powiązane
0.7524
Niepowiązane
0.5242
Separacja
0.2282
📐 Dims: 768 — najmniejszy
💰 DARMOWY
🐌 7.4s — wolny na polskim

🔬 Szczegółowe wyniki

Typ Tekst (fragment) 3-large 3-small bge-m3 mxbai nomic
powiązany Qwen3-TTS model do syntezy mowy... 0.7902 0.7597 0.6627 0.8272 0.7688
powiązany Fine-tuning TTS wymaga datasetu... 0.7813 0.7254 0.5982 0.8530 0.7453
powiązany CosyVoice i XTTS polskie głosy... 0.7108 0.6074 0.5736 0.8307 0.7430
niepowiązany Drukarka 3D Klipper temperatura... 0.3253 0.2840 0.3238 0.5617 0.5249
niepowiązany Algorytmy sortowania informatyka... 0.3108 0.2521 0.3457 0.5862 0.4675
niepowiązany Przepis na bigos kapusta... 0.3017 0.2350 0.2671 0.6201 0.5801

💡 Rekomendacje

🏆 Jakość > Koszt

  • text-embedding-3-large via OpenRouter
  • Separacja 0.4482 — najlepsza jakość
  • $0.13/1M tokenów — tanie przy małym RAG
  • Wymiary 3072 — więcej pamięci na embeddingi
  • Rekomendowane do RAG Kolora

⭐ Złoty środek

  • text-embedding-3-small via OpenRouter
  • Separacja 0.4405 — prawie identyczna jakość
  • 6x tańszy niż large ($0.02/1M)
  • Wymiary 1536 — połowa pamięci
  • Najlepsza cena/jakość dla polskiego

🔒 Lokalnie / Offline

  • bge-m3 via Ollama (nowo zainstalowany!)
  • Separacja 0.2993 — najlepszy darmowy
  • 1.2GB, 100+ języków, działa offline
  • 8192 tokenów kontekstu — długie dokumenty
  • Polecany gdy nie chcesz API

⚠️ Nie używaj do polskiego

  • hermes-3 — separacja tylko 0.058
  • To jest model językowy, nie embedding
  • Poprzednia konfiguracja RAG Kolora
  • mxbai/nomic — OK dla angielskiego
  • Dla polskiego oddają zbyt wysokie podobieństwo

🎯 Finalne zalecenie dla RAG Kolora

Przełącz się z hermes-3 na openai/text-embedding-3-small via OpenRouter — separacja wzrośnie z 0.058 do 0.4405, czyli prawie 8-krotna poprawa! Koszt przy 29 wpisach RAG to dosłownie grosze. Alternatywnie — zainstalowany bge-m3 jest darmowy i działa offline z separacją 0.2993.