🇵🇱 Modele AI dla języka polskiego

📚 Krajobraz modeli dla języka polskiego

🇵🇱 Dedykowane polskie

Bielik (SpeakLeash)

Najlepszy polski model open-source — Bielik-11B-v3.0 trenowany na superkomunterach Cyfronet AGH na 32 językach europejskich z naciskiem na polski. Używa 20M instrukcji i 17B tokenów. Niestety niedostępny na OpenRouter — trzeba pobrać z Hugging Face (GGUF/FP8). Wersje: 4.5B, 11B.

🌍 Europejskie multilingual

EuroLLM (9B)

Model EuroLLM-9B-Instruct od utter-project, trenowany specjalnie na językach europejskich w tym polskim. Zaktualizowany w grudniu 2025. Dostępny na HF, brak na OpenRouter. Dobra alternatywa dla Bielika przy mniejszym rozmiarze.

✅ Dostępne na OpenRouter

Multilingual — top wybory

Na OpenRouter nie ma dedykowanych polskich modeli, ale wiele wielojęzycznych radzi sobie bardzo dobrze: Mistral Small 3.2, Qwen3-235B, LLaMA 3.3-70B, Gemma 3-27B. Przetestowaliśmy wszystkie!

🏆 Bielik-11B-v3.0 — król polskiego AI (nie na OpenRouter)

Opracowany przez SpeakLeash & ACK Cyfronet AGH, Bielik-11B-v3.0 to najlepszy open-source model dla języka polskiego. Trenowany na superkomputerach Athena i Helios z grantem PLGrid. Używa GRPO/Dr.GRPO RL, DPO-Positive i ponad 143k zadań weryfikowalnych. Obsługuje 32 języki europejskie. Licencja Apache 2.0.

11B

parametrów

20M+

instrukcji treningowych

języki europejskie

Apache 2.0

licencja

chat.bielik.ai

demo online

GGUF / FP8

dostępne formaty

🏆 Ranking — testy polskiego na OpenRouter

🥇 Mistral Small 3.2 — 24B

mistralai/mistral-small-3.2-24b-instruct

8.6/10 Najszybszy (1s/odp) $0.06/1M ✅ OpenRouter 128k ctx

8.6

/10

⭐⭐⭐⭐⭐

📝 Gramatyka polska

10/10

"Mówię to czasownik w czasie teraźniejszym, a powiem to czasownik w czasie przyszłym..."

🏰 Wiedza o Polsce

7/10

"Pierwszym królem Polski był Bolesław Chrobry, koronowany w 1025 roku."

✍️ Twórczość (wiersz)

10/10

"Złote liście wiatr podnosi, Wawel śpi w mglistej mgle. Krakowianie w ciepłych płaszczach, Patrzą na jesień w cichym cudzie."

🧮 Rozumowanie logiczne

8/10

Obliczył 12 posiłków (choć najpierw napisał 13, potem się poprawił — zamieszanie w rozumowaniu)

💬 Idiomy i frazeologia

8/10

"...nie należy liczyć na pewne korzyści z czegoś, co jeszcze się nie udało..."

⚡ Czas odpowiedzi: ~1s | Najszybszy model w teście | Doskonały stosunek ceny do jakości

🥈 Meta LLaMA 3.3 — 70B

meta-llama/llama-3.3-70b-instruct

8.2/10 $0.10/1M ✅ OpenRouter Darmowy tier! 131k ctx

8.2

/10

⭐⭐⭐⭐

📝 Gramatyka polska

8/10

Odpowiedział po polsku z dobrymi polskimi znakami (20 znaków!), ale pomylił "powiem" z "powiedziałem"

🏰 Wiedza o Polsce

10/10

"Bolesław I Chrobry, koronowany 25 grudnia 1025 roku w Gnieźnie." — Najdokładniejsza odpowiedź!

✍️ Twórczość (wiersz)

10/10

"Jesień w Krakowie, piękna i cicha, Złote liście na drzewach się trzyma..."

🧮 Rozumowanie logiczne

5/10

❌ Błąd! Odpowiedział "10 posiłków" zamiast 12. Pomylił obliczenia (3×2=6, 2×3=4 zamiast 6).

💬 Idiomy i frazeologia

8/10

"...nie należy rozdysponowywać czegoś zanim się nie osiągnie, aby uniknąć rozczarowania..."

⚡ Dostępny też za DARMO (llama-3.3-70b-instruct:free)! Świetna jakość polskiego, ale błąd w obliczeniach.

🥉 Qwen3 — 235B (MoE)

qwen/qwen3-235b-a22b-2507

8.0/10 $0.071/1M ✅ OpenRouter 262k ctx Ogromny model

8.0

/10

⭐⭐⭐⭐

📝 Gramatyka polska

10/10

"Mówię to czas teraźniejszy — mówienie trwa w tej chwili. Powiem to czas przyszły — nastąpi później." — Perfekcyjna odpowiedź!

🏰 Wiedza o Polsce

7/10

"Bolesław I Chrobry, koronowanym w roku 1025." — Poprawnie, ale mała liczba polskich znaków

✍️ Twórczość (wiersz)

10/10

"Liście spadają po starej Bramie, czerwień i złoto — jesień w ogniu płamie. Wisła szepcze pod zamkowym murem..."

🧮 Rozumowanie logiczne

5/10

"Zygmunt wydaje dziennie 12 posiłków." — Wynik poprawny, ale niezbyt wiele polskich znaków

💬 Idiomy i frazeologia

8/10

"...nie należy liczyć na sukces z czegoś, co jeszcze się nie wydarzyło i może się nie udać."

🐢 Wolniejszy (~6s/odp) — duży model. Najpiękniejszy wiersz w teście! 235B parametrów to potwór.

Mistral Large 2512

mistralai/mistral-large-2512

7.4/10 $0.50/1M ✅ OpenRouter 262k ctx

7.4

/10

⭐⭐⭐⭐

📝 Gramatyka polska

10/10

Najlepsze polskie znaki spośród wszystkich! (19 znaków). Dokładne wyjaśnienie aspektów.

✍️ Twórczość (wiersz)

10/10

"Liście złote tańczą wiatrem, Smog się snuje nad Plantami. Kraków w dymie, w chłodzie szarym..." — Najfunny wiersz (smog w Krakowie! 😄)

💬 Idiomy i frazeologia

5/10

Słabsza odpowiedź — bez kluczowych słów polskiej frazeologii

💰 Drogi ($0.50/1M) jak na wyniki porównywalne z Mistral Small 3.2 ($0.06/1M). Mistral Small 3.2 wygrywa stosunek jakości do ceny!

DeepSeek V3.2

deepseek/deepseek-v3.2

7.4/10 $0.25/1M ✅ OpenRouter 163k ctx

7.4

/10

⭐⭐⭐⭐

✍️ Twórczość (wiersz)

10/10

"Jesień w Krakowie złote liście z drzew strząsa, A na Plantach wiatr jesienny pląsa. Nad Wisłą mgła jak welon się kładzie..." — Piękny wiersz!

🧮 Rozumowanie logiczne

5/10

Wynik 12 poprawny, ale zapisał jako LaTeX: $3 \cdot 2 + 2 \cdot 3 = 12$ — niezbyt naturalny styl

🐢 Najwolniejszy (27s na wiersz!). Dobry polski, ale wolny. Najmniej polskich znaków diakrytycznych.

Google Gemma 3 — 27B

google/gemma-3-27b-it

6.4/10 $0.04/1M ✅ OpenRouter Darmowy tier! 131k ctx

6.4

/10

⭐⭐⭐

✍️ Twórczość (wiersz)

10/10

"W Krakowie jesień złota się tli, Liście opadają, wiatr w nich świści. Na Wawelu mgła tajemniczo lśni..." — Najwyższy wynik słów kluczowych (5/7)!

📝 Gramatyka polska

5/10

Poprawna odpowiedź, ale zero terminologii gramatycznej — nie użył słów "aspekt", "niedokonany" itp.

💸 Najtańszy płatny i dostępny BEZPŁATNIE! Dobry do twórczości, słabszy do gramatyki i frazeologii.

Qwen3 — 32B ⚠️

qwen/qwen3-32b

3.8/10 $0.08/1M ✅ OpenRouter Problem z polskim!

3.8

/10

⭐⭐

✍️ Twórczość (wiersz)

0/10

❌ Zwrócił PUSTĄ odpowiedź! Zero polskich znaków, zero treści. Krytyczny błąd.

🏰 Wiedza o Polsce

5/10

❌ "Pierwszym królem Polski był Mieszko I" — BŁĄD! Mieszko nie był koronowanym królem.

💬 Idiomy i frazeologia

2/10

Bardzo mało polskich znaków, urwana odpowiedź: "Nie dziel skóry..." bez rozwinięcia

⚠️ Uwaga! Qwen3-32B na OpenRouter zdaje się mieć problem z obsługą polskiego lub aktualną implementacją. Qwen3-235B (większy brat) radzi sobie znacznie lepiej! Możliwe że to kwestia ustawień systemu lub versji na API.

💡 Wnioski i rekomendacje

🏆

Najlepszy wybór: Mistral Small 3.2

Za jedyne $0.06/1M tokenów, odpowiada w ~1 sekundę i osiąga wynik 8.6/10. To najlepszy stosunek jakości do ceny dla języka polskiego na OpenRouter. Obsługuje 128k kontekstu i świetnie pisze po polsku z pełnymi znakami.

🆓

Darmowe opcje: LLaMA 3.3-70B

Dostępny BEZPŁATNIE na OpenRouter (llama-3.3-70b-instruct:free), osiąga 8.2/10. Doskonały dla codziennego użytku. Jedyna wada: błąd w obliczeniu 6+6=10. Ale za darmo to nie grzech!

📴

Bielik — najlepszy, ale nie na OR

Bielik-11B-v3.0 to absolutny lider polskiego AI open-source, ale wymaga lokalnej instalacji. Pobierz GGUF z Hugging Face lub przetestuj na chat.bielik.ai. Dla polskich aplikacji — absolutny must-have.

⚠️

Uważaj na Qwen3-32B

Mimo że Qwen3-235B radzi sobie dobrze (8.0/10), wersja 32B na OpenRouter wypadła bardzo słabo (3.8/10). Zwracała puste odpowiedzi i zawierała błędy historyczne. Dopóki to nie zostanie naprawione, omijaj Qwen3-32B w polskich zastosowaniach.

🎭

Do twórczości: Qwen3-235B

Napisał najpiękniejszy wiersz o Krakowie spośród wszystkich testowanych modeli! Linie o Bramie Floriańskiej, Wiśle i kremówkach były poetyckie i trafne. Jeśli potrzebujesz kreatywnego pisania po polsku — ten model to wybór.

🧠

Zainstaluj lokalnie: Bielik + EuroLLM

Bielik-11B-v3.0-GGUF (speakleash) i EuroLLM-9B-Instruct (utter-project) to najlepsze otwarte modele dla polskiego. Oba działają na Ollama/llama.cpp. Dla RTX 3090/4090 — wersje Q5_K_M lub FP8 są idealne.

📊 Tabela porównawcza

Model	Wynik	Cena/1M	Kontekst	Czas odp.	Darmowy?	Najlepsze do
🥇 Mistral Small 3.2	8.6/10	$0.06	128k	~1s ⚡	❌	Wszystko — najlepszy bilans
🥈 LLaMA 3.3 70B	8.2/10	$0.10	131k	~7s	✅ FREE	Wiedza historyczna, twórczość
🥉 Qwen3-235B	8.0/10	$0.071	262k	~6s	❌	Gramatyka, poezja, długi kontekst
Mistral Large 2512	7.4/10	$0.50	262k	~2s	❌	Za drogi jak na wyniki
DeepSeek V3.2	7.4/10	$0.25	163k	~10s 🐢	❌	Zadania wymagające dokładności
Gemma 3 27B	6.4/10	$0.04	131k	~2s	✅ FREE	Twórczość, tani RAG
Qwen3-32B ⚠️	3.8/10	$0.08	40k	~9s	❌	Unikaj dla polskiego!
🏆 Bielik 11B v3 (lokalnie)	~9/10*	FREE	—	szybki	✅ LOCAL	Wszystko polskie — najlepszy!

* Szacunkowy wynik Bielika — nie testowany przez API (brak na OpenRouter), oparty na benchmarkach publicznych i repotach użytkowników.