Kompleksowy test najlepszych modeli open-source dostępnych na OpenRouter — gramatyka, wiedza, kreatywność, rozumowanie i frazeologia
Najlepszy polski model open-source — Bielik-11B-v3.0 trenowany na superkomunterach Cyfronet AGH na 32 językach europejskich z naciskiem na polski. Używa 20M instrukcji i 17B tokenów. Niestety niedostępny na OpenRouter — trzeba pobrać z Hugging Face (GGUF/FP8). Wersje: 4.5B, 11B.
Model EuroLLM-9B-Instruct od utter-project, trenowany specjalnie na językach europejskich w tym polskim. Zaktualizowany w grudniu 2025. Dostępny na HF, brak na OpenRouter. Dobra alternatywa dla Bielika przy mniejszym rozmiarze.
Na OpenRouter nie ma dedykowanych polskich modeli, ale wiele wielojęzycznych radzi sobie bardzo dobrze: Mistral Small 3.2, Qwen3-235B, LLaMA 3.3-70B, Gemma 3-27B. Przetestowaliśmy wszystkie!
Opracowany przez SpeakLeash & ACK Cyfronet AGH, Bielik-11B-v3.0 to najlepszy open-source model dla języka polskiego. Trenowany na superkomputerach Athena i Helios z grantem PLGrid. Używa GRPO/Dr.GRPO RL, DPO-Positive i ponad 143k zadań weryfikowalnych. Obsługuje 32 języki europejskie. Licencja Apache 2.0.
⚡ Czas odpowiedzi: ~1s | Najszybszy model w teście | Doskonały stosunek ceny do jakości
⚡ Dostępny też za DARMO (llama-3.3-70b-instruct:free)! Świetna jakość polskiego, ale błąd w obliczeniach.
🐢 Wolniejszy (~6s/odp) — duży model. Najpiękniejszy wiersz w teście! 235B parametrów to potwór.
💰 Drogi ($0.50/1M) jak na wyniki porównywalne z Mistral Small 3.2 ($0.06/1M). Mistral Small 3.2 wygrywa stosunek jakości do ceny!
🐢 Najwolniejszy (27s na wiersz!). Dobry polski, ale wolny. Najmniej polskich znaków diakrytycznych.
💸 Najtańszy płatny i dostępny BEZPŁATNIE! Dobry do twórczości, słabszy do gramatyki i frazeologii.
⚠️ Uwaga! Qwen3-32B na OpenRouter zdaje się mieć problem z obsługą polskiego lub aktualną implementacją. Qwen3-235B (większy brat) radzi sobie znacznie lepiej! Możliwe że to kwestia ustawień systemu lub versji na API.
Za jedyne $0.06/1M tokenów, odpowiada w ~1 sekundę i osiąga wynik 8.6/10. To najlepszy stosunek jakości do ceny dla języka polskiego na OpenRouter. Obsługuje 128k kontekstu i świetnie pisze po polsku z pełnymi znakami.
Dostępny BEZPŁATNIE na OpenRouter (llama-3.3-70b-instruct:free), osiąga 8.2/10. Doskonały dla codziennego użytku. Jedyna wada: błąd w obliczeniu 6+6=10. Ale za darmo to nie grzech!
Bielik-11B-v3.0 to absolutny lider polskiego AI open-source, ale wymaga lokalnej instalacji. Pobierz GGUF z Hugging Face lub przetestuj na chat.bielik.ai. Dla polskich aplikacji — absolutny must-have.
Mimo że Qwen3-235B radzi sobie dobrze (8.0/10), wersja 32B na OpenRouter wypadła bardzo słabo (3.8/10). Zwracała puste odpowiedzi i zawierała błędy historyczne. Dopóki to nie zostanie naprawione, omijaj Qwen3-32B w polskich zastosowaniach.
Napisał najpiękniejszy wiersz o Krakowie spośród wszystkich testowanych modeli! Linie o Bramie Floriańskiej, Wiśle i kremówkach były poetyckie i trafne. Jeśli potrzebujesz kreatywnego pisania po polsku — ten model to wybór.
Bielik-11B-v3.0-GGUF (speakleash) i EuroLLM-9B-Instruct (utter-project) to najlepsze otwarte modele dla polskiego. Oba działają na Ollama/llama.cpp. Dla RTX 3090/4090 — wersje Q5_K_M lub FP8 są idealne.
* Szacunkowy wynik Bielika — nie testowany przez API (brak na OpenRouter), oparty na benchmarkach publicznych i repotach użytkowników.