🐉 Kolor — Testy Modeli AI 2026

🏆

Qwen3 235B A22B

qwen/qwen3-235b-a22b · OpenRouter · Mixture-of-Experts 235B parametrów

A+ · 96%

Test	Wynik	Punkty	Czas	Szczegóły
🌤️ [A1] Prosta pogoda	✅ PASS	3/3 (100%)	3.9s	get_weather({"city":"Warszawa","units":"celsius"})
🔗 [A2] Multi-tool	✅ PASS	3/3 (100%)	4.2s	search_web({"query":"latest Qwen model"}) get_weather({"city":"Shanghai","units":"celsius"})
🖥️ [B1] Bash/pliki	✅ PASS	4/4 (100%)	5.7s	read_file({"path":"/etc/os-release"})
🔍 [C1] Własny kod	⚠️ PARTIAL	4/5 (80%)	14.1s	read_file({"path":".../config.js"}) ⚠ Przeczytał plik ale brak pełnej analizy zawartości
🇵🇱 [D1] Polska gramatyka	✅ PASS	3/3 (100%)	7.9s	"Robot Tomek długo ślęczał nad książkami kuchennymi, próbując opanować sztukę gotowania..." ✓ Polskie znaki ✓ Czas przeszły ✓ 387 znaków
🧮 [E1] Logika/matematyka	✅ PASS	4/4 (100%)	9.2s	"Aby obliczyć łączną liczbę owoców, wykonajmy następujące kroki: 1. Liczba owoców..." ✓ Poprawny wynik ✓ Pokazuje obliczenia
🐍 [F1] Python funkcja	✅ PASS	4/4 (100%)	24.1s	"Oto funkcja w Pythonie, która oblicza sumę, średnią, minimum i maksimum..." ✓ def ✓ return ✓ dict ✓ przykład użycia

⚡

qwen/qwen3-coder · OpenRouter · Dense 480B parametrów · specjalizowany do kodu

A+ · 96%

Test	Wynik	Punkty	Czas	Szczegóły
🌤️ [A1] Prosta pogoda	✅ PASS	3/3 (100%)	1.5s ⚡	get_weather({"city":"Warsaw","units":"celsius"})
🔗 [A2] Multi-tool	✅ PASS	3/3 (100%)	6.5s	search_web({"query":"najnowszy model Qwen"}) get_weather({"city":"Szanghaj","units":"celsius"})
🖥️ [B1] Bash/pliki	✅ PASS	4/4 (100%)	7.6s	read_file({"path":"/etc/os-release"})
🔍 [C1] Własny kod	⚠️ PARTIAL	4/5 (80%)	1.5s ⚡	read_file({"path":".../config.js"}) ⚠ Najszybszy odczyt (1.5s!) ale brak pełnej analizy
🇵🇱 [D1] Polska gramatyka	✅ PASS	3/3 (100%)	5.5s	"Robot o imieniu Kucharek został zaprogramowany do nauki gotowania. Każdego dnia..." ✓ Polskie znaki ✓ Czas przeszły ✓ 209 znaków
🧮 [E1] Logika/matematyka	✅ PASS	4/4 (100%)	8.1s	"Oczywiście! Rozwiążmy to krok po kroku. Krok 1: Oblicz liczbę owoców w jednym pudełku..."
🐍 [F1] Python funkcja	✅ PASS	4/4 (100%)	4.8s ⚡	"Oczywiście! Poniżej znajduje się funkcja w Pythonie, która przyjmuje listę liczb..." ✓ def ✓ return ✓ dict ✓ przykład · Najszybszy kod!

🌙

moonshotai/kimi-k2.5 · OpenRouter · Model chiński od Moonshot AI

A · 81%

Test	Wynik	Punkty	Czas	Szczegóły
🌤️ [A1] Prosta pogoda	✅ PASS	3/3 (100%)	4.0s	get_weather({"city":"Warsaw","units":"celsius"})
🔗 [A2] Multi-tool	✅ PASS	3/3 (100%)	11.6s	search_web({"query":"najnowszy model Qwen AI Alibaba"}) get_weather({"city":"Szanghaj","units":"celsius"})
🖥️ [B1] Bash/pliki	✅ PASS	4/4 (100%)	7.8s	read_file({"path":"/etc/os-release"})
🔍 [C1] Własny kod	⚠️ PARTIAL	4/5 (80%)	6.3s	read_file({"path":".../config.js"})
🇵🇱 [D1] Polska gramatyka	✅ PASS	3/3 (100%)	22.7s ⚠️	"Robot X-9 postanowił nauczyć się gotować po obejrzeniu starych filmów kulinarnych..." ✓ Polskie znaki ✓ Czas przeszły · Wolno: 22s!
🧮 [E1] Logika/matematyka	✅ PASS	4/4 (100%)	15.3s	"Oto rozwiązanie krok po kroku: Krok 1: Obliczam liczbę owoców w jednym pudełku..."
🐍 [F1] Python funkcja	❌ FAIL	0/4 (0%)	31.3s ⚠️	Brak def, return, dict, przykładu. Timeout 31s — odpowiedź niepoprawna!

🔷

thudm/glm-4-32b · OpenRouter · Model chiński od Tsinghua University / Zhipu AI

D · 0%

🚫

Wszystkie 7 testów zwróciło błąd:
No endpoints found for thudm/glm-4-32b

Model może być dostępny bezpośrednio przez API Zhipu AI (bigmodel.cn) ale nie przez OpenRouter w lutym 2026.

🥇 Qwen3 235B A22B i Qwen3 Coder 480B są remisem na pierwszym miejscu — oba 96% (25/26 pkt). Qwen3 Coder wygrywa szybkością (5.1s avg vs 9.9s), Qwen3 235B daje dłuższe, bardziej szczegółowe odpowiedzi.
🌙 Kimi K2.5 (Moonshot) — solidne 81%, ale wyraźnie wolniejszy (14s avg) i wpadł na teście generowania kodu Python (31s timeout bez wyniku). Nie polecany do zadań kodowania.
🚫 GLM-4 32B (THUDM) — niedostępny w OpenRouter w lutym 2026. Trzeba użyć API Zhipu AI bezpośrednio lub poczekać na ponowną dostępność.
⭐ Wspólna słabość — test [C1] "czytanie własnego kodu" dał 80% u wszystkich dostępnych modeli. Żaden model nie potrafił w pełni przeanalizować własnej konfiguracji (tylko przeczytał plik).
🇵🇱 Polska gramatyka — wszystkie dostępne modele zdały test z polskimi znakami ą,ę,ó,ś,ź,ż. Qwen3 generował najdłuższe odpowiedzi po polsku.
⏱️ Prędkość: Qwen3 Coder 480B — najszybszy mimo największej liczby parametrów! Prawdopodobnie dzięki lepszej infrastrukturze cache/quantization w OpenRouter.
🏠 Lokalne modele (Ollama) — GLM Tools 30B i Qwen3 30B nie ukończyły testów w wyznaczonym czasie. Wymaga optymalizacji lub dłuższego timeout-u.