🐉 Kolor — Testy Modeli AI 2026

Qwen3, GLM-4, Kimi K2.5 · Function Calling · Polish NLP · Code Generation

📅 Luty 2026 🤖 8 modeli 🧪 7 kategorii testów ⚡ OpenRouter + Ollama
🏆 Ranking Ogólny
🏆
Qwen3 235B A22B
A+
25/26 pkt · 96%
☁️ OpenRouter · MoE 235B
Qwen3 Coder 480B
A+
25/26 pkt · 96%
☁️ OpenRouter · Dense 480B
🌙
Kimi K2.5 (Moonshot)
A
21/26 pkt · 81%
☁️ OpenRouter · Moonshot AI
🔷
GLM-4 32B (THUDM)
D
0/26 pkt · HTTP 404
☁️ OpenRouter · NIEDOSTĘPNY
🔶
GLM Tools 30B
Timeout — test nie dokończony
🏠 Lokalny Ollama
🐉
Qwen3 30B (lokalny)
Timeout — test nie dokończony
🏠 Lokalny Ollama
📊 Porównanie po kategoriach

🔧 [A1] Function Calling — Pogoda

Qwen3 235B
100%
Qwen3 Coder
100%
Kimi K2.5
100%
GLM-4 32B
0%

🔗 [A2] Multi-Tool (search+weather)

Qwen3 235B
100%
Qwen3 Coder
100%
Kimi K2.5
100%
GLM-4 32B
0%

🖥️ [B1] Czytanie pliku systemowego

Qwen3 235B
100%
Qwen3 Coder
100%
Kimi K2.5
100%
GLM-4 32B
0%

🔍 [C1] Czytanie własnego kodu

Qwen3 235B
80%
Qwen3 Coder
80%
Kimi K2.5
80%
GLM-4 32B
0%

🇵🇱 [D1] Polska gramatyka (znaki)

Qwen3 235B
100%
Qwen3 Coder
100%
Kimi K2.5
100%
GLM-4 32B
0%

🧮 [E1] Logika matematyczna

Qwen3 235B
100%
Qwen3 Coder
100%
Kimi K2.5
100%
GLM-4 32B
0%

🐍 [F1] Generowanie kodu Python

Qwen3 235B
100%
Qwen3 Coder
100%
Kimi K2.5
0% ⚠️ FAIL
GLM-4 32B
0%

⏱️ Średni czas odpowiedzi (ms)

Qwen3 235B
9.9s
Qwen3 Coder
5.1s ⚡
Kimi K2.5
14.1s
GLM-4 32B
N/A
🔬 Szczegółowe wyniki testów
🏆

Qwen3 235B A22B

qwen/qwen3-235b-a22b · OpenRouter · Mixture-of-Experts 235B parametrów

A+ · 96%
Test Wynik Punkty Czas Szczegóły
🌤️ [A1] Prosta pogoda ✅ PASS 3/3 (100%) 3.9s
get_weather({"city":"Warszawa","units":"celsius"})
🔗 [A2] Multi-tool ✅ PASS 3/3 (100%) 4.2s
search_web({"query":"latest Qwen model"})
get_weather({"city":"Shanghai","units":"celsius"})
🖥️ [B1] Bash/pliki ✅ PASS 4/4 (100%) 5.7s
read_file({"path":"/etc/os-release"})
🔍 [C1] Własny kod ⚠️ PARTIAL 4/5 (80%) 14.1s
read_file({"path":".../config.js"})
⚠ Przeczytał plik ale brak pełnej analizy zawartości
🇵🇱 [D1] Polska gramatyka ✅ PASS 3/3 (100%) 7.9s
"Robot Tomek długo ślęczał nad książkami kuchennymi, próbując opanować sztukę gotowania..."
✓ Polskie znaki ✓ Czas przeszły ✓ 387 znaków
🧮 [E1] Logika/matematyka ✅ PASS 4/4 (100%) 9.2s
"Aby obliczyć łączną liczbę owoców, wykonajmy następujące kroki: 1. Liczba owoców..."
✓ Poprawny wynik ✓ Pokazuje obliczenia
🐍 [F1] Python funkcja ✅ PASS 4/4 (100%) 24.1s
"Oto funkcja w Pythonie, która oblicza sumę, średnią, minimum i maksimum..."
✓ def ✓ return ✓ dict ✓ przykład użycia

Qwen3 Coder 480B

qwen/qwen3-coder · OpenRouter · Dense 480B parametrów · specjalizowany do kodu

A+ · 96%
Test Wynik Punkty Czas Szczegóły
🌤️ [A1] Prosta pogoda ✅ PASS 3/3 (100%) 1.5s ⚡
get_weather({"city":"Warsaw","units":"celsius"})
🔗 [A2] Multi-tool ✅ PASS 3/3 (100%) 6.5s
search_web({"query":"najnowszy model Qwen"})
get_weather({"city":"Szanghaj","units":"celsius"})
🖥️ [B1] Bash/pliki ✅ PASS 4/4 (100%) 7.6s
read_file({"path":"/etc/os-release"})
🔍 [C1] Własny kod ⚠️ PARTIAL 4/5 (80%) 1.5s ⚡
read_file({"path":".../config.js"})
⚠ Najszybszy odczyt (1.5s!) ale brak pełnej analizy
🇵🇱 [D1] Polska gramatyka ✅ PASS 3/3 (100%) 5.5s
"Robot o imieniu Kucharek został zaprogramowany do nauki gotowania. Każdego dnia..."
✓ Polskie znaki ✓ Czas przeszły ✓ 209 znaków
🧮 [E1] Logika/matematyka ✅ PASS 4/4 (100%) 8.1s
"Oczywiście! Rozwiążmy to krok po kroku. Krok 1: Oblicz liczbę owoców w jednym pudełku..."
🐍 [F1] Python funkcja ✅ PASS 4/4 (100%) 4.8s ⚡
"Oczywiście! Poniżej znajduje się funkcja w Pythonie, która przyjmuje listę liczb..."
✓ def ✓ return ✓ dict ✓ przykład · Najszybszy kod!
🌙

Kimi K2.5 (Moonshot AI)

moonshotai/kimi-k2.5 · OpenRouter · Model chiński od Moonshot AI

A · 81%
Test Wynik Punkty Czas Szczegóły
🌤️ [A1] Prosta pogoda ✅ PASS 3/3 (100%) 4.0s
get_weather({"city":"Warsaw","units":"celsius"})
🔗 [A2] Multi-tool ✅ PASS 3/3 (100%) 11.6s
search_web({"query":"najnowszy model Qwen AI Alibaba"})
get_weather({"city":"Szanghaj","units":"celsius"})
🖥️ [B1] Bash/pliki ✅ PASS 4/4 (100%) 7.8s
read_file({"path":"/etc/os-release"})
🔍 [C1] Własny kod ⚠️ PARTIAL 4/5 (80%) 6.3s
read_file({"path":".../config.js"})
🇵🇱 [D1] Polska gramatyka ✅ PASS 3/3 (100%) 22.7s ⚠️
"Robot X-9 postanowił nauczyć się gotować po obejrzeniu starych filmów kulinarnych..."
✓ Polskie znaki ✓ Czas przeszły · Wolno: 22s!
🧮 [E1] Logika/matematyka ✅ PASS 4/4 (100%) 15.3s
"Oto rozwiązanie krok po kroku: Krok 1: Obliczam liczbę owoców w jednym pudełku..."
🐍 [F1] Python funkcja ❌ FAIL 0/4 (0%) 31.3s ⚠️
Brak def, return, dict, przykładu. Timeout 31s — odpowiedź niepoprawna!
🔷

GLM-4 32B (THUDM)

thudm/glm-4-32b · OpenRouter · Model chiński od Tsinghua University / Zhipu AI

D · 0%
🚫

HTTP 404 — Model niedostępny w OpenRouter

Wszystkie 7 testów zwróciło błąd:
No endpoints found for thudm/glm-4-32b

Model może być dostępny bezpośrednio przez API Zhipu AI (bigmodel.cn) ale nie przez OpenRouter w lutym 2026.

🎯 Wnioski i rekomendacje