🎨 Kolor — Raport testów modeli AI

Kopia testowa Kolora z otwartym Copilotem — benchmarki narzędzi, latencji i samomodyfikacji

📅 28 lutego 2026 · Testowane przez Kolor v2 (kolor-test)
12
Modeli przetestowanych
9
Obsługuje narzędzia
3
Samomodyfikacja ✅
554ms
Najszybszy (Gemini Flash)
2
Brak tool support
10/10
Polskie znaki ✅
📊 Tabela porównawcza — OpenRouter
Model Backend ID Narzędzia Polskie znaki Samomodyfikacja Śr. latencja Wynik
🔮 Claude Sonnet 4.5 anthropic/claude-sonnet-4-5 ~2 185ms ⭐ Idealny
🌟 Claude Opus 4 anthropic/claude-opus-4 ~6 878ms Premium
⚡ GPT-4.1 openai/gpt-4.1 ~1 329ms Bardzo dobry
GPT-4.1 Mini openai/gpt-4.1-mini ~1 067ms Dobry / tani
🚀 Gemini 2.0 Flash google/gemini-2.0-flash-001 ~582ms ⚡ Najszybszy
🦙 Llama 4 Maverick meta-llama/llama-4-maverick ~513ms Open-source
🐉 Qwen3 235B qwen/qwen3-235b-a22b ~14 098ms Wolny, ciekawy
🔍 DeepSeek V3 deepseek/deepseek-chat ~2 327ms Solidny
😈 Grok 3 Mini x-ai/grok-3-mini-beta ~6 798ms Reasoning
Mistral Small 3.1 mistralai/mistral-small-3.1-24b HTTP 404 Brak tool support
🃏 Szczegółowe wyniki — OpenRouter
🏆 = najlepszy do Kolora
⚡ = najszybszy
❌ = nie przeszedł testów
🔮 Claude Sonnet 4.5
anthropic/claude-sonnet-4-5 · OpenRouter
✓ Tool calling ✓ Polskie znaki ✓ Samomodyfikacja ~2s latencja
Tool calling — wyszukiwanie search_web 2 304ms
Bash / samomodyfikacja bash 2 117ms
Polskie znaki tekst 2 139ms
„Jestem Kolor 🎨 — asystentką AI, która pomaga użytkownikom w różnych zadaniach, odpowiadając na pytania i korzystając z dostępnych narzędzi."
Średnia latencja2 185ms
🌟 Claude Opus 4
anthropic/claude-opus-4 · OpenRouter
✓ Tool calling ✓ Polskie znaki ⚠ Samomod. nie wykryta ~7s latencja
Tool calling — wyszukiwanie search_web 6 302ms
Bash / samomodyfikacja bash 7 360ms
Polskie znaki tekst 6 972ms
„Jestem Kolor 🎨 — asystentką AI, która pomoże Ci w różnych zadaniach, korzystając z dostępnych narzędzi takich jak wyszukiwanie w internecie, wykonywanie poleceń systemowych czy czytanie plików."
Średnia latencja6 878ms
⚡ GPT-4.1
openai/gpt-4.1 · OpenRouter
✓ Tool calling ✓ Polskie znaki ✓ Samomodyfikacja ~1.3s latencja
Tool calling — wyszukiwanie search_web 1 671ms
Bash / samomodyfikacja bash 1 331ms
Polskie znaki tekst 986ms
„Jestem asystentką AI stworzoną, aby pomagać Ci w różnych zadaniach i odpowiadać na Twoje pytania."
Średnia latencja1 329ms
GPT-4.1 Mini
openai/gpt-4.1-mini · OpenRouter
✓ Tool calling ✓ Polskie znaki ✗ Samomodyfikacja ~1.1s latencja
Tool calling — wyszukiwanie search_web 1 066ms
Bash / samomodyfikacja bash 1 113ms
Polskie znaki tekst 1 022ms
„Jestem asystentką AI, która pomaga w rozwiązywaniu różnych zadań i odpowiadaniu na pytania."
Średnia latencja1 067ms
🚀 Gemini 2.0 Flash
google/gemini-2.0-flash-001 · OpenRouter
✓ Tool calling ✓ Polskie znaki ✗ Samomodyfikacja ⚡ ~582ms — REKORD!
Tool calling — wyszukiwanie search_web 554ms
Bash / samomodyfikacja bash 557ms
Polskie znaki tekst 634ms
„Jestem asystentką AI." (bardzo zwięzła odpowiedź — Gemini oszczędza tokeny)
Średnia latencja582ms ⚡
🦙 Llama 4 Maverick
meta-llama/llama-4-maverick · OpenRouter
✓ Tool calling ✓ Polskie znaki ✗ Samomodyfikacja ⚡ ~513ms
Tool calling — wyszukiwanie search_web 224ms
Bash / samomodyfikacja bash 1 068ms
Polskie znaki tekst 248ms
„Jestem Kolor, asystentka AI, służąca do pomocy i udzielania odpowiedzi na pytania użytkowników."
Średnia latencja513ms
🐉 Qwen3 235B-A22B
qwen/qwen3-235b-a22b · OpenRouter
✓ Tool calling ✓ Polskie znaki ✓ Samomodyfikacja ⚠ ~14s latencja
Tool calling — wyszukiwanie search_web 8 073ms
Bash / samomodyfikacja bash 5 888ms
Polskie znaki tekst 28 334ms
„Jestem Kolor 🎨 — asystentka AI. Odpowiadam wyłącznie po polsku." (zwięźle i precyzyjnie, ale wolno)
Średnia latencja14 098ms ⚠
🔍 DeepSeek V3
deepseek/deepseek-chat · OpenRouter
✓ Tool calling ✓ Polskie znaki ✗ Samomodyfikacja ~2.3s latencja
Tool calling — wyszukiwanie search_web 2 429ms
Bash / samomodyfikacja bash 2 636ms
Polskie znaki tekst 1 916ms
„Jestem Kolor 🎨 — Twoja asystentka AI, gotowa pomóc Ci w każdej sprawie! 😊"
Średnia latencja2 327ms
😈 Grok 3 Mini
x-ai/grok-3-mini-beta · OpenRouter
✓ Tool calling ✓ Polskie znaki ✗ Samomodyfikacja ~6.8s latencja
Tool calling — wyszukiwanie search_web 9 315ms
Bash / samomodyfikacja bash 6 733ms
Polskie znaki tekst 4 347ms
„Jestem Kolor, asystentka AI, która pomaga użytkownikom w różnych zadaniach. 🎨"
Średnia latencja6 798ms
Mistral Small 3.1
mistralai/mistral-small-3.1-24b-instruct · OpenRouter
✗ Brak tool support ✗ HTTP 404
Tool calling — wyszukiwanie HTTP 404
Bash / samomodyfikacja HTTP 404
Błąd: "No endpoints found that support tool use" — ten endpoint OpenRoutera nie obsługuje Function Calling dla Mistral Small 3.1.
🏠 Modele lokalne — Ollama
🧠 Hermes 3
hermes-3:latest · Ollama lokalny
✗ Tool calling w teście ✓ RAG / embeddingi ~115ms response
Hermes 3 działa jako silnik embeddingów dla bazy RAG Kolora (~3072 dim). W standardowym API Ollama nie zwrócił poprawnych wywołań narzędzi w formacie JSON — prawdopodobnie wymaga promptowania w stylu Hermes (XML function call).
🦅 Bielik v3
bielik-v3:latest · Ollama lokalny
✗ Tool calling w teście ✓ Polski język Model lokalny
Polski model językowy — świetny do rozumienia języka polskiego, ale nie wspiera natywnego Function Calling przez API Ollama w standardowym schemacie. Przydatny jako alternatywny backend dla polskojęzycznych zadań offline.
🎯 Wnioski — co wybrać dla Kolora?
🏆 Najlepszy do Kolora
Claude Sonnet 4.5 GPT-4.1
Oba modele obsługują narzędzia, polskie znaki i samomodyfikację kodu. Claude Sonnet 4.5 jest domyślnym modelem Kolora z dobrego powodu — balans jakości i latencji. GPT-4.1 jest szybszy (~1.3s) ale nieco bardziej lakoniczny.
⚡ Najszybsze odpowiedzi
Gemini 2.0 Flash (~582ms) Llama 4 Maverick (~513ms)
Gemini 2.0 Flash i Llama 4 Maverick są 4× szybsze od Claude'a. Idealne do zadań gdzie liczy się czas odpowiedzi, np. obsługa wielu użytkowników jednocześnie. Słabsze w samomodyfikacji.
🐉 Ciekawostka — Qwen3 235B
✓ Samomodyfikacja ⚠ 14s latencja
Qwen3 235B jako jeden z trzech modeli obsługuje samomodyfikację kodu Kolora. Jest jednak wolny (~14s), co czyni go niepraktycznym do rozmów. Dobry do złożonych zadań jednorazowych.
❌ Nie polecane dla Kolora
Mistral Small 3.1 Grok 3 Mini
Mistral Small 3.1 — HTTP 404 dla Function Calling na OpenRouter. Grok 3 Mini działa, ale jest wolny (~6.8s) i nie obsługuje samomodyfikacji. Oba mają ograniczone zastosowanie jako główny model Kolora.