Comparativa de IA y Frameworks de Agentes (Marzo 2026)

Benchmark / Métrica Kimi K2.5 GPT-5.2 / 5.3 Claude 4.5/4.6 Opus Gemini 3.0/3.1 Pro Qwen3.5 / 3-Max LangGraph CrewAI OpenAI Swarm
HLE-Full (razonamiento agéntico) 50.2% 45.5% 43.2% (4.5) / 53.1% (4.6 + tools)* 38.3% (3.0) / 44.4% (3.1) / 48.4% (Deep Think) 49.8% N/A N/A N/A
BrowseComp (búsqueda/navegación) 60.6% (single) / 74.9% (thinking) / 78.4% (swarm) 77.9% (5.2 Pro) / 90% (5 high+tools)* 84% (4.6 thinking+tools) 85.9% (3.1 Pro Preview thinking+tools) 69% (3.5-397B) / 78.6% (sin swarm) N/A N/A N/A
SWE-Bench Verified (programación) 76.8% 80.0% (5.2) / ~78% (5.3-Codex) 80.9% (4.5) / 80.8% (4.6) 76.2% (3.0) / 80.6% (3.1 Pro) 76.4% (3.5) / 80.2% (MiniMax M2.5) N/A N/A N/A
AIME 2025 (matemáticas) 96.1% 100% 92.8% (4.5) 95.0% (3.0 Pro) ~ N/A N/A N/A
GPQA-Diamond (conocimiento científico) 87.6% 92.4% 87.0% (4.5) / 91.3% (4.6) 91.9% (3.0) / 94.3% (3.1 Pro) 88.4% N/A N/A N/A
ARC-AGI-2 (razonamiento general) ~ 52.9% (5.2) 68.8% (4.6) 31.1% (3.0) / 77.1% (3.1 Pro) / 84.6% (Deep Think)* ~ N/A N/A N/A
OSWorld (agente computador) ~ ~ 61.4% (Sonnet 4.5) / 72.7% (4.6) ~ ~ N/A N/A N/A
Terminal-Bench 2.0 (coding agéntico) 50.8% 46.2% (5.2) / 77.3% (5.3 Codex) 54.0% (4.5) / 65.4% (4.6) 46.4% (3.0) / 68.5% (3.1 Pro) ~ N/A N/A N/A
LiveCodeBench (programación competitiva) 85.0% (v6) ~ 82.2% (4.5) 87.4% (3.0) / 2887 Elo (3.1 Pro) ~ N/A N/A N/A
Agent & Tools (ReLE TAU / KAMI) 82.2% (TAU) 95.7% (KAMI v0.1)* 85.4% (4.6 TAU) 84.5% (3.0 TAU) 83.2% (Qwen3-Max TAU) / 91.88% (Qwen3-Coder KAMI)* N/A N/A N/A
Latencia / Frameworks (velocidad) N/A N/A N/A N/A N/A Más Rápido Lento Más Rápido
Precisión en decisiones N/A N/A N/A N/A N/A 100% 87% 90%
Eficiencia (uso de recursos) N/A N/A N/A N/A N/A Alta Baja Alta
Tasa de éxito en herramientas N/A N/A N/A N/A N/A 100% 37% 100%
Mejor caso de uso N/A N/A N/A N/A N/A Flujos complejos con control detallado Sistemas de producción con delegación de tareas Prototipado ligero y tareas simples

📌 Los asteriscos * indican datos auto-reportados por las compañías (OpenAI, Anthropic, Google, Signal65).

📚 Ampliar fuentes y referencias (10+ enlaces)