Marzo del 2026 · Modelos evaluados por utilidad práctica, no por marketing
Una guía visual para entender qué modelo de inteligencia artificial destaca en cada tarea real: desde razonamiento profundo y agentes autónomos hasta generación de vídeo, voz, imagen y ayuda en investigación. beta
| Agentes de Propósito General: Inteligencia que Razona y Actúa | |||
|---|---|---|---|
| Gemini 3.1 Pro Preview (Google - Feb 2026) Uso: API / AI Studio | OSS: ❌ |
GPQA: 88.5+ (estimado) MMLU-Pro: 89.0+ (estimado) MMMU-Pro: 81% Video-MMMU: 87.6% SWE-bench Verified: 76.8% Contexto: 1M tokens Precio: $2.00/M tokens entrada, $12.00/M tokens salida La descripción oficial lo define como "nuestro modelo de razonamiento SOTA más reciente, con una profundidad y matices sin precedentes". Responde a la presión competitiva de Claude Opus 4.6 mejorando la profundidad de razonamiento y capacidades de codificación. |
GLM-5 (744B) (Zhipu - Feb 2026) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ (MIT) |
GPQA: 81.5 SWE-Bench: 77.8% MMLU: 88.5 Contexto: 128k El modelo open source más potente para tareas de razonamiento general y código. |
| Claude Opus 4.6 (Anthropic - Feb 2026) Uso: API / Claude.ai | OSS: ❌ |
LMArena Elo: #1 Global SWE-bench Verified: 80.9% Terminal-Bench 2.0: #1 NIAH (1M): 100% Equipos de agentes: Líder + subagentes especializados (implementación, documentación, revisión) Contexto: 1M Capacidad de formar equipos de agentes que colaboran en tareas complejas. La presión competitiva de este modelo obligó a Google a lanzar Gemini 3.1 Pro rápidamente. |
Arcee Trinity Large (400B) (Arcee - Feb 2026) Uso Gratuito: ✔️ (Pesos HF) | OSS: ✔️ (Apache 2.0) |
NIAH (1M): 98.5% MMLU: 86.5 Arquitectura: MoE con atención entrelazada Contexto: 1M El modelo open source con mejor rendimiento en contexto largo. |
| Grok 4.1 Fast (xAI - 2025/2026) Uso: API / Empresas | OSS: ❌ |
MATH: 83.0 GPQA: 88.0 τ²-bench (Telecom): 100% (rendimiento perfecto en tareas de telecomunicaciones) LMArena: 4º global Contexto: 2M Especialista en razonamiento matemático y uso de herramientas empresariales. Se espera el lanzamiento de Grok 4.2 con capacidad de "aprendizaje rápido" en las próximas semanas. |
DeepSeek V3.1 (DeepSeek - Feb 2026) Uso Gratuito: ✔️ (Pesos/API) | OSS: ✔️ (MIT) |
SWE-bench Verified: 66.0% (mejor OSS) Agentic Bench (Signal65): 92.19% (#3 global) MATH: 83.5% GPQA: 92.19% (estimado) Contexto: 164K Modelo de propósito general con fortaleza en código y matemáticas. Disponible como API gratuita o para ejecución local. Integrado en AWS Bedrock. |
| OpenAI GPT-5.4 Thinking (OpenAI - Mar 2026) Uso: ChatGPT Plus/Team/Enterprise + API | OSS: ❌ Versión Pro disponible para usuarios Pro/Enterprise |
SWE-bench Pro: 57.7% OSWorld-Verified: 75.0% (supera rendimiento humano: 72.4%) GDPval: 83.0% (vs GPT-5.2: 70.9%) BrowseComp (Pro): 89.3% MMMU-Pro: 81.2% Reducción de errores: -33% en afirmaciones falsas vs GPT-5.2 Contexto: 1M Tool search: Reduce consumo de tokens un 47% en ecosistemas grandes de herramientas Primer modelo de OpenAI con capacidad nativa de operar el ordenador: puede hacer clic, navegar y ejecutar acciones basándose en capturas de pantalla . Integra las capacidades de GPT-5.3-Codex con razonamiento profundo y agentes autónomos. Disponible en dos versiones: Thinking (ChatGPT Plus/Team) y Pro (para tareas extremas) . |
Claude Code (Anthropic - 2026) Uso: API / GitHub Copilot / Xcode | OSS: ❌ |
SWE-bench Verified: 80.9% (líder en codificación) Adopción empresarial: Meta, Netflix, Salesforce, Accenture Preferencia: #1 en encuesta a desarrolladores Integraciones: GitHub Copilot, Apple Xcode (soporte nativo) El agente de código preferido por la comunidad técnica, con mejor rendimiento en SWE-bench Verified pero sin capacidades de operación de sistema operativo. |
| Gemma 3 4B (Google - 2025) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ |
Parámetros: 4B Uso principal: Dispositivos móviles, edge computing Capacidades: Razonamiento básico, comprensión multilingüe Contexto: 8k La base de los modelos TranslateGemma y MiLMMT-46, que han logrado rendimiento SOTA en traducción multilingüe. |
Phi-4 Mini (Microsoft - 2025) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ |
Parámetros: 3.8B Rendimiento: Comparable a modelos de 7B-13B en tareas de razonamiento Entrenamiento: Datos de alta calidad curados Contexto: 4k Demuestra que la calidad de los datos de entrenamiento puede superar a la escala bruta. |
| Claude Opus 4.6 Thinking (Anthropic - Feb 2026) Uso: API / Claude.ai | OSS: ❌ |
LMArena Elo: #1 global (versión thinking) Razonamiento profundo: SOTA en tareas complejas Humanity's Last Exam: Líder en este benchmark de preguntas extremadamente difíciles Contexto: 1M La referencia absoluta para razonamiento de nivel experto. |
Ant Group Ring-2.5-1T (Ant Group - Feb 2026) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ |
IMO 2025: 35/42 (medalla de oro) CMO 2025: 105/126 (supera corte del equipo nacional chino) Eficiencia en contexto largo: Reducción 10x en acceso a memoria Arquitectura: Híbrida lineal, 63B parámetros activos El primer modelo open source que alcanza nivel de medalla de oro en olimpiadas matemáticas. |
| Funcionalidad Agéntica y Toma de Decisiones | |||
| Claude Agent SDK (en Xcode 26.3) (SOTA en Agentes Integrados en IDE) Uso: Apple Developer Program (release candidate) | OSS: ❌ Integrado: Feb 2026 |
Visual verification: Captura de Xcode Previews para verificar interfaces Razonamiento multi-proyecto: Comprensión de toda la arquitectura del proyecto Ejecución autónoma: Tareas de larga duración sin supervisión constante Model Context Protocol: Integración con Claude Code vía MCP Capacidad de Claude para explorar la estructura completa de archivos, entender cómo se conectan los frameworks (SwiftUI, UIKit, Swift Data) e identificar dónde hacer cambios antes de escribir código . |
OpenClaw (Ecosistema) Uso Gratuito: ✔️ (Auto-hospedado) | OSS: ✔️ 228k+ ⭐ · Creador en OpenAI |
GitHub ⭐: 228,000+ (#1 histórico) Autonomía: Completa (ejecución 24/7 sin supervisión) Ecosistema: +10,000 Skills comunitarios, 126+ startups basadas en OpenClaw Integración IDE: Compatible con Cursor y Aider vía plugins comunitarios El framework que ha redefinido el estándar de los agentes autónomos, ahora con un ecosistema de skills que permite extender sus capacidades a cualquier entorno . |
| Claude Opus 4.6 (Agent Teams) (SOTA en Orquestación Multi-Agente) Uso: API / Claude.ai (Max/Team/Enterprise) | OSS: ❌ Lanzado: Feb 2026 |
Terminal-Bench 2.0: #1 GDPval-AA: +144 Elo vs GPT-5.2 (mejor en tareas de alto valor económico) Contexto largo: 1M tokens con Context compaction Equipos de agentes: Subagentes en paralelo (implementación, documentación, revisión) Integraciones: PowerPoint (creación automática de presentaciones), Excel (análisis financiero), Cowork (macOS) Capacidad de formar equipos de agentes que colaboran en tareas complejas, con un líder que coordina y sintetiza resultados . |
CrewAI (Multi-Agente) Uso Gratuito: ✔️ | OSS: ✔️ (MIT) Actualizado: Feb 2026 |
Framework: Multi-agente con roles (investigador, escritor, revisor, etc.) Equipos: Paralelización de tareas, flujos de trabajo jerárquicos Comunidad: 44k ⭐ en GitHub, +100 contribuidores activos Integración OpenClaw: Compatible con skills de OpenClaw para automatización de sistema El framework OSS más completo para definir y ejecutar equipos de agentes especializados, ahora con soporte para integraciones con el ecosistema OpenClaw . |
| GitHub Copilot (Agentes Multi-modelo) (SOTA en Plataformas de Desarrollo Agéntico) Uso: Copilot Pro+ / Enterprise | OSS: ❌ Actualizado: Ene-Feb 2026 |
GPT-5.2-Codex GA: Disponible general Agentes disponibles: Claude + Codex en preview pública Memoria agéntica: Captura insights del repositorio (28 días) Sandboxing: Comandos en terminal con aislamiento Copilot SDK: Technical preview para extensiones La plataforma más completa para desarrollo agéntico, permitiendo elegir entre múltiples modelos y gestionar sesiones de forma unificada . |
Aider Uso Gratuito: ✔️ (BYOK) | OSS: ✔️ (Apache 2.0) Actualizado: Continuamente |
Aider Polyglot: Resultados competitivos Flexibilidad: Cualquier modelo (OpenAI, Anthropic, DeepSeek, etc.) Integración Git: Commits automáticos con mensajes claros Control: Total para desarrolladores Ecosistema OpenClaw: Compatible con skills para automatización avanzada La alternativa OSS más potente para programación agéntica en CLI, con la ventaja de poder usar modelos de bajo coste como DeepSeek . |
| Claude Code Security (SOTA en Agentes de Seguridad) Uso: Research preview en Claude Code | OSS: ❌ Lanzado: Feb 2026 |
Capacidades: Análisis de componentes, flujos de datos, detección de vulnerabilidades (inyección, bypass de autenticación) Resultados: Claude Opus 4.6 descubrió 500+ vulnerabilidades desconocidas en proyectos open source Salida: Explicación en lenguaje natural + parches sugeridos Integración: Nativa en Claude Code Capacidad de actuar como "red team" autónomo, identificando y parcheando vulnerabilidades sin intervención humana . |
Aider + modelos de seguridad Uso Gratuito: ✔️ | OSS: ✔️ Flexible |
Flexibilidad: Uso de modelos fine-tuneados para seguridad Control: Total sobre el proceso de análisis Integración: Con sistemas de CI/CD vía scripts personalizados Comunidad: Activa en desarrollo de skills de seguridad para OpenClaw La combinación de un framework OSS flexible con modelos especializados permite construir pipelines de seguridad adaptados a necesidades específicas . |
| Aprendizaje Personalizado y Tutoría con IA | |||
| OpenAI GPT-5 (Modo Tutor) (SOTA en Tutoría Adaptativa y Precisión) Uso: ChatGPT Plus/Team/Enterprise | OSS: ❌ GPT-5.2: Feb 2026 |
Metodología: Aprendizaje adaptativo y socrático Personalización: Ajuste al nivel y ritmo del estudiante GPT Store: Tutores especializados creados por la comunidad Benchmark matemático 2026: 90% (mejor en precisión) Estudio académico 2026: "Parceiro intelectual para escrita" El tutor de referencia para cualquier materia, con la mejor precisión numérica según auditorías independientes . |
Google LearnLM (en Gemini for Education) Uso: Gratuito (vía Gemini) | OSS: ❌ Integrado en Gemini: Feb 2026 |
Principios pedagógicos: Aprendizaje activo, metacognición, personalización Mejora demostrada: +5.5% en resolución de problemas novedosos vs. tutores humanos Valoración académica: "Multimodalidade nativa e recursos para pesquisa e aprendizagem ativa" La alternativa con base científica en pedagogía y fuerte integración multimodal. |
| Google Little Language Lessons (SOTA en Aprendizaje Contextual de Idiomas) Uso Gratuito: ✔️ (Google Labs) | OSS: ❌ Lanzamiento: Ene-Feb 2026 |
Enfoque: Lecciones breves basadas en situaciones cotidianas Tecnología: Gemini + Cloud Text-to-Speech para pronunciación Herramientas: Tiny Lesson, Slang Hang, Word Cam Idiomas: +40 idiomas disponibles Aprendizaje práctico, contextual y gratuito sin estructura curricular rígida. |
ELSA Speak Uso Gratuito: ✔️ (Básico) | Pro: Pago | OSS: ❌ Actualizado: Feb 2026 |
Especialización: Pronunciación y acento (neutro americano) Ejercicios: +40,000 prácticas en contextos diversos (viajes, entrevistas) Feedback: Análisis fonémico en tiempo real Preparación: IELTS, Pearson PTE, TOEFL La mejor opción para perfeccionar la pronunciación con precisión científica. |
| Wolfram Alpha (Step-by-Step) (SOTA en Resolución Guiada de Problemas Técnicos) Uso Gratuito: ✔️ (Limitado) | Pro: ~$5/mes | OSS: ❌ Actualizado: Continuamente |
Dominios: Matemáticas, Física, Química, Ingeniería, Estadística Calidad: Rigurosa, basada en conocimiento experto computacional Generación: Práctica ilimitada con problemas similares Visualización: Gráficos interactivos y pasos detallados El estándar de oro para estudiantes de ciencias que necesitan entender el proceso. |
Photomath (con IA) Uso Gratuito: ✔️ (Básico) | Plus: ~$7/mes | OSS: ❌ Actualizado: Feb 2026 |
Dominios: Matemáticas (desde aritmética hasta cálculo) Método de entrada: Escaneo con cámara (ultrarrápido) Calidad: Explicaciones claras y visuales Funciones IA: Práctica personalizada basada en el progreso La alternativa más accesible y popular para matemáticas en dispositivos móviles. |
| NotebookLM (Gemini 3.1 Pro) (SOTA en Generación de Contenido Educativo Personalizado) Uso Gratuito: ✔️ | OSS: ❌ Actualizado: Feb 2026 |
Novedades Feb 2026: "Video Overviews" con estilos visuales (acuarela, pizarra, anime), exportación a PPTX editable, compatibilidad con Google Slides (próximamente) Lecture Mode: Audio de hasta 30 minutos con un solo ponente, ideal para cursos y materiales densos Confiabilidad académica: Elevada confiabilidad académica. Generación: Podcasts, FAQs, guías de estudio, líneas de tiempo, infografías, PPTX, Learning Guide con tutoría socrática, quizzes, flashcards, mapas mentales Capacidad: Hasta 50 fuentes por cuaderno (PDFs, audios, presentaciones, YouTube, Google Sheets) |
Teach Anything (para profesores) Uso Gratuito: ✔️ | OSS: ✔️ Financiado por Institute for Humane Studies · The New York Times: 2026 |
Mencionado en The New York Times: "Open access revolution" Para quién: Profesores universitarios y de secundaria que quieran crear sus propias herramientas Modelos utilizados: Mistral, Llama y otros LLMs open source Lo que permite: Diseñar y desplegar aplicaciones educativas de IA sin programar Características clave: Apps permanentemente gratuitas, sin login para estudiantes, privacidad total, fácilmente compartibles |
| Qwen2.5-VL-7B-Instruct (Qwen - 2026) Uso Gratuito: ✔️ (Pesos) | API: $0.05/M tokens | OSS: ✔️ |
Capacidades: Comprensión visual (gráficos, diagramas), análisis de videos educativos, localización de objetos Contexto: 33K tokens Precio (SiliconFlow): $0.05/M tokens entrada y salida Perfecto para: Analizar materiales educativos con texto e imágenes (libros de texto, problemas de ciencia con diagramas) Modelo multimodal asequible para estudiantes y educadores con presupuestos limitados . |
Llama 3.1 8B Instruct (Meta - 2025) Uso Gratuito: ✔️ (Pesos) | API: $0.06/M tokens | OSS: ✔️ |
Soporte multilingüe: +100 idiomas Contexto: 33K tokens Entrenamiento: 15 billones de tokens con RLHF Precio (SiliconFlow): $0.06/M tokens Perfecto para: Plataformas de tutoría que atienden poblaciones estudiantiles diversas, diálogo instructivo seguro El modelo open source con mejor relación calidad-precio para educación multilingüe . |
| GLM-4.5V (Zhipu AI) (SOTA en Razonamiento STEM) Uso Gratuito: ✔️ (Pesos) | API: $0.14/M entrada, $0.86/M salida | OSS: ✔️ Lanzado: 2026 |
Arquitectura: MoE (106B params totales, 12B activos) Innovación técnica: 3D-RoPE para relaciones espaciales 3D 'Modo Pensamiento': Equilibrio entre rapidez y razonamiento profundo Contexto: 66K tokens Resolución: Soporta imágenes 4K Precio (SiliconFlow): $0.14/M entrada, $0.86/M salida Perfecto para: Educación STEM avanzada, problemas complejos que requieren análisis visual profundo y razonamiento matemático El modelo de código abierto con mejor rendimiento en benchmarks multimodales, ideal para universidades e instituciones que necesitan máxima capacidad. |
Hugging Face (Modelos Educativos) Uso Gratuito: ✔️ | OSS: ✔️ +1M modelos disponibles |
Acceso: +1 millón de modelos open source Coste: Gratuito para investigación y uso personal Comunidad: La mayor comunidad de IA del mundo Valor para educadores: Permite explorar, probar y descargar modelos especializados para necesidades educativas concretas sin depender de APIs comerciales El punto de partida para cualquier profesor que quiera experimentar con IA open source. |
| Ayuda en Investigación | |||
| Consensus (Síntesis de Evidencia) (SOTA en Síntesis de Evidencia) Uso Gratuito: ✔️ (Búsquedas limitadas) | OSS: ❌ Actualizado: Feb 2026 |
Función Principal: Extracción de Hallazgos Científicos Métrica Clave: Síntesis de consenso (+200M papers) Precisión de Respuestas: Muy Alta Filtros: Por tipo de estudio, fecha, acceso abierto Responde preguntas mostrando el porcentaje de papers que apoyan cada postura. |
Scite.ai Uso Gratuito: ✔️ (Limitado) | Pro: Pago | OSS: ❌ Actualizado: Feb 2026 |
Función Principal: Verificación de Citas ("Smart Citations") Base de Datos: +250M de artículos, capítulos, preprints y datasets Novedad Feb 2026: Scite MCP: Integración directa con ChatGPT, Claude, Copilot, Cursor y Claude Code. Los asistentes pueden buscar dentro de artículos, evaluar cómo han sido citados, y acceder a PDFs sin salir del flujo de trabajo Ideal para evaluar el impacto y la fiabilidad de un paper por cómo ha sido citado, ahora directamente desde tus asistentes de IA favoritos . |
| Elicit (Revisión de Literatura) (SOTA en Automatización de Revisiones Sistemáticas) Uso Gratuito: ✔️ (Créditos) | OSS: ❌ Actualizado: Feb 2026 |
Función Principal: Extracción estructurada de datos Base de Datos: +200M papers (Semantic Scholar) Automatización: Búsqueda, filtrado, extracción y síntesis Exportación: Tablas, resúmenes, BibTeX Permite pasar de una pregunta de investigación a una tabla con los hallazgos clave de decenas de papers en minutos. |
SciSpace (Typeset) Uso Gratuito: ✔️ (Limitado) | OSS: ❌ Actualizado: Feb 2026 |
Función Principal: Comprensión de papers vía chat Base de Datos: +270M papers Métrica Clave: Análisis conversacional, generación de ilustraciones científicas con IA Integraciones: Zotero, Mendeley, Chrome extension Extracción: Resúmenes, ecuaciones, tablas Excelente para entender un paper complejo haciéndole preguntas directamente. |
| Claude Opus 4.6 (Análisis Profundo) (SOTA en Extracción Fiel de Información) Uso Gratuito: ❌ | OSS: ❌ Lanzado: Feb 2026 |
NIAH (200k): 100% FEVER: 97.2% QASPER: 86.5% GPQA: 87.8% Contexto: 1M Estudio de detección humana (feb 2026): más del 90% de participantes no distinguen sus outputs de contenido humano . |
Llama 3.1 405B (1M) Uso Gratuito: ✔️ (Modelos) | OSS: ✔️ (Llama Lic) Lanzado: 2024 |
NIAH (1M): ~99.2% GPQA: 58.2% QASPER: ~75.3% MMLU: 86.1% Contexto: 1M |
| Gemini 3.1 Pro (Análisis Masivo) (SOTA en Análisis Multimodal a Gran Escala) Uso Gratuito: ✔️ (AI Studio) | OSS: ❌ Lanzado: Feb 2026 |
NIAH (1M): 99.9% MMMU: 84.2% GPQA: 88.5% QASPER: 86.0% Contexto: 1M (con multimodalidad) |
Kimi (Moonshot AI) Uso Gratuito: ✔️ | OSS: ❌ Actualizado: Feb 2026 |
NIAH (1M): ~98.5% Análisis de Ficheros: PDF, Word, Excel, PPT, imágenes Contexto: 1M+ (gratuito) La mejor alternativa gratuita para análisis de contexto masivo, especialmente para usuarios fuera de China vpn. |
| Perplexity Pro (RAG) (SOTA en Búsqueda con Fuentes) Uso Gratuito: ✔️ (Limitado) | OSS: ❌ Actualizado: Feb 2026 |
Calidad de RAG: SOTA Precisión contextual: 94% Transparencia en riesgos: 89% Deep Research: Síntesis de 50+ fuentes Modo "Pro" (feb 2026): Búsqueda en papers científicos El mejor para respuestas rápidas y verificadas con fuentes directas. |
Phind (Modo Investigación) Uso Gratuito: ✔️ | OSS: ❌ Actualizado: Feb 2026 |
Especialización: Código y preguntas técnicas (92% paste-ready) Precisión general: 83% Velocidad: 1.9 segundos de respuesta Integración: VS Code nativa Enfoque recomendado: Usar Perplexity para investigación y planificación, Phind para implementación y debugging Optimizado para respuestas técnicas precisas con ejemplos de código, aunque menos fiable para investigación general . |
| Generación de Voz y Música | |||
| ElevenLabs V3 (SOTA en Voz Realista y Clonación) Uso Gratuito: ✔️ (Créditos mensuales) | Pro: Pago | OSS: ❌ Lanzado: Feb 2026 |
MOS (Naturalidad): >4.5 Clonación: Muestra de 5 segundos, preservación emocional Latencia streaming: <200ms Mejora precisión v3: 68% menos errores en benchmark interno (27 categorías, 8 idiomas). Tasa de error global: 4.9% Idiomas: +30 con acentos regionales El estándar de la industria para voces de alta calidad en producción profesional. |
Fish Speech V1.5 (fishaudio - 2026) Uso Gratuito: ✔️ (Pesos) | API: $15/M bytes | OSS: ✔️ |
TTS Arena ELO: 1339 WER (inglés): 3.5% CER (inglés): 1.2% CER (chino): 1.3% Arquitectura: DualAR (doble transformer autoregresivo) La alternativa open source con la mejor precisión multilingüe del mercado. Soporta múltiples idiomas con 300k+ horas de entrenamiento . |
| Suno AI v4 (SOTA en Generación de Canciones) Uso Gratuito: ✔️ (Créditos diarios) | Pro: Pago | OSS: ❌ Lanzado: Feb 2026 |
Calidad vocal: SOTA (voces casi indistinguibles de humanas) Control de estructura: Verso, estribillo, puente Duración: Hasta 4 minutos por canción Rango vocal: 30-45 semitonos La herramienta de referencia para creadores que quieren generar canciones completas con letra y melodía coherente . |
Udio Uso Gratuito: ✔️ (Créditos) | Pro: Pago | OSS: ❌ Actualizado: Feb 2026 |
Calidad de producción: Muy alta (énfasis en mezcla y masterización) Extensión: Añadir secciones a temas existentes Replace section: Corrige problemas específicos Preferido por muchos músicos por su sonido más pulido y posibilidades creativas . |
| Stable Audio Open 2.0 (SOTA en Efectos de Sonido y Diseño Sonoro) Uso Gratuito: ✔️ (Pesos) | API: Pago | OSS: ✔️ Actualizado: Feb 2026 |
Duración máxima: 47 segundos (ideal para SFX y loops) Calidad: 44.1kHz estéreo Tipos de salida: Efectos, stems, loops, instrumentales Fine-tuning personal: Sí (con grabaciones propias) La referencia para creadores que necesitan efectos de sonido personalizados y libres de derechos. |
CosyVoice2-0.5B (FunAudioLLM - 2026) Uso Gratuito: ✔️ (Pesos) | API: $7.15/M bytes | OSS: ✔️ |
Latencia streaming: 150ms (ultra-baja) Mejora vs v1.0: 30-50% menos errores de pronunciación MOS: 5.53 (vs 5.4 anterior) Idiomas: Chino (incluye dialectos: cantonés, sichuanés, shanghainés, tianjinés), inglés, japonés, coreano Cross-lingual: Sí Perfecto para aplicaciones que requieren respuestas de voz en tiempo real con mínima latencia . |
| ElevenLabs V3 (Diálogos) (SOTA en Voz para Diálogos) Uso: API / Web | OSS: ❌ Lanzado: Feb 2026 |
MOS (Naturalidad): >4.4 Control emocional: Énfasis, tono, ritmo ajustable Duración: Optimizado para párrafos largos y conversaciones TTS expresivo: Capta matices y entonación contextual Mejora en interpretación contextual: 68% menos errores en símbolos y números El mismo modelo SOTA, con mejoras significativas en interpretación de contexto . |
ChatTTS Uso Gratuito: ✔️ | OSS: ✔️ Actualizado: 2025 |
MOS (Naturalidad): ~4.1 Enfoque: Conversaciones y diálogos naturales Control: Tono y emoción ajustables Comunidad: Muy activa, con numerosos fine-tunes Alternativa OSS estable para diálogos conversacionales. |
| Generación de Imágenes | |||
| GPT Image 1.5 (OpenAI) (SOTA en Generación General) Uso: ChatGPT Plus/Pro/API | OSS: ❌ Lanzado: Dic 2025 |
LM Arena Elo: 1264 Renderizado de texto: SOTA (tipografía compleja, logos, señalética) Fotorrealismo: Excepcional Integración: Nativa con ChatGPT, flujos multimodales sin fisuras El nuevo estándar para materiales de marketing profesionales, maquetas de producto y composiciones complejas que requieren texto legible. |
Flux 2 Max Uso Gratuito: ✔️ (Pesos) | API: Pago | OSS: ✔️ Lanzado: 2025 |
LM Arena Elo: 1168 Soporte LoRA: Sí (miles de modelos comunitarios) Ejecución local: Posible con RTX 4090 Comunidad: Activa en Civitai con miles de variantes El rey del open source para quienes necesitan control absoluto, privacidad o modelos personalizados. |
| Gemini 3.1 Pro Image (Nano Banana Pro) (Google - Feb 2026) Uso Gratuito: ✔️ (AI Studio) | API: Pago | OSS: ❌ |
LM Arena Elo: 1235+ (estimado) Latencia: 3-5 segundos por imagen Capacidades destacadas: Comprensión de identidades (genera retratos de personajes famosos con logos corporativos), generación multilingüe (menús en 4 idiomas con texto preciso), razonamiento cultural (acupuntura, quiromancia), resolución matemática con pasos visuales Integración: Google Workspace, Cloud Platform, búsqueda Modelo con enfoque "primero razona, luego dibuja", demostrando comprensión de relaciones espaciales, física y lógica antes de generar la imagen. |
Flux 2 Flex Uso Gratuito: ✔️ (Pesos) | API: Pago | OSS: ✔️ Lanzado: 2025 |
LM Arena Elo: 1157 Velocidad: 2-4 segundos (más rápida que Max) Requisitos: Menor computación, apto para más entornos Calidad: Ligeramente inferior a Max, pero excelente para alto volumen La opción open source cuando la velocidad de iteración es prioritaria sobre el máximo detalle. |
| Flux 1.1 Pro Ultra (SOTA en Resolución y Control) Uso: API vía plataformas (SiliconFlow, etc.) | OSS: ❌ (API) Lanzado: 2025 |
Resolución máxima: 4 megapíxeles (2048x2048) / 2K Fotorrealismo: Superior, con modos Ultra (composición precisa) y Raw (texturas naturales) Precio: ~$0.06/imagen vía SiliconFlow La referencia para producción visual comercial donde el detalle y la fidelidad son críticos. |
Flux.1 Kontext Pro Uso: API | OSS: ❌ (API) Lanzado: 2025 |
Comprensión semántica: Avanzada, con soporte de imágenes de referencia Control local preciso: Ediciones detalladas manteniendo contexto global Precio: ~$0.04/imagen Ideal para diseño de marcas, visualización de productos e ilustración narrativa que requiere coherencia en múltiples iteraciones. |
| Hunyuan Image 3.0 (Tencent) (SOTA en Edición Avanzada) Uso: API / "元宝" App | OSS: ❌ Versión Instruct: Ene 2026 |
LM Arena Elo: 1152 (texto-imagen) Nuevas capacidades (Instruct): Edición imagen-a-imagen (añadir/eliminar objetos), fusión multi-imagen, estilo "think first, then edit" con Chain of Thought Arquitectura: MoE 80B params totales, 13B activos Especialización: Edición precisa, contenido asiático Precio: ~$0.02-0.05/imagen La elección para edición avanzada con comprensión profunda de instrucciones y manipulación detallada de elementos en la imagen. |
Seedream 5.0 (ByteDance) Uso: API / CapCut / JI Meng | OSS: ❌ Lanzado: Feb 2026 |
LM Arena Elo: Competitivo con Nano Banana Pro Capacidades clave: Búsqueda en internet en tiempo real, comprensión de prompts abstractos, renderizado de texto preciso, edición controlada Resolución: 2K (directo) / 4K (con IA) Precio: Económico, con usos gratuitos Perfecto para crear imágenes que requieren conocimiento específico, infografías, carteles con texto y conceptos abstractos. Posicionado como el competidor directo y más económico de Gemini 3.1 Pro Image . |
| Generación de Vídeo | |||
| Seedance 2.0 Pro (ByteDance) (SOTA en Control Creativo y Popularidad) Uso: Freemium / API / Jimeng / Doubao | OSS: ❌ Lanzado: Feb 2026 |
Ranking comunitario: #1 (por encima de Kling 3.0 y Sora 2) Referencias: Hasta 12 archivos (9 imágenes + 3 vídeos + 3 audios) Lip-sync: Precisión fonémica, 8 idiomas (inglés, chino, japonés, coreano, español, indonesio, cantonés, sichuanés) Resolución: Nativa 2K (2160p) Beat-sync: Sí, con audio multi-pista Dual-channel audio: Efectos ASMR, sonido ambiental inmersivo Precio: ~$0.10/minuto (80% más barato que competidores) Definido por la comunidad como el "Game Changer" y "Nuevo Rey del AI Video". The Information, CNBC y The Economic Times lo destacan como el modelo que supera a Sora y Veo en velocidad y control narrativo . |
Kling 3.0 Pro (Kuaishou) Uso Gratuito: ✔️ (Créditos) | API: $0.3-0.5/10s | OSS: ❌ Lanzado: Feb 2026 |
Elo: Competitivo con Seedance Resolución: 4K nativo (3840×2160) a 60fps (el único) Duración máxima: 120 segundos (el más largo) Storyboard: Hasta 6 cortes de cámara Idiomas: Inglés, chino, japonés, coreano, español (con acentos regionales) Perfecto para workflows que requieren máxima resolución, duración extendida y control de cámara profesional . |
| Sora 2 Pro (OpenAI) (SOTA en Narrativa y Física) Uso: ChatGPT Pro ($200/mes) | API: $0.50/seg | OSS: ❌ Lanzado: 2025 |
Duración máxima: 25 segundos (único en su clase) Física realista: SOTA en interacciones complejas Complejidad de escena: Maneja multi-personaje con interacciones naturales Resolución: 1080p Storyboard: Sí, con edición narrativa Audio: Nativo con diálogo La opción para proyectos donde la duración extendida, la física realista y la complejidad narrativa son prioritarias . |
Veo 3.1 (Google DeepMind) Uso: API / Vertex AI | OSS: ❌ Actualizado: Feb 2026 |
Fotorrealismo: #1 en texturas y materiales Duración: 8 segundos (el más corto, ideal para hero shots) Material rendering: Superior (piel, telas, vidrio, agua) Vocabulario técnico: Comprende f-stop, focal length, lighting ratios Audio: Nativo sincronizado La elección para hero shots y fotografía de producto que requiere máximo realismo . |
| Runway Gen-4.5 + GWM-1 (SOTA en Herramientas de Edición y Modelos de Mundo) Uso: Freemium (pago) / API / SDK Robótica | OSS: ❌ Gen-4.5: Dic 2025 · GWM-1: Feb 2026 |
Elo (Gen-4.5): 1230 (#4) Estudio de detección humana (feb 2026): >90% de participantes no distinguen Gen-4.5 de vídeos reales Motion tracking: Avanzado Control de cámara: Director Mode Novedad GWM-1 (feb 2026): Familia de Modelos de Mundo General (GWM Worlds, Avatars, Robotics) con SDK para robótica y simulación Integración de terceros: Kling 3.0, Sora 2 Pro, WAN2.2 Animate, GPT-Image-1.5 disponibles dentro de Runway La herramienta de referencia para profesionales que necesitan control granular y simulación realista, con una suite que va más allá de la generación simple. |
CogVideoX-5b-I2V Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Lanzado: 2025 |
VRAM mínima: 4.4GB (INT8 cuantizado) Comunidad: 8,000+ estrellas en GitHub Ecosistema: Amplio, con múltiples forks y herramientas Especialización: Imagen a vídeo con control fino El modelo con el ecosistema más maduro para quienes necesitan personalización total. |
| Pika 2.5 (SOTA en Velocidad y Creatividad Social) Uso Gratuito: ✔️ (Créditos diarios) | Pro: Pago | OSS: ❌ Lanzado: Nov 2025 |
Elo: 1095 Velocidad: 30-90 segundos por generación (Turbo: 12s) Lip sync: Sí Pikaffects: Único en su clase La opción gratuita más accesible para creadores de contenido social, con créditos diarios renovables. |
HunyuanVideo-1.5 (Tencent) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Lanzado: Ene 2026 |
Elo: 1022 Requisitos: RTX 4090 con 13.6GB VRAM Duración: Hasta 10 segundos en 1080p Text compliance: >95% El modelo open source más reciente, optimizado para ejecución en hardware de consumo con excelente comprensión de prompts. |
| Ingeniería de Software Autónoma | |||
| Cognition Labs Devin (Enterprise) (SOTA en Automatización de Software Empresarial) Uso: Enterprise (vía Synechron y sector público) | OSS: ❌ Partnership: Feb 2026 · Expansión federal: Mar 2026 |
Casos de Uso Reales: Modernización COBOL, Java, SAS-to-PySpark Certificación: Ingenieros entrenados por Cognition Integración: Con aceleradores de Synechron SWE-Bench (Empresarial): Puntuaciones líderes en entornos legacy Define el estándar para agentes de ingeniería en banca, seguros y sector público con gobernanza y cumplimiento normativo. |
OpenClaw Uso Gratuito: ✔️ (Auto-hospedado) | OSS: ✔️ Creado por Peter Steinberger (ahora en OpenAI) · 228k+ ⭐ |
GitHub ⭐: 228,000+ (#1 histórico) Autonomía: Completa (ejecución 24/7 sin supervisión) Ecosistema: +10,000 Skills comunitarios, 126+ startups basadas en OpenClaw Versiones SaaS: Kimi Claw, MaxClaw (bajo demanda) Impacto: OpenClaw es ya el mayor consumidor de tokens en OpenRouter El framework que ha redefinido el estándar de los agentes autónomos open source. Su creador, Peter Steinberger, fue contratado por OpenAI para liderar su estrategia de agentes. |
| OpenAI GPT-5.4 (OpenAI - Mar 2026) Uso: ChatGPT Plus/Team/Enterprise + API | OSS: ❌ Versión Pro disponible para usuarios Pro/Enterprise |
SWE-bench Verified: 79.2% (según tabla Vals.ai) SWE-bench Pro: 57.7% (líder) OSWorld-Verified: 75.0% (supera rendimiento humano: 72.4%) GDPval: 83.0% (vs GPT-5.2: 70.9%) BrowseComp (Pro): 89.3% Contexto: 1M Tool search: Reduce consumo de tokens un 47% en ecosistemas grandes de herramientas Evolución directa de GPT-5.3-Codex, integrando capacidades de código, razonamiento profundo y control de ordenador. Disponible en GitHub Copilot como opción seleccionable. |
Claude Code (Anthropic) Uso: API / GitHub Copilot / Xcode | OSS: ❌ #1 en preferencia desarrolladores |
SWE-bench Verified: 80.9% (líder en codificación) Terminal-Bench 2.0: 65.4% Adopción empresarial: Meta, Netflix, Salesforce, Accenture Integraciones: GitHub Copilot, Apple Xcode (soporte nativo) El agente de código preferido por la comunidad técnica, con mejor rendimiento en SWE-bench Verified. |
| Cursor (Agentes de Larga Duración) (SOTA en IDEs Agénticos) Uso Gratuito: ✔️ (Plan gratuito) | OSS: ❌ Actualizado: Feb 2026 |
Novedades Feb 2026: Agentes de larga duración, subagentes paralelos Trazabilidad: Cursor Blame (atribución IA/humano) Funciones Clave: Planificación autónoma, ejecución sin supervisión Contexto multi-agente: Capacidad de ejecutar múltiples agentes especializados simultáneamente La experiencia más avanzada en desarrollo con agentes dentro del editor, ahora compitiendo directamente con GitHub Copilot que ha integrado múltiples modelos. |
Aider Uso Gratuito: ✔️ | OSS: ✔️ (Apache 2.0) Actualizado: Continuamente |
Benchmarks propios: Resultados competitivos en Aider Polyglot Flexibilidad: Modelos locales o remotos (OpenAI, Claude, DeepSeek, etc.) Control: Total para desarrolladores Integración con OpenClaw: Compatible con el ecosistema de skills de OpenClaw para automatización avanzada La alternativa OSS más potente para la programación agéntica en CLI, ahora parte de un ecosistema más amplio de agentes autónomos. |
| Traducción Automática | |||
| DeepL Pro (SOTA en Traducción de Textos Largos) Uso Gratuito: ✔️ (Limitado) | Pro: Pago | OSS: ❌ Actualizado: Mar 2026 |
MOS (textos largos): Muy alto en idiomas europeos Formatos: PDF, DOCX, PPTX con preservación de maquetación Especialización: Patentes, documentos legales, marketing Limitación: 33 idiomas (principalmente europeos) La referencia para traducción profesional donde el formato y la precisión terminológica son críticos. |
Google Translate (Gemini) Uso Gratuito: ✔️ | OSS: ❌ Actualizado: Mar 2026 |
Idiomas: 249 soportados Modalidades: Texto, voz, imagen, documentos Precisión: 16/21 traducciones precisas en estudios con términos técnicos NMT: Motor neuronal con 10 años de evolución La opción gratuita más versátil y con mayor cobertura idiomática. |
| MiLMMT-46 (Gemma3-based) (SOTA en Traducción Open Source) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Lanzado: Feb 2026 |
WMT24 (promedio 46 idiomas): Supera a Seed-X, HY-MT-1.5 y TranslateGemma Comparativa: Rendimiento competitivo con Google Translate y Gemini 3 Pro Arquitectura: Continual pretraining + instruction finetuning sobre Gemma3 El primer modelo open source que iguala a sistemas propietarios en traducción multilingüe a gran escala. |
Google TranslateGemma Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Lanzado: Ene 2026 |
Idiomas: 55 oficiales + 500 pares adicionales Versiones: 4B (móvil), 12B (portátil), 27B (cloud) WMT24++: 12B supera a Gemma3 27B Capacidades: Traducción de texto en imágenes sin fine-tuning específico Ejecución local: Posible en móvil (4B) y portátil (12B) sin conexión a internet La apuesta de Google por la democratización de la traducción con modelos ligeros, transparentes y que preservan la privacidad al funcionar offline. |
| Mistral Voxtral Realtime (SOTA en Traducción en Tiempo Real) Uso Gratuito: ✔️ (Pesos abiertos) | API: Pago | OSS: ✔️ (Apache 2.0) Lanzado: Feb 2026 |
Latencia: <200ms (vs 2 segundos de Google) Idiomas: 13 idiomas (incl. español, francés, alemán) Tamaño: 4B parámetros (ejecutable en móvil) Privacidad: Procesamiento local, sin nube Arquitectura: Modelo especializado en transcripción y traducción, no un LLM generalista Un paso hacia la conversación fluida entre idiomas sin barreras de latencia, con la ventaja de ser open source y ejecutable localmente. |
Gemini 3 Pro (Traducción) Uso Gratuito: ✔️ (Limitado) | OSS: ❌ Actualizado: Feb 2026 |
Latencia: ~2 segundos Contexto: Traducción conversacional con comprensión de matices y emociones Integración: Dentro del asistente Gemini, con capacidad de 200 idiomas vía Google Translate Uso: "Responde en inglés", "traduce esto" como parte natural de la conversación Ideal para conversaciones informales donde el contexto prima sobre la latencia, con la ventaja de la multimodalidad y el ecosistema Google. |
| Qwen3-8B (SOTA en Cobertura Multilingüe) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Lanzado: 2026 |
Idiomas: +100 lenguas y dialectos Contexto: 131K tokens Modos: Razonamiento profundo / respuesta rápida (intercambiable) Capacidades: Traducción multilingüe, código, razonamiento matemático Precio (API): ~$0.06/M tokens El modelo de propósito general con mayor cobertura idiomática, ideal para aplicaciones que necesitan traducción en lenguas minoritarias además de las principales. |
Llama 3.1 8B Instruct Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Lanzado: 2025 |
Entrenamiento: 15 billones de tokens RLHF: Sí (seguridad y utilidad) Contexto: 33K tokens Benchmarks: Supera a muchos modelos cerrados en tareas multilingües Conocimiento: Actualizado a diciembre 2023 La opción más robusta para aplicaciones que requieren traducción con alto estándar de seguridad y naturalidad conversacional. |