Claves de la IA: Comparativa en funcionalidades

Marzo del 2026 · Modelos evaluados por utilidad práctica, no por marketing

Una guía visual para entender qué modelo de inteligencia artificial destaca en cada tarea real: desde razonamiento profundo y agentes autónomos hasta generación de vídeo, voz, imagen y ayuda en investigación. beta


Agentes de Propósito General: Inteligencia que Razona y Actúa
Gemini 3.1 Pro Preview (Google - Feb 2026) Uso: API / AI Studio | OSS: ❌ GPQA: 88.5+ (estimado)
MMLU-Pro: 89.0+ (estimado)
MMMU-Pro: 81%
Video-MMMU: 87.6%
SWE-bench Verified: 76.8%
Contexto: 1M tokens
Precio: $2.00/M tokens entrada, $12.00/M tokens salida
La descripción oficial lo define como "nuestro modelo de razonamiento SOTA más reciente, con una profundidad y matices sin precedentes". Responde a la presión competitiva de Claude Opus 4.6 mejorando la profundidad de razonamiento y capacidades de codificación.
GLM-5 (744B) (Zhipu - Feb 2026) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ (MIT) GPQA: 81.5
SWE-Bench: 77.8%
MMLU: 88.5
Contexto: 128k
El modelo open source más potente para tareas de razonamiento general y código.
Claude Opus 4.6 (Anthropic - Feb 2026) Uso: API / Claude.ai | OSS: ❌ LMArena Elo: #1 Global
SWE-bench Verified: 80.9%
Terminal-Bench 2.0: #1
NIAH (1M): 100%
Equipos de agentes: Líder + subagentes especializados (implementación, documentación, revisión)
Contexto: 1M
Capacidad de formar equipos de agentes que colaboran en tareas complejas. La presión competitiva de este modelo obligó a Google a lanzar Gemini 3.1 Pro rápidamente.
Arcee Trinity Large (400B) (Arcee - Feb 2026) Uso Gratuito: ✔️ (Pesos HF) | OSS: ✔️ (Apache 2.0) NIAH (1M): 98.5%
MMLU: 86.5
Arquitectura: MoE con atención entrelazada
Contexto: 1M
El modelo open source con mejor rendimiento en contexto largo.
Grok 4.1 Fast (xAI - 2025/2026) Uso: API / Empresas | OSS: ❌ MATH: 83.0
GPQA: 88.0
τ²-bench (Telecom): 100% (rendimiento perfecto en tareas de telecomunicaciones)
LMArena: 4º global
Contexto: 2M
Especialista en razonamiento matemático y uso de herramientas empresariales. Se espera el lanzamiento de Grok 4.2 con capacidad de "aprendizaje rápido" en las próximas semanas.
DeepSeek V3.1 (DeepSeek - Feb 2026) Uso Gratuito: ✔️ (Pesos/API) | OSS: ✔️ (MIT) SWE-bench Verified: 66.0% (mejor OSS)
Agentic Bench (Signal65): 92.19% (#3 global)
MATH: 83.5%
GPQA: 92.19% (estimado)
Contexto: 164K
Modelo de propósito general con fortaleza en código y matemáticas. Disponible como API gratuita o para ejecución local. Integrado en AWS Bedrock.
OpenAI GPT-5.4 Thinking (OpenAI - Mar 2026) Uso: ChatGPT Plus/Team/Enterprise + API | OSS: ❌ Versión Pro disponible para usuarios Pro/Enterprise SWE-bench Pro: 57.7%
OSWorld-Verified: 75.0% (supera rendimiento humano: 72.4%)
GDPval: 83.0% (vs GPT-5.2: 70.9%)
BrowseComp (Pro): 89.3%
MMMU-Pro: 81.2%
Reducción de errores: -33% en afirmaciones falsas vs GPT-5.2
Contexto: 1M
Tool search: Reduce consumo de tokens un 47% en ecosistemas grandes de herramientas
Primer modelo de OpenAI con capacidad nativa de operar el ordenador: puede hacer clic, navegar y ejecutar acciones basándose en capturas de pantalla . Integra las capacidades de GPT-5.3-Codex con razonamiento profundo y agentes autónomos. Disponible en dos versiones: Thinking (ChatGPT Plus/Team) y Pro (para tareas extremas) .
Claude Code (Anthropic - 2026) Uso: API / GitHub Copilot / Xcode | OSS: ❌ SWE-bench Verified: 80.9% (líder en codificación)
Adopción empresarial: Meta, Netflix, Salesforce, Accenture
Preferencia: #1 en encuesta a desarrolladores
Integraciones: GitHub Copilot, Apple Xcode (soporte nativo)
El agente de código preferido por la comunidad técnica, con mejor rendimiento en SWE-bench Verified pero sin capacidades de operación de sistema operativo.
Gemma 3 4B (Google - 2025) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Parámetros: 4B
Uso principal: Dispositivos móviles, edge computing
Capacidades: Razonamiento básico, comprensión multilingüe
Contexto: 8k
La base de los modelos TranslateGemma y MiLMMT-46, que han logrado rendimiento SOTA en traducción multilingüe.
Phi-4 Mini (Microsoft - 2025) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Parámetros: 3.8B
Rendimiento: Comparable a modelos de 7B-13B en tareas de razonamiento
Entrenamiento: Datos de alta calidad curados
Contexto: 4k
Demuestra que la calidad de los datos de entrenamiento puede superar a la escala bruta.
Claude Opus 4.6 Thinking (Anthropic - Feb 2026) Uso: API / Claude.ai | OSS: ❌ LMArena Elo: #1 global (versión thinking)
Razonamiento profundo: SOTA en tareas complejas
Humanity's Last Exam: Líder en este benchmark de preguntas extremadamente difíciles
Contexto: 1M
La referencia absoluta para razonamiento de nivel experto.
Ant Group Ring-2.5-1T (Ant Group - Feb 2026) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ IMO 2025: 35/42 (medalla de oro)
CMO 2025: 105/126 (supera corte del equipo nacional chino)
Eficiencia en contexto largo: Reducción 10x en acceso a memoria
Arquitectura: Híbrida lineal, 63B parámetros activos
El primer modelo open source que alcanza nivel de medalla de oro en olimpiadas matemáticas.
Funcionalidad Agéntica y Toma de Decisiones
Claude Agent SDK (en Xcode 26.3) (SOTA en Agentes Integrados en IDE) Uso: Apple Developer Program (release candidate) | OSS: ❌ Integrado: Feb 2026 Visual verification: Captura de Xcode Previews para verificar interfaces
Razonamiento multi-proyecto: Comprensión de toda la arquitectura del proyecto
Ejecución autónoma: Tareas de larga duración sin supervisión constante
Model Context Protocol: Integración con Claude Code vía MCP
Capacidad de Claude para explorar la estructura completa de archivos, entender cómo se conectan los frameworks (SwiftUI, UIKit, Swift Data) e identificar dónde hacer cambios antes de escribir código .
OpenClaw (Ecosistema) Uso Gratuito: ✔️ (Auto-hospedado) | OSS: ✔️ 228k+ ⭐ · Creador en OpenAI GitHub ⭐: 228,000+ (#1 histórico)
Autonomía: Completa (ejecución 24/7 sin supervisión)
Ecosistema: +10,000 Skills comunitarios, 126+ startups basadas en OpenClaw
Integración IDE: Compatible con Cursor y Aider vía plugins comunitarios
El framework que ha redefinido el estándar de los agentes autónomos, ahora con un ecosistema de skills que permite extender sus capacidades a cualquier entorno .
Claude Opus 4.6 (Agent Teams) (SOTA en Orquestación Multi-Agente) Uso: API / Claude.ai (Max/Team/Enterprise) | OSS: ❌ Lanzado: Feb 2026 Terminal-Bench 2.0: #1
GDPval-AA: +144 Elo vs GPT-5.2 (mejor en tareas de alto valor económico)
Contexto largo: 1M tokens con Context compaction
Equipos de agentes: Subagentes en paralelo (implementación, documentación, revisión)
Integraciones: PowerPoint (creación automática de presentaciones), Excel (análisis financiero), Cowork (macOS)
Capacidad de formar equipos de agentes que colaboran en tareas complejas, con un líder que coordina y sintetiza resultados .
CrewAI (Multi-Agente) Uso Gratuito: ✔️ | OSS: ✔️ (MIT) Actualizado: Feb 2026 Framework: Multi-agente con roles (investigador, escritor, revisor, etc.)
Equipos: Paralelización de tareas, flujos de trabajo jerárquicos
Comunidad: 44k ⭐ en GitHub, +100 contribuidores activos
Integración OpenClaw: Compatible con skills de OpenClaw para automatización de sistema
El framework OSS más completo para definir y ejecutar equipos de agentes especializados, ahora con soporte para integraciones con el ecosistema OpenClaw .
GitHub Copilot (Agentes Multi-modelo) (SOTA en Plataformas de Desarrollo Agéntico) Uso: Copilot Pro+ / Enterprise | OSS: ❌ Actualizado: Ene-Feb 2026 GPT-5.2-Codex GA: Disponible general
Agentes disponibles: Claude + Codex en preview pública
Memoria agéntica: Captura insights del repositorio (28 días)
Sandboxing: Comandos en terminal con aislamiento
Copilot SDK: Technical preview para extensiones
La plataforma más completa para desarrollo agéntico, permitiendo elegir entre múltiples modelos y gestionar sesiones de forma unificada .
Aider Uso Gratuito: ✔️ (BYOK) | OSS: ✔️ (Apache 2.0) Actualizado: Continuamente Aider Polyglot: Resultados competitivos
Flexibilidad: Cualquier modelo (OpenAI, Anthropic, DeepSeek, etc.)
Integración Git: Commits automáticos con mensajes claros
Control: Total para desarrolladores
Ecosistema OpenClaw: Compatible con skills para automatización avanzada
La alternativa OSS más potente para programación agéntica en CLI, con la ventaja de poder usar modelos de bajo coste como DeepSeek .
Claude Code Security (SOTA en Agentes de Seguridad) Uso: Research preview en Claude Code | OSS: ❌ Lanzado: Feb 2026 Capacidades: Análisis de componentes, flujos de datos, detección de vulnerabilidades (inyección, bypass de autenticación)
Resultados: Claude Opus 4.6 descubrió 500+ vulnerabilidades desconocidas en proyectos open source
Salida: Explicación en lenguaje natural + parches sugeridos
Integración: Nativa en Claude Code
Capacidad de actuar como "red team" autónomo, identificando y parcheando vulnerabilidades sin intervención humana .
Aider + modelos de seguridad Uso Gratuito: ✔️ | OSS: ✔️ Flexible Flexibilidad: Uso de modelos fine-tuneados para seguridad
Control: Total sobre el proceso de análisis
Integración: Con sistemas de CI/CD vía scripts personalizados
Comunidad: Activa en desarrollo de skills de seguridad para OpenClaw
La combinación de un framework OSS flexible con modelos especializados permite construir pipelines de seguridad adaptados a necesidades específicas .
Aprendizaje Personalizado y Tutoría con IA
OpenAI GPT-5 (Modo Tutor) (SOTA en Tutoría Adaptativa y Precisión) Uso: ChatGPT Plus/Team/Enterprise | OSS: ❌ GPT-5.2: Feb 2026 Metodología: Aprendizaje adaptativo y socrático
Personalización: Ajuste al nivel y ritmo del estudiante
GPT Store: Tutores especializados creados por la comunidad
Benchmark matemático 2026: 90% (mejor en precisión)
Estudio académico 2026: "Parceiro intelectual para escrita"
El tutor de referencia para cualquier materia, con la mejor precisión numérica según auditorías independientes .
Google LearnLM (en Gemini for Education) Uso: Gratuito (vía Gemini) | OSS: ❌ Integrado en Gemini: Feb 2026 Principios pedagógicos: Aprendizaje activo, metacognición, personalización
Mejora demostrada: +5.5% en resolución de problemas novedosos vs. tutores humanos
Valoración académica: "Multimodalidade nativa e recursos para pesquisa e aprendizagem ativa"
La alternativa con base científica en pedagogía y fuerte integración multimodal.
Google Little Language Lessons (SOTA en Aprendizaje Contextual de Idiomas) Uso Gratuito: ✔️ (Google Labs) | OSS: ❌ Lanzamiento: Ene-Feb 2026 Enfoque: Lecciones breves basadas en situaciones cotidianas
Tecnología: Gemini + Cloud Text-to-Speech para pronunciación
Herramientas: Tiny Lesson, Slang Hang, Word Cam
Idiomas: +40 idiomas disponibles
Aprendizaje práctico, contextual y gratuito sin estructura curricular rígida.
ELSA Speak Uso Gratuito: ✔️ (Básico) | Pro: Pago | OSS: ❌ Actualizado: Feb 2026 Especialización: Pronunciación y acento (neutro americano)
Ejercicios: +40,000 prácticas en contextos diversos (viajes, entrevistas)
Feedback: Análisis fonémico en tiempo real
Preparación: IELTS, Pearson PTE, TOEFL
La mejor opción para perfeccionar la pronunciación con precisión científica.
Wolfram Alpha (Step-by-Step) (SOTA en Resolución Guiada de Problemas Técnicos) Uso Gratuito: ✔️ (Limitado) | Pro: ~$5/mes | OSS: ❌ Actualizado: Continuamente Dominios: Matemáticas, Física, Química, Ingeniería, Estadística
Calidad: Rigurosa, basada en conocimiento experto computacional
Generación: Práctica ilimitada con problemas similares
Visualización: Gráficos interactivos y pasos detallados
El estándar de oro para estudiantes de ciencias que necesitan entender el proceso.
Photomath (con IA) Uso Gratuito: ✔️ (Básico) | Plus: ~$7/mes | OSS: ❌ Actualizado: Feb 2026 Dominios: Matemáticas (desde aritmética hasta cálculo)
Método de entrada: Escaneo con cámara (ultrarrápido)
Calidad: Explicaciones claras y visuales
Funciones IA: Práctica personalizada basada en el progreso
La alternativa más accesible y popular para matemáticas en dispositivos móviles.
NotebookLM (Gemini 3.1 Pro) (SOTA en Generación de Contenido Educativo Personalizado) Uso Gratuito: ✔️ | OSS: ❌ Actualizado: Feb 2026 Novedades Feb 2026: "Video Overviews" con estilos visuales (acuarela, pizarra, anime), exportación a PPTX editable, compatibilidad con Google Slides (próximamente)
Lecture Mode: Audio de hasta 30 minutos con un solo ponente, ideal para cursos y materiales densos
Confiabilidad académica: Elevada confiabilidad académica.
Generación: Podcasts, FAQs, guías de estudio, líneas de tiempo, infografías, PPTX, Learning Guide con tutoría socrática, quizzes, flashcards, mapas mentales
Capacidad: Hasta 50 fuentes por cuaderno (PDFs, audios, presentaciones, YouTube, Google Sheets)
Teach Anything (para profesores) Uso Gratuito: ✔️ | OSS: ✔️ Financiado por Institute for Humane Studies · The New York Times: 2026 Mencionado en The New York Times: "Open access revolution"
Para quién: Profesores universitarios y de secundaria que quieran crear sus propias herramientas
Modelos utilizados: Mistral, Llama y otros LLMs open source
Lo que permite: Diseñar y desplegar aplicaciones educativas de IA sin programar
Características clave: Apps permanentemente gratuitas, sin login para estudiantes, privacidad total, fácilmente compartibles
Qwen2.5-VL-7B-Instruct (Qwen - 2026) Uso Gratuito: ✔️ (Pesos) | API: $0.05/M tokens | OSS: ✔️ Capacidades: Comprensión visual (gráficos, diagramas), análisis de videos educativos, localización de objetos
Contexto: 33K tokens
Precio (SiliconFlow): $0.05/M tokens entrada y salida
Perfecto para: Analizar materiales educativos con texto e imágenes (libros de texto, problemas de ciencia con diagramas)
Modelo multimodal asequible para estudiantes y educadores con presupuestos limitados .
Llama 3.1 8B Instruct (Meta - 2025) Uso Gratuito: ✔️ (Pesos) | API: $0.06/M tokens | OSS: ✔️ Soporte multilingüe: +100 idiomas
Contexto: 33K tokens
Entrenamiento: 15 billones de tokens con RLHF
Precio (SiliconFlow): $0.06/M tokens
Perfecto para: Plataformas de tutoría que atienden poblaciones estudiantiles diversas, diálogo instructivo seguro
El modelo open source con mejor relación calidad-precio para educación multilingüe .
GLM-4.5V (Zhipu AI) (SOTA en Razonamiento STEM) Uso Gratuito: ✔️ (Pesos) | API: $0.14/M entrada, $0.86/M salida | OSS: ✔️ Lanzado: 2026 Arquitectura: MoE (106B params totales, 12B activos)
Innovación técnica: 3D-RoPE para relaciones espaciales 3D
'Modo Pensamiento': Equilibrio entre rapidez y razonamiento profundo
Contexto: 66K tokens
Resolución: Soporta imágenes 4K
Precio (SiliconFlow): $0.14/M entrada, $0.86/M salida
Perfecto para: Educación STEM avanzada, problemas complejos que requieren análisis visual profundo y razonamiento matemático
El modelo de código abierto con mejor rendimiento en benchmarks multimodales, ideal para universidades e instituciones que necesitan máxima capacidad.
Hugging Face (Modelos Educativos) Uso Gratuito: ✔️ | OSS: ✔️ +1M modelos disponibles Acceso: +1 millón de modelos open source
Coste: Gratuito para investigación y uso personal
Comunidad: La mayor comunidad de IA del mundo
Valor para educadores: Permite explorar, probar y descargar modelos especializados para necesidades educativas concretas sin depender de APIs comerciales
El punto de partida para cualquier profesor que quiera experimentar con IA open source.
Ayuda en Investigación
Consensus (Síntesis de Evidencia) (SOTA en Síntesis de Evidencia) Uso Gratuito: ✔️ (Búsquedas limitadas) | OSS: ❌ Actualizado: Feb 2026 Función Principal: Extracción de Hallazgos Científicos
Métrica Clave: Síntesis de consenso (+200M papers)
Precisión de Respuestas: Muy Alta
Filtros: Por tipo de estudio, fecha, acceso abierto
Responde preguntas mostrando el porcentaje de papers que apoyan cada postura.
Scite.ai Uso Gratuito: ✔️ (Limitado) | Pro: Pago | OSS: ❌ Actualizado: Feb 2026 Función Principal: Verificación de Citas ("Smart Citations")
Base de Datos: +250M de artículos, capítulos, preprints y datasets
Novedad Feb 2026: Scite MCP: Integración directa con ChatGPT, Claude, Copilot, Cursor y Claude Code. Los asistentes pueden buscar dentro de artículos, evaluar cómo han sido citados, y acceder a PDFs sin salir del flujo de trabajo
Ideal para evaluar el impacto y la fiabilidad de un paper por cómo ha sido citado, ahora directamente desde tus asistentes de IA favoritos .
Elicit (Revisión de Literatura) (SOTA en Automatización de Revisiones Sistemáticas) Uso Gratuito: ✔️ (Créditos) | OSS: ❌ Actualizado: Feb 2026 Función Principal: Extracción estructurada de datos
Base de Datos: +200M papers (Semantic Scholar)
Automatización: Búsqueda, filtrado, extracción y síntesis
Exportación: Tablas, resúmenes, BibTeX
Permite pasar de una pregunta de investigación a una tabla con los hallazgos clave de decenas de papers en minutos.
SciSpace (Typeset) Uso Gratuito: ✔️ (Limitado) | OSS: ❌ Actualizado: Feb 2026 Función Principal: Comprensión de papers vía chat
Base de Datos: +270M papers
Métrica Clave: Análisis conversacional, generación de ilustraciones científicas con IA
Integraciones: Zotero, Mendeley, Chrome extension
Extracción: Resúmenes, ecuaciones, tablas
Excelente para entender un paper complejo haciéndole preguntas directamente.
Claude Opus 4.6 (Análisis Profundo) (SOTA en Extracción Fiel de Información) Uso Gratuito: ❌ | OSS: ❌ Lanzado: Feb 2026 NIAH (200k): 100%
FEVER: 97.2%
QASPER: 86.5%
GPQA: 87.8%
Contexto: 1M
Estudio de detección humana (feb 2026): más del 90% de participantes no distinguen sus outputs de contenido humano .
Llama 3.1 405B (1M) Uso Gratuito: ✔️ (Modelos) | OSS: ✔️ (Llama Lic) Lanzado: 2024 NIAH (1M): ~99.2%
GPQA: 58.2%
QASPER: ~75.3%
MMLU: 86.1%
Contexto: 1M
Gemini 3.1 Pro (Análisis Masivo) (SOTA en Análisis Multimodal a Gran Escala) Uso Gratuito: ✔️ (AI Studio) | OSS: ❌ Lanzado: Feb 2026 NIAH (1M): 99.9%
MMMU: 84.2%
GPQA: 88.5%
QASPER: 86.0%
Contexto: 1M (con multimodalidad)
Kimi (Moonshot AI) Uso Gratuito: ✔️ | OSS: ❌ Actualizado: Feb 2026 NIAH (1M): ~98.5%
Análisis de Ficheros: PDF, Word, Excel, PPT, imágenes
Contexto: 1M+ (gratuito)
La mejor alternativa gratuita para análisis de contexto masivo, especialmente para usuarios fuera de China vpn.
Perplexity Pro (RAG) (SOTA en Búsqueda con Fuentes) Uso Gratuito: ✔️ (Limitado) | OSS: ❌ Actualizado: Feb 2026 Calidad de RAG: SOTA
Precisión contextual: 94%
Transparencia en riesgos: 89%
Deep Research: Síntesis de 50+ fuentes
Modo "Pro" (feb 2026): Búsqueda en papers científicos
El mejor para respuestas rápidas y verificadas con fuentes directas.
Phind (Modo Investigación) Uso Gratuito: ✔️ | OSS: ❌ Actualizado: Feb 2026 Especialización: Código y preguntas técnicas (92% paste-ready)
Precisión general: 83%
Velocidad: 1.9 segundos de respuesta
Integración: VS Code nativa
Enfoque recomendado: Usar Perplexity para investigación y planificación, Phind para implementación y debugging
Optimizado para respuestas técnicas precisas con ejemplos de código, aunque menos fiable para investigación general .
Generación de Voz y Música
ElevenLabs V3 (SOTA en Voz Realista y Clonación) Uso Gratuito: ✔️ (Créditos mensuales) | Pro: Pago | OSS: ❌ Lanzado: Feb 2026 MOS (Naturalidad): >4.5
Clonación: Muestra de 5 segundos, preservación emocional
Latencia streaming: <200ms
Mejora precisión v3: 68% menos errores en benchmark interno (27 categorías, 8 idiomas). Tasa de error global: 4.9%
Idiomas: +30 con acentos regionales
El estándar de la industria para voces de alta calidad en producción profesional.
Fish Speech V1.5 (fishaudio - 2026) Uso Gratuito: ✔️ (Pesos) | API: $15/M bytes | OSS: ✔️ TTS Arena ELO: 1339
WER (inglés): 3.5%
CER (inglés): 1.2%
CER (chino): 1.3%
Arquitectura: DualAR (doble transformer autoregresivo)
La alternativa open source con la mejor precisión multilingüe del mercado. Soporta múltiples idiomas con 300k+ horas de entrenamiento .
Suno AI v4 (SOTA en Generación de Canciones) Uso Gratuito: ✔️ (Créditos diarios) | Pro: Pago | OSS: ❌ Lanzado: Feb 2026 Calidad vocal: SOTA (voces casi indistinguibles de humanas)
Control de estructura: Verso, estribillo, puente
Duración: Hasta 4 minutos por canción
Rango vocal: 30-45 semitonos
La herramienta de referencia para creadores que quieren generar canciones completas con letra y melodía coherente .
Udio Uso Gratuito: ✔️ (Créditos) | Pro: Pago | OSS: ❌ Actualizado: Feb 2026 Calidad de producción: Muy alta (énfasis en mezcla y masterización)
Extensión: Añadir secciones a temas existentes
Replace section: Corrige problemas específicos
Preferido por muchos músicos por su sonido más pulido y posibilidades creativas .
Stable Audio Open 2.0 (SOTA en Efectos de Sonido y Diseño Sonoro) Uso Gratuito: ✔️ (Pesos) | API: Pago | OSS: ✔️ Actualizado: Feb 2026 Duración máxima: 47 segundos (ideal para SFX y loops)
Calidad: 44.1kHz estéreo
Tipos de salida: Efectos, stems, loops, instrumentales
Fine-tuning personal: Sí (con grabaciones propias)
La referencia para creadores que necesitan efectos de sonido personalizados y libres de derechos.
CosyVoice2-0.5B (FunAudioLLM - 2026) Uso Gratuito: ✔️ (Pesos) | API: $7.15/M bytes | OSS: ✔️ Latencia streaming: 150ms (ultra-baja)
Mejora vs v1.0: 30-50% menos errores de pronunciación
MOS: 5.53 (vs 5.4 anterior)
Idiomas: Chino (incluye dialectos: cantonés, sichuanés, shanghainés, tianjinés), inglés, japonés, coreano
Cross-lingual:
Perfecto para aplicaciones que requieren respuestas de voz en tiempo real con mínima latencia .
ElevenLabs V3 (Diálogos) (SOTA en Voz para Diálogos) Uso: API / Web | OSS: ❌ Lanzado: Feb 2026 MOS (Naturalidad): >4.4
Control emocional: Énfasis, tono, ritmo ajustable
Duración: Optimizado para párrafos largos y conversaciones
TTS expresivo: Capta matices y entonación contextual
Mejora en interpretación contextual: 68% menos errores en símbolos y números
El mismo modelo SOTA, con mejoras significativas en interpretación de contexto .
ChatTTS Uso Gratuito: ✔️ | OSS: ✔️ Actualizado: 2025 MOS (Naturalidad): ~4.1
Enfoque: Conversaciones y diálogos naturales
Control: Tono y emoción ajustables
Comunidad: Muy activa, con numerosos fine-tunes
Alternativa OSS estable para diálogos conversacionales.
Generación de Imágenes
GPT Image 1.5 (OpenAI) (SOTA en Generación General) Uso: ChatGPT Plus/Pro/API | OSS: ❌ Lanzado: Dic 2025 LM Arena Elo: 1264
Renderizado de texto: SOTA (tipografía compleja, logos, señalética)
Fotorrealismo: Excepcional
Integración: Nativa con ChatGPT, flujos multimodales sin fisuras
El nuevo estándar para materiales de marketing profesionales, maquetas de producto y composiciones complejas que requieren texto legible.
Flux 2 Max Uso Gratuito: ✔️ (Pesos) | API: Pago | OSS: ✔️ Lanzado: 2025 LM Arena Elo: 1168
Soporte LoRA: Sí (miles de modelos comunitarios)
Ejecución local: Posible con RTX 4090
Comunidad: Activa en Civitai con miles de variantes
El rey del open source para quienes necesitan control absoluto, privacidad o modelos personalizados.
Gemini 3.1 Pro Image (Nano Banana Pro) (Google - Feb 2026) Uso Gratuito: ✔️ (AI Studio) | API: Pago | OSS: ❌ LM Arena Elo: 1235+ (estimado)
Latencia: 3-5 segundos por imagen
Capacidades destacadas: Comprensión de identidades (genera retratos de personajes famosos con logos corporativos), generación multilingüe (menús en 4 idiomas con texto preciso), razonamiento cultural (acupuntura, quiromancia), resolución matemática con pasos visuales
Integración: Google Workspace, Cloud Platform, búsqueda
Modelo con enfoque "primero razona, luego dibuja", demostrando comprensión de relaciones espaciales, física y lógica antes de generar la imagen.
Flux 2 Flex Uso Gratuito: ✔️ (Pesos) | API: Pago | OSS: ✔️ Lanzado: 2025 LM Arena Elo: 1157
Velocidad: 2-4 segundos (más rápida que Max)
Requisitos: Menor computación, apto para más entornos
Calidad: Ligeramente inferior a Max, pero excelente para alto volumen
La opción open source cuando la velocidad de iteración es prioritaria sobre el máximo detalle.
Flux 1.1 Pro Ultra (SOTA en Resolución y Control) Uso: API vía plataformas (SiliconFlow, etc.) | OSS: ❌ (API) Lanzado: 2025 Resolución máxima: 4 megapíxeles (2048x2048) / 2K
Fotorrealismo: Superior, con modos Ultra (composición precisa) y Raw (texturas naturales)
Precio: ~$0.06/imagen vía SiliconFlow
La referencia para producción visual comercial donde el detalle y la fidelidad son críticos.
Flux.1 Kontext Pro Uso: API | OSS: ❌ (API) Lanzado: 2025 Comprensión semántica: Avanzada, con soporte de imágenes de referencia
Control local preciso: Ediciones detalladas manteniendo contexto global
Precio: ~$0.04/imagen
Ideal para diseño de marcas, visualización de productos e ilustración narrativa que requiere coherencia en múltiples iteraciones.
Hunyuan Image 3.0 (Tencent) (SOTA en Edición Avanzada) Uso: API / "元宝" App | OSS: ❌ Versión Instruct: Ene 2026 LM Arena Elo: 1152 (texto-imagen)
Nuevas capacidades (Instruct): Edición imagen-a-imagen (añadir/eliminar objetos), fusión multi-imagen, estilo "think first, then edit" con Chain of Thought
Arquitectura: MoE 80B params totales, 13B activos
Especialización: Edición precisa, contenido asiático
Precio: ~$0.02-0.05/imagen
La elección para edición avanzada con comprensión profunda de instrucciones y manipulación detallada de elementos en la imagen.
Seedream 5.0 (ByteDance) Uso: API / CapCut / JI Meng | OSS: ❌ Lanzado: Feb 2026 LM Arena Elo: Competitivo con Nano Banana Pro
Capacidades clave: Búsqueda en internet en tiempo real, comprensión de prompts abstractos, renderizado de texto preciso, edición controlada
Resolución: 2K (directo) / 4K (con IA)
Precio: Económico, con usos gratuitos
Perfecto para crear imágenes que requieren conocimiento específico, infografías, carteles con texto y conceptos abstractos. Posicionado como el competidor directo y más económico de Gemini 3.1 Pro Image .
Generación de Vídeo
Seedance 2.0 Pro (ByteDance) (SOTA en Control Creativo y Popularidad) Uso: Freemium / API / Jimeng / Doubao | OSS: ❌ Lanzado: Feb 2026 Ranking comunitario: #1 (por encima de Kling 3.0 y Sora 2)
Referencias: Hasta 12 archivos (9 imágenes + 3 vídeos + 3 audios)
Lip-sync: Precisión fonémica, 8 idiomas (inglés, chino, japonés, coreano, español, indonesio, cantonés, sichuanés)
Resolución: Nativa 2K (2160p)
Beat-sync: Sí, con audio multi-pista
Dual-channel audio: Efectos ASMR, sonido ambiental inmersivo
Precio: ~$0.10/minuto (80% más barato que competidores)
Definido por la comunidad como el "Game Changer" y "Nuevo Rey del AI Video". The Information, CNBC y The Economic Times lo destacan como el modelo que supera a Sora y Veo en velocidad y control narrativo .
Kling 3.0 Pro (Kuaishou) Uso Gratuito: ✔️ (Créditos) | API: $0.3-0.5/10s | OSS: ❌ Lanzado: Feb 2026 Elo: Competitivo con Seedance
Resolución: 4K nativo (3840×2160) a 60fps (el único)
Duración máxima: 120 segundos (el más largo)
Storyboard: Hasta 6 cortes de cámara
Idiomas: Inglés, chino, japonés, coreano, español (con acentos regionales)
Perfecto para workflows que requieren máxima resolución, duración extendida y control de cámara profesional .
Sora 2 Pro (OpenAI) (SOTA en Narrativa y Física) Uso: ChatGPT Pro ($200/mes) | API: $0.50/seg | OSS: ❌ Lanzado: 2025 Duración máxima: 25 segundos (único en su clase)
Física realista: SOTA en interacciones complejas
Complejidad de escena: Maneja multi-personaje con interacciones naturales
Resolución: 1080p
Storyboard: Sí, con edición narrativa
Audio: Nativo con diálogo
La opción para proyectos donde la duración extendida, la física realista y la complejidad narrativa son prioritarias .
Veo 3.1 (Google DeepMind) Uso: API / Vertex AI | OSS: ❌ Actualizado: Feb 2026 Fotorrealismo: #1 en texturas y materiales
Duración: 8 segundos (el más corto, ideal para hero shots)
Material rendering: Superior (piel, telas, vidrio, agua)
Vocabulario técnico: Comprende f-stop, focal length, lighting ratios
Audio: Nativo sincronizado
La elección para hero shots y fotografía de producto que requiere máximo realismo .
Runway Gen-4.5 + GWM-1 (SOTA en Herramientas de Edición y Modelos de Mundo) Uso: Freemium (pago) / API / SDK Robótica | OSS: ❌ Gen-4.5: Dic 2025 · GWM-1: Feb 2026 Elo (Gen-4.5): 1230 (#4)
Estudio de detección humana (feb 2026): >90% de participantes no distinguen Gen-4.5 de vídeos reales
Motion tracking: Avanzado
Control de cámara: Director Mode
Novedad GWM-1 (feb 2026): Familia de Modelos de Mundo General (GWM Worlds, Avatars, Robotics) con SDK para robótica y simulación
Integración de terceros: Kling 3.0, Sora 2 Pro, WAN2.2 Animate, GPT-Image-1.5 disponibles dentro de Runway
La herramienta de referencia para profesionales que necesitan control granular y simulación realista, con una suite que va más allá de la generación simple.
CogVideoX-5b-I2V Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Lanzado: 2025 VRAM mínima: 4.4GB (INT8 cuantizado)
Comunidad: 8,000+ estrellas en GitHub
Ecosistema: Amplio, con múltiples forks y herramientas
Especialización: Imagen a vídeo con control fino
El modelo con el ecosistema más maduro para quienes necesitan personalización total.
Pika 2.5 (SOTA en Velocidad y Creatividad Social) Uso Gratuito: ✔️ (Créditos diarios) | Pro: Pago | OSS: ❌ Lanzado: Nov 2025 Elo: 1095
Velocidad: 30-90 segundos por generación (Turbo: 12s)
Lip sync:
Pikaffects: Único en su clase
La opción gratuita más accesible para creadores de contenido social, con créditos diarios renovables.
HunyuanVideo-1.5 (Tencent) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Lanzado: Ene 2026 Elo: 1022
Requisitos: RTX 4090 con 13.6GB VRAM
Duración: Hasta 10 segundos en 1080p
Text compliance: >95%
El modelo open source más reciente, optimizado para ejecución en hardware de consumo con excelente comprensión de prompts.
Ingeniería de Software Autónoma
Cognition Labs Devin (Enterprise) (SOTA en Automatización de Software Empresarial) Uso: Enterprise (vía Synechron y sector público) | OSS: ❌ Partnership: Feb 2026 · Expansión federal: Mar 2026 Casos de Uso Reales: Modernización COBOL, Java, SAS-to-PySpark
Certificación: Ingenieros entrenados por Cognition
Integración: Con aceleradores de Synechron
SWE-Bench (Empresarial): Puntuaciones líderes en entornos legacy
Define el estándar para agentes de ingeniería en banca, seguros y sector público con gobernanza y cumplimiento normativo.
OpenClaw Uso Gratuito: ✔️ (Auto-hospedado) | OSS: ✔️ Creado por Peter Steinberger (ahora en OpenAI) · 228k+ ⭐ GitHub ⭐: 228,000+ (#1 histórico)
Autonomía: Completa (ejecución 24/7 sin supervisión)
Ecosistema: +10,000 Skills comunitarios, 126+ startups basadas en OpenClaw
Versiones SaaS: Kimi Claw, MaxClaw (bajo demanda)
Impacto: OpenClaw es ya el mayor consumidor de tokens en OpenRouter
El framework que ha redefinido el estándar de los agentes autónomos open source. Su creador, Peter Steinberger, fue contratado por OpenAI para liderar su estrategia de agentes.
OpenAI GPT-5.4 (OpenAI - Mar 2026) Uso: ChatGPT Plus/Team/Enterprise + API | OSS: ❌ Versión Pro disponible para usuarios Pro/Enterprise SWE-bench Verified: 79.2% (según tabla Vals.ai)
SWE-bench Pro: 57.7% (líder)
OSWorld-Verified: 75.0% (supera rendimiento humano: 72.4%)
GDPval: 83.0% (vs GPT-5.2: 70.9%)
BrowseComp (Pro): 89.3%
Contexto: 1M
Tool search: Reduce consumo de tokens un 47% en ecosistemas grandes de herramientas
Evolución directa de GPT-5.3-Codex, integrando capacidades de código, razonamiento profundo y control de ordenador. Disponible en GitHub Copilot como opción seleccionable.
Claude Code (Anthropic) Uso: API / GitHub Copilot / Xcode | OSS: ❌ #1 en preferencia desarrolladores SWE-bench Verified: 80.9% (líder en codificación)
Terminal-Bench 2.0: 65.4%
Adopción empresarial: Meta, Netflix, Salesforce, Accenture
Integraciones: GitHub Copilot, Apple Xcode (soporte nativo)
El agente de código preferido por la comunidad técnica, con mejor rendimiento en SWE-bench Verified.
Cursor (Agentes de Larga Duración) (SOTA en IDEs Agénticos) Uso Gratuito: ✔️ (Plan gratuito) | OSS: ❌ Actualizado: Feb 2026 Novedades Feb 2026: Agentes de larga duración, subagentes paralelos
Trazabilidad: Cursor Blame (atribución IA/humano)
Funciones Clave: Planificación autónoma, ejecución sin supervisión
Contexto multi-agente: Capacidad de ejecutar múltiples agentes especializados simultáneamente
La experiencia más avanzada en desarrollo con agentes dentro del editor, ahora compitiendo directamente con GitHub Copilot que ha integrado múltiples modelos.
Aider Uso Gratuito: ✔️ | OSS: ✔️ (Apache 2.0) Actualizado: Continuamente Benchmarks propios: Resultados competitivos en Aider Polyglot
Flexibilidad: Modelos locales o remotos (OpenAI, Claude, DeepSeek, etc.)
Control: Total para desarrolladores
Integración con OpenClaw: Compatible con el ecosistema de skills de OpenClaw para automatización avanzada
La alternativa OSS más potente para la programación agéntica en CLI, ahora parte de un ecosistema más amplio de agentes autónomos.
Traducción Automática
DeepL Pro (SOTA en Traducción de Textos Largos) Uso Gratuito: ✔️ (Limitado) | Pro: Pago | OSS: ❌ Actualizado: Mar 2026 MOS (textos largos): Muy alto en idiomas europeos
Formatos: PDF, DOCX, PPTX con preservación de maquetación
Especialización: Patentes, documentos legales, marketing
Limitación: 33 idiomas (principalmente europeos)
La referencia para traducción profesional donde el formato y la precisión terminológica son críticos.
Google Translate (Gemini) Uso Gratuito: ✔️ | OSS: ❌ Actualizado: Mar 2026 Idiomas: 249 soportados
Modalidades: Texto, voz, imagen, documentos
Precisión: 16/21 traducciones precisas en estudios con términos técnicos
NMT: Motor neuronal con 10 años de evolución
La opción gratuita más versátil y con mayor cobertura idiomática.
MiLMMT-46 (Gemma3-based) (SOTA en Traducción Open Source) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Lanzado: Feb 2026 WMT24 (promedio 46 idiomas): Supera a Seed-X, HY-MT-1.5 y TranslateGemma
Comparativa: Rendimiento competitivo con Google Translate y Gemini 3 Pro
Arquitectura: Continual pretraining + instruction finetuning sobre Gemma3
El primer modelo open source que iguala a sistemas propietarios en traducción multilingüe a gran escala.
Google TranslateGemma Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Lanzado: Ene 2026 Idiomas: 55 oficiales + 500 pares adicionales
Versiones: 4B (móvil), 12B (portátil), 27B (cloud)
WMT24++: 12B supera a Gemma3 27B
Capacidades: Traducción de texto en imágenes sin fine-tuning específico
Ejecución local: Posible en móvil (4B) y portátil (12B) sin conexión a internet
La apuesta de Google por la democratización de la traducción con modelos ligeros, transparentes y que preservan la privacidad al funcionar offline.
Mistral Voxtral Realtime (SOTA en Traducción en Tiempo Real) Uso Gratuito: ✔️ (Pesos abiertos) | API: Pago | OSS: ✔️ (Apache 2.0) Lanzado: Feb 2026 Latencia: <200ms (vs 2 segundos de Google)
Idiomas: 13 idiomas (incl. español, francés, alemán)
Tamaño: 4B parámetros (ejecutable en móvil)
Privacidad: Procesamiento local, sin nube
Arquitectura: Modelo especializado en transcripción y traducción, no un LLM generalista
Un paso hacia la conversación fluida entre idiomas sin barreras de latencia, con la ventaja de ser open source y ejecutable localmente.
Gemini 3 Pro (Traducción) Uso Gratuito: ✔️ (Limitado) | OSS: ❌ Actualizado: Feb 2026 Latencia: ~2 segundos
Contexto: Traducción conversacional con comprensión de matices y emociones
Integración: Dentro del asistente Gemini, con capacidad de 200 idiomas vía Google Translate
Uso: "Responde en inglés", "traduce esto" como parte natural de la conversación
Ideal para conversaciones informales donde el contexto prima sobre la latencia, con la ventaja de la multimodalidad y el ecosistema Google.
Qwen3-8B (SOTA en Cobertura Multilingüe) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Lanzado: 2026 Idiomas: +100 lenguas y dialectos
Contexto: 131K tokens
Modos: Razonamiento profundo / respuesta rápida (intercambiable)
Capacidades: Traducción multilingüe, código, razonamiento matemático
Precio (API): ~$0.06/M tokens
El modelo de propósito general con mayor cobertura idiomática, ideal para aplicaciones que necesitan traducción en lenguas minoritarias además de las principales.
Llama 3.1 8B Instruct Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Lanzado: 2025 Entrenamiento: 15 billones de tokens
RLHF: Sí (seguridad y utilidad)
Contexto: 33K tokens
Benchmarks: Supera a muchos modelos cerrados en tareas multilingües
Conocimiento: Actualizado a diciembre 2023
La opción más robusta para aplicaciones que requieren traducción con alto estándar de seguridad y naturalidad conversacional.