Claves de la IA: Comparativa en funcionalidades - febrero del 2026 -

Agentes de Propósito General: Inteligencia, Razonamiento, Acción...
Gemini 3.1 Pro Preview (Google - Feb 2026) Uso: API (pago) / AI Studio / NotebookLM Pro | OSS: ❌ GPQA: 88.5
MMLU-Pro: 89.0
ARC-AGI-2: 77.1%
Capacidades destacadas: Gráficos interactivos en tiempo real, simulación 3D, integración con Google Maps
Contexto: 1M
Diseñado para tareas donde una respuesta simple no es suficiente.
GLM-5 (744B) (Zhipu - Feb 2026) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ (MIT) GPQA: 81.5
SWE-Bench: 77.8%
MMLU: 88.5
Contexto: 128k
El modelo open source más potente para tareas de razonamiento general y código.
Claude Opus 4.6 (Anthropic - Feb 2026) Uso: Premium ($20/mes) | OSS: ❌ LMArena Elo: #1 Global
Terminal-Bench 2.0: #1
GDPval-AA: +144 Elo vs GPT-5.2
NIAH (1M): 100%
Equipos de agentes: Líder + subagentes especializados
Contexto: 1M
Capacidad de formar equipos de agentes que colaboran en tareas complejas.
Arcee Trinity Large (400B) (Arcee - Feb 2026) Uso Gratuito: ✔️ (Pesos HF) | OSS: ✔️ (Apache 2.0) NIAH (1M): 98.5%
MMLU: 86.5
Arquitectura: MoE con atención entrelazada
Contexto: 1M
El modelo open source con mejor rendimiento en contexto largo.
Grok 4.1 Fast (xAI - Feb 2026) Uso: API / Empresas | OSS: ❌ MATH: 83.0
GPQA: 88.0
τ²-bench (Telecom): 100%
LMArena: 4º global
Contexto: 2M
Especialista en razonamiento matemático y uso de herramientas empresariales.
DeepSeek-V2.5 (DeepSeek - 2025) Uso Gratuito: ✔️ (Pesos/API) | OSS: ✔️ MATH: 78.1
HumanEval: 89%
LiveCodeBench: 41.8%
Contexto: 128k
La alternativa open source más sólida para tareas de razonamiento y código.
OpenAI GPT-5.2 (OpenAI - Feb 2026) Uso: ChatGPT Plus/Team/Enterprise | OSS: ❌ MMLU-Pro: 88.1
Velocidad: Optimización equilibrio velocidad/precisión
HW Partnership: Acuerdo con Broadcom para chips personalizados
Contexto: 256k
Modelo optimizado para producción a gran escala con mejor eficiencia.
DeepSeek V4 (Próximamente) (DeepSeek - Feb 2026) Uso: Gratis / API barata | OSS: ✔️ (MIT) Arquitectura mHC + Engram: Memoria condicional para estabilidad y contexto ultra-largo
ARC-AGI-2: 71.5% (esperado)
Eficiencia: 30% más eficiente que V3
Contexto: 1M+ (esperado)
El modelo open source más anticipado del año.
Dola Seed 2.0 Pro (Dola AI - Feb 2026) Uso: API / Web | OSS: ❌ LMArena Elo: 6º global
Rendimiento/tamaño: Excelente relación
Posicionamiento: Mejor modelo emergente de 2026
Contexto: 128k
La gran sorpresa del ranking, compitiendo directamente con los gigantes.
Nanbeige4.1-3B (Nanbeige - Feb 2026) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Tool calls: Hasta 600 turnos consecutivos
Rendimiento: Supera a Qwen3-30B-A3B
Benchmarks: Resultados competitivos en razonamiento y código
Contexto: 32k
Demuestra que los modelos pequeños pueden lograr competencia generalista.
Claude Opus 4.6 Thinking (Anthropic - Feb 2026) Uso: Premium ($20/mes) | OSS: ❌ LMArena Elo: #1 global (versión thinking)
Razonamiento profundo: SOTA en tareas complejas
Humanity's Last Exam: Líder
Contexto: 1M
La referencia absoluta para razonamiento de nivel experto.
Ant Group Ring-2.5-1T (Ant Group - Feb 2026) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ IMO 2025: 35/42 (medalla de oro)
CMO 2025: 105/126 (supera corte del equipo nacional chino)
Eficiencia en contexto largo: Reducción 10x en acceso a memoria
Arquitectura: Híbrida lineal, 63B parámetros activos
Integración: Compatible con Claude Code y OpenClaw
El primer modelo open source que alcanza nivel de medalla de oro en olimpiadas matemáticas.
Aprendizaje Personalizado y Tutoría con IA
OpenAI GPT-5 (Modo Tutor) (SOTA en Tutoría Adaptativa) Uso: ChatGPT Plus/Team/Enterprise | OSS: ❌ GPT-5.2: Feb 2026 Metodología: Aprendizaje adaptativo y socrático
Personalización: Ajuste al nivel y ritmo del estudiante
GPT Store: Tutores especializados creados por la comunidad
Disponibilidad: GPT-5.2 Instant, Thinking y Pro
El tutor de referencia para cualquier materia, desde humanidades hasta ciencias.
Google LearnLM (en Gemini for Education) Uso: Gratuito (vía Gemini) | OSS: ❌ Integrado en Gemini: Feb 2026 Principios pedagógicos: Aprendizaje activo, metacognición, personalización
Mejora demostrada: +5.5% en resolución de problemas novedosos vs. tutores humanos
Herramientas: "Gems" para crear asistentes docentes personalizados
La alternativa con base científica en pedagogía.
Google Little Language Lessons (SOTA en Aprendizaje Contextual de Idiomas) Uso Gratuito: ✔️ (Google Labs) | OSS: ❌ Lanzamiento: Ene-Feb 2026 Enfoque: Lecciones breves basadas en situaciones cotidianas
Tecnología: Gemini + Cloud Text-to-Speech para pronunciación
Herramientas: Tiny Lesson, Slang Hang, Word Cam
Idiomas: +40 idiomas disponibles
Aprendizaje práctico, contextual y gratuito sin estructura curricular rígida.
ELSA Speak Uso Gratuito: ✔️ (Básico) | Pro: Pago | OSS: ❌ Actualizado: Feb 2026 Especialización: Pronunciación y acento (neutro americano)
Ejercicios: +40,000 prácticas en contextos diversos (viajes, entrevistas)
Feedback: Análisis fonémico en tiempo real
Preparación: IELTS, Pearson PTE, TOEFL
La mejor opción para perfeccionar la pronunciación con precisión científica.
Wolfram Alpha (Step-by-Step) (SOTA en Resolución Guiada de Problemas Técnicos) Uso Gratuito: ✔️ (Limitado) | Pro: ~$5/mes | OSS: ❌ Actualizado: Continuamente Dominios: Matemáticas, Física, Química, Ingeniería, Estadística
Calidad: Rigurosa, basada en conocimiento experto computacional
Generación: Práctica ilimitada con problemas similares
Visualización: Gráficos interactivos y pasos detallados
El estándar de oro para estudiantes de ciencias que necesitan entender el proceso.
Photomath (con IA) Uso Gratuito: ✔️ (Básico) | Plus: ~$7/mes | OSS: ❌ Actualizado: Feb 2026 Dominios: Matemáticas (desde aritmética hasta cálculo)
Método de entrada: Escaneo con cámara (ultrarrápido)
Calidad: Explicaciones claras y visuales
Funciones IA: Práctica personalizada basada en el progreso
La alternativa más accesible y popular para matemáticas en dispositivos móviles.
NotebookLM (Gemini 3.1 Pro) (SOTA en Generación de Contenido Educativo Personalizado) Uso Gratuito: ✔️ | OSS: ❌ Actualizado: Feb 2026 Novedades Feb 2026: "Video Overviews" con estilos visuales (acuarela, pizarra, anime)
Generación: Podcasts, FAQs, guías de estudio, líneas de tiempo, infografías, PPTX
Capacidad: Hasta 50 fuentes por cuaderno (PDFs, audios, presentaciones)
Precisión: Respuestas basadas exclusivamente en tus documentos
La herramienta más avanzada para estudiar con materiales propios.
Otter.ai Uso Gratuito: ✔️ (Limitado) | Pro: Pago | OSS: ❌ Actualizado: Feb 2026 Función principal: Transcripción automática de clases y conferencias
Precisión: >95% en reconocimiento de voz
Idiomas: 92 idiomas soportados
Valor añadido: Extracción de tareas, búsqueda en transcripciones, integración con calendario
Ideal para estudiantes que quieren capturar y consultar el contenido de sus clases.
Ayuda en Investigación
Consensus (Síntesis de Evidencia) (SOTA en Síntesis de Evidencia) Uso Gratuito: ✔️ (Búsquedas limitadas) | OSS: ❌ Actualizado: Feb 2026 Función Principal: Extracción de Hallazgos Científicos
Métrica Clave: Síntesis de consenso (+200M papers)
Precisión de Respuestas: Muy Alta
Filtros: Por tipo de estudio, fecha, acceso abierto
Responde preguntas mostrando el porcentaje de papers que apoyan cada postura.
Scite.ai Uso Gratuito: ✔️ (Limitado) | OSS: ❌ Actualizado: Feb 2026 Función Principal: Verificación de Citas ("Smart Citations")
Base de Datos: +1.200M de citas
Visualización: Red de citas clasificadas
Ideal para evaluar el impacto y la fiabilidad de un paper por cómo ha sido citado.
Elicit (Revisión de Literatura) (SOTA en Automatización de Revisiones Sistemáticas) Uso Gratuito: ✔️ (Créditos) | OSS: ❌ Actualizado: Feb 2026 Función Principal: Extracción estructurada de datos
Base de Datos: +200M papers (Semantic Scholar)
Automatización: Búsqueda, filtrado, extracción y síntesis
Exportación: Tablas, resúmenes, BibTeX
Permite pasar de una pregunta de investigación a una tabla con los hallazgos clave de decenas de papers en minutos.
SciSpace (Typeset) Uso Gratuito: ✔️ (Limitado) | OSS: ❌ Actualizado: Feb 2026 Función Principal: Comprensión de papers vía chat
Métrica Clave: Análisis conversacional
Integraciones: Zotero, Mendeley
Extracción: Resúmenes, ecuaciones, tablas
Excelente para entender un paper complejo haciéndole preguntas directamente.
Claude Opus 4.6 (Análisis Profundo) (SOTA en Extracción Fiel de Información) Uso Gratuito: ❌ | OSS: ❌ Lanzado: Feb 2026 NIAH (200k): 100%
FEVER: 97.2%
QASPER: 86.5%
GPQA: 87.8%
Contexto: 1M
Llama 3.1 405B (1M) Uso Gratuito: ✔️ (Modelos) | OSS: ✔️ (Llama Lic) Lanzado: 2024 NIAH (1M): ~99.2%
GPQA: 58.2%
QASPER: ~75.3%
MMLU: 86.1%
Contexto: 1M
Gemini 3.1 Pro (Análisis Masivo) (SOTA en Análisis Multimodal a Gran Escala) Uso Gratuito: ✔️ (AI Studio) | OSS: ❌ Lanzado: Feb 2026 NIAH (1M): 99.9%
MMMU: 84.2%
GPQA: 88.5%
QASPER: 86.0%
Contexto: 1M (con multimodalidad)
Kimi (Moonshot AI) Uso Gratuito: ✔️ | OSS: ❌ Actualizado: Feb 2026 NIAH (1M): ~98.5%
Análisis de Ficheros: PDF, Word, Excel, PPT, imágenes
Contexto: 1M+ (gratuito)
La mejor alternativa gratuita para análisis de contexto masivo, especialmente para usuarios fuera de China vpn.
Perplexity Pro (RAG) (SOTA en Búsqueda con Fuentes) Uso Gratuito: ✔️ (Limitado) | OSS: ❌ Actualizado: Feb 2026 Calidad de RAG: SOTA
Precisión de Citas: 98%
Cobertura de Fuentes: Web, académico, redes
Modo "Pro" (feb 2026): Búsqueda en papers científicos
El mejor para respuestas rápidas y verificadas con fuentes directas.
Phind (Modo Investigación) Uso Gratuito: ✔️ | OSS: ❌ Actualizado: Feb 2026 Calidad de RAG: Enfocada en código y técnico
Precisión de Citas: Muy Alta
Base de Conocimiento: Stack Overflow, documentación, papers técnicos
Optimizado para respuestas técnicas precisas con ejemplos de código y enlaces a fuentes.
Generación de Voz y Música
ElevenLabs V3 (SOTA en Voz Realista y Clonación) Uso Gratuito: ✔️ (Créditos mensuales) | Pro: Pago | OSS: ❌ Lanzado: Feb 2026 MOS (Naturalidad): >4.5
Clonación: Muestra de 5 segundos, preservación emocional
Latencia streaming: <200ms (agentes conversacionales)
Idiomas: +30 con acentos regionales
El estándar de la industria para voces de alta calidad en producción profesional.
Coqui XTTS-v2 Uso Gratuito: ✔️ | OSS: ✔️ (MPL) Actualizado: 2025 MOS (Naturalidad): ~4.2
Clonación cross-lingual:
Fine-tuning local: Posible con GPU doméstica
La alternativa open source más potente para quienes necesitan control total y privacidad.
Suno AI v4 (SOTA en Generación de Canciones) Uso Gratuito: ✔️ (Créditos diarios) | Pro: Pago | OSS: ❌ Lanzado: Feb 2026 Calidad vocal: SOTA (voces casi indistinguibles de humanas)
Control de estructura: Verso, estribillo, puente
Duración: Hasta 4 minutos por canción
Rango vocal: 30-45 semitonos
La herramienta de referencia para creadores que quieren generar canciones completas con letra y melodía coherente.
Udio Uso Gratuito: ✔️ (Créditos) | Pro: Pago | OSS: ❌ Actualizado: Feb 2026 Calidad de producción: Muy alta (énfasis en mezcla y masterización)
Extensión: Añadir secciones a temas existentes
Replace section: Corrige problemas específicos
Preferido por muchos músicos por su sonido más pulido y posibilidades creativas.
Google Lyria 3 (en Gemini) (SOTA en Generación Musical Integrada) Uso Gratuito: ✔️ (vía Gemini) | OSS: ❌ Lanzado: Feb 2026 Duración: 30 segundos por generación
Calidad: Alta fidelidad con voces y letras automáticas
Modalidades: Texto, imágenes, audio o vídeo como prompt
SynthID: Marca de agua integrada
Idiomas: 8 idiomas
Integrado directamente en Gemini, con generación de portadas.
Stable Audio Open 2.0 Uso Gratuito: ✔️ (Pesos) | API: Pago | OSS: ✔️ Actualizado: Feb 2026 Duración máxima: 47 segundos (ideal para SFX y loops)
Calidad: 44.1kHz estéreo
Tipos de salida: Efectos, stems, loops, instrumentales
La referencia para creadores que necesitan efectos de sonido personalizados y libres de derechos.
OpenAI Voice Engine (SOTA en Voz para Diálogos) Uso: API (pago por uso) | OSS: ❌ Lanzado: Oct 2025 MOS (Naturalidad): >4.4
Control emocional: Énfasis, tono, ritmo ajustable
Duración: Optimizado para párrafos largos y conversaciones
TTS expresivo: Capta matices y entonación contextual
Modelo específico para aplicaciones que requieren voz natural en diálogos largos, audiolibros y narraciones.
ChatTTS Uso Gratuito: ✔️ | OSS: ✔️ Actualizado: 2025 MOS (Naturalidad): ~4.1
Enfoque: Conversaciones y diálogos naturales
Control: Tono y emoción ajustables
Comunidad: Muy activa, con numerosos fine-tunes
La mejor opción OSS para generar voz natural en contextos conversacionales.
Generación de Imágenes
GPT Image 1.5 (OpenAI) (SOTA en Generación General) Uso: ChatGPT Plus/Pro/API | OSS: ❌ Lanzado: Dic 2025 LM Arena Elo: 1264
Renderizado de texto: SOTA (tipografía compleja, logos, señalética)
Fotorrealismo: Excepcional
Integración: Nativa con ChatGPT, flujos multimodales sin fisuras
El nuevo estándar para materiales de marketing profesionales, maquetas de producto y composiciones complejas que requieren texto legible.
Flux 2 Max Uso Gratuito: ✔️ (Pesos) | API: Pago | OSS: ✔️ Lanzado: 2025 LM Arena Elo: 1168
Soporte LoRA: Sí (miles de modelos comunitarios)
Ejecución local: Posible con RTX 4090
Comunidad: Activa en Civitai con miles de variantes
El rey del open source para quienes necesitan control absoluto, privacidad o modelos personalizados.
Gemini 3 Pro Image (SOTA en Integración Multimodal) Uso Gratuito: ✔️ (AI Studio) | API: Pago | OSS: ❌ Lanzado: Feb 2026 LM Arena Elo: 1235
Latencia: 3-5 segundos por imagen
Comprensión de prompts: Excelente en instrucciones conversacionales complejas
Integración: Google Workspace, Cloud Platform, búsqueda
Ideal para usuarios del ecosistema Google, contenido internacional y prototipado rápido con edición multimodal avanzada.
Flux 2 Flex Uso Gratuito: ✔️ (Pesos) | API: Pago | OSS: ✔️ Lanzado: 2025 LM Arena Elo: 1157
Velocidad: 2-4 segundos (más rápida que Max)
Requisitos: Menor computación, apto para más entornos
Calidad: Ligeramente inferior a Max, pero excelente para alto volumen
La opción open source cuando la velocidad de iteración es prioritaria sobre el máximo detalle.
Flux 1.1 Pro Ultra (SOTA en Resolución y Control) Uso: API vía plataformas (SiliconFlow, etc.) | OSS: ❌ (API) Lanzado: 2025 Resolución máxima: 4 megapíxeles (2048x2048) / 2K
Fotorrealismo: Superior, con modos Ultra (composición precisa) y Raw (texturas naturales)
Precio: ~$0.06/imagen vía SiliconFlow
La referencia para producción visual comercial donde el detalle y la fidelidad son críticos.
Flux.1 Kontext Pro Uso: API | OSS: ❌ (API) Lanzado: 2025 Comprensión semántica: Avanzada, con soporte de imágenes de referencia
Control local preciso: Ediciones detalladas manteniendo contexto global
Precio: ~$0.04/imagen
Ideal para diseño de marcas, visualización de productos e ilustración narrativa que requiere coherencia en múltiples iteraciones.
Hunyuan Image 3.0 (Tencent) (SOTA en Anime y Contenido Asiático) Uso: API | OSS: ❌ Lanzado: 2025 LM Arena Elo: 1152
Anime / Manga: Lo mejor de su clase, con consistencia de personajes
Idiomas: Fuerte comprensión en chino y asiáticos
Precio: ~$0.02-0.05/imagen
La elección para arte anime, diseño de personajes, webtoons y contenido para mercados asiáticos.
Seedream 4.5 (ByteDance) Uso: API | OSS: ❌ Lanzado: 2025 LM Arena Elo: 1147
Vídeo a imagen: Único en su clase, captura movimiento y acción
Especialización: Moda, fotografía de producto, lifestyle
Precio: ~$0.02-0.04/imagen
Perfecto para marcas de moda, e-commerce, storyboarding y cualquier escena que requiera dinamismo.
Generación de Vídeo
Kling 3.0 Pro (Kuaishou) (SOTA en Generación General y Física) Uso: API / Web (pago) | OSS: ❌ Lanzado: Feb 2026 Elo: 1248 (#1)
Duración máxima: 2 minutos en 1080p (soporte multi-corte)
Física compleja: SOTA (deformación por impacto, dinámica de fluidos)
Lip-sync: Nativo para diálogos
Precio: $13.44/minuto (suscripciones desde $10-50/mes)
El líder indiscutible del ranking, especialmente valorado por su capacidad para generar animación expresiva, físicas realistas y movimientos complejos .
LTX-2 Pro (Lightricks) Uso Gratuito: ✔️ (Pesos abiertos) | OSS: ✔️ (Apache 2.0) Lanzado: Oct 2025 Elo: 1138
Resolución: Hasta 4K/50fps con audio sincronizado
Lip-sync: Nativo
Requisitos: GPU con 12GB+ VRAM (RTX 4090)
Eficiencia: 18x más rápido que otros modelos de su tamaño
La alternativa open source mejor posicionada en rankings, con capacidad de ejecución local y sin coste por uso.
Seedance 2.0 Pro (ByteDance) (SOTA en Control Multimodal y Producción) Uso: API (pago) / Doubao / JI Meng | OSS: ❌ Lanzado: Feb 2026 Resolución máxima: 2K (alta fidelidad)
Duración: 4-15 segundos por clip (generación multi-escena)
Referencias: Hasta 12 archivos (9 imágenes + 3 vídeos + audio)
Lip-sync: Nativo (más de 8 idiomas, precisión fonémica)
Beat-sync: Sí (audio multi-pista)
Velocidad de generación: ~60 segundos por clip
Precio: $0.47/millón tokens entrada, $2.37/salida
Diseñado para flujos de trabajo profesionales que requieren control absoluto sobre personajes, estilos, movimiento y audio. Define el estándar para producción comercial con su sistema de referencia de 12 entradas .
Seedream 4.5 (ByteDance) Uso: API | OSS: ❌ Lanzado: 2025 LM Arena Elo: 1147 (imagen)
Vídeo a imagen: Único en su clase, captura movimiento y acción
Especialización: Moda, fotografía de producto, lifestyle
Precio: ~$0.02-0.04/imagen
Perfecto para marcas de moda, e-commerce y storyboarding cuando se trabaja con el ecosistema Seedance.
Runway Gen-4.5 (SOTA en Herramientas de Edición) Uso: Freemium (pago) | OSS: ❌ Lanzado: Dic 2025 Elo: 1230
Motion tracking: Avanzado
Control de cámara: Director Mode
Consistencia de personajes: Entre diferentes tomas
La herramienta de referencia para profesionales que necesitan control granular sobre cada aspecto de la generación, con una suite de más de 30 herramientas de edición.
CogVideoX-5b-I2V Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Lanzado: 2025 VRAM mínima: 4.4GB (INT8 cuantizado)
Comunidad: 8,000+ estrellas en GitHub
Ecosistema: Amplio, con múltiples forks y herramientas
Especialización: Imagen a vídeo con control fino
El modelo con el ecosistema más maduro para quienes necesitan personalización total.
Pika 2.5 (SOTA en Velocidad y Creatividad Social) Uso Gratuito: ✔️ (Créditos diarios) | Pro: Pago | OSS: ❌ Lanzado: Nov 2025 Elo: 1095
Velocidad: 30-90 segundos por generación (Turbo: 12s)
Lip sync:
Pikaffects: Único en su clase
La opción gratuita más accesible para creadores de contenido social, con créditos diarios renovables.
HunyuanVideo-1.5 (Tencent) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Lanzado: Ene 2026 Elo: 1022
Requisitos: RTX 4090 con 13.6GB VRAM
Duración: Hasta 10 segundos en 1080p
Text compliance: >95%
El modelo open source más reciente, optimizado para ejecución en hardware de consumo con excelente comprensión de prompts.
Reconocimiento de Voz (Speech-to-Text)
OpenAI gpt-4o-transcribe (SOTA en Precisión y Robustez) Uso: API (pago por uso) | OSS: ❌ Lanzado: Feb 2026 WER (LibriSpeech): Mejora significativa vs Whisper v3
Manejo de acentos: SOTA
Robustez (ruido/hablantes simultáneos): Muy Alta
Integración: Agents SDK con capacidad de escuchar/hablar
Nueva generación de modelos de transcripción nativos en la arquitectura GPT-4o.
Mistral Voxtral Realtime Uso Gratuito: ✔️ (Pesos abiertos) | API: $0.006/min | OSS: ✔️ (Apache 2.0) Lanzado: Feb 2026 WER (FLEURS): ~4% (vs ~10% Whisper large-v3)
Latencia: Configurable <200ms
Idiomas: 13 (incl. español, francés, alemán)
Diarización: Integrada en versión batch
La alternativa open source más potente, con capacidad de auto-hospedaje para cumplir RGPD.
Gladia Audio Streaming (SOTA en Velocidad y Tiempo Real) Uso Gratuito: ✔️ (API Tier) | OSS: ❌ Actualizado: Feb 2026 Latencia (P50): <300ms
Disponibilidad: 99.95% SLA
Transcripción: Inmutable (no cambia durante la conversación)
Procesamiento: Más rápido que tiempo real
Líder para aplicaciones de voz en vivo y agentes conversacionales.
Whisper.cpp (optimizado) Uso Gratuito: ✔️ | OSS: ✔️ (MIT) Actualizado: Feb 2026 Eficiencia: SOTA en CPU / Edge
Compatibilidad: Múltiples arquitecturas (ARM, x86)
Latencia típica: 380-520ms en configuraciones optimizadas
Perfecto para aplicaciones que requieren procesamiento local sin depender de la nube.
Step-Audio 2 mini (SOTA en Análisis Multimodal de Audio) Uso Gratuito: ✔️ (Pesos abiertos) | OSS: ✔️ Lanzado: Feb 2026 Reconocimiento emocional: 86% precisión (distingue ironía, sarcasmo)
Reconocimiento de escenas: 92% (oficina, calle, hogar)
Detección de eventos: 88% (cristales rotos, llanto)
Latencia: <300ms end-to-end
Idiomas: 12 idiomas + 8 dialectos chinos
El primer modelo que entiende no solo qué se dice, sino cómo y en qué contexto.
Amazon Nova Sonic Uso: API (vía Bedrock) | OSS: ❌ Lanzado: Feb 2026 Arquitectura: End-to-end unificada (sin ASR+LLM+TTS separados)
WER (MLS): 4.2% promedio (inglés, francés, italiano, alemán, español)
Mejora vs GPT-4o: 46.7% más preciso en conversaciones multi-interlocutor
Latencia percibida: 1.09 segundos (vs 1.18 de GPT-4o)
Precio: 80% más barato que GPT-4o
Alternativa empresarial con fuerte integración en ecosistema AWS.
Deepgram Aura (SOTA en Personalización y API) Uso Gratuito: ✔️ (API Tier) | OSS: ❌ Actualizado: Feb 2026 Modelos especializados: Telefonía, reuniones, médicos
Vocabulario personalizado:
Redacción de PII:
Latencia: <300ms en streaming
Precio: Desde $0.0043/minuto
La mejor opción para empresas que necesitan adaptar el ASR a sus datos y terminología específica.
SpeechBrain Toolkit Uso Gratuito: ✔️ | OSS: ✔️ (Apache 2.0) Actualizado: Feb 2026 Flexibilidad: Máxima (fine-tuning total)
Modelos pre-entrenados: Amplia variedad
Componentes: Reconocimiento, diarización, clasificación, verificación de hablante
Comunidad: Activa y en crecimiento
La mejor opción OSS para construir sistemas de voz a medida desde cero.
Ingeniería de Software Autónoma
Cognition Labs Devin (Enterprise) (SOTA en Automatización de Software Empresarial) Uso: Enterprise (vía Synechron) | OSS: ❌ Partnership: Feb 2026 Casos de Uso Reales: Modernización COBOL, Java, SAS-to-PySpark
Certificación: Ingenieros entrenados por Cognition
Integración: Con aceleradores de Synechron
Define el estándar para agentes de ingeniería en banca y seguros con gobernanza y cumplimiento normativo.
OpenDevin Uso Gratuito: ✔️ | OSS: ✔️ (MIT) Actualizado: 2025-2026 SWE-Bench (Resolución): ~18.4% (en subset filtrado)
Autonomía: Parcial a completa
Comunidad: Muy activa
El esfuerzo OSS más importante para ingeniería autónoma, con herramientas de evaluación y análisis.
OpenAI GPT-5.3-Codex (SOTA en Benchmarks de Programación) Uso: ChatGPT Plus/Team/Enterprise | OSS: ❌ Lanzado: Feb 2026 SWE-bench Pro: 56.8%
Terminal-Bench 2.0: 77.3%
OSWorld-Verified: 64.7%
Velocidad: +25% más rápido que versión anterior
Contexto: 1M
DeepSeek-V2.5 Uso Gratuito: ✔️ (Pesos/API) | OSS: ✔️ Lanzado: 2025 HumanEval: 89% (Python)
LiveCodeBench: 41.8%
Aider: 72.2%
Contexto: 128k
Cursor (Agentes de Larga Duración) (SOTA en IDEs Agénticos) Uso Gratuito: ✔️ (Plan gratuito) | OSS: ❌ Actualizado: Feb 2026 Novedades Feb 2026: Agentes de larga duración, subagentes paralelos
Trazabilidad: Cursor Blame (atribución IA/humano)
Funciones Clave: Planificación autónoma, ejecución sin supervisión
La experiencia más avanzada en desarrollo con agentes dentro del editor.
Aider Uso Gratuito: ✔️ | OSS: ✔️ (Apache 2.0) Actualizado: Continuamente Benchmarks propios: Resultados competitivos en Aider Polyglot
Flexibilidad: Modelos locales o remotos
Control: Total para desarrolladores
La alternativa OSS más potente para la programación agéntica en CLI.
Traducción Automática
DeepL Pro (SOTA en Traducción de Textos Largos) Uso Gratuito: ✔️ (Limitado) | Pro: Pago | OSS: ❌ Actualizado: Feb 2026 MOS (textos largos): Muy alto en idiomas europeos
Formatos: PDF, DOCX, PPTX con preservación de maquetación
Especialización: Patentes, documentos legales, marketing
Limitación: 33 idiomas (principalmente europeos)
La referencia para traducción profesional donde el formato y la precisión terminológica son críticos.
Google Translate (Gemini) Uso Gratuito: ✔️ | OSS: ❌ Actualizado: Feb 2026 Idiomas: 249 soportados
Modalidades: Texto, voz, imagen, documentos
Precisión: 16/21 traducciones precisas en estudios con términos técnicos
NMT: Motor neuronal con 10 años de evolución
La opción gratuita más versátil y con mayor cobertura idiomática.
MiLMMT-46 (Gemma3-based) (SOTA en Traducción Open Source) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Lanzado: Feb 2026 WMT24 (promedio 46 idiomas): Supera a Seed-X, HY-MT-1.5 y TranslateGemma
Comparativa: Rendimiento competitivo con Google Translate y Gemini 3 Pro
Arquitectura: Continual pretraining + instruction finetuning sobre Gemma3
El primer modelo open source que iguala a sistemas propietarios en traducción multilingüe a gran escala.
Google TranslateGemma Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Lanzado: Ene 2026 Idiomas: 55 oficiales + 500 pares adicionales
Versiones: 4B (móvil), 12B (portátil), 27B (cloud)
WMT24++: 12B supera a Gemma3 27B
Capacidades: Traducción de texto en imágenes sin fine-tuning específico
La apuesta de Google por la democratización de la traducción con modelos ligeros y transparentes.
Mistral Voxtral Realtime (SOTA en Traducción en Tiempo Real) Uso Gratuito: ✔️ (Pesos abiertos) | API: Pago | OSS: ✔️ (Apache 2.0) Lanzado: Feb 2026 Latencia: <200ms (vs 2 segundos de Google)
Idiomas: 13 idiomas
Tamaño: 4B parámetros (ejecutable en móvil)
Privacidad: Procesamiento local, sin nube
Un paso hacia la conversación fluida entre idiomas sin barreras de latencia .
Gemini 3 Pro (Traducción) Uso Gratuito: ✔️ (Limitado) | OSS: ❌ Actualizado: Feb 2026 Latencia: ~2 segundos
Contexto: Traducción conversacional con comprensión de matices y emociones
Integración: Dentro del asistente Gemini, con capacidad de 200 idiomas vía Google Translate
Uso: "Responde en inglés", "traduce esto" como parte natural de la conversación
Ideal para conversaciones informales donde el contexto prima sobre la latencia.
Argos Translate (SOTA en Traducción Offline) Uso Gratuito: ✔️ | OSS: ✔️ (MIT) Actualizado: Feb 2026 Motor: OpenNMT
Idiomas: +30 (incluye chino, español, inglés, etc.)
Dependencias: Ninguna externa (todo local)
Popularidad: 5.6k ⭐ en GitHub
La librería de referencia para integrar traducción offline en aplicaciones Python.
Apertium Uso Gratuito: ✔️ | OSS: ✔️ (GPL) Actualizado: Feb 2026 Motor: Basado en reglas lingüísticas (no neuronal)
Idiomas: Amplia cobertura, especialmente en lenguas romances y eslavas
Ventaja: Ligero, rápido, no requiere GPU
Joshua Language Packs: 62 pares precompilados para Java
Opciones ideales para entornos con recursos limitados o necesidades lingüísticas específicas.

Lista de Enlaces y Fuentes