Claves de la IA: Comparativa en funcionalidades - febrero del 2026 -

Agentes de Propósito General: Inteligencia, Razonamiento, Acción...
Gemini 3.1 Pro Preview (Google - Feb 2026) Uso: API (pago) / AI Studio / NotebookLM Pro \| OSS: ❌	GPQA: 88.5 MMLU-Pro: 89.0 ARC-AGI-2: 77.1% Capacidades destacadas: Gráficos interactivos en tiempo real, simulación 3D, integración con Google Maps Contexto: 1M Diseñado para tareas donde una respuesta simple no es suficiente.	GLM-5 (744B) (Zhipu - Feb 2026) Uso Gratuito: ✔️ (Pesos) \| OSS: ✔️ (MIT)	GPQA: 81.5 SWE-Bench: 77.8% MMLU: 88.5 Contexto: 128k El modelo open source más potente para tareas de razonamiento general y código.
Claude Opus 4.6 (Anthropic - Feb 2026) Uso: Premium ($20/mes) \| OSS: ❌	LMArena Elo: #1 Global Terminal-Bench 2.0: #1 GDPval-AA: +144 Elo vs GPT-5.2 NIAH (1M): 100% Equipos de agentes: Líder + subagentes especializados Contexto: 1M Capacidad de formar equipos de agentes que colaboran en tareas complejas.	Arcee Trinity Large (400B) (Arcee - Feb 2026) Uso Gratuito: ✔️ (Pesos HF) \| OSS: ✔️ (Apache 2.0)	NIAH (1M): 98.5% MMLU: 86.5 Arquitectura: MoE con atención entrelazada Contexto: 1M El modelo open source con mejor rendimiento en contexto largo.
Grok 4.1 Fast (xAI - Feb 2026) Uso: API / Empresas \| OSS: ❌	MATH: 83.0 GPQA: 88.0 τ²-bench (Telecom): 100% LMArena: 4º global Contexto: 2M Especialista en razonamiento matemático y uso de herramientas empresariales.	DeepSeek-V2.5 (DeepSeek - 2025) Uso Gratuito: ✔️ (Pesos/API) \| OSS: ✔️	MATH: 78.1 HumanEval: 89% LiveCodeBench: 41.8% Contexto: 128k La alternativa open source más sólida para tareas de razonamiento y código.
OpenAI GPT-5.2 (OpenAI - Feb 2026) Uso: ChatGPT Plus/Team/Enterprise \| OSS: ❌	MMLU-Pro: 88.1 Velocidad: Optimización equilibrio velocidad/precisión HW Partnership: Acuerdo con Broadcom para chips personalizados Contexto: 256k Modelo optimizado para producción a gran escala con mejor eficiencia.	DeepSeek V4 (Próximamente) (DeepSeek - Feb 2026) Uso: Gratis / API barata \| OSS: ✔️ (MIT)	Arquitectura mHC + Engram: Memoria condicional para estabilidad y contexto ultra-largo ARC-AGI-2: 71.5% (esperado) Eficiencia: 30% más eficiente que V3 Contexto: 1M+ (esperado) El modelo open source más anticipado del año.
Dola Seed 2.0 Pro (Dola AI - Feb 2026) Uso: API / Web \| OSS: ❌	LMArena Elo: 6º global Rendimiento/tamaño: Excelente relación Posicionamiento: Mejor modelo emergente de 2026 Contexto: 128k La gran sorpresa del ranking, compitiendo directamente con los gigantes.	Nanbeige4.1-3B (Nanbeige - Feb 2026) Uso Gratuito: ✔️ (Pesos) \| OSS: ✔️	Tool calls: Hasta 600 turnos consecutivos Rendimiento: Supera a Qwen3-30B-A3B Benchmarks: Resultados competitivos en razonamiento y código Contexto: 32k Demuestra que los modelos pequeños pueden lograr competencia generalista.
Claude Opus 4.6 Thinking (Anthropic - Feb 2026) Uso: Premium ($20/mes) \| OSS: ❌	LMArena Elo: #1 global (versión thinking) Razonamiento profundo: SOTA en tareas complejas Humanity's Last Exam: Líder Contexto: 1M La referencia absoluta para razonamiento de nivel experto.	Ant Group Ring-2.5-1T (Ant Group - Feb 2026) Uso Gratuito: ✔️ (Pesos) \| OSS: ✔️	IMO 2025: 35/42 (medalla de oro) CMO 2025: 105/126 (supera corte del equipo nacional chino) Eficiencia en contexto largo: Reducción 10x en acceso a memoria Arquitectura: Híbrida lineal, 63B parámetros activos Integración: Compatible con Claude Code y OpenClaw El primer modelo open source que alcanza nivel de medalla de oro en olimpiadas matemáticas.
Aprendizaje Personalizado y Tutoría con IA
OpenAI GPT-5 (Modo Tutor) (SOTA en Tutoría Adaptativa) Uso: ChatGPT Plus/Team/Enterprise \| OSS: ❌ GPT-5.2: Feb 2026	Metodología: Aprendizaje adaptativo y socrático Personalización: Ajuste al nivel y ritmo del estudiante GPT Store: Tutores especializados creados por la comunidad Disponibilidad: GPT-5.2 Instant, Thinking y Pro El tutor de referencia para cualquier materia, desde humanidades hasta ciencias.	Google LearnLM (en Gemini for Education) Uso: Gratuito (vía Gemini) \| OSS: ❌ Integrado en Gemini: Feb 2026	Principios pedagógicos: Aprendizaje activo, metacognición, personalización Mejora demostrada: +5.5% en resolución de problemas novedosos vs. tutores humanos Herramientas: "Gems" para crear asistentes docentes personalizados La alternativa con base científica en pedagogía.
Google Little Language Lessons (SOTA en Aprendizaje Contextual de Idiomas) Uso Gratuito: ✔️ (Google Labs) \| OSS: ❌ Lanzamiento: Ene-Feb 2026	Enfoque: Lecciones breves basadas en situaciones cotidianas Tecnología: Gemini + Cloud Text-to-Speech para pronunciación Herramientas: Tiny Lesson, Slang Hang, Word Cam Idiomas: +40 idiomas disponibles Aprendizaje práctico, contextual y gratuito sin estructura curricular rígida.	ELSA Speak Uso Gratuito: ✔️ (Básico) \| Pro: Pago \| OSS: ❌ Actualizado: Feb 2026	Especialización: Pronunciación y acento (neutro americano) Ejercicios: +40,000 prácticas en contextos diversos (viajes, entrevistas) Feedback: Análisis fonémico en tiempo real Preparación: IELTS, Pearson PTE, TOEFL La mejor opción para perfeccionar la pronunciación con precisión científica.
Wolfram Alpha (Step-by-Step) (SOTA en Resolución Guiada de Problemas Técnicos) Uso Gratuito: ✔️ (Limitado) \| Pro: ~$5/mes \| OSS: ❌ Actualizado: Continuamente	Dominios: Matemáticas, Física, Química, Ingeniería, Estadística Calidad: Rigurosa, basada en conocimiento experto computacional Generación: Práctica ilimitada con problemas similares Visualización: Gráficos interactivos y pasos detallados El estándar de oro para estudiantes de ciencias que necesitan entender el proceso.	Photomath (con IA) Uso Gratuito: ✔️ (Básico) \| Plus: ~$7/mes \| OSS: ❌ Actualizado: Feb 2026	Dominios: Matemáticas (desde aritmética hasta cálculo) Método de entrada: Escaneo con cámara (ultrarrápido) Calidad: Explicaciones claras y visuales Funciones IA: Práctica personalizada basada en el progreso La alternativa más accesible y popular para matemáticas en dispositivos móviles.
NotebookLM (Gemini 3.1 Pro) (SOTA en Generación de Contenido Educativo Personalizado) Uso Gratuito: ✔️ \| OSS: ❌ Actualizado: Feb 2026	Novedades Feb 2026: "Video Overviews" con estilos visuales (acuarela, pizarra, anime) Generación: Podcasts, FAQs, guías de estudio, líneas de tiempo, infografías, PPTX Capacidad: Hasta 50 fuentes por cuaderno (PDFs, audios, presentaciones) Precisión: Respuestas basadas exclusivamente en tus documentos La herramienta más avanzada para estudiar con materiales propios.	Otter.ai Uso Gratuito: ✔️ (Limitado) \| Pro: Pago \| OSS: ❌ Actualizado: Feb 2026	Función principal: Transcripción automática de clases y conferencias Precisión: >95% en reconocimiento de voz Idiomas: 92 idiomas soportados Valor añadido: Extracción de tareas, búsqueda en transcripciones, integración con calendario Ideal para estudiantes que quieren capturar y consultar el contenido de sus clases.
Ayuda en Investigación
Consensus (Síntesis de Evidencia) (SOTA en Síntesis de Evidencia) Uso Gratuito: ✔️ (Búsquedas limitadas) \| OSS: ❌ Actualizado: Feb 2026	Función Principal: Extracción de Hallazgos Científicos Métrica Clave: Síntesis de consenso (+200M papers) Precisión de Respuestas: Muy Alta Filtros: Por tipo de estudio, fecha, acceso abierto Responde preguntas mostrando el porcentaje de papers que apoyan cada postura.	Scite.ai Uso Gratuito: ✔️ (Limitado) \| OSS: ❌ Actualizado: Feb 2026	Función Principal: Verificación de Citas ("Smart Citations") Base de Datos: +1.200M de citas Visualización: Red de citas clasificadas Ideal para evaluar el impacto y la fiabilidad de un paper por cómo ha sido citado.
Elicit (Revisión de Literatura) (SOTA en Automatización de Revisiones Sistemáticas) Uso Gratuito: ✔️ (Créditos) \| OSS: ❌ Actualizado: Feb 2026	Función Principal: Extracción estructurada de datos Base de Datos: +200M papers (Semantic Scholar) Automatización: Búsqueda, filtrado, extracción y síntesis Exportación: Tablas, resúmenes, BibTeX Permite pasar de una pregunta de investigación a una tabla con los hallazgos clave de decenas de papers en minutos.	SciSpace (Typeset) Uso Gratuito: ✔️ (Limitado) \| OSS: ❌ Actualizado: Feb 2026	Función Principal: Comprensión de papers vía chat Métrica Clave: Análisis conversacional Integraciones: Zotero, Mendeley Extracción: Resúmenes, ecuaciones, tablas Excelente para entender un paper complejo haciéndole preguntas directamente.
Claude Opus 4.6 (Análisis Profundo) (SOTA en Extracción Fiel de Información) Uso Gratuito: ❌ \| OSS: ❌ Lanzado: Feb 2026	NIAH (200k): 100% FEVER: 97.2% QASPER: 86.5% GPQA: 87.8% Contexto: 1M	Llama 3.1 405B (1M) Uso Gratuito: ✔️ (Modelos) \| OSS: ✔️ (Llama Lic) Lanzado: 2024	NIAH (1M): ~99.2% GPQA: 58.2% QASPER: ~75.3% MMLU: 86.1% Contexto: 1M
Gemini 3.1 Pro (Análisis Masivo) (SOTA en Análisis Multimodal a Gran Escala) Uso Gratuito: ✔️ (AI Studio) \| OSS: ❌ Lanzado: Feb 2026	NIAH (1M): 99.9% MMMU: 84.2% GPQA: 88.5% QASPER: 86.0% Contexto: 1M (con multimodalidad)	Kimi (Moonshot AI) Uso Gratuito: ✔️ \| OSS: ❌ Actualizado: Feb 2026	NIAH (1M): ~98.5% Análisis de Ficheros: PDF, Word, Excel, PPT, imágenes Contexto: 1M+ (gratuito) La mejor alternativa gratuita para análisis de contexto masivo, especialmente para usuarios fuera de China vpn.
Perplexity Pro (RAG) (SOTA en Búsqueda con Fuentes) Uso Gratuito: ✔️ (Limitado) \| OSS: ❌ Actualizado: Feb 2026	Calidad de RAG: SOTA Precisión de Citas: 98% Cobertura de Fuentes: Web, académico, redes Modo "Pro" (feb 2026): Búsqueda en papers científicos El mejor para respuestas rápidas y verificadas con fuentes directas.	Phind (Modo Investigación) Uso Gratuito: ✔️ \| OSS: ❌ Actualizado: Feb 2026	Calidad de RAG: Enfocada en código y técnico Precisión de Citas: Muy Alta Base de Conocimiento: Stack Overflow, documentación, papers técnicos Optimizado para respuestas técnicas precisas con ejemplos de código y enlaces a fuentes.
Generación de Voz y Música
ElevenLabs V3 (SOTA en Voz Realista y Clonación) Uso Gratuito: ✔️ (Créditos mensuales) \| Pro: Pago \| OSS: ❌ Lanzado: Feb 2026	MOS (Naturalidad): >4.5 Clonación: Muestra de 5 segundos, preservación emocional Latencia streaming: <200ms (agentes conversacionales) Idiomas: +30 con acentos regionales El estándar de la industria para voces de alta calidad en producción profesional.	Coqui XTTS-v2 Uso Gratuito: ✔️ \| OSS: ✔️ (MPL) Actualizado: 2025	MOS (Naturalidad): ~4.2 Clonación cross-lingual: Sí Fine-tuning local: Posible con GPU doméstica La alternativa open source más potente para quienes necesitan control total y privacidad.
Suno AI v4 (SOTA en Generación de Canciones) Uso Gratuito: ✔️ (Créditos diarios) \| Pro: Pago \| OSS: ❌ Lanzado: Feb 2026	Calidad vocal: SOTA (voces casi indistinguibles de humanas) Control de estructura: Verso, estribillo, puente Duración: Hasta 4 minutos por canción Rango vocal: 30-45 semitonos La herramienta de referencia para creadores que quieren generar canciones completas con letra y melodía coherente.	Udio Uso Gratuito: ✔️ (Créditos) \| Pro: Pago \| OSS: ❌ Actualizado: Feb 2026	Calidad de producción: Muy alta (énfasis en mezcla y masterización) Extensión: Añadir secciones a temas existentes Replace section: Corrige problemas específicos Preferido por muchos músicos por su sonido más pulido y posibilidades creativas.
Google Lyria 3 (en Gemini) (SOTA en Generación Musical Integrada) Uso Gratuito: ✔️ (vía Gemini) \| OSS: ❌ Lanzado: Feb 2026	Duración: 30 segundos por generación Calidad: Alta fidelidad con voces y letras automáticas Modalidades: Texto, imágenes, audio o vídeo como prompt SynthID: Marca de agua integrada Idiomas: 8 idiomas Integrado directamente en Gemini, con generación de portadas.	Stable Audio Open 2.0 Uso Gratuito: ✔️ (Pesos) \| API: Pago \| OSS: ✔️ Actualizado: Feb 2026	Duración máxima: 47 segundos (ideal para SFX y loops) Calidad: 44.1kHz estéreo Tipos de salida: Efectos, stems, loops, instrumentales La referencia para creadores que necesitan efectos de sonido personalizados y libres de derechos.
OpenAI Voice Engine (SOTA en Voz para Diálogos) Uso: API (pago por uso) \| OSS: ❌ Lanzado: Oct 2025	MOS (Naturalidad): >4.4 Control emocional: Énfasis, tono, ritmo ajustable Duración: Optimizado para párrafos largos y conversaciones TTS expresivo: Capta matices y entonación contextual Modelo específico para aplicaciones que requieren voz natural en diálogos largos, audiolibros y narraciones.	ChatTTS Uso Gratuito: ✔️ \| OSS: ✔️ Actualizado: 2025	MOS (Naturalidad): ~4.1 Enfoque: Conversaciones y diálogos naturales Control: Tono y emoción ajustables Comunidad: Muy activa, con numerosos fine-tunes La mejor opción OSS para generar voz natural en contextos conversacionales.
Generación de Imágenes
GPT Image 1.5 (OpenAI) (SOTA en Generación General) Uso: ChatGPT Plus/Pro/API \| OSS: ❌ Lanzado: Dic 2025	LM Arena Elo: 1264 Renderizado de texto: SOTA (tipografía compleja, logos, señalética) Fotorrealismo: Excepcional Integración: Nativa con ChatGPT, flujos multimodales sin fisuras El nuevo estándar para materiales de marketing profesionales, maquetas de producto y composiciones complejas que requieren texto legible.	Flux 2 Max Uso Gratuito: ✔️ (Pesos) \| API: Pago \| OSS: ✔️ Lanzado: 2025	LM Arena Elo: 1168 Soporte LoRA: Sí (miles de modelos comunitarios) Ejecución local: Posible con RTX 4090 Comunidad: Activa en Civitai con miles de variantes El rey del open source para quienes necesitan control absoluto, privacidad o modelos personalizados.
Gemini 3 Pro Image (SOTA en Integración Multimodal) Uso Gratuito: ✔️ (AI Studio) \| API: Pago \| OSS: ❌ Lanzado: Feb 2026	LM Arena Elo: 1235 Latencia: 3-5 segundos por imagen Comprensión de prompts: Excelente en instrucciones conversacionales complejas Integración: Google Workspace, Cloud Platform, búsqueda Ideal para usuarios del ecosistema Google, contenido internacional y prototipado rápido con edición multimodal avanzada.	Flux 2 Flex Uso Gratuito: ✔️ (Pesos) \| API: Pago \| OSS: ✔️ Lanzado: 2025	LM Arena Elo: 1157 Velocidad: 2-4 segundos (más rápida que Max) Requisitos: Menor computación, apto para más entornos Calidad: Ligeramente inferior a Max, pero excelente para alto volumen La opción open source cuando la velocidad de iteración es prioritaria sobre el máximo detalle.
Flux 1.1 Pro Ultra (SOTA en Resolución y Control) Uso: API vía plataformas (SiliconFlow, etc.) \| OSS: ❌ (API) Lanzado: 2025	Resolución máxima: 4 megapíxeles (2048x2048) / 2K Fotorrealismo: Superior, con modos Ultra (composición precisa) y Raw (texturas naturales) Precio: ~$0.06/imagen vía SiliconFlow La referencia para producción visual comercial donde el detalle y la fidelidad son críticos.	Flux.1 Kontext Pro Uso: API \| OSS: ❌ (API) Lanzado: 2025	Comprensión semántica: Avanzada, con soporte de imágenes de referencia Control local preciso: Ediciones detalladas manteniendo contexto global Precio: ~$0.04/imagen Ideal para diseño de marcas, visualización de productos e ilustración narrativa que requiere coherencia en múltiples iteraciones.
Hunyuan Image 3.0 (Tencent) (SOTA en Anime y Contenido Asiático) Uso: API \| OSS: ❌ Lanzado: 2025	LM Arena Elo: 1152 Anime / Manga: Lo mejor de su clase, con consistencia de personajes Idiomas: Fuerte comprensión en chino y asiáticos Precio: ~$0.02-0.05/imagen La elección para arte anime, diseño de personajes, webtoons y contenido para mercados asiáticos.	Seedream 4.5 (ByteDance) Uso: API \| OSS: ❌ Lanzado: 2025	LM Arena Elo: 1147 Vídeo a imagen: Único en su clase, captura movimiento y acción Especialización: Moda, fotografía de producto, lifestyle Precio: ~$0.02-0.04/imagen Perfecto para marcas de moda, e-commerce, storyboarding y cualquier escena que requiera dinamismo.
Generación de Vídeo
Kling 3.0 Pro (Kuaishou) (SOTA en Generación General y Física) Uso: API / Web (pago) \| OSS: ❌ Lanzado: Feb 2026	Elo: 1248 (#1) Duración máxima: 2 minutos en 1080p (soporte multi-corte) Física compleja: SOTA (deformación por impacto, dinámica de fluidos) Lip-sync: Nativo para diálogos Precio: $13.44/minuto (suscripciones desde $10-50/mes) El líder indiscutible del ranking, especialmente valorado por su capacidad para generar animación expresiva, físicas realistas y movimientos complejos .	LTX-2 Pro (Lightricks) Uso Gratuito: ✔️ (Pesos abiertos) \| OSS: ✔️ (Apache 2.0) Lanzado: Oct 2025	Elo: 1138 Resolución: Hasta 4K/50fps con audio sincronizado Lip-sync: Nativo Requisitos: GPU con 12GB+ VRAM (RTX 4090) Eficiencia: 18x más rápido que otros modelos de su tamaño La alternativa open source mejor posicionada en rankings, con capacidad de ejecución local y sin coste por uso.
Seedance 2.0 Pro (ByteDance) (SOTA en Control Multimodal y Producción) Uso: API (pago) / Doubao / JI Meng \| OSS: ❌ Lanzado: Feb 2026	Resolución máxima: 2K (alta fidelidad) Duración: 4-15 segundos por clip (generación multi-escena) Referencias: Hasta 12 archivos (9 imágenes + 3 vídeos + audio) Lip-sync: Nativo (más de 8 idiomas, precisión fonémica) Beat-sync: Sí (audio multi-pista) Velocidad de generación: ~60 segundos por clip Precio: $0.47/millón tokens entrada, $2.37/salida Diseñado para flujos de trabajo profesionales que requieren control absoluto sobre personajes, estilos, movimiento y audio. Define el estándar para producción comercial con su sistema de referencia de 12 entradas .	Seedream 4.5 (ByteDance) Uso: API \| OSS: ❌ Lanzado: 2025	LM Arena Elo: 1147 (imagen) Vídeo a imagen: Único en su clase, captura movimiento y acción Especialización: Moda, fotografía de producto, lifestyle Precio: ~$0.02-0.04/imagen Perfecto para marcas de moda, e-commerce y storyboarding cuando se trabaja con el ecosistema Seedance.
Runway Gen-4.5 (SOTA en Herramientas de Edición) Uso: Freemium (pago) \| OSS: ❌ Lanzado: Dic 2025	Elo: 1230 Motion tracking: Avanzado Control de cámara: Director Mode Consistencia de personajes: Entre diferentes tomas La herramienta de referencia para profesionales que necesitan control granular sobre cada aspecto de la generación, con una suite de más de 30 herramientas de edición.	CogVideoX-5b-I2V Uso Gratuito: ✔️ (Pesos) \| OSS: ✔️ Lanzado: 2025	VRAM mínima: 4.4GB (INT8 cuantizado) Comunidad: 8,000+ estrellas en GitHub Ecosistema: Amplio, con múltiples forks y herramientas Especialización: Imagen a vídeo con control fino El modelo con el ecosistema más maduro para quienes necesitan personalización total.
Pika 2.5 (SOTA en Velocidad y Creatividad Social) Uso Gratuito: ✔️ (Créditos diarios) \| Pro: Pago \| OSS: ❌ Lanzado: Nov 2025	Elo: 1095 Velocidad: 30-90 segundos por generación (Turbo: 12s) Lip sync: Sí Pikaffects: Único en su clase La opción gratuita más accesible para creadores de contenido social, con créditos diarios renovables.	HunyuanVideo-1.5 (Tencent) Uso Gratuito: ✔️ (Pesos) \| OSS: ✔️ Lanzado: Ene 2026	Elo: 1022 Requisitos: RTX 4090 con 13.6GB VRAM Duración: Hasta 10 segundos en 1080p Text compliance: >95% El modelo open source más reciente, optimizado para ejecución en hardware de consumo con excelente comprensión de prompts.
Reconocimiento de Voz (Speech-to-Text)
OpenAI gpt-4o-transcribe (SOTA en Precisión y Robustez) Uso: API (pago por uso) \| OSS: ❌ Lanzado: Feb 2026	WER (LibriSpeech): Mejora significativa vs Whisper v3 Manejo de acentos: SOTA Robustez (ruido/hablantes simultáneos): Muy Alta Integración: Agents SDK con capacidad de escuchar/hablar Nueva generación de modelos de transcripción nativos en la arquitectura GPT-4o.	Mistral Voxtral Realtime Uso Gratuito: ✔️ (Pesos abiertos) \| API: $0.006/min \| OSS: ✔️ (Apache 2.0) Lanzado: Feb 2026	WER (FLEURS): ~4% (vs ~10% Whisper large-v3) Latencia: Configurable <200ms Idiomas: 13 (incl. español, francés, alemán) Diarización: Integrada en versión batch La alternativa open source más potente, con capacidad de auto-hospedaje para cumplir RGPD.
Gladia Audio Streaming (SOTA en Velocidad y Tiempo Real) Uso Gratuito: ✔️ (API Tier) \| OSS: ❌ Actualizado: Feb 2026	Latencia (P50): <300ms Disponibilidad: 99.95% SLA Transcripción: Inmutable (no cambia durante la conversación) Procesamiento: Más rápido que tiempo real Líder para aplicaciones de voz en vivo y agentes conversacionales.	Whisper.cpp (optimizado) Uso Gratuito: ✔️ \| OSS: ✔️ (MIT) Actualizado: Feb 2026	Eficiencia: SOTA en CPU / Edge Compatibilidad: Múltiples arquitecturas (ARM, x86) Latencia típica: 380-520ms en configuraciones optimizadas Perfecto para aplicaciones que requieren procesamiento local sin depender de la nube.
Step-Audio 2 mini (SOTA en Análisis Multimodal de Audio) Uso Gratuito: ✔️ (Pesos abiertos) \| OSS: ✔️ Lanzado: Feb 2026	Reconocimiento emocional: 86% precisión (distingue ironía, sarcasmo) Reconocimiento de escenas: 92% (oficina, calle, hogar) Detección de eventos: 88% (cristales rotos, llanto) Latencia: <300ms end-to-end Idiomas: 12 idiomas + 8 dialectos chinos El primer modelo que entiende no solo qué se dice, sino cómo y en qué contexto.	Amazon Nova Sonic Uso: API (vía Bedrock) \| OSS: ❌ Lanzado: Feb 2026	Arquitectura: End-to-end unificada (sin ASR+LLM+TTS separados) WER (MLS): 4.2% promedio (inglés, francés, italiano, alemán, español) Mejora vs GPT-4o: 46.7% más preciso en conversaciones multi-interlocutor Latencia percibida: 1.09 segundos (vs 1.18 de GPT-4o) Precio: 80% más barato que GPT-4o Alternativa empresarial con fuerte integración en ecosistema AWS.
Deepgram Aura (SOTA en Personalización y API) Uso Gratuito: ✔️ (API Tier) \| OSS: ❌ Actualizado: Feb 2026	Modelos especializados: Telefonía, reuniones, médicos Vocabulario personalizado: Sí Redacción de PII: Sí Latencia: <300ms en streaming Precio: Desde $0.0043/minuto La mejor opción para empresas que necesitan adaptar el ASR a sus datos y terminología específica.	SpeechBrain Toolkit Uso Gratuito: ✔️ \| OSS: ✔️ (Apache 2.0) Actualizado: Feb 2026	Flexibilidad: Máxima (fine-tuning total) Modelos pre-entrenados: Amplia variedad Componentes: Reconocimiento, diarización, clasificación, verificación de hablante Comunidad: Activa y en crecimiento La mejor opción OSS para construir sistemas de voz a medida desde cero.
Ingeniería de Software Autónoma
Cognition Labs Devin (Enterprise) (SOTA en Automatización de Software Empresarial) Uso: Enterprise (vía Synechron) \| OSS: ❌ Partnership: Feb 2026	Casos de Uso Reales: Modernización COBOL, Java, SAS-to-PySpark Certificación: Ingenieros entrenados por Cognition Integración: Con aceleradores de Synechron Define el estándar para agentes de ingeniería en banca y seguros con gobernanza y cumplimiento normativo.	OpenDevin Uso Gratuito: ✔️ \| OSS: ✔️ (MIT) Actualizado: 2025-2026	SWE-Bench (Resolución): ~18.4% (en subset filtrado) Autonomía: Parcial a completa Comunidad: Muy activa El esfuerzo OSS más importante para ingeniería autónoma, con herramientas de evaluación y análisis.
OpenAI GPT-5.3-Codex (SOTA en Benchmarks de Programación) Uso: ChatGPT Plus/Team/Enterprise \| OSS: ❌ Lanzado: Feb 2026	SWE-bench Pro: 56.8% Terminal-Bench 2.0: 77.3% OSWorld-Verified: 64.7% Velocidad: +25% más rápido que versión anterior Contexto: 1M	DeepSeek-V2.5 Uso Gratuito: ✔️ (Pesos/API) \| OSS: ✔️ Lanzado: 2025	HumanEval: 89% (Python) LiveCodeBench: 41.8% Aider: 72.2% Contexto: 128k
Cursor (Agentes de Larga Duración) (SOTA en IDEs Agénticos) Uso Gratuito: ✔️ (Plan gratuito) \| OSS: ❌ Actualizado: Feb 2026	Novedades Feb 2026: Agentes de larga duración, subagentes paralelos Trazabilidad: Cursor Blame (atribución IA/humano) Funciones Clave: Planificación autónoma, ejecución sin supervisión La experiencia más avanzada en desarrollo con agentes dentro del editor.	Aider Uso Gratuito: ✔️ \| OSS: ✔️ (Apache 2.0) Actualizado: Continuamente	Benchmarks propios: Resultados competitivos en Aider Polyglot Flexibilidad: Modelos locales o remotos Control: Total para desarrolladores La alternativa OSS más potente para la programación agéntica en CLI.
Traducción Automática
DeepL Pro (SOTA en Traducción de Textos Largos) Uso Gratuito: ✔️ (Limitado) \| Pro: Pago \| OSS: ❌ Actualizado: Feb 2026	MOS (textos largos): Muy alto en idiomas europeos Formatos: PDF, DOCX, PPTX con preservación de maquetación Especialización: Patentes, documentos legales, marketing Limitación: 33 idiomas (principalmente europeos) La referencia para traducción profesional donde el formato y la precisión terminológica son críticos.	Google Translate (Gemini) Uso Gratuito: ✔️ \| OSS: ❌ Actualizado: Feb 2026	Idiomas: 249 soportados Modalidades: Texto, voz, imagen, documentos Precisión: 16/21 traducciones precisas en estudios con términos técnicos NMT: Motor neuronal con 10 años de evolución La opción gratuita más versátil y con mayor cobertura idiomática.
MiLMMT-46 (Gemma3-based) (SOTA en Traducción Open Source) Uso Gratuito: ✔️ (Pesos) \| OSS: ✔️ Lanzado: Feb 2026	WMT24 (promedio 46 idiomas): Supera a Seed-X, HY-MT-1.5 y TranslateGemma Comparativa: Rendimiento competitivo con Google Translate y Gemini 3 Pro Arquitectura: Continual pretraining + instruction finetuning sobre Gemma3 El primer modelo open source que iguala a sistemas propietarios en traducción multilingüe a gran escala.	Google TranslateGemma Uso Gratuito: ✔️ (Pesos) \| OSS: ✔️ Lanzado: Ene 2026	Idiomas: 55 oficiales + 500 pares adicionales Versiones: 4B (móvil), 12B (portátil), 27B (cloud) WMT24++: 12B supera a Gemma3 27B Capacidades: Traducción de texto en imágenes sin fine-tuning específico La apuesta de Google por la democratización de la traducción con modelos ligeros y transparentes.
Mistral Voxtral Realtime (SOTA en Traducción en Tiempo Real) Uso Gratuito: ✔️ (Pesos abiertos) \| API: Pago \| OSS: ✔️ (Apache 2.0) Lanzado: Feb 2026	Latencia: <200ms (vs 2 segundos de Google) Idiomas: 13 idiomas Tamaño: 4B parámetros (ejecutable en móvil) Privacidad: Procesamiento local, sin nube Un paso hacia la conversación fluida entre idiomas sin barreras de latencia .	Gemini 3 Pro (Traducción) Uso Gratuito: ✔️ (Limitado) \| OSS: ❌ Actualizado: Feb 2026	Latencia: ~2 segundos Contexto: Traducción conversacional con comprensión de matices y emociones Integración: Dentro del asistente Gemini, con capacidad de 200 idiomas vía Google Translate Uso: "Responde en inglés", "traduce esto" como parte natural de la conversación Ideal para conversaciones informales donde el contexto prima sobre la latencia.
Argos Translate (SOTA en Traducción Offline) Uso Gratuito: ✔️ \| OSS: ✔️ (MIT) Actualizado: Feb 2026	Motor: OpenNMT Idiomas: +30 (incluye chino, español, inglés, etc.) Dependencias: Ninguna externa (todo local) Popularidad: 5.6k ⭐ en GitHub La librería de referencia para integrar traducción offline en aplicaciones Python.	Apertium Uso Gratuito: ✔️ \| OSS: ✔️ (GPL) Actualizado: Feb 2026	Motor: Basado en reglas lingüísticas (no neuronal) Idiomas: Amplia cobertura, especialmente en lenguas romances y eslavas Ventaja: Ligero, rápido, no requiere GPU Joshua Language Packs: 62 pares precompilados para Java Opciones ideales para entornos con recursos limitados o necesidades lingüísticas específicas.

Lista de Enlaces y Fuentes

Leaderboards y Rankings de IA

LM Arena (Imagen) Ranking de generación de imágenes por comparación humana ciega. Incluye GPT Image 1.5, Gemini 3 Pro, Flux y Hunyuan.
Artificial Analysis (Vídeo) Ranking de generación de vídeo con puntuaciones Elo. Liderado por Kling 3.0 Pro, con Seedance 2.0 emergiendo como referente en control multimodal.
LMSys Chatbot Arena Ranking de modelos de chat por votación humana. Referencia para Gemini 3.1 Pro, Claude Opus 4.6 y GPT-5.2.
SWE-Bench Leaderboard Benchmark de resolución de issues reales de GitHub. Clave para evaluar agentes de código como Devin y GPT-5.3-Codex.
LibriSpeech Leaderboard Ranking de precisión en reconocimiento de voz (WER). Incluye gpt-4o-transcribe y Mistral Voxtral.
WMT24 Leaderboard Benchmark de traducción automática. Nuevos modelos como MiLMMT-46 y TranslateGemma.
GAIA Benchmark Benchmark de agentes de IA en tareas complejas del mundo real.
Needle In A Haystack (NIAH) Prueba de fiabilidad en contexto largo. Utilizada para Claude Opus 4.6 y Gemini 3.1 Pro.

Páginas Oficiales de Modelos y Proyectos

OpenAI Hogar de GPT-5.2, GPT-5.3-Codex, GPT Image 1.5, gpt-4o-transcribe y Voice Engine.
Anthropic Hogar de Claude Opus 4.6 y sus capacidades de equipo de agentes.
Google DeepMind Hogar de Gemini 3.1 Pro, Veo 3.1, Lyria 3 y LearnLM.
xAI Hogar de Grok 4.1 Fast.
Zhipu GLM-5 Modelo open source de 744B parámetros (MIT).
Arcee AI Hogar de Trinity Large, el MoE abierto de 400B params.
DeepSeek AI Modelos open source DeepSeek-V2.5 y próximo V4.
Black Forest Labs Creadores de la familia Flux (Max, Flex, Pro Ultra, Kontext Pro).
Stability AI Hogar de Stable Audio Open 2.0.
CogVideoX (Tsinghua) Modelo open source de vídeo con 8k estrellas en GitHub.
HunyuanVideo (Tencent) Modelo open source de vídeo optimizado para RTX 4090.
Cognition Labs Devin Agente de software autónomo para empresas.
ByteDance Seedance 2.0 Modelo de vídeo con control multimodal de hasta 12 referencias, sincronización audio/vídeo nativa y precios ultrabajos.

Herramientas, Plataformas y Aplicaciones de IA

Cursor IDE agéntico con agentes de larga duración y subagentes.
Aider Par programador de IA en línea de comandos (OSS).
OpenDevin Alternativa open source a Devin.
Perplexity Pro Motor de respuestas con búsqueda en tiempo real y modo académico.
Elicit Asistente de IA para revisión de literatura.
Consensus Motor de búsqueda de consenso científico.
NotebookLM Cuaderno de investigación con IA que genera podcasts y guías de estudio.
Google Little Language Lessons Herramientas experimentales para aprendizaje de idiomas.
ElevenLabs Plataforma líder en generación de voz realista.
Suno AI Generación de canciones completas con IA.
Udio Competidor de Suno con enfoque en producción musical.
Runway Suite de edición y generación de vídeo.
Pika Plataforma de vídeo con créditos diarios gratuitos.
Kling AI Modelo de vídeo líder de Kuaishou.
DeepL Traductor especializado en documentos técnicos.

Informes Técnicos y Artículos de Investigación (2026)

OpenAI Audio Models (Feb 2026) Presentación de gpt-4o-transcribe y gpt-4o-mini-transcribe.
Mistral Voxtral (Feb 2026) Modelo de transcripción en tiempo real con pesos abiertos.
Google Lyria 3 (Feb 2026) Modelo de generación musical integrado en Gemini.
LTX-2 (Lightricks) Modelo open source de vídeo con audio sincronizado.
MiLMMT-46 (arXiv Feb 2026) Modelo de traducción multilingüe basado en Gemma3 que iguala a Google Translate.
OpenAI GPT-5.3-Codex (Feb 2026) Modelo unificado de código y razonamiento para agentes de ingeniería.
Gemini 3.1 Pro (Feb 2026) Modelo de Google con 1M de contexto y capacidades multimodales.
Claude Opus 4.6 (Feb 2026) Nuevo modelo de Anthropic con equipos de agentes.
ByteDance Seedance 2.0 (Feb 2026) Modelo de vídeo con control multimodal de hasta 12 referencias, sincronización perfecta de audio y precios ultrabajos.

Captura de la web con mis contenidos sobre IA

Volver a mis contenidos sobre IA