| Agentes de Propósito General: Inteligencia, Razonamiento, Acción... | |||
|---|---|---|---|
| Gemini 3.1 Pro Preview (Google - Feb 2026) Uso: API (pago) / AI Studio / NotebookLM Pro | OSS: ❌ |
GPQA: 88.5 MMLU-Pro: 89.0 ARC-AGI-2: 77.1% Capacidades destacadas: Gráficos interactivos en tiempo real, simulación 3D, integración con Google Maps Contexto: 1M Diseñado para tareas donde una respuesta simple no es suficiente. |
GLM-5 (744B) (Zhipu - Feb 2026) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ (MIT) |
GPQA: 81.5 SWE-Bench: 77.8% MMLU: 88.5 Contexto: 128k El modelo open source más potente para tareas de razonamiento general y código. |
| Claude Opus 4.6 (Anthropic - Feb 2026) Uso: Premium ($20/mes) | OSS: ❌ |
LMArena Elo: #1 Global Terminal-Bench 2.0: #1 GDPval-AA: +144 Elo vs GPT-5.2 NIAH (1M): 100% Equipos de agentes: Líder + subagentes especializados Contexto: 1M Capacidad de formar equipos de agentes que colaboran en tareas complejas. |
Arcee Trinity Large (400B) (Arcee - Feb 2026) Uso Gratuito: ✔️ (Pesos HF) | OSS: ✔️ (Apache 2.0) |
NIAH (1M): 98.5% MMLU: 86.5 Arquitectura: MoE con atención entrelazada Contexto: 1M El modelo open source con mejor rendimiento en contexto largo. |
| Grok 4.1 Fast (xAI - Feb 2026) Uso: API / Empresas | OSS: ❌ |
MATH: 83.0 GPQA: 88.0 τ²-bench (Telecom): 100% LMArena: 4º global Contexto: 2M Especialista en razonamiento matemático y uso de herramientas empresariales. |
DeepSeek-V2.5 (DeepSeek - 2025) Uso Gratuito: ✔️ (Pesos/API) | OSS: ✔️ |
MATH: 78.1 HumanEval: 89% LiveCodeBench: 41.8% Contexto: 128k La alternativa open source más sólida para tareas de razonamiento y código. |
| OpenAI GPT-5.2 (OpenAI - Feb 2026) Uso: ChatGPT Plus/Team/Enterprise | OSS: ❌ |
MMLU-Pro: 88.1 Velocidad: Optimización equilibrio velocidad/precisión HW Partnership: Acuerdo con Broadcom para chips personalizados Contexto: 256k Modelo optimizado para producción a gran escala con mejor eficiencia. |
DeepSeek V4 (Próximamente) (DeepSeek - Feb 2026) Uso: Gratis / API barata | OSS: ✔️ (MIT) |
Arquitectura mHC + Engram: Memoria condicional para estabilidad y contexto ultra-largo ARC-AGI-2: 71.5% (esperado) Eficiencia: 30% más eficiente que V3 Contexto: 1M+ (esperado) El modelo open source más anticipado del año. |
| Dola Seed 2.0 Pro (Dola AI - Feb 2026) Uso: API / Web | OSS: ❌ |
LMArena Elo: 6º global Rendimiento/tamaño: Excelente relación Posicionamiento: Mejor modelo emergente de 2026 Contexto: 128k La gran sorpresa del ranking, compitiendo directamente con los gigantes. |
Nanbeige4.1-3B (Nanbeige - Feb 2026) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ |
Tool calls: Hasta 600 turnos consecutivos Rendimiento: Supera a Qwen3-30B-A3B Benchmarks: Resultados competitivos en razonamiento y código Contexto: 32k Demuestra que los modelos pequeños pueden lograr competencia generalista. |
| Claude Opus 4.6 Thinking (Anthropic - Feb 2026) Uso: Premium ($20/mes) | OSS: ❌ |
LMArena Elo: #1 global (versión thinking) Razonamiento profundo: SOTA en tareas complejas Humanity's Last Exam: Líder Contexto: 1M La referencia absoluta para razonamiento de nivel experto. |
Ant Group Ring-2.5-1T (Ant Group - Feb 2026) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ |
IMO 2025: 35/42 (medalla de oro) CMO 2025: 105/126 (supera corte del equipo nacional chino) Eficiencia en contexto largo: Reducción 10x en acceso a memoria Arquitectura: Híbrida lineal, 63B parámetros activos Integración: Compatible con Claude Code y OpenClaw El primer modelo open source que alcanza nivel de medalla de oro en olimpiadas matemáticas. |
| Aprendizaje Personalizado y Tutoría con IA | |||
| OpenAI GPT-5 (Modo Tutor) (SOTA en Tutoría Adaptativa) Uso: ChatGPT Plus/Team/Enterprise | OSS: ❌ GPT-5.2: Feb 2026 |
Metodología: Aprendizaje adaptativo y socrático Personalización: Ajuste al nivel y ritmo del estudiante GPT Store: Tutores especializados creados por la comunidad Disponibilidad: GPT-5.2 Instant, Thinking y Pro El tutor de referencia para cualquier materia, desde humanidades hasta ciencias. |
Google LearnLM (en Gemini for Education) Uso: Gratuito (vía Gemini) | OSS: ❌ Integrado en Gemini: Feb 2026 |
Principios pedagógicos: Aprendizaje activo, metacognición, personalización Mejora demostrada: +5.5% en resolución de problemas novedosos vs. tutores humanos Herramientas: "Gems" para crear asistentes docentes personalizados La alternativa con base científica en pedagogía. |
| Google Little Language Lessons (SOTA en Aprendizaje Contextual de Idiomas) Uso Gratuito: ✔️ (Google Labs) | OSS: ❌ Lanzamiento: Ene-Feb 2026 |
Enfoque: Lecciones breves basadas en situaciones cotidianas Tecnología: Gemini + Cloud Text-to-Speech para pronunciación Herramientas: Tiny Lesson, Slang Hang, Word Cam Idiomas: +40 idiomas disponibles Aprendizaje práctico, contextual y gratuito sin estructura curricular rígida. |
ELSA Speak Uso Gratuito: ✔️ (Básico) | Pro: Pago | OSS: ❌ Actualizado: Feb 2026 |
Especialización: Pronunciación y acento (neutro americano) Ejercicios: +40,000 prácticas en contextos diversos (viajes, entrevistas) Feedback: Análisis fonémico en tiempo real Preparación: IELTS, Pearson PTE, TOEFL La mejor opción para perfeccionar la pronunciación con precisión científica. |
| Wolfram Alpha (Step-by-Step) (SOTA en Resolución Guiada de Problemas Técnicos) Uso Gratuito: ✔️ (Limitado) | Pro: ~$5/mes | OSS: ❌ Actualizado: Continuamente |
Dominios: Matemáticas, Física, Química, Ingeniería, Estadística Calidad: Rigurosa, basada en conocimiento experto computacional Generación: Práctica ilimitada con problemas similares Visualización: Gráficos interactivos y pasos detallados El estándar de oro para estudiantes de ciencias que necesitan entender el proceso. |
Photomath (con IA) Uso Gratuito: ✔️ (Básico) | Plus: ~$7/mes | OSS: ❌ Actualizado: Feb 2026 |
Dominios: Matemáticas (desde aritmética hasta cálculo) Método de entrada: Escaneo con cámara (ultrarrápido) Calidad: Explicaciones claras y visuales Funciones IA: Práctica personalizada basada en el progreso La alternativa más accesible y popular para matemáticas en dispositivos móviles. |
| NotebookLM (Gemini 3.1 Pro) (SOTA en Generación de Contenido Educativo Personalizado) Uso Gratuito: ✔️ | OSS: ❌ Actualizado: Feb 2026 |
Novedades Feb 2026: "Video Overviews" con estilos visuales (acuarela, pizarra, anime) Generación: Podcasts, FAQs, guías de estudio, líneas de tiempo, infografías, PPTX Capacidad: Hasta 50 fuentes por cuaderno (PDFs, audios, presentaciones) Precisión: Respuestas basadas exclusivamente en tus documentos La herramienta más avanzada para estudiar con materiales propios. |
Otter.ai Uso Gratuito: ✔️ (Limitado) | Pro: Pago | OSS: ❌ Actualizado: Feb 2026 |
Función principal: Transcripción automática de clases y conferencias Precisión: >95% en reconocimiento de voz Idiomas: 92 idiomas soportados Valor añadido: Extracción de tareas, búsqueda en transcripciones, integración con calendario Ideal para estudiantes que quieren capturar y consultar el contenido de sus clases. |
| Ayuda en Investigación | |||
| Consensus (Síntesis de Evidencia) (SOTA en Síntesis de Evidencia) Uso Gratuito: ✔️ (Búsquedas limitadas) | OSS: ❌ Actualizado: Feb 2026 |
Función Principal: Extracción de Hallazgos Científicos Métrica Clave: Síntesis de consenso (+200M papers) Precisión de Respuestas: Muy Alta Filtros: Por tipo de estudio, fecha, acceso abierto Responde preguntas mostrando el porcentaje de papers que apoyan cada postura. |
Scite.ai Uso Gratuito: ✔️ (Limitado) | OSS: ❌ Actualizado: Feb 2026 |
Función Principal: Verificación de Citas ("Smart Citations") Base de Datos: +1.200M de citas Visualización: Red de citas clasificadas Ideal para evaluar el impacto y la fiabilidad de un paper por cómo ha sido citado. |
| Elicit (Revisión de Literatura) (SOTA en Automatización de Revisiones Sistemáticas) Uso Gratuito: ✔️ (Créditos) | OSS: ❌ Actualizado: Feb 2026 |
Función Principal: Extracción estructurada de datos Base de Datos: +200M papers (Semantic Scholar) Automatización: Búsqueda, filtrado, extracción y síntesis Exportación: Tablas, resúmenes, BibTeX Permite pasar de una pregunta de investigación a una tabla con los hallazgos clave de decenas de papers en minutos. |
SciSpace (Typeset) Uso Gratuito: ✔️ (Limitado) | OSS: ❌ Actualizado: Feb 2026 |
Función Principal: Comprensión de papers vía chat Métrica Clave: Análisis conversacional Integraciones: Zotero, Mendeley Extracción: Resúmenes, ecuaciones, tablas Excelente para entender un paper complejo haciéndole preguntas directamente. |
| Claude Opus 4.6 (Análisis Profundo) (SOTA en Extracción Fiel de Información) Uso Gratuito: ❌ | OSS: ❌ Lanzado: Feb 2026 |
NIAH (200k): 100% FEVER: 97.2% QASPER: 86.5% GPQA: 87.8% Contexto: 1M |
Llama 3.1 405B (1M) Uso Gratuito: ✔️ (Modelos) | OSS: ✔️ (Llama Lic) Lanzado: 2024 |
NIAH (1M): ~99.2% GPQA: 58.2% QASPER: ~75.3% MMLU: 86.1% Contexto: 1M |
| Gemini 3.1 Pro (Análisis Masivo) (SOTA en Análisis Multimodal a Gran Escala) Uso Gratuito: ✔️ (AI Studio) | OSS: ❌ Lanzado: Feb 2026 |
NIAH (1M): 99.9% MMMU: 84.2% GPQA: 88.5% QASPER: 86.0% Contexto: 1M (con multimodalidad) |
Kimi (Moonshot AI) Uso Gratuito: ✔️ | OSS: ❌ Actualizado: Feb 2026 |
NIAH (1M): ~98.5% Análisis de Ficheros: PDF, Word, Excel, PPT, imágenes Contexto: 1M+ (gratuito) La mejor alternativa gratuita para análisis de contexto masivo, especialmente para usuarios fuera de China vpn. |
| Perplexity Pro (RAG) (SOTA en Búsqueda con Fuentes) Uso Gratuito: ✔️ (Limitado) | OSS: ❌ Actualizado: Feb 2026 |
Calidad de RAG: SOTA Precisión de Citas: 98% Cobertura de Fuentes: Web, académico, redes Modo "Pro" (feb 2026): Búsqueda en papers científicos El mejor para respuestas rápidas y verificadas con fuentes directas. |
Phind (Modo Investigación) Uso Gratuito: ✔️ | OSS: ❌ Actualizado: Feb 2026 |
Calidad de RAG: Enfocada en código y técnico Precisión de Citas: Muy Alta Base de Conocimiento: Stack Overflow, documentación, papers técnicos Optimizado para respuestas técnicas precisas con ejemplos de código y enlaces a fuentes. |
| Generación de Voz y Música | |||
| ElevenLabs V3 (SOTA en Voz Realista y Clonación) Uso Gratuito: ✔️ (Créditos mensuales) | Pro: Pago | OSS: ❌ Lanzado: Feb 2026 |
MOS (Naturalidad): >4.5 Clonación: Muestra de 5 segundos, preservación emocional Latencia streaming: <200ms (agentes conversacionales) Idiomas: +30 con acentos regionales El estándar de la industria para voces de alta calidad en producción profesional. |
Coqui XTTS-v2 Uso Gratuito: ✔️ | OSS: ✔️ (MPL) Actualizado: 2025 |
MOS (Naturalidad): ~4.2 Clonación cross-lingual: Sí Fine-tuning local: Posible con GPU doméstica La alternativa open source más potente para quienes necesitan control total y privacidad. |
| Suno AI v4 (SOTA en Generación de Canciones) Uso Gratuito: ✔️ (Créditos diarios) | Pro: Pago | OSS: ❌ Lanzado: Feb 2026 |
Calidad vocal: SOTA (voces casi indistinguibles de humanas) Control de estructura: Verso, estribillo, puente Duración: Hasta 4 minutos por canción Rango vocal: 30-45 semitonos La herramienta de referencia para creadores que quieren generar canciones completas con letra y melodía coherente. |
Udio Uso Gratuito: ✔️ (Créditos) | Pro: Pago | OSS: ❌ Actualizado: Feb 2026 |
Calidad de producción: Muy alta (énfasis en mezcla y masterización) Extensión: Añadir secciones a temas existentes Replace section: Corrige problemas específicos Preferido por muchos músicos por su sonido más pulido y posibilidades creativas. |
| Google Lyria 3 (en Gemini) (SOTA en Generación Musical Integrada) Uso Gratuito: ✔️ (vía Gemini) | OSS: ❌ Lanzado: Feb 2026 |
Duración: 30 segundos por generación Calidad: Alta fidelidad con voces y letras automáticas Modalidades: Texto, imágenes, audio o vídeo como prompt SynthID: Marca de agua integrada Idiomas: 8 idiomas Integrado directamente en Gemini, con generación de portadas. |
Stable Audio Open 2.0 Uso Gratuito: ✔️ (Pesos) | API: Pago | OSS: ✔️ Actualizado: Feb 2026 |
Duración máxima: 47 segundos (ideal para SFX y loops) Calidad: 44.1kHz estéreo Tipos de salida: Efectos, stems, loops, instrumentales La referencia para creadores que necesitan efectos de sonido personalizados y libres de derechos. |
| OpenAI Voice Engine (SOTA en Voz para Diálogos) Uso: API (pago por uso) | OSS: ❌ Lanzado: Oct 2025 |
MOS (Naturalidad): >4.4 Control emocional: Énfasis, tono, ritmo ajustable Duración: Optimizado para párrafos largos y conversaciones TTS expresivo: Capta matices y entonación contextual Modelo específico para aplicaciones que requieren voz natural en diálogos largos, audiolibros y narraciones. |
ChatTTS Uso Gratuito: ✔️ | OSS: ✔️ Actualizado: 2025 |
MOS (Naturalidad): ~4.1 Enfoque: Conversaciones y diálogos naturales Control: Tono y emoción ajustables Comunidad: Muy activa, con numerosos fine-tunes La mejor opción OSS para generar voz natural en contextos conversacionales. |
| Generación de Imágenes | |||
| GPT Image 1.5 (OpenAI) (SOTA en Generación General) Uso: ChatGPT Plus/Pro/API | OSS: ❌ Lanzado: Dic 2025 |
LM Arena Elo: 1264 Renderizado de texto: SOTA (tipografía compleja, logos, señalética) Fotorrealismo: Excepcional Integración: Nativa con ChatGPT, flujos multimodales sin fisuras El nuevo estándar para materiales de marketing profesionales, maquetas de producto y composiciones complejas que requieren texto legible. |
Flux 2 Max Uso Gratuito: ✔️ (Pesos) | API: Pago | OSS: ✔️ Lanzado: 2025 |
LM Arena Elo: 1168 Soporte LoRA: Sí (miles de modelos comunitarios) Ejecución local: Posible con RTX 4090 Comunidad: Activa en Civitai con miles de variantes El rey del open source para quienes necesitan control absoluto, privacidad o modelos personalizados. |
| Gemini 3 Pro Image (SOTA en Integración Multimodal) Uso Gratuito: ✔️ (AI Studio) | API: Pago | OSS: ❌ Lanzado: Feb 2026 |
LM Arena Elo: 1235 Latencia: 3-5 segundos por imagen Comprensión de prompts: Excelente en instrucciones conversacionales complejas Integración: Google Workspace, Cloud Platform, búsqueda Ideal para usuarios del ecosistema Google, contenido internacional y prototipado rápido con edición multimodal avanzada. |
Flux 2 Flex Uso Gratuito: ✔️ (Pesos) | API: Pago | OSS: ✔️ Lanzado: 2025 |
LM Arena Elo: 1157 Velocidad: 2-4 segundos (más rápida que Max) Requisitos: Menor computación, apto para más entornos Calidad: Ligeramente inferior a Max, pero excelente para alto volumen La opción open source cuando la velocidad de iteración es prioritaria sobre el máximo detalle. |
| Flux 1.1 Pro Ultra (SOTA en Resolución y Control) Uso: API vía plataformas (SiliconFlow, etc.) | OSS: ❌ (API) Lanzado: 2025 |
Resolución máxima: 4 megapíxeles (2048x2048) / 2K Fotorrealismo: Superior, con modos Ultra (composición precisa) y Raw (texturas naturales) Precio: ~$0.06/imagen vía SiliconFlow La referencia para producción visual comercial donde el detalle y la fidelidad son críticos. |
Flux.1 Kontext Pro Uso: API | OSS: ❌ (API) Lanzado: 2025 |
Comprensión semántica: Avanzada, con soporte de imágenes de referencia Control local preciso: Ediciones detalladas manteniendo contexto global Precio: ~$0.04/imagen Ideal para diseño de marcas, visualización de productos e ilustración narrativa que requiere coherencia en múltiples iteraciones. |
| Hunyuan Image 3.0 (Tencent) (SOTA en Anime y Contenido Asiático) Uso: API | OSS: ❌ Lanzado: 2025 |
LM Arena Elo: 1152 Anime / Manga: Lo mejor de su clase, con consistencia de personajes Idiomas: Fuerte comprensión en chino y asiáticos Precio: ~$0.02-0.05/imagen La elección para arte anime, diseño de personajes, webtoons y contenido para mercados asiáticos. |
Seedream 4.5 (ByteDance) Uso: API | OSS: ❌ Lanzado: 2025 |
LM Arena Elo: 1147 Vídeo a imagen: Único en su clase, captura movimiento y acción Especialización: Moda, fotografía de producto, lifestyle Precio: ~$0.02-0.04/imagen Perfecto para marcas de moda, e-commerce, storyboarding y cualquier escena que requiera dinamismo. |
| Generación de Vídeo | |||
| Kling 3.0 Pro (Kuaishou) (SOTA en Generación General y Física) Uso: API / Web (pago) | OSS: ❌ Lanzado: Feb 2026 |
Elo: 1248 (#1) Duración máxima: 2 minutos en 1080p (soporte multi-corte) Física compleja: SOTA (deformación por impacto, dinámica de fluidos) Lip-sync: Nativo para diálogos Precio: $13.44/minuto (suscripciones desde $10-50/mes) El líder indiscutible del ranking, especialmente valorado por su capacidad para generar animación expresiva, físicas realistas y movimientos complejos . |
LTX-2 Pro (Lightricks) Uso Gratuito: ✔️ (Pesos abiertos) | OSS: ✔️ (Apache 2.0) Lanzado: Oct 2025 |
Elo: 1138 Resolución: Hasta 4K/50fps con audio sincronizado Lip-sync: Nativo Requisitos: GPU con 12GB+ VRAM (RTX 4090) Eficiencia: 18x más rápido que otros modelos de su tamaño La alternativa open source mejor posicionada en rankings, con capacidad de ejecución local y sin coste por uso. |
| Seedance 2.0 Pro (ByteDance) (SOTA en Control Multimodal y Producción) Uso: API (pago) / Doubao / JI Meng | OSS: ❌ Lanzado: Feb 2026 |
Resolución máxima: 2K (alta fidelidad) Duración: 4-15 segundos por clip (generación multi-escena) Referencias: Hasta 12 archivos (9 imágenes + 3 vídeos + audio) Lip-sync: Nativo (más de 8 idiomas, precisión fonémica) Beat-sync: Sí (audio multi-pista) Velocidad de generación: ~60 segundos por clip Precio: $0.47/millón tokens entrada, $2.37/salida Diseñado para flujos de trabajo profesionales que requieren control absoluto sobre personajes, estilos, movimiento y audio. Define el estándar para producción comercial con su sistema de referencia de 12 entradas . |
Seedream 4.5 (ByteDance) Uso: API | OSS: ❌ Lanzado: 2025 |
LM Arena Elo: 1147 (imagen) Vídeo a imagen: Único en su clase, captura movimiento y acción Especialización: Moda, fotografía de producto, lifestyle Precio: ~$0.02-0.04/imagen Perfecto para marcas de moda, e-commerce y storyboarding cuando se trabaja con el ecosistema Seedance. |
| Runway Gen-4.5 (SOTA en Herramientas de Edición) Uso: Freemium (pago) | OSS: ❌ Lanzado: Dic 2025 |
Elo: 1230 Motion tracking: Avanzado Control de cámara: Director Mode Consistencia de personajes: Entre diferentes tomas La herramienta de referencia para profesionales que necesitan control granular sobre cada aspecto de la generación, con una suite de más de 30 herramientas de edición. |
CogVideoX-5b-I2V Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Lanzado: 2025 |
VRAM mínima: 4.4GB (INT8 cuantizado) Comunidad: 8,000+ estrellas en GitHub Ecosistema: Amplio, con múltiples forks y herramientas Especialización: Imagen a vídeo con control fino El modelo con el ecosistema más maduro para quienes necesitan personalización total. |
| Pika 2.5 (SOTA en Velocidad y Creatividad Social) Uso Gratuito: ✔️ (Créditos diarios) | Pro: Pago | OSS: ❌ Lanzado: Nov 2025 |
Elo: 1095 Velocidad: 30-90 segundos por generación (Turbo: 12s) Lip sync: Sí Pikaffects: Único en su clase La opción gratuita más accesible para creadores de contenido social, con créditos diarios renovables. |
HunyuanVideo-1.5 (Tencent) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Lanzado: Ene 2026 |
Elo: 1022 Requisitos: RTX 4090 con 13.6GB VRAM Duración: Hasta 10 segundos en 1080p Text compliance: >95% El modelo open source más reciente, optimizado para ejecución en hardware de consumo con excelente comprensión de prompts. |
| Reconocimiento de Voz (Speech-to-Text) | |||
| OpenAI gpt-4o-transcribe (SOTA en Precisión y Robustez) Uso: API (pago por uso) | OSS: ❌ Lanzado: Feb 2026 |
WER (LibriSpeech): Mejora significativa vs Whisper v3 Manejo de acentos: SOTA Robustez (ruido/hablantes simultáneos): Muy Alta Integración: Agents SDK con capacidad de escuchar/hablar Nueva generación de modelos de transcripción nativos en la arquitectura GPT-4o. |
Mistral Voxtral Realtime Uso Gratuito: ✔️ (Pesos abiertos) | API: $0.006/min | OSS: ✔️ (Apache 2.0) Lanzado: Feb 2026 |
WER (FLEURS): ~4% (vs ~10% Whisper large-v3) Latencia: Configurable <200ms Idiomas: 13 (incl. español, francés, alemán) Diarización: Integrada en versión batch La alternativa open source más potente, con capacidad de auto-hospedaje para cumplir RGPD. |
| Gladia Audio Streaming (SOTA en Velocidad y Tiempo Real) Uso Gratuito: ✔️ (API Tier) | OSS: ❌ Actualizado: Feb 2026 |
Latencia (P50): <300ms Disponibilidad: 99.95% SLA Transcripción: Inmutable (no cambia durante la conversación) Procesamiento: Más rápido que tiempo real Líder para aplicaciones de voz en vivo y agentes conversacionales. |
Whisper.cpp (optimizado) Uso Gratuito: ✔️ | OSS: ✔️ (MIT) Actualizado: Feb 2026 |
Eficiencia: SOTA en CPU / Edge Compatibilidad: Múltiples arquitecturas (ARM, x86) Latencia típica: 380-520ms en configuraciones optimizadas Perfecto para aplicaciones que requieren procesamiento local sin depender de la nube. |
| Step-Audio 2 mini (SOTA en Análisis Multimodal de Audio) Uso Gratuito: ✔️ (Pesos abiertos) | OSS: ✔️ Lanzado: Feb 2026 |
Reconocimiento emocional: 86% precisión (distingue ironía, sarcasmo) Reconocimiento de escenas: 92% (oficina, calle, hogar) Detección de eventos: 88% (cristales rotos, llanto) Latencia: <300ms end-to-end Idiomas: 12 idiomas + 8 dialectos chinos El primer modelo que entiende no solo qué se dice, sino cómo y en qué contexto. |
Amazon Nova Sonic Uso: API (vía Bedrock) | OSS: ❌ Lanzado: Feb 2026 |
Arquitectura: End-to-end unificada (sin ASR+LLM+TTS separados) WER (MLS): 4.2% promedio (inglés, francés, italiano, alemán, español) Mejora vs GPT-4o: 46.7% más preciso en conversaciones multi-interlocutor Latencia percibida: 1.09 segundos (vs 1.18 de GPT-4o) Precio: 80% más barato que GPT-4o Alternativa empresarial con fuerte integración en ecosistema AWS. |
| Deepgram Aura (SOTA en Personalización y API) Uso Gratuito: ✔️ (API Tier) | OSS: ❌ Actualizado: Feb 2026 |
Modelos especializados: Telefonía, reuniones, médicos Vocabulario personalizado: Sí Redacción de PII: Sí Latencia: <300ms en streaming Precio: Desde $0.0043/minuto La mejor opción para empresas que necesitan adaptar el ASR a sus datos y terminología específica. |
SpeechBrain Toolkit Uso Gratuito: ✔️ | OSS: ✔️ (Apache 2.0) Actualizado: Feb 2026 |
Flexibilidad: Máxima (fine-tuning total) Modelos pre-entrenados: Amplia variedad Componentes: Reconocimiento, diarización, clasificación, verificación de hablante Comunidad: Activa y en crecimiento La mejor opción OSS para construir sistemas de voz a medida desde cero. |
| Ingeniería de Software Autónoma | |||
| Cognition Labs Devin (Enterprise) (SOTA en Automatización de Software Empresarial) Uso: Enterprise (vía Synechron) | OSS: ❌ Partnership: Feb 2026 |
Casos de Uso Reales: Modernización COBOL, Java, SAS-to-PySpark Certificación: Ingenieros entrenados por Cognition Integración: Con aceleradores de Synechron Define el estándar para agentes de ingeniería en banca y seguros con gobernanza y cumplimiento normativo. |
OpenDevin Uso Gratuito: ✔️ | OSS: ✔️ (MIT) Actualizado: 2025-2026 |
SWE-Bench (Resolución): ~18.4% (en subset filtrado) Autonomía: Parcial a completa Comunidad: Muy activa El esfuerzo OSS más importante para ingeniería autónoma, con herramientas de evaluación y análisis. |
| OpenAI GPT-5.3-Codex (SOTA en Benchmarks de Programación) Uso: ChatGPT Plus/Team/Enterprise | OSS: ❌ Lanzado: Feb 2026 |
SWE-bench Pro: 56.8% Terminal-Bench 2.0: 77.3% OSWorld-Verified: 64.7% Velocidad: +25% más rápido que versión anterior Contexto: 1M |
DeepSeek-V2.5 Uso Gratuito: ✔️ (Pesos/API) | OSS: ✔️ Lanzado: 2025 |
HumanEval: 89% (Python) LiveCodeBench: 41.8% Aider: 72.2% Contexto: 128k |
| Cursor (Agentes de Larga Duración) (SOTA en IDEs Agénticos) Uso Gratuito: ✔️ (Plan gratuito) | OSS: ❌ Actualizado: Feb 2026 |
Novedades Feb 2026: Agentes de larga duración, subagentes paralelos Trazabilidad: Cursor Blame (atribución IA/humano) Funciones Clave: Planificación autónoma, ejecución sin supervisión La experiencia más avanzada en desarrollo con agentes dentro del editor. |
Aider Uso Gratuito: ✔️ | OSS: ✔️ (Apache 2.0) Actualizado: Continuamente |
Benchmarks propios: Resultados competitivos en Aider Polyglot Flexibilidad: Modelos locales o remotos Control: Total para desarrolladores La alternativa OSS más potente para la programación agéntica en CLI. |
| Traducción Automática | |||
| DeepL Pro (SOTA en Traducción de Textos Largos) Uso Gratuito: ✔️ (Limitado) | Pro: Pago | OSS: ❌ Actualizado: Feb 2026 |
MOS (textos largos): Muy alto en idiomas europeos Formatos: PDF, DOCX, PPTX con preservación de maquetación Especialización: Patentes, documentos legales, marketing Limitación: 33 idiomas (principalmente europeos) La referencia para traducción profesional donde el formato y la precisión terminológica son críticos. |
Google Translate (Gemini) Uso Gratuito: ✔️ | OSS: ❌ Actualizado: Feb 2026 |
Idiomas: 249 soportados Modalidades: Texto, voz, imagen, documentos Precisión: 16/21 traducciones precisas en estudios con términos técnicos NMT: Motor neuronal con 10 años de evolución La opción gratuita más versátil y con mayor cobertura idiomática. |
| MiLMMT-46 (Gemma3-based) (SOTA en Traducción Open Source) Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Lanzado: Feb 2026 |
WMT24 (promedio 46 idiomas): Supera a Seed-X, HY-MT-1.5 y TranslateGemma Comparativa: Rendimiento competitivo con Google Translate y Gemini 3 Pro Arquitectura: Continual pretraining + instruction finetuning sobre Gemma3 El primer modelo open source que iguala a sistemas propietarios en traducción multilingüe a gran escala. |
Google TranslateGemma Uso Gratuito: ✔️ (Pesos) | OSS: ✔️ Lanzado: Ene 2026 |
Idiomas: 55 oficiales + 500 pares adicionales Versiones: 4B (móvil), 12B (portátil), 27B (cloud) WMT24++: 12B supera a Gemma3 27B Capacidades: Traducción de texto en imágenes sin fine-tuning específico La apuesta de Google por la democratización de la traducción con modelos ligeros y transparentes. |
| Mistral Voxtral Realtime (SOTA en Traducción en Tiempo Real) Uso Gratuito: ✔️ (Pesos abiertos) | API: Pago | OSS: ✔️ (Apache 2.0) Lanzado: Feb 2026 |
Latencia: <200ms (vs 2 segundos de Google) Idiomas: 13 idiomas Tamaño: 4B parámetros (ejecutable en móvil) Privacidad: Procesamiento local, sin nube Un paso hacia la conversación fluida entre idiomas sin barreras de latencia . |
Gemini 3 Pro (Traducción) Uso Gratuito: ✔️ (Limitado) | OSS: ❌ Actualizado: Feb 2026 |
Latencia: ~2 segundos Contexto: Traducción conversacional con comprensión de matices y emociones Integración: Dentro del asistente Gemini, con capacidad de 200 idiomas vía Google Translate Uso: "Responde en inglés", "traduce esto" como parte natural de la conversación Ideal para conversaciones informales donde el contexto prima sobre la latencia. |
| Argos Translate (SOTA en Traducción Offline) Uso Gratuito: ✔️ | OSS: ✔️ (MIT) Actualizado: Feb 2026 |
Motor: OpenNMT Idiomas: +30 (incluye chino, español, inglés, etc.) Dependencias: Ninguna externa (todo local) Popularidad: 5.6k ⭐ en GitHub La librería de referencia para integrar traducción offline en aplicaciones Python. |
Apertium Uso Gratuito: ✔️ | OSS: ✔️ (GPL) Actualizado: Feb 2026 |
Motor: Basado en reglas lingüísticas (no neuronal) Idiomas: Amplia cobertura, especialmente en lenguas romances y eslavas Ventaja: Ligero, rápido, no requiere GPU Joshua Language Packs: 62 pares precompilados para Java Opciones ideales para entornos con recursos limitados o necesidades lingüísticas específicas. |