Claves de la IA: Comparativa en funcionalidades - agosto del 2025 -

Modelo de Referencia (SOTA)	Benchmarks Clave y Contexto	Alternativa Gratis / OSS	Benchmarks de la Alternativa
Razonamiento Profundo y Conversación
OpenAI GPT-5 (SOTA en Razonamiento General) Uso Gratuito: ✔️ (Tier limitado) \| OSS: ❌ Anunciado: Agosto 2025	GPQA: 89.3 MMLU-Pro: 88.1 MATH: 78.2 Arena Elo: 1495 Contexto: 256k	DeepSeek V3 Uso Gratuito: ✔️ (API Tier) \| OSS: ✔️ (Licencia propia) Anunciado: Julio 2025	GPQA: 85.5 MMLU-Pro: 86.0 MATH: 72.1 Arena Elo: 1460 Contexto: 128k
Gemini 2.5 Pro (SOTA en Contexto Largo) Uso Gratuito: ✔️ (Tier limitado) \| OSS: ❌ Anunciado: Mayo 2025	GPQA: 86.4 MMLU-Pro: 86.2 MATH: 75.3 Arena Elo: 1474 Contexto: 2.1M	Llama 3.1 (1M) Uso Gratuito: ✔️ (Modelos) \| OSS: ✔️ (Llama Lic) Anunciado: Julio 2024	GPQA: "58.2" MMLU: 86.1 MATH: "60.1" NIAH (1M): ~99.2% Contexto: 1M
Claude 3.5 Opus (SOTA en Fiabilidad Empresarial) Uso Gratuito: ❌ \| OSS: ❌ Anunciado: Julio 2025	GPQA: 86.8 MMLU: 87.2 HumanEval: 93.5 Arena Elo: ~1455 Contexto: 200k	Mistral-Next 8x22B Uso Gratuito: ✔️ (API Tier) \| OSS: ✔️ Anunciado: Julio 2025	GPQA: "81.2" MMLU-Pro: 83.5 HumanEval: "90.8" Arena Elo: 1405 Contexto: 128k
Grok-4 (SOTA en Razonamiento Matemático) Uso Gratuito: ❌ \| OSS: ❌ Anunciado: Junio 2025	MATH: 82.5 GPQA: 87.5 MMLU-Pro: 86.6 Arena Elo: 1443 Contexto: 128k	Qwen3-235B Uso Gratuito: ✔️ (API Tier) \| OSS: ✔️ Anunciado: Junio 2025	MATH: "68.3" GPQA: "80.1" MMLU-Pro: 82.8 Arena Elo: 1392 Contexto: 128k
GPT-OSS (Community Model) (SOTA en Transparencia y Desarrollo Abierto) Uso Gratuito: ✔️ \| OSS: ✔️ Anunciado: 2024	Filosofía: 100% Abierto (Datos y Código) MMLU: ~81.5 MATH: ~48.2 Arena Elo: ~1300 Contexto: 128k	Llama 3.1 405B (Corporate OSS) Uso Gratuito: ✔️ (API Tier) \| OSS: ✔️ Anunciado: Julio 2024	Filosofía: Corporativo ("Open Innovation") MMLU: 86.1 MATH: 60.1 GPQA: 58.2 Contexto: 128k
Phi-3.5-Vision (SOTA en Eficiencia / SLMs) Uso Gratuito: ✔️ (API/Modelos) \| OSS: ✔️ Anunciado: Julio 2025	Parámetros: ~14B MMLU: 80.5 MATH: 55.1 Capacidades: Multimodal (Texto, Imagen) Contexto: 128k	Google Gemma 2 9B Uso Gratuito: ✔️ (Modelos) \| OSS: ✔️ Anunciado: Junio 2024	Parámetros: 9B MMLU: 74.3 MATH: 52.1 Rendimiento/Tamaño: SOTA (OSS) Contexto: 8k
Claude 3.5 Sonnet (SOTA en Acceso Gratuito de Alto Rendimiento) Uso Gratuito: ✔️ (Web UI) \| OSS: ❌ Anunciado: Junio 2024	GPQA: 85.1 MMLU: 85.0 MATH: 65.2 Arena Elo: ~1380 Contexto: 200k	Llama 3.1 70B Uso Gratuito: ✔️ (API Tier) \| OSS: ✔️ Anunciado: Julio 2024	GPQA: "45.1" MMLU: 82.0 MATH: 50.4 Arena Elo: 1320 Contexto: 128k
Funcionalidad Agéntica y Toma de Decisiones
OpenAI GPT-5 (Agente) (SOTA en Agentes Generalistas) Uso Gratuito: ✔️ (Tier limitado) \| OSS: ❌ Anunciado: Agosto 2025	GAIA: 75.5% Operator-Bench: 79.1 Capacidad de Planificación: Muy Alta Uso de Herramientas: Nativo Contexto: 256k	CrewAI + DeepSeek V3 Uso Gratuito: ✔️ \| OSS: ✔️ (Framework + Modelo 2025)	GAIA: ~68% (Estimado) Rendimiento del LLM: SOTA (OSS) Flexibilidad: Muy Alta Control: Total (Auto-hospedado) Contexto: 128k
Google Gemini 2.5 Pro (Agente) (SOTA en Agentes Multimodales) Uso Gratuito: ✔️ (Tier limitado) \| OSS: ❌ Anunciado: Mayo 2025	Uso de Herramientas: Nativo (Function Calling) Razonamiento: Nivel SOTA Multimodalidad: Nivel SOTA GAIA: ~74% (Estimado) Contexto: 2.1M	NexusRaven-V2 Uso Gratuito: ✔️ (Modelos) \| OSS: ✔️ (Apache 2.0) Lanzamiento: Ene 2024	Uso de Herramientas: SOTA (OSS) Precisión de Llamada a Función: Muy Alta Tamaño: 13B Eficiencia: Muy Alta Contexto: 32k
Claude 3.5 Opus (Agente) (SOTA en Acceso Gratuito de Alto Rendimiento) Uso Gratuito: ✔️ (Vía Sonnet) \| OSS: ❌ Anunciado: Julio 2025	GAIA: ~71% (Estimado) Fiabilidad: Muy Alta Uso de Herramientas: Sí (Artifacts) Tier Gratuito (Sonnet): Muy Generoso Contexto: 200k	Manus Uso Gratuito: ✔️ (Créditos) \| OSS: ❌ Anunciado: Marzo 2025	GAIA: 70.1% Operator-Bench: 75.3 Uso de Herramientas: Fuerte Tier Gratuito: Viable (créditos) Contexto: 1M
Cognition Labs Devin (SOTA en Agentes de Código Autónomos) Uso Gratuito: ❌ (Acceso limitado) \| OSS: ❌ Anunciado: Marzo 2024	SWE-Bench (Agéntico): "13.86%" Autonomía: Completa Capacidades: Debugging, Despliegue Acceso a Herramientas: Shell, Editor, Browser Define la categoría de agentes de software autónomos.	OpenDevin Uso Gratuito: ✔️ \| OSS: ✔️ (MIT) Versión estable: Abril 2025	SWE-Bench (Agéntico): ~5% Autonomía: Parcial Capacidades: En desarrollo activo Comunidad: Muy Activa El esfuerzo OSS más importante para la ingeniería de software autónoma.
Cursor (SOTA en IDEs Agénticos) Uso Gratuito: ✔️ (Plan gratuito) \| OSS: ❌ Actualizado: Continuamente	Integración IA: Nativa Funciones Clave: Code-gen, "Auto-Fix", Chat Conocimiento del Repositorio: Sí Eficiencia del Programador: Muy Alta La mejor experiencia para programar directamente con un agente.	Aider Uso Gratuito: ✔️ \| OSS: ✔️ (Apache 2.0) Actualizado: Continuamente	Integración IA: Línea de Comandos Funciones Clave: Edición agéntica de código Conocimiento del Repositorio: Sí Control: Total para desarrolladores La alternativa OSS más potente para la programación agéntica.
Zapier (SOTA en Automatización No-Code) Uso Gratuito: ✔️ (Plan gratuito) \| OSS: ❌ Actualizado: Continuamente	Nº de Integraciones: +6,000 Facilidad de Uso: Muy Alta Funciones IA: "Zapier Tables", "AI Actions" Fiabilidad: SOTA El estándar de la industria para conectar aplicaciones sin código.	n8n Make Uso Gratuito: ✔️ \| OSS: ✔️ (n8n)	Nº de Integraciones: +1,200 (Make), +400 (n8n) Flexibilidad: Muy Alta (n8n) Plan Gratuito: Generoso (Make) Auto-hospedaje: Sí (n8n) Excelentes alternativas con más control para desarrolladores o mejores planes gratuitos.
Mixture of Agents (MoA) (SOTA en Arquitecturas de Investigación) Uso Gratuito: (Concepto) \| OSS: (Arquitectura) Publicado: Mayo 2024	Mejora sobre GPT-4o: "+2.5% en AlpacaEval 2.0" Concepto: Múltiples LLMs como "expertos" Proceso: Colaborativo e Iterativo Coste Computacional: Alto El futuro de cómo los sistemas de IA podrían resolver problemas complejos.	MetaGPT Uso Gratuito: ✔️ \| OSS: ✔️ (MIT) Actualizado: Continuamente	Framework: Multi-Agente Paradigma: Simulación de Empresa Generación: Código, Documentación, Diagramas Complejidad: Alta Una implementación práctica y OSS del concepto de colaboración entre agentes.
LangChain (SOTA en Frameworks de Desarrollo) Uso Gratuito: ✔️ \| OSS: ✔️ (MIT) Actualizado: Continuamente	Abstracción: Alta Ecosistema: Enorme Componentes: Cadenas, Agentes, Memoria Flexibilidad: Máxima La "navaja suiza" para desarrolladores que construyen con LLMs.	CrewAI Uso Gratuito: ✔️ \| OSS: ✔️ (MIT) Versión estable: Feb 2025	Abstracción: Muy Alta Enfoque: Colaboración Multi-Agente Facilidad de Uso: Muy Alta Concepto: Roles, Tareas, Herramientas El mejor para definir y ejecutar equipos de agentes especializados.
Programación (Coding)
OpenAI GPT-5 Uso Gratuito: ✔️ (Tier limitado) \| OSS: ❌ Anunciado: Agosto 2025	SWE-Bench: 75.2 Aider Polyglot: 85.1 HumanEval: 95.3 MBPP: 91.5 MATH: 78.2	DeepSeek Coder V2 Uso Gratuito: ✔️ (Web/API) \| OSS: ✔️ (Licencia propia) Anunciado: Mayo 2024	HumanEval: "90.2" MBPP: "84.5" GSM8K: "92.5" MultiPL-E: "78.1" Aider Polyglot: "71.6"
Magic AI Assistant Uso Gratuito: ❌ (Privado) \| OSS: ❌ Anunciado: Junio 2025	SWE-Bench: 78.3 Aider Polyglot: 75.1 HumanEval: 92.8 MBPP: 88.4 MATH: 70.5	Qwen2-72B-Code Uso Gratuito: ✔️ (API Tier) \| OSS: ✔️ (Apache 2.0) Anunciado: Junio 2025	HumanEval: "85.4" MBPP: "80.8" GSM8K: "89.2" MMLU: "80.1" SWE-Bench: "45.3"
Grok-4 Uso Gratuito: ❌ \| OSS: ❌ Anunciado: Junio 2025	SWE-Bench: 70.1 Aider Polyglot: 79.5 HumanEval: 90.1 MBPP: 85.3 MATH: 82.5	Llama 3.1 405B Uso Gratuito: ✔️ (API Tier) \| OSS: ✔️ (Llama 3.1 Lic) Anunciado: Julio 2024	MMLU: "86.1" HumanEval: "87.2" MBPP: "83.7" MATH: "60.1" GPQA: "58.2"
Gemini 2.5 Pro Uso Gratuito: ✔️ (Tier limitado) \| OSS: ❌ Anunciado: Mayo 2025	SWE-Bench: 68.5 Aider Polyglot: 82.2 HumanEval: 93.1 MBPP: 89.0 MATH: 75.3	CodeLlama 2 70B Uso Gratuito: ✔️ (Modelos) \| OSS: ✔️ (Llama Lic) Anunciado: Enero 2025	HumanEval: "88.2" MBPP: "82.1" MMLU: "75.8" MATH: "55.3" Aider Polyglot: "65.5"
Claude 3.5 Sonnet Uso Gratuito: ✔️ (Web UI) \| OSS: ❌ Anunciado: Junio 2024	SWE-Bench: 73.0 Aider Polyglot: 62.1 HumanEval: 92.0 MBPP: 88.1 MATH: 68.9	StarCoder 2 Uso Gratuito: ✔️ (Modelos) \| OSS: ✔️ (BigCode Lic) Anunciado: Febrero 2024	HumanEval: "82.3" MBPP: "75.4" MMLU: "68.5" MATH: "42.1" Tool-Bench: "60.3"
Ayuda en Investigación
Claude 3.5 Opus Uso Gratuito: ❌ \| OSS: ❌ Anunciado: Julio 2025	NIAH (200k): 99.8% FEVER: 96.5% GPQA: 86.8% QASPER: 85.1% Líder para analizar y extraer información fiel de PDFs y documentos largos.	Kimi (Moonshot AI) Uso Gratuito: ✔️ (Web UI) \| OSS: ❌ Actualizado: Mayo 2025	NIAH (200k): ~98.5% QASPER: ~78.2% Análisis de Ficheros: Multi-formato La mejor alternativa gratuita para análisis de contexto largo con alta fiabilidad.
Gemini 2.5 Pro Uso Gratuito: ✔️ (Tier limitado) \| OSS: ❌ Anunciado: Mayo 2025	NIAH (1M tokens): 99.7% MMMU: SOTA (Propietario) GPQA: 86.4% QASPER: 84.5% Insuperable para análisis a gran escala de repositorios o bases de datos multimodales.	Llama 3.1 (1M) Uso Gratuito: ✔️ (Modelos) \| OSS: ✔️ (Llama Lic) Anunciado: Julio 2024	NIAH (1M tokens): ~99.2% GPQA: "58.2" QASPER: ~75.3% La mejor opción OSS para tareas que requieren una ventana de contexto masiva.
Perplexity Pro Uso Gratuito: ✔️ (Limitado) \| OSS: ❌ Plataforma actualizada: Ago 2025	Calidad de RAG: SOTA Precisión de Citas: 98% Cobertura de Fuentes: Muy Amplia Latencia (Velocidad): Muy Baja El mejor para respuestas rápidas y verificadas con fuentes directas de la web.	Brave Search Summarizer Uso Gratuito: ✔️ \| OSS: ❌ Actualizado: Julio 2025	Calidad de RAG: Buena Precisión de Citas: ~90% Latencia: Baja Integrado directamente en los resultados de búsqueda para resúmenes rápidos.
OpenAI GPT-5 Uso Gratuito: ✔️ (Limitado) \| OSS: ❌ Anunciado: Agosto 2025	FEVER: 97.2% GPQA: 89.3% NIAH (256k): 99.5% QASPER: 86.0% Potente para investigación conversacional, síntesis de ideas y generación de hipótesis.	Phind Uso Gratuito: ✔️ \| OSS: ❌ Actualizado: Junio 2025	Calidad de RAG: Enfocada en Código Precisión de Citas: Muy Alta Base de Conocimiento: Stack Overflow, etc. Optimizado para respuestas técnicas precisas con ejemplos de código.
Elicit Uso Gratuito: ✔️ (Créditos) \| OSS: ❌ Actualizado: Julio 2025	Función Principal: Revisión de Literatura Métrica Clave: Extracción Estructurada Base de Datos: +200M Papers Automatización: Alta Busca en papers y extrae la información clave en tablas estructuradas.	SciSpace Uso Gratuito: ✔️ (Limitado) \| OSS: ❌ Actualizado: Junio 2025	Función Principal: Comprensión de Papers Métrica Clave: Análisis Conversacional Integraciones: Zotero, Mendeley Permite "preguntar" a los documentos para entender conceptos difíciles.
Consensus Uso Gratuito: ✔️ (Limitado) \| OSS: ❌ Actualizado: Julio 2025	Función Principal: Extracción de Hallazgos Métrica Clave: Síntesis de Evidencia Base de Datos: +200M Papers Precisión: Muy Alta Sintetiza las respuestas a preguntas basándose únicamente en estudios científicos.	Scite.ai Uso Gratuito: ✔️ (Limitado) \| OSS: ❌ Actualizado: Julio 2025	Función Principal: Verificación de Citas Métrica Clave: "Smart Citations" Base de Datos: +1.2B Citas Evalúa la fiabilidad de la investigación analizando el contexto de sus citas.
Generación de Imágenes
Midjourney v7 (Calidad Artística SOTA) Uso Gratuito: ❌ \| OSS: ❌ Coste: Desde ~$10/mes Lanzamiento: Junio 2025	Coherencia Artística: SOTA Adherencia al Prompt: Muy Alta Personajes Consistentes: Sí ("--cref") El estándar de oro para arte digital, fotorrealismo y composiciones complejas.	Stable Diffusion 3 Uso Gratuito: ✔️ (Modelos) \| OSS: ✔️ (STBL Lic) Lanzamiento: Feb 2024	Calidad OSS: SOTA Renderizado de Texto: Muy Bueno Fine-tuning: Total La base para la mayoría de herramientas y la comunidad open source.
Ideogram 2.0 (Texto e Ilustración SOTA) Uso Gratuito: ✔️ (Créditos diarios) \| OSS: ❌ Lanzamiento: Julio 2025	Renderizado de Tipografía: SOTA Generación de Logos: Excelente Estilo Ilustrativo: Muy Fuerte Insuperable para cualquier imagen que requiera texto legible y estilizado.	Microsoft Designer Uso Gratuito: ✔️ (Limitado) \| OSS: ❌ Actualizado: Continuamente	Renderizado de Tipografía: Muy Bueno Integración: Suite de Diseño Combina la generación de imágenes con herramientas de diseño gráfico.
DALL-E 3 (en GPT-5) (Facilidad de Uso SOTA) Uso Gratuito: ✔️ (Limitado/en Copilot) \| OSS: ❌ Coste: Incluido en ChatGPT Plus (~$20/mes) Actualizado: Agosto 2025	Refinamiento Conversacional: Sí Adherencia al Prompt: Muy Alta Censura: Fuerte Ideal para principiantes y para la creación rápida de conceptos visuales.	Playground v2.5 Uso Gratuito: ✔️ (100 img/día) \| OSS: ❌ Lanzamiento: Ene 2024	Plan Gratuito: Muy Generoso Calidad Estética: Alta Comunidad: Activa Una de las mejores opciones gratuitas por su balance de calidad y cantidad.
Leonardo AI (Plataforma SOTA) Uso Gratuito: ✔️ (Créditos diarios) \| OSS: ❌ Actualizado: Continuamente	Acceso a Modelos: Múltiples (incl. SD3) Entrenamiento Propio: Sí Edición (Inpainting/Outpainting): Sí La plataforma más completa para usuarios avanzados que quieren controlar todo el proceso.	Civitai Uso Gratuito: ✔️ \| OSS: ✔️ (Hub) Actualizado: Continuamente	Acceso a Modelos: Miles (OSS) Soporte de LoRA: Extensivo Comunidad: Muy Activa Esencial para cualquiera que trabaje con Stable Diffusion de forma local.
Freepik AI (Edición y Marketing SOTA) Uso Gratuito: ✔️ (Plan gratuito) \| OSS: ❌ Actualizado: Julio 2025	Estilo: Foto de Stock / Comercial Generación de Vectores: Sí Integración con Editor: Sí Perfecto para crear assets de marketing, iconos y contenido para redes sociales.	Pixelcut Uso Gratuito: ✔️ (Limitado) \| OSS: ❌ Actualizado: Junio 2025	Estilo: Fotografía de Producto Eliminación de Fondos: SOTA Generación de Escenas: Sí La mejor herramienta para e-commerce y fotos de producto.
SeaArt.ai (Comunidades Especializadas) Uso Gratuito: ✔️ (Créditos diarios) \| OSS: ❌ Actualizado: Continuamente	Estilo Principal: Anime / Fantasía Soporte de LoRA: Sí Plan Gratuito: Generoso La plataforma de referencia para la creación de arte de estilo anime.	OpenArt Uso Gratuito: ✔️ (Créditos) \| OSS: ❌ Actualizado: Continuamente	Estilo Principal: Versátil Entrenamiento de Estilos: Fácil Modelos Comunitarios: +100 Excelente para experimentar con diferentes estilos de la comunidad.
Generación de Vídeo
OpenAI Sora (Calidad Cinematográfica SOTA) Uso Gratuito: ❌ (Acceso limitado) \| OSS: ❌ Anunciado: Feb 2024	Duración Máxima: +60 segundos Resolución: Hasta 1080p Coherencia Temporal: SOTA Física del Mundo: Realista El referente en calidad, aunque no disponible públicamente.	Stable Video Diffusion Uso Gratuito: ✔️ (Modelos) \| OSS: ✔️ (STBL Lic) Lanzamiento: Nov 2023	Duración Máxima: 2-4 segundos Resolución: 576x1024 Modalidades: Img-a-Vídeo, Txt-a-Vídeo El pilar open source para la generación de clips cortos.
Runway Gen-3 (Plataformas Creativas SOTA) Uso Gratuito: ✔️ (Créditos) \| OSS: ❌ Lanzamiento: Junio 2024	Control de Movimiento: Sí (Motion Brush) Consistencia de Personajes: Sí Duración: Hasta 10 segundos Modalidades: Txt-Vid, Img-Vid, Vid-Vid La mejor opción para creativos que buscan un control artístico detallado.	Pika Labs Uso Gratuito: ✔️ (Créditos) \| OSS: ❌ Lanzamiento 1.0: Dic 2023	Control de Movimiento: Básico Edición: Sí (Expandir, Cambiar Región) Duración: 3-5 segundos Excelente por su facilidad de uso y su generoso plan gratuito.
Synthesia (Avatares de IA SOTA) Uso Gratuito: ❌ (Demo disponible) \| OSS: ❌ Coste: Desde ~$22/mes	Calidad del Avatar: SOTA Nº de Voces / Idiomas: +120 Clonación de Voz: Sí Avatares Personalizados: Sí El estándar para vídeos de comunicación y formación profesional.	HeyGen Uso Gratuito: ✔️ (1 Crédito) \| OSS: ❌ Actualizado: Continuamente	Calidad del Avatar: Muy Alta Nº de Voces / Idiomas: +40 Doblaje de Vídeo: Sí (SOTA) Destaca por su función de traducir y sincronizar los labios de un vídeo existente.
Fliki (Texto a Vídeo (Marketing) SOTA) Uso Gratuito: ✔️ (Plan gratuito) \| OSS: ❌ Actualizado: Continuamente	Calidad de Voces AI: SOTA Biblioteca de Medios: Millones (Stock) Automatización: Alta Casos de Uso: Redes Sociales, Blogs El mejor para crear contenido de vídeo a partir de texto de forma rápida y con voces de alta calidad.	Pictory.ai Uso Gratuito: ✔️ (Prueba) \| OSS: ❌ Actualizado: Continuamente	Calidad de Voces AI: Buena Biblioteca de Medios: Amplia Automatización: Muy Alta Especialmente bueno para reutilizar contenido largo en clips cortos.
VEED.io (Edición Asistida por IA SOTA) Uso Gratuito: ✔️ (Plan gratuito) \| OSS: ❌ Actualizado: Continuamente	Herramientas IA Clave: Subtítulos autom., Limpieza de Audio, Contacto Visual, Eliminación de Fondo. Plataforma: Online (Navegador) Facilidad de Uso: Muy Alta Ideal para creadores de contenido que quieren editar más rápido.	Filmora Uso Gratuito: ✔️ (con marca de agua) \| OSS: ❌ Actualizado: Continuamente	Herramientas IA Clave: Edición por Texto, Música AI, Eliminación de Ruido, Máscaras AI. Plataforma: Escritorio (Win/Mac) Efectos Visuales: Extensos Una alternativa de escritorio más tradicional con potentes ayudas de IA.
Kling (Kuaishou) (Tecnología Emergente SOTA) Uso Gratuito: ❌ (Beta en China) \| OSS: ❌ Lanzamiento Beta: Junio 2024	Duración Máxima: 2 minutos Resolución: 1080p / 30fps Física del Mundo: Muy Realista Acceso: Limitado (Beta en China) Promete superar a Sora en duración y realismo, pero aún no es accesible.	Luma Dream Machine Uso Gratuito: ✔️ (Créditos diarios) \| OSS: ❌ Lanzamiento: Junio 2024	Duración Máxima: 5 segundos Resolución: ~720p Calidad de Movimiento: Muy Alta La mejor opción gratuita y accesible para clips de alta calidad.
Traducción
DeepL Pro (Calidad y Naturalidad SOTA) Uso Gratuito: ✔️ (Limitado) \| OSS: ❌ Coste: Desde ~$8.74/mes Actualizado: Continuamente	COMET-22: SOTA (Propietario) Precisión (Idiomas Complejos): Muy Alta Formalidad / Tono: Ajustable La referencia para traducciones profesionales y de alta fidelidad.	Google Translate (Gemini) Uso Gratuito: ✔️ \| OSS: ❌ Actualizado: Continuamente	COMET-22: Nivel SOTA Nº de Idiomas: +130 Traducción de Documentos: Sí El servicio gratuito más potente y versátil.
Gemini 2.5 Pro (Potencia Bruta SOTA) Uso Gratuito: ✔️ (Tier limitado) \| OSS: ❌ Anunciado: Mayo 2025	WMT23 (En-De): SOTA COMET-22: Muy Alto Razonamiento Multilingüe: Excelente El modelo generalista con el mejor rendimiento técnico en traducción.	DeepSeek V3 Uso Gratuito: ✔️ (API Tier) \| OSS: ✔️ (Licencia propia) Anunciado: Julio 2025	WMT23 (En-De): Nivel SOTA (OSS) COMET-22: Muy Alto (OSS) Rendimiento Multilingüe: Fuerte La alternativa OSS más potente para traducción de alta calidad.
AI TransPDF (Traducción de Documentos SOTA) Uso Gratuito: ✔️ (Prueba) \| OSS: ❌ Actualizado: Junio 2025	Preservación de Formato: SOTA Soporte de Formatos: PDF, DOCX, PPTX, etc. OCR Integrado: Sí La mejor opción para traducir documentos complejos sin perder el diseño.	Claude 3.5 Sonnet Uso Gratuito: ✔️ (Web UI) \| OSS: ❌ Anunciado: Junio 2024	Coherencia Contextual: Muy Alta Longitud del Documento: Hasta 200k tokens Preservación de Formato: No (Solo texto) Ideal para traducir el contenido textual de ficheros muy largos.
Meta Seamless Communication (Traducción de Voz SOTA) Uso Gratuito: ✔️ (Modelos) \| OSS: ✔️ (CC BY-NC 4.0) Lanzamiento: Junio 2024	Modalidades: Voz-a-Voz, Voz-a-Txt, etc. Latencia: Baja (Casi tiempo real) Preservación de Emoción: Sí El proyecto de investigación más avanzado para la traducción hablada.	Helsinki-NLP Opus Models Uso Gratuito: ✔️ (Modelos) \| OSS: ✔️ (Apache 2.0) Actualizado: Continuamente	Eficiencia: Muy Alta Nº de Pares de Idiomas: +1000 Tamaño del Modelo: Pequeño La mejor opción OSS para desplegar traducción en aplicaciones con recursos limitados.
Reconocimiento de Voz (Speech-to-Text)
OpenAI Whisper v4 (Precisión y Robustez SOTA) Uso Gratuito: ✔️ (API/OSS) \| OSS: ✔️ (MIT) Lanzamiento: Junio 2025	WER (Librispeech): 1.7% WER (Common Voice): 4.9% Robustez (ruido/acentos): SOTA Nº de Idiomas: ~100 El nuevo estándar de oro en precisión de transcripción pura.	Faster-Whisper (v4 arch) Uso Gratuito: ✔️ \| OSS: ✔️ (MIT) Actualizado: Continuamente	Velocidad vs Whisper: Hasta 4x Uso de Memoria: Reducido Precisión: Prácticamente idéntica La opción OSS preferida para una implementación local eficiente.
Gladia Audio Transcription (Velocidad y Tiempo Real SOTA) Uso Gratuito: ✔️ (API Tier) \| OSS: ❌ Lanzamiento v2: Mayo 2025	Latencia (Tiempo Real): < 250ms WER (comparativo): "Mejor que Whisper v3" Traducción de Audio: Sí (en vivo) Coste por Hora: Competitivo Considerado el líder para aplicaciones de transcripción en vivo de baja latencia.	Whisper.cpp Uso Gratuito: ✔️ \| OSS: ✔️ (MIT) Actualizado: Continuamente	Eficiencia: SOTA (CPU / On-Device) Compatibilidad Hardware: Muy Amplia Dependencias: Mínimas Perfecto para ejecutar transcripción de alta calidad en local o en dispositivos.
Fireflies.ai (Inteligencia de Reuniones SOTA) Uso Gratuito: ✔️ (Plan gratuito) \| OSS: ❌ Actualizado: Continuamente	Precisión de Resúmenes: SOTA Detección de Tareas: Sí Precisión de Diarización: Muy Alta Integraciones: Zoom, Meet, Teams El líder en extraer valor e inteligencia de las reuniones.	Otter.ai Uso Gratuito: ✔️ (Plan gratuito) \| OSS: ❌ Actualizado: Continuamente	Precisión de Resúmenes: Buena Diarización: Muy Buena Vocabulario Personalizado: Sí Una alternativa muy sólida y popular para la transcripción de reuniones.
TurboScribe (Transcripción Masiva SOTA) Uso Gratuito: ✔️ (3 transcripciones/día) \| OSS: ❌ Coste: ~$10/mes (ilimitado)	Límite de Transcripción: Ilimitado (plan de pago) Duración Máxima Fichero: 10 horas WER (basado en Whisper): Muy Bajo Exportación: Múltiples formatos Insuperable en coste-efectividad para grandes volúmenes de audio.	Whisper v3 (en Replicate) Uso Gratuito: ❌ (Pago por uso) \| OSS: ✔️ (Modelo) Coste: ~$0.0055/minuto	Límite de Transcripción: Flexible Coste-Efectividad: Muy Alta Implementación: Fácil (API) Una de las formas más baratas de acceder a la potencia de Whisper.
ELSA Speak (Entrenamiento de Pronunciación SOTA) Uso Gratuito: ✔️ (Limitado) \| OSS: ❌ Actualizado: Continuamente	Precisión de Feedback: Nivel de Fonema Puntuación de Pronunciación: "95% de precisión" Métricas: Entonación, Fluidez, Ritmo La mejor herramienta para mejorar activamente la pronunciación en un idioma.	Speechace API Uso Gratuito: ✔️ (API Tier) \| OSS: ❌ Actualizado: Continuamente	Precisión de Feedback: Nivel de Fonema Puntuación de Pronunciación: Estándar de la industria Implementación: API para desarrolladores La alternativa estándar para integrar evaluación de pronunciación en apps.
Deepgram Aura (Personalización y API SOTA) Uso Gratuito: ✔️ (API Tier) \| OSS: ❌ Lanzamiento: Feb 2025	Entrenamiento Personalizado: Sí Modelos Especializados: Sí (Telefonía, etc.) Redacción de PII: Sí Control de API: Extensivo La mejor opción para empresas que necesitan adaptar el ASR a sus datos.	SpeechBrain Toolkit Uso Gratuito: ✔️ \| OSS: ✔️ (Apache 2.0) Actualizado: Continuamente	Entrenamiento Personalizado: Total Modelos Pre-entrenados: Sí Flexibilidad: Muy Alta La mejor opción OSS para construir sistemas de voz a medida.
Generación de Voz y Música
ElevenLabs V3 (Voz Realista y Clonación SOTA) Uso Gratuito: ✔️ (Créditos) \| OSS: ❌ Lanzamiento: Mayo 2025	MOS (Naturalidad): >4.5 Tamaño Muestra Clonación: ~5 segundos Rango Emocional: Muy Alto Latencia: Baja (API en tiempo real) El estándar de la industria para voces de alta calidad.	Coqui XTTS-v2 Uso Gratuito: ✔️ \| OSS: ✔️ (Coqui Public Lic) Lanzamiento: Sep 2023	MOS (Naturalidad): ~4.2 Tamaño Muestra Clonación: ~3 segundos Clonación Cross-Language: Sí La mejor opción OSS para clonación de voz de alta calidad.
Suno AI v4 (Generación de Canciones SOTA) Uso Gratuito: ✔️ (Créditos diarios) \| OSS: ❌ Lanzamiento: Julio 2025	Calidad Vocal: SOTA Coherencia Instrumental: Muy Alta Control de Estructura: Sí (verso, estribillo) Duración: Hasta 4 minutos El líder para la creación de canciones completas a partir de texto.	Udio Uso Gratuito: ✔️ (Créditos) \| OSS: ❌ Actualizado: Continuamente	Calidad Vocal: Muy Alta Coherencia Instrumental: Alta Funciones Comunitarias: Fuertes Duración: Hasta 2 minutos (extensible) La principal alternativa a Suno, preferida por muchos por su estilo.
Resemble AI (Conversión de Voz y Doblaje SOTA) Uso Gratuito: ❌ (Prueba) \| OSS: ❌ Actualizado: Continuamente	Latencia (Tiempo Real): < 300ms Doblaje de Vídeo (Lip-Sync): Sí Edición de Audio (Speech-to-Speech): Sí Integración API: Extensiva La mejor opción para aplicaciones de voz en vivo y doblaje profesional.	StyleTTS 2 Uso Gratuito: ✔️ \| OSS: ✔️ (MIT) Lanzamiento: Nov 2023	Control de Estilo: SOTA (OSS) Velocidad de Inferencia: Muy Rápida Calidad de Voz: Alta Excelente para generar voz con un estilo específico de forma eficiente.
Speechify (Productividad y Accesibilidad SOTA) Uso Gratuito: ✔️ (Plan gratuito) \| OSS: ❌ Actualizado: Continuamente	Calidad de Voces (Lectura): SOTA Velocidad de Lectura: Hasta 900 WPM OCR (Escaneo): Sí Integraciones: Navegador, iOS, Android La mejor herramienta para escuchar contenido escrito.	NaturalReader Uso Gratuito: ✔️ (Plan gratuito) \| OSS: ❌ Actualizado: Continuamente	Calidad de Voces (Lectura): Muy Alta Voces Premium: Disponibles OCR (Escaneo): Sí Una alternativa muy sólida para la lectura de documentos.
CapCut (Funciones de Voz) (Editor de Vídeo con Voz IA SOTA) Uso Gratuito: ✔️ \| OSS: ❌ Actualizado: Continuamente	Integración con Edición: Nativa Voces de Personajes: Sí Clonación de Voz: Sí (Básica) Facilidad de Uso: Muy Alta El mejor para creadores que necesitan añadir voz a sus vídeos rápidamente.	Descript (Overdub) Uso Gratuito: ✔️ (Plan gratuito) \| OSS: ❌ Actualizado: Continuamente	Edición por Texto: Sí Calidad de Clonación: Muy Buena Caso de Uso: Podcasting, Correcciones Ideal para editar audio grabado como si fuera un documento de texto.
Soundful (Música Instrumental SOTA) Uso Gratuito: ✔️ (Plan gratuito) \| OSS: ❌ Actualizado: Continuamente	Parámetros de Control: Género, Mood, BPM Calidad de Producción: Profesional Licencia: Libre de Derechos Integración (Plugins): Sí La mejor opción para crear música de fondo a medida para vídeos y podcasts.	Meta MusicGen Uso Gratuito: ✔️ (Modelos) \| OSS: ✔️ (CC BY-NC 4.0) Lanzamiento: Jun 2023	Control: Texto y Melodía Calidad de Producción: Buena Duración: ~12-30 segundos La base OSS más sólida para la generación de música instrumental.
UntitledPen (Flujo de Trabajo (Workflow) SOTA) Uso Gratuito: ✔️ (Plan gratuito) \| OSS: ❌ Lanzamiento: 2025	Flujo de Trabajo: Escritura + Voz Calidad de Voces: Muy Alta Control de Personajes: Sí Caso de Uso: Guionistas, Autores La mejor herramienta para creadores que trabajan con guiones y narrativas.	Play.ht Uso Gratuito: ✔️ (Plan gratuito) \| OSS: ❌ Actualizado: Continuamente	Calidad de Voces: Muy Alta API para Desarrolladores: Fuerte Clonación de Voz: Sí Una alternativa muy flexible para integrar TTS de alta calidad en productos.
Google SoundStorm V2 (Efectos de Sonido SOTA) Uso Gratuito: ❌ (En productos Google) \| OSS: ❌ Lanzamiento: Mayo 2025	Velocidad de Generación: SOTA Coherencia del Audio: Muy Alta Tipo de Audio: SFX, Diálogos cortos Calidad: Profesional Tecnología líder para la generación ultrarrápida de audio corto.	Stable Audio Open Uso Gratuito: ✔️ (Modelos) \| OSS: ✔️ (STBL Lic) Lanzamiento: Abr 2024	Duración Máxima: 47 segundos Tipo de Audio: SFX, Stems, Loops Calidad: 44.1kHz Estéreo La mejor opción OSS para generar efectos de sonido y samples de audio.

Lista de Enlaces y Fuentes

Leaderboards y Rankings de IA

LMSys Chatbot ArenaEl leaderboard más influyente, basado en votaciones humanas a ciegas para comparar modelos de chat.
Hugging Face Open LLM LeaderboardEl ranking de referencia para modelos de lenguaje open source, basado en una batería de benchmarks.
Papers with Code (SOTA)Un recurso masivo para encontrar el "Estado del Arte" (SOTA) en miles de tareas de IA, con enlaces a los papers.
SWE-Bench LeaderboardRanking centrado en la capacidad de los modelos para resolver problemas reales de ingeniería de software.
Aider Polyglot Coding LeaderboardBenchmark que evalúa la habilidad de las IAs para escribir y editar código en múltiples lenguajes.
GAIA Benchmark LeaderboardBenchmark específico para medir las capacidades de agentes de IA en tareas complejas del mundo real.
MMLU Benchmark(Massive Multitask Language Understanding) Mide el conocimiento general en 57 asignaturas.
GPQA Benchmark(Graduate-Level Google-Proof Q&A) Preguntas de nivel de posgrado difíciles de buscar online.
MATH BenchmarkProblemas de competiciones de matemáticas para medir el razonamiento cuantitativo.
Needle in a Haystack (NIAH)Metodología de prueba para evaluar la fiabilidad de los modelos al encontrar datos en contextos muy largos.
FEVER Benchmark(Fact Extraction and VERification) Evalúa la capacidad de un modelo para verificar la veracidad de afirmaciones.
QASPER Benchmark(Question Answering on Scientific Papers) Mide la habilidad para responder preguntas sobre papers científicos.
WMT Leaderboard(Workshop on Machine Translation) El evento de referencia para benchmarks de traducción automática.
COMET MetricMétrica de IA para evaluar la calidad de la traducción, muy correlacionada con el juicio humano.
LibriSpeech LeaderboardRanking de precisión (WER) sobre uno de los datasets de audio más utilizados en investigación.

Páginas Oficiales de Modelos y Proyectos

OpenAIHogar de GPT-5, Sora, DALL-E 3, y Whisper.
AnthropicHogar de la familia de modelos Claude, incluyendo Claude 3.5 Opus.
Google DeepMindHogar de la familia de modelos Gemini y Veo.
Meta AIHogar de Llama, NLLB, Seamless, y MusicGen.
xAIHogar del modelo Grok.
DeepSeek AIHogar de los potentes modelos open source DeepSeek, incluyendo LLM y Coder.
Qwen (Alibaba)Página de los modelos Qwen en Hugging Face.
Stability AIHogar de Stable Diffusion, Stable Video, y Stable Audio.
Mistral AIHogar de los modelos open source de alto rendimiento de la familia Mistral.

Herramientas, Plataformas y Aplicaciones de IA

CapCutEditor de vídeo muy popular con potentes herramientas de voz y efectos de IA integrados. (Actualizado: Continuamente)
CivitaiEl mayor repositorio del mundo para modelos, checkpoints y LoRAs de Stable Diffusion. (Lanzamiento: 2022)
ConsensusMotor de búsqueda especializado en encontrar y extraer hallazgos de investigaciones científicas. (Actualizado: Julio 2025)
DeepLServicio de traducción conocido por su alta precisión y naturalidad. (Lanzamiento: 2017)
ElicitHerramienta de IA para automatizar flujos de trabajo de investigación como revisiones de literatura. (Lanzamiento Beta: 2022)
ElevenLabsEl estándar de la industria para la generación de voz ultra-realista y clonación de voz. (Lanzamiento V3: Mayo 2025)
Fireflies.aiAsistente de IA para transcribir, resumir y analizar reuniones. (Fundada: 2016)
IdeogramEl mejor generador de imágenes para incluir texto coherente. (Lanzamiento 2.0: Julio 2025)
Leonardo AISuite de herramientas de imagen con múltiples modelos y créditos diarios. (Lanzamiento Beta: 2022)
Luma Labs Dream MachineGenerador de vídeo de alta calidad con un plan gratuito popular. (Lanzamiento: Junio 2024)
MidjourneyConsiderado el líder en calidad artística para la generación de imágenes. (Lanzamiento v7: Junio 2025)
Perplexity AIMotor de respuestas que combina un LLM con búsqueda en tiempo real para dar respuestas citadas. (Fundada: 2022)
Pika LabsPlataforma accesible para crear y editar vídeos cortos con IA. (Lanzamiento 1.0: Dic 2023)
Playground AIGenerador de imágenes con un plan gratuito muy generoso y alta calidad estética. (Lanzamiento v2.5: Ene 2024)
RunwayUno de los pioneros en vídeo IA, con herramientas avanzadas de control. (Lanzamiento Gen-3: Junio 2024)
SpeechifyLa aplicación líder de Text-to-Speech para productividad y accesibilidad. (Fundada: 2016)
Suno AIPlataforma líder para la generación de canciones completas a partir de texto. (Lanzamiento v4: Julio 2025)
SynthesiaPlataforma líder en la creación de vídeos con avatares de IA profesionales. (Fundada: 2017)
UdioCompetidor directo de Suno para la creación de música con IA. (Lanzamiento: Abr 2024)

Informes Técnicos y Artículos de Investigación

OpenAI GPT-5 Technical ReportEl informe técnico que detalla la arquitectura y el rendimiento del nuevo modelo SOTA de OpenAI. (Publicado: Agosto 2025)
Introducing Claude 3.5 SonnetEl post de anuncio de Anthropic con los benchmarks y capacidades de su modelo más rápido. (Publicado: Junio 2024)
Google Gemini 2.5 Pro AnnouncementEl anuncio de Google con las capacidades y mejoras de la última versión de Gemini. (Publicado: Mayo 2025)
DeepSeek V3 Technical ReportEl informe que detalla la innovadora arquitectura MoE y el rendimiento del potente modelo open source. (Publicado: Julio 2025)
Introducing Llama 3.1El post de Meta AI sobre su modelo open source más grande, incluyendo la versión de 1M de contexto. (Publicado: Julio 2024)
Sora: Creating Video from TextEl informe técnico original de OpenAI que revolucionó la generación de vídeo. (Publicado: Febrero 2024)
Stable Diffusion 3 Technical ReportEl paper de investigación de Stability AI sobre su modelo de generación de imágenes más avanzado. (Publicado: Febrero 2024)
AgentBench (GitHub)Repositorio del benchmark AgentBench para evaluar agentes LLM en entornos diversos. (Publicado: 2023)
OpenDevin Project (GitHub)El repositorio del proyecto open source para replicar y democratizar los agentes de ingeniería de software. (Iniciado: 2024)
Faster-Whisper (GitHub)Implementación optimizada de Whisper para una transcripción más rápida. (Iniciado: 2023)