Claus de la IA: Comparativa per funcionalitats

Març del 2026 · Models avaluats per utilitat pràctica, no per màrqueting

Una guia visual per entendre quin model d'intel·ligència artificial destaca en cada tasca real: des de raonament profund i agents autònoms fins a generació de vídeo, veu, imatge i ajuda en investigació. beta


Agents de Propòsit General: Intel·ligència que Raona i Actua
Gemini 3.1 Pro Preview (Google - Feb 2026) Ús: API / AI Studio | OSS: ❌ GPQA: 88.5+ (estimat)
MMLU-Pro: 89.0+ (estimat)
MMMU-Pro: 81%
Video-MMMU: 87.6%
SWE-bench Verified: 76.8%
Context: 1M tokens
Preu: $2.00/M tokens entrada, $12.00/M tokens sortida
La descripció oficial el defineix com "el nostre model de raonament SOTA més recent, amb una profunditat i matisos sense precedents". Respon a la pressió competitiva de Claude Opus 4.6 millorant la profunditat de raonament i capacitats de codificació.
GLM-5 (744B) (Zhipu - Feb 2026) Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ (MIT) GPQA: 81.5
SWE-Bench: 77.8%
MMLU: 88.5
Context: 128k
El model open source més potent per a tasques de raonament general i codi.
Claude Opus 4.6 (Anthropic - Feb 2026) Ús: API / Claude.ai | OSS: ❌ LMArena Elo: #1 Global
SWE-bench Verified: 80.9%
Terminal-Bench 2.0: #1
NIAH (1M): 100%
Equips d'agents: Líder + subagents especialitzats (implementació, documentació, revisió)
Context: 1M
Capacitat de formar equips d'agents que col·laboren en tasques complexes. La pressió competitiva d'aquest model va obligar Google a llançar Gemini 3.1 Pro ràpidament.
Arcee Trinity Large (400B) (Arcee - Feb 2026) Ús Gratuït: ✔️ (Pesos HF) | OSS: ✔️ (Apache 2.0) NIAH (1M): 98.5%
MMLU: 86.5
Arquitectura: MoE amb atenció entrellaçada
Context: 1M
El model open source amb millor rendiment en context llarg.
Grok 4.1 Fast (xAI - 2025/2026) Ús: API / Empreses | OSS: ❌ MATH: 83.0
GPQA: 88.0
τ²-bench (Telecom): 100% (rendiment perfecte en tasques de telecomunicacions)
LMArena: 4t global
Context: 2M
Especialista en raonament matemàtic i ús d'eines empresarials. S'espera el llançament de Grok 4.2 amb capacitat d'"aprenentatge ràpid" en les properes setmanes.
DeepSeek V3.1 (DeepSeek - Feb 2026) Ús Gratuït: ✔️ (Pesos/API) | OSS: ✔️ (MIT) SWE-bench Verified: 66.0% (millor OSS)
Agentic Bench (Signal65): 92.19% (#3 global)
MATH: 83.5%
GPQA: 92.19% (estimat)
Context: 164K
Model de propòsit general amb fortalesa en codi i matemàtiques. Disponible com a API gratuïta o per a execució local. Integrat a AWS Bedrock.
OpenAI GPT-5.4 Thinking (OpenAI - Mar 2026) Ús: ChatGPT Plus/Team/Enterprise + API | OSS: ❌ Versió Pro disponible per a usuaris Pro/Enterprise SWE-bench Pro: 57.7%
OSWorld-Verified: 75.0% (supera rendiment humà: 72.4%)
GDPval: 83.0% (vs GPT-5.2: 70.9%)
BrowseComp (Pro): 89.3%
MMMU-Pro: 81.2%
Reducció d'errors: -33% en afirmacions falses vs GPT-5.2 [citation:2][citation:5]
Context: 1M
Tool search: Redueix consum de tokens un 47% en ecosistemes grans d'eines [citation:2][citation:5][citation:6]
Primer model d'OpenAI amb capacitat nativa d'operar l'ordinador: pot fer clic, navegar i executar accions basant-se en captures de pantalla [citation:1][citation:2][citation:4]. Integra les capacitats de GPT-5.3-Codex amb raonament profund i agents autònoms. Disponible en dues versions: Thinking (ChatGPT Plus/Team) i Pro (per a tasques extremes) [citation:4][citation:7].
Claude Code (Anthropic - 2026) Ús: API / GitHub Copilot / Xcode | OSS: ❌ SWE-bench Verified: 80.9% (líder en codificació)
Adopció empresarial: Meta, Netflix, Salesforce, Accenture
Preferència: #1 en enquesta a desenvolupadors
Integracions: GitHub Copilot, Apple Xcode (suport natiu)
L'agent de codi preferit per la comunitat tècnica, amb millor rendiment en SWE-bench Verified però sense capacitats d'operació de sistema operatiu.
Gemma 3 4B (Google - 2025) Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ Paràmetres: 4B
Ús principal: Dispositius mòbils, edge computing
Capacitats: Raonament bàsic, comprensió multilingüe
Context: 8k
La base dels models TranslateGemma i MiLMMT-46, que han aconseguit rendiment SOTA en traducció multilingüe.
Phi-4 Mini (Microsoft - 2025) Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ Paràmetres: 3.8B
Rendiment: Comparable a models de 7B-13B en tasques de raonament
Entrenament: Dades d'alta qualitat curades
Context: 4k
Demostra que la qualitat de les dades d'entrenament pot superar l'escala bruta.
Claude Opus 4.6 Thinking (Anthropic - Feb 2026) Ús: API / Claude.ai | OSS: ❌ LMArena Elo: #1 global (versió thinking)
Raonament profund: SOTA en tasques complexes
Humanity's Last Exam: Líder en aquest benchmark de preguntes extremadament difícils
Context: 1M
La referència absoluta per a raonament de nivell expert.
Ant Group Ring-2.5-1T (Ant Group - Feb 2026) Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ IMO 2025: 35/42 (medalla d'or)
CMO 2025: 105/126 (supera el tall de l'equip nacional xinès)
Eficiència en context llarg: Reducció 10x en accés a memòria
Arquitectura: Híbrida lineal, 63B paràmetres actius
El primer model open source que assoleix nivell de medalla d'or en olimpíades matemàtiques.
Funcionalitat Agèntica i Presa de Decisions
Claude Agent SDK (a Xcode 26.3) (SOTA en Agents Integrats en IDE) Ús: Apple Developer Program (release candidate) | OSS: ❌ Integrat: Feb 2026 Visual verification: Captura de Xcode Previews per verificar interfícies
Raonament multi-projecte: Comprensió de tota l'arquitectura del projecte
Execució autònoma: Tasques de llarga durada sense supervisió constant
Model Context Protocol: Integració amb Claude Code via MCP
Capacitat de Claude per explorar l'estructura completa de fitxers, entendre com es connecten els frameworks (SwiftUI, UIKit, Swift Data) i identificar on fer canvis abans d'escriure codi.
OpenClaw (Ecosistema) Ús Gratuït: ✔️ (Auto-allotjat) | OSS: ✔️ 228k+ ⭐ · Creador a OpenAI GitHub ⭐: 228,000+ (#1 històric)
Autonomia: Completa (execució 24/7 sense supervisió)
Ecosistema: +10,000 Skills comunitaris, 126+ startups basades en OpenClaw
Integració IDE: Compatible amb Cursor i Aider via plugins comunitaris
El framework que ha redefinit l'estàndard dels agents autònoms, ara amb un ecosistema de skills que permet estendre les seves capacitats a qualsevol entorn.
Claude Opus 4.6 (Agent Teams) (SOTA en Orquestració Multi-Agent) Ús: API / Claude.ai (Max/Team/Enterprise) | OSS: ❌ Llançat: Feb 2026 Terminal-Bench 2.0: #1
GDPval-AA: +144 Elo vs GPT-5.2 (millor en tasques d'alt valor econòmic)
Context llarg: 1M tokens amb Context compaction
Equips d'agents: Subagents en paral·lel (implementació, documentació, revisió)
Integracions: PowerPoint (creació automàtica de presentacions), Excel (anàlisi financera), Cowork (macOS)
Capacitat de formar equips d'agents que col·laboren en tasques complexes, amb un líder que coordina i sintetitza resultats.
CrewAI (Multi-Agent) Ús Gratuït: ✔️ | OSS: ✔️ (MIT) Actualitzat: Feb 2026 Framework: Multi-agent amb rols (investigador, escriptor, revisor, etc.)
Equips: Paral·lelització de tasques, fluxos de treball jeràrquics
Comunitat: 44k ⭐ a GitHub, +100 contribuïdors actius
Integració OpenClaw: Compatible amb skills d'OpenClaw per a automatització de sistema
El framework OSS més complet per definir i executar equips d'agents especialitzats, ara amb suport per a integracions amb l'ecosistema OpenClaw.
GitHub Copilot (Agents Multi-model) (SOTA en Plataformes de Desenvolupament Agèntic) Ús: Copilot Pro+ / Enterprise | OSS: ❌ Actualitzat: Gen-Feb 2026 GPT-5.2-Codex GA: Disponible general
Agents disponibles: Claude + Codex en preview pública
Memòria agèntica: Captura insights del repositori (28 dies)
Sandboxing: Comandaments en terminal amb aïllament
Copilot SDK: Technical preview per a extensions
La plataforma més completa per a desenvolupament agèntic, permetent triar entre múltiples models i gestionar sessions de manera unificada.
Aider Ús Gratuït: ✔️ (BYOK) | OSS: ✔️ (Apache 2.0) Actualitzat: Contínuament Aider Polyglot: Resultats competitius
Flexibilitat: Qualsevol model (OpenAI, Anthropic, DeepSeek, etc.)
Integració Git: Commits automàtics amb missatges clars
Control: Total per a desenvolupadors
Ecosistema OpenClaw: Compatible amb skills per a automatització avançada
L'alternativa OSS més potent per a programació agèntica en CLI, amb l'avantatge de poder utilitzar models de baix cost com DeepSeek.
Claude Code Security (SOTA en Agents de Seguretat) Ús: Research preview a Claude Code | OSS: ❌ Llançat: Feb 2026 Capacitats: Anàlisi de components, fluxos de dades, detecció de vulnerabilitats (injecció, bypass d'autenticació)
Resultats: Claude Opus 4.6 va descobrir 500+ vulnerabilitats desconegudes en projectes open source
Sortida: Explicació en llenguatge natural + pedaços suggerits
Integració: Nativa a Claude Code
Capacitat d'actuar com a "red team" autònom, identificant i pedaçant vulnerabilitats sense intervenció humana.
Aider + models de seguretat Ús Gratuït: ✔️ | OSS: ✔️ Flexible Flexibilitat: Ús de models fine-tuneats per a seguretat
Control: Total sobre el procés d'anàlisi
Integració: Amb sistemes de CI/CD via scripts personalitzats
Comunitat: Activa en desenvolupament de skills de seguretat per a OpenClaw
La combinació d'un framework OSS flexible amb models especialitzats permet construir pipelines de seguretat adaptats a necessitats específiques.
Aprenentatge Personalitzat i Tutoria amb IA
OpenAI GPT-5 (Mode Tutor) (SOTA en Tutoria Adaptativa i Precisió) Ús: ChatGPT Plus/Team/Enterprise | OSS: ❌ GPT-5.2: Feb 2026 Metodologia: Aprenentatge adaptatiu i socràtic
Personalització: Ajust al nivell i ritme de l'estudiant
GPT Store: Tutors especialitzats creats per la comunitat
Benchmark matemàtic 2026: 90% (millor en precisió)
Estudi acadèmic 2026: "Parceiro intelectual para escrita"
El tutor de referència per a qualsevol matèria, amb la millor precisió numèrica segons auditories independents.
Google LearnLM (a Gemini for Education) Ús: Gratuït (via Gemini) | OSS: ❌ Integrat a Gemini: Feb 2026 Principis pedagògics: Aprenentatge actiu, metacognició, personalització
Millora demostrada: +5.5% en resolució de problemes nous vs. tutors humans
Valoració acadèmica: "Multimodalidade nativa e recursos para pesquisa e aprendizagem ativa"
L'alternativa amb base científica en pedagogia i forta integració multimodal.
Google Little Language Lessons (SOTA en Aprenentatge Contextual d'Idiomes) Ús Gratuït: ✔️ (Google Labs) | OSS: ❌ Llançament: Gen-Feb 2026 Enfocament: Lliçons breus basades en situacions quotidianes
Tecnologia: Gemini + Cloud Text-to-Speech per a pronunciació
Eines: Tiny Lesson, Slang Hang, Word Cam
Idiomes: +40 idiomes disponibles
Aprenentatge pràctic, contextual i gratuït sense estructura curricular rígida.
ELSA Speak Ús Gratuït: ✔️ (Bàsic) | Pro: Pagament | OSS: ❌ Actualitzat: Feb 2026 Especialització: Pronunciació i accent (neutre americà)
Exercicis: +40,000 pràctiques en contextos diversos (viatges, entrevistes)
Feedback: Anàlisi fonèmica en temps real
Preparació: IELTS, Pearson PTE, TOEFL
La millor opció per perfeccionar la pronunciació amb precisió científica.
Wolfram Alpha (Step-by-Step) (SOTA en Resolució Guiada de Problemes Tècnics) Ús Gratuït: ✔️ (Limitat) | Pro: ~$5/mes | OSS: ❌ Actualitzat: Contínuament Dominis: Matemàtiques, Física, Química, Enginyeria, Estadística
Qualitat: Rigorosa, basada en coneixement expert computacional
Generació: Pràctica il·limitada amb problemes similars
Visualització: Gràfics interactius i passos detallats
L'estàndard d'or per a estudiants de ciències que necessiten entendre el procés.
Photomath (amb IA) Ús Gratuït: ✔️ (Bàsic) | Plus: ~$7/mes | OSS: ❌ Actualitzat: Feb 2026 Dominis: Matemàtiques (des d'aritmètica fins a càlcul)
Mètode d'entrada: Escaneig amb càmera (ultraràpid)
Qualitat: Explicacions clares i visuals
Funcions IA: Pràctica personalitzada basada en el progrés
L'alternativa més accessible i popular per a matemàtiques en dispositius mòbils.
NotebookLM (Gemini 3.1 Pro) (SOTA en Generació de Contingut Educatiu Personalitzat) Ús Gratuït: ✔️ | OSS: ❌ Actualitzat: Feb 2026 Novetats Feb 2026: "Video Overviews" amb estils visuals (aquarel·la, pissarra, anime), exportació a PPTX editable, compatibilitat amb Google Slides (pròximament)
Lecture Mode: Àudio de fins a 30 minuts amb un sol ponent, ideal per a cursos i materials densos
Confiabilitat acadèmica: Elevada confiabilitat acadèmica.
Generació: Pòdcasts, FAQs, guies d'estudi, línies de temps, infografies, PPTX, Learning Guide amb tutoria socràtica, quizzes, flashcards, mapes mentals
Capacitat: Fins a 50 fonts per quadern (PDFs, àudios, presentacions, YouTube, Google Sheets)
Teach Anything (per a professors) Ús Gratuït: ✔️ | OSS: ✔️ Finançat per Institute for Humane Studies · The New York Times: 2026 Mencionat a The New York Times: "Open access revolution"
Per a qui: Professors universitaris i de secundària que vulguin crear les seves pròpies eines
Models utilitzats: Mistral, Llama i altres LLMs open source
Què permet: Dissenyar i desplegar aplicacions educatives d'IA sense programar
Característiques clau: Apps permanentment gratuïtes, sense login per a estudiants, privacitat total, fàcilment compartibles
Qwen2.5-VL-7B-Instruct (Qwen - 2026) Ús Gratuït: ✔️ (Pesos) | API: $0.05/M tokens | OSS: ✔️ Capacitats: Comprensió visual (gràfics, diagrames), anàlisi de vídeos educatius, localització d'objectes
Context: 33K tokens
Preu (SiliconFlow): $0.05/M tokens entrada i sortida
Perfecte per a: Analitzar materials educatius amb text i imatges (llibres de text, problemes de ciència amb diagrames)
Model multimodal assequible per a estudiants i educadors amb pressupostos limitats.
Llama 3.1 8B Instruct (Meta - 2025) Ús Gratuït: ✔️ (Pesos) | API: $0.06/M tokens | OSS: ✔️ Suport multilingüe: +100 idiomes
Context: 33K tokens
Entrenament: 15 bilions de tokens amb RLHF
Preu (SiliconFlow): $0.06/M tokens
Perfecte per a: Plataformes de tutoria que atenen poblacions estudiantils diverses, diàleg instructiu segur
El model open source amb millor relació qualitat-preu per a educació multilingüe.
GLM-4.5V (Zhipu AI) (SOTA en Raonament STEM) Ús Gratuït: ✔️ (Pesos) | API: $0.14/M entrada, $0.86/M sortida | OSS: ✔️ Llançat: 2026 Arquitectura: MoE (106B params totals, 12B actius)
Innovació tècnica: 3D-RoPE per a relacions espacials 3D
'Mode Pensament': Equilibri entre rapidesa i raonament profund
Context: 66K tokens
Resolució: Suporta imatges 4K
Preu (SiliconFlow): $0.14/M entrada, $0.86/M sortida
Perfecte per a: Educació STEM avançada, problemes complexos que requereixen anàlisi visual profund i raonament matemàtic
El model de codi obert amb millor rendiment en benchmarks multimodals, ideal per a universitats i institucions que necessiten màxima capacitat.
Hugging Face (Models Educatius) Ús Gratuït: ✔️ | OSS: ✔️ +1M models disponibles Accés: +1 milió de models open source
Cost: Gratuït per a recerca i ús personal
Comunitat: La major comunitat d'IA del món
Valor per a educadors: Permet explorar, provar i descarregar models especialitzats per a necessitats educatives concretes sense dependre d'APIs comercials
El punt de partida per a qualsevol professor que vulgui experimentar amb IA open source.
Ajuda en Investigació
Consensus (Síntesi d'Evidència) (SOTA en Síntesi d'Evidència) Ús Gratuït: ✔️ (Cerques limitades) | OSS: ❌ Actualitzat: Feb 2026 Funció Principal: Extracció de Troballes Científiques
Mètrica Clau: Síntesi de consens (+200M papers)
Precisió de Respostes: Molt Alta
Filtres: Per tipus d'estudi, data, accés obert
Respon preguntes mostrant el percentatge de papers que donen suport a cada postura.
Scite.ai Ús Gratuït: ✔️ (Limitat) | Pro: Pagament | OSS: ❌ Actualitzat: Feb 2026 Funció Principal: Verificació de Cites ("Smart Citations")
Base de Dades: +250M d'articles, capítols, preprints i datasets
Novetat Feb 2026: Scite MCP: Integració directa amb ChatGPT, Claude, Copilot, Cursor i Claude Code. Els assistents poden cercar dins d'articles, avaluar com han estat citats, i accedir a PDFs sense sortir del flux de treball
Ideal per avaluar l'impacte i la fiabilitat d'un paper per com ha estat citat, ara directament des dels teus assistents d'IA favorits.
Elicit (Revisió de Literatura) (SOTA en Automatització de Revisions Sistemàtiques) Ús Gratuït: ✔️ (Crèdits) | OSS: ❌ Actualitzat: Feb 2026 Funció Principal: Extracció estructurada de dades
Base de Dades: +200M papers (Semantic Scholar)
Automatització: Cerca, filtratge, extracció i síntesi
Exportació: Taules, resums, BibTeX
Permet passar d'una pregunta d'investigació a una taula amb les troballes clau de desenes de papers en minuts.
SciSpace (Typeset) Ús Gratuït: ✔️ (Limitat) | OSS: ❌ Actualitzat: Feb 2026 Funció Principal: Comprensió de papers via xat
Base de Dades: +270M papers
Mètrica Clau: Anàlisi conversacional, generació d'il·lustracions científiques amb IA
Integracions: Zotero, Mendeley, Chrome extension
Extracció: Resums, equacions, taules
Excel·lent per entendre un paper complex fent-li preguntes directament.
Claude Opus 4.6 (Anàlisi Profund) (SOTA en Extracció Fidel d'Informació) Ús Gratuït: ❌ | OSS: ❌ Llançat: Feb 2026 NIAH (200k): 100%
FEVER: 97.2%
QASPER: 86.5%
GPQA: 87.8%
Context: 1M
Estudi de detecció humana (feb 2026): més del 90% de participants no distingeixen els seus outputs de contingut humà.
Llama 3.1 405B (1M) Ús Gratuït: ✔️ (Models) | OSS: ✔️ (Llama Lic) Llançat: 2024 NIAH (1M): ~99.2%
GPQA: 58.2%
QASPER: ~75.3%
MMLU: 86.1%
Context: 1M
Gemini 3.1 Pro (Anàlisi Massiu) (SOTA en Anàlisi Multimodal a Gran Escala) Ús Gratuït: ✔️ (AI Studio) | OSS: ❌ Llançat: Feb 2026 NIAH (1M): 99.9%
MMMU: 84.2%
GPQA: 88.5%
QASPER: 86.0%
Context: 1M (amb multimodalitat)
Kimi (Moonshot AI) Ús Gratuït: ✔️ | OSS: ❌ Actualitzat: Feb 2026 NIAH (1M): ~98.5%
Anàlisi de Fitxers: PDF, Word, Excel, PPT, imatges
Context: 1M+ (gratuït)
La millor alternativa gratuïta per a anàlisi de context massiu, especialment per a usuaris fora de la Xina.
Perplexity Pro (RAG) (SOTA en Cerca amb Fonts) Ús Gratuït: ✔️ (Limitat) | OSS: ❌ Actualitzat: Feb 2026 Qualitat de RAG: SOTA
Precisió contextual: 94%
Transparència en riscos: 89%
Deep Research: Síntesi de 50+ fonts
Mode "Pro" (feb 2026): Cerca en papers científics
El millor per a respostes ràpides i verificades amb fonts directes.
Phind (Mode Investigació) Ús Gratuït: ✔️ | OSS: ❌ Actualitzat: Feb 2026 Especialització: Codi i preguntes tècniques (92% paste-ready)
Precisió general: 83%
Velocitat: 1.9 segons de resposta
Integració: VS Code nativa
Enfocament recomanat: Usar Perplexity per a investigació i planificació, Phind per a implementació i depuració
Optimitzat per a respostes tècniques precises amb exemples de codi, encara que menys fiable per a investigació general.
Generació de Veu i Música
ElevenLabs V3 (SOTA en Veu Realista i Clonació) Ús Gratuït: ✔️ (Crèdits mensuals) | Pro: Pagament | OSS: ❌ Llançat: Feb 2026 MOS (Naturalitat): >4.5
Clonació: Mostra de 5 segons, preservació emocional
Latència streaming: <200ms
Millora precisió v3: 68% menys errors en benchmark intern (27 categories, 8 idiomes). Taxa d'error global: 4.9%
Idiomes: +30 amb accents regionals
L'estàndard de la indústria per a veus d'alta qualitat en producció professional.
Fish Speech V1.5 (fishaudio - 2026) Ús Gratuït: ✔️ (Pesos) | API: $15/M bytes | OSS: ✔️ TTS Arena ELO: 1339
WER (anglès): 3.5%
CER (anglès): 1.2%
CER (xinès): 1.3%
Arquitectura: DualAR (doble transformer autoregressiu)
L'alternativa open source amb la millor precisió multilingüe del mercat. Dona suport a múltiples idiomes amb 300k+ hores d'entrenament.
Suno AI v4 (SOTA en Generació de Cançons) Ús Gratuït: ✔️ (Crèdits diaris) | Pro: Pagament | OSS: ❌ Llançat: Feb 2026 Qualitat vocal: SOTA (veus gairebé indistingibles d'humanes)
Control d'estructura: Vers, tornada, pont
Durada: Fins a 4 minuts per cançó
Rang vocal: 30-45 semitons
L'eina de referència per a creadors que volen generar cançons completes amb lletra i melodia coherent.
Udio Ús Gratuït: ✔️ (Crèdits) | Pro: Pagament | OSS: ❌ Actualitzat: Feb 2026 Qualitat de producció: Molt alta (èmfasi en mescla i masterització)
Extensió: Afegir seccions a temes existents
Replace section: Corregeix problemes específics
Preferit per molts músics pel seu so més polit i possibilitats creatives.
Stable Audio Open 2.0 (SOTA en Efectes de So i Disseny Sonor) Ús Gratuït: ✔️ (Pesos) | API: Pagament | OSS: ✔️ Actualitzat: Feb 2026 Durada màxima: 47 segons (ideal per a SFX i loops)
Qualitat: 44.1kHz estèreo
Tipus de sortida: Efectes, stems, loops, instrumentals
Fine-tuning personal: Sí (amb gravacions pròpies)
La referència per a creadors que necessiten efectes de so personalitzats i lliures de drets.
CosyVoice2-0.5B (FunAudioLLM - 2026) Ús Gratuït: ✔️ (Pesos) | API: $7.15/M bytes | OSS: ✔️ Latència streaming: 150ms (ultra-baixa)
Millora vs v1.0: 30-50% menys errors de pronunciació
MOS: 5.53 (vs 5.4 anterior)
Idiomes: Xinès (inclou dialectes: cantonès, sichuanès, shanghainès, tianjinès), anglès, japonès, coreà
Cross-lingual:
Perfecte per a aplicacions que requereixen respostes de veu en temps real amb mínima latència.
ElevenLabs V3 (Diàlegs) (SOTA en Veu per a Diàlegs) Ús: API / Web | OSS: ❌ Llançat: Feb 2026 MOS (Naturalitat): >4.4
Control emocional: Èmfasi, to, ritme ajustable
Durada: Optimitzat per a paràgrafs llargs i converses
TTS expressiu: Capta matisos i entonació contextual
Millora en interpretació contextual: 68% menys errors en símbols i números
El mateix model SOTA, amb millores significatives en interpretació de context.
ChatTTS Ús Gratuït: ✔️ | OSS: ✔️ Actualitzat: 2025 MOS (Naturalitat): ~4.1
Enfocament: Converses i diàlegs naturals
Control: To i emoció ajustables
Comunitat: Molt activa, amb nombrosos fine-tunes
Alternativa OSS estable per a diàlegs conversacionals.
Generació d'Imatges
GPT Image 1.5 (OpenAI) (SOTA en Generació General) Ús: ChatGPT Plus/Pro/API | OSS: ❌ Llançat: Des 2025 LM Arena Elo: 1264
Renderitzat de text: SOTA (tipografia complexa, logos, senyalètica)
Fotorrealisme: Excepcional
Integració: Nativa amb ChatGPT, fluxos multimodals sense fissures
El nou estàndard per a materials de màrqueting professionals, maquetes de producte i composicions complexes que requereixen text llegible.
Flux 2 Max Ús Gratuït: ✔️ (Pesos) | API: Pagament | OSS: ✔️ Llançat: 2025 LM Arena Elo: 1168
Suport LoRA: Sí (milers de models comunitaris)
Execució local: Possible amb RTX 4090
Comunitat: Activa a Civitai amb milers de variants
El rei del codi obert per a qui necessita control absolut, privacitat o models personalitzats.
Gemini 3.1 Pro Image (Nano Banana Pro) (Google - Feb 2026) Ús Gratuït: ✔️ (AI Studio) | API: Pagament | OSS: ❌ LM Arena Elo: 1235+ (estimat)
Latència: 3-5 segons per imatge
Capacitats destacades: Comprensió d'identitats (genera retrats de personatges famosos amb logos corporatius), generació multilingüe (menús en 4 idiomes amb text precís), raonament cultural (acupuntura, quiromància), resolució matemàtica amb passos visuals
Integració: Google Workspace, Cloud Platform, cerca
Model amb enfocament "primer raona, després dibuixa", demostrant comprensió de relacions espacials, física i lògica abans de generar la imatge.
Flux 2 Flex Ús Gratuït: ✔️ (Pesos) | API: Pagament | OSS: ✔️ Llançat: 2025 LM Arena Elo: 1157
Velocitat: 2-4 segons (més ràpida que Max)
Requisits: Menys computació, apte per a més entorns
Qualitat: Lleugerament inferior a Max, però excel·lent per a alt volum
L'opció open source quan la velocitat d'iteració és prioritària sobre el màxim detall.
Flux 1.1 Pro Ultra (SOTA en Resolució i Control) Ús: API via plataformes (SiliconFlow, etc.) | OSS: ❌ (API) Llançat: 2025 Resolució màxima: 4 megapíxels (2048x2048) / 2K
Fotorrealisme: Superior, amb modes Ultra (composició precisa) i Raw (textures naturals)
Preu: ~$0.06/imatge via SiliconFlow
La referència per a producció visual comercial on el detall i la fidelitat són crítics.
Flux.1 Kontext Pro Ús: API | OSS: ❌ (API) Llançat: 2025 Comprensió semàntica: Avançada, amb suport d'imatges de referència
Control local precís: Edicions detallades mantenint context global
Preu: ~$0.04/imatge
Ideal per a disseny de marques, visualització de productes i il·lustració narrativa que requereix coherència en múltiples iteracions.
Hunyuan Image 3.0 (Tencent) (SOTA en Edició Avançada) Ús: API / "元宝" App | OSS: ❌ Versió Instruct: Gen 2026 LM Arena Elo: 1152 (text-imatge)
Noves capacitats (Instruct): Edició imatge-a-imatge (afegir/eliminar objectes), fusió multi-imatge, estil "think first, then edit" amb Chain of Thought
Arquitectura: MoE 80B params totals, 13B actius
Especialització: Edició precisa, contingut asiàtic
Preu: ~$0.02-0.05/imatge
L'elecció per a edició avançada amb comprensió profunda d'instruccions i manipulació detallada d'elements en la imatge.
Seedream 5.0 (ByteDance) Ús: API / CapCut / JI Meng | OSS: ❌ Llançat: Feb 2026 LM Arena Elo: Competitiu amb Nano Banana Pro
Capacitats clau: Cerca a internet en temps real, comprensió de prompts abstractes, renderitzat de text precís, edició controlada
Resolució: 2K (directe) / 4K (amb IA)
Preu: Econòmic, amb usos gratuïts
Perfecte per crear imatges que requereixen coneixement específic, infografies, cartells amb text i conceptes abstractes. Posicionat com el competidor directe i més econòmic de Gemini 3.1 Pro Image.
Generació de Vídeo
Seedance 2.0 Pro (ByteDance) (SOTA en Control Creatiu i Popularitat) Ús: Freemium / API / Jimeng / Doubao | OSS: ❌ Llançat: Feb 2026 Rànquing comunitari: #1 (per sobre de Kling 3.0 i Sora 2)
Referències: Fins a 12 fitxers (9 imatges + 3 vídeos + 3 àudios)
Lip-sync: Precisió fonèmica, 8 idiomes (anglès, xinès, japonès, coreà, espanyol, indonesi, cantonès, sichuanès)
Resolució: Nativa 2K (2160p)
Beat-sync: Sí, amb àudio multi-pista
Dual-channel audio: Efectes ASMR, so ambiental immersiu
Preu: ~$0.10/minut (80% més barat que competidors)
Definit per la comunitat com el "Game Changer" i "Nou Rei del AI Video". The Information, CNBC i The Economic Times el destaquen com el model que supera Sora i Veo en velocitat i control narratiu.
Kling 3.0 Pro (Kuaishou) Ús Gratuït: ✔️ (Crèdits) | API: $0.3-0.5/10s | OSS: ❌ Llançat: Feb 2026 Elo: Competitiu amb Seedance
Resolució: 4K natiu (3840×2160) a 60fps (l'únic)
Durada màxima: 120 segons (el més llarg)
Storyboard: Fins a 6 talls de càmera
Idiomes: Anglès, xinès, japonès, coreà, espanyol (amb accents regionals)
Perfecte per a workflows que requereixen màxima resolució, durada estesa i control de càmera professional.
Sora 2 Pro (OpenAI) (SOTA en Narrativa i Física) Ús: ChatGPT Pro ($200/mes) | API: $0.50/seg | OSS: ❌ Llançat: 2025 Durada màxima: 25 segons (únic en la seva classe)
Física realista: SOTA en interaccions complexes
Complexitat d'escena: Gestiona multi-personatge amb interaccions naturals
Resolució: 1080p
Storyboard: Sí, amb edició narrativa
Àudio: Natiu amb diàleg
L'opció per a projectes on la durada estesa, la física realista i la complexitat narrativa són prioritàries.
Veo 3.1 (Google DeepMind) Ús: API / Vertex AI | OSS: ❌ Actualitzat: Feb 2026 Fotorrealisme: #1 en textures i materials
Durada: 8 segons (el més curt, ideal per a hero shots)
Material rendering: Superior (pell, teles, vidre, aigua)
Vocabulari tècnic: Comprèn f-stop, focal length, lighting ratios
Àudio: Natiu sincronitzat
L'elecció per a hero shots i fotografia de producte que requereix màxim realisme.
Runway Gen-4.5 + GWM-1 (SOTA en Eines d'Edició i Models de Món) Ús: Freemium (pagament) / API / SDK Robòtica | OSS: ❌ Gen-4.5: Des 2025 · GWM-1: Feb 2026 Elo (Gen-4.5): 1230 (#4)
Estudi de detecció humana (feb 2026): >90% de participants no distingeixen Gen-4.5 de vídeos reals
Motion tracking: Avançat
Control de càmera: Director Mode
Novetat GWM-1 (feb 2026): Família de Models de Món General (GWM Worlds, Avatars, Robotics) amb SDK per a robòtica i simulació
Integració de tercers: Kling 3.0, Sora 2 Pro, WAN2.2 Animate, GPT-Image-1.5 disponibles dins de Runway
L'eina de referència per a professionals que necessiten control granular i simulació realista, amb una suite que va més enllà de la generació simple.
CogVideoX-5b-I2V Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ Llançat: 2025 VRAM mínima: 4.4GB (INT8 quantitzat)
Comunitat: 8,000+ estrelles a GitHub
Ecosistema: Ampli, amb múltiples forks i eines
Especialització: Imatge a vídeo amb control fi
El model amb l'ecosistema més madur per a qui necessita personalització total.
Pika 2.5 (SOTA en Velocitat i Creativitat Social) Ús Gratuït: ✔️ (Crèdits diaris) | Pro: Pagament | OSS: ❌ Llançat: Nov 2025 Elo: 1095
Velocitat: 30-90 segons per generació (Turbo: 12s)
Lip sync:
Pikaffects: Únic en la seva classe
L'opció gratuïta més accessible per a creadors de contingut social, amb crèdits diaris renovables.
HunyuanVideo-1.5 (Tencent) Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ Llançat: Gen 2026 Elo: 1022
Requisits: RTX 4090 amb 13.6GB VRAM
Durada: Fins a 10 segons en 1080p
Text compliance: >95%
El model open source més recent, optimitzat per a execució en maquinari de consum amb excel·lent comprensió de prompts.
Generació de Vídeo
Seedance 2.0 Pro (ByteDance) (SOTA en Control Creatiu i Popularitat) Ús: Freemium / API / Jimeng / Doubao | OSS: ❌ Llançat: Feb 2026 Rànquing comunitari: #1 (per sobre de Kling 3.0 i Sora 2)
Referències: Fins a 12 fitxers (9 imatges + 3 vídeos + 3 àudios)
Lip-sync: Precisió fonèmica, 8 idiomes (anglès, xinès, japonès, coreà, espanyol, indonesi, cantonès, sichuanès)
Resolució: Nativa 2K (2160p)
Beat-sync: Sí, amb àudio multi-pista
Dual-channel audio: Efectes ASMR, so ambiental immersiu
Preu: ~$0.10/minut (80% més barat que competidors)
Definit per la comunitat com el "Game Changer" i "Nou Rei del AI Video". The Information, CNBC i The Economic Times el destaquen com el model que supera Sora i Veo en velocitat i control narratiu.
Kling 3.0 Pro (Kuaishou) Ús Gratuït: ✔️ (Crèdits) | API: $0.3-0.5/10s | OSS: ❌ Llançat: Feb 2026 Elo: Competitiu amb Seedance
Resolució: 4K natiu (3840×2160) a 60fps (l'únic)
Durada màxima: 120 segons (el més llarg)
Storyboard: Fins a 6 talls de càmera
Idiomes: Anglès, xinès, japonès, coreà, espanyol (amb accents regionals)
Perfecte per a workflows que requereixen màxima resolució, durada estesa i control de càmera professional.
Sora 2 Pro (OpenAI) (SOTA en Narrativa i Física) Ús: ChatGPT Pro ($200/mes) | API: $0.50/seg | OSS: ❌ Llançat: 2025 Durada màxima: 25 segons (únic en la seva classe)
Física realista: SOTA en interaccions complexes
Complexitat d'escena: Gestiona multi-personatge amb interaccions naturals
Resolució: 1080p
Storyboard: Sí, amb edició narrativa
Àudio: Natiu amb diàleg
L'opció per a projectes on la durada estesa, la física realista i la complexitat narrativa són prioritàries.
Veo 3.1 (Google DeepMind) Ús: API / Vertex AI | OSS: ❌ Actualitzat: Feb 2026 Fotorrealisme: #1 en textures i materials
Durada: 8 segons (el més curt, ideal per a hero shots)
Material rendering: Superior (pell, teles, vidre, aigua)
Vocabulari tècnic: Comprèn f-stop, focal length, lighting ratios
Àudio: Natiu sincronitzat
L'elecció per a hero shots i fotografia de producte que requereix màxim realisme.
Runway Gen-4.5 + GWM-1 (SOTA en Eines d'Edició i Models de Món) Ús: Freemium (pagament) / API / SDK Robòtica | OSS: ❌ Gen-4.5: Des 2025 · GWM-1: Feb 2026 Elo (Gen-4.5): 1230 (#4)
Estudi de detecció humana (feb 2026): >90% de participants no distingeixen Gen-4.5 de vídeos reals
Motion tracking: Avançat
Control de càmera: Director Mode
Novetat GWM-1 (feb 2026): Família de Models de Món General (GWM Worlds, Avatars, Robotics) amb SDK per a robòtica i simulació
Integració de tercers: Kling 3.0, Sora 2 Pro, WAN2.2 Animate, GPT-Image-1.5 disponibles dins de Runway
L'eina de referència per a professionals que necessiten control granular i simulació realista, amb una suite que va més enllà de la generació simple.
CogVideoX-5b-I2V Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ Llançat: 2025 VRAM mínima: 4.4GB (INT8 quantitzat)
Comunitat: 8,000+ estrelles a GitHub
Ecosistema: Ampli, amb múltiples forks i eines
Especialització: Imatge a vídeo amb control fi
El model amb l'ecosistema més madur per a qui necessita personalització total.
Pika 2.5 (SOTA en Velocitat i Creativitat Social) Ús Gratuït: ✔️ (Crèdits diaris) | Pro: Pagament | OSS: ❌ Llançat: Nov 2025 Elo: 1095
Velocitat: 30-90 segons per generació (Turbo: 12s)
Lip sync:
Pikaffects: Únic en la seva classe
L'opció gratuïta més accessible per a creadors de contingut social, amb crèdits diaris renovables.
HunyuanVideo-1.5 (Tencent) Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ Llançat: Gen 2026 Elo: 1022
Requisits: RTX 4090 amb 13.6GB VRAM
Durada: Fins a 10 segons en 1080p
Text compliance: >95%
El model open source més recent, optimitzat per a execució en maquinari de consum amb excel·lent comprensió de prompts.
Enginyeria de Programari Autònoma
Cognition Labs Devin (Enterprise) (SOTA en Automatització de Programari Empresarial) Ús: Enterprise (via Synechron i sector públic) | OSS: ❌ Partnership: Feb 2026 · Expansió federal: Mar 2026 Cases d'Ús Reals: Modernització COBOL, Java, SAS-to-PySpark
Certificació: Enginyers entrenats per Cognition
Integració: Amb acceleradors de Synechron
SWE-Bench (Empresarial): Puntuacions líders en entorns legacy
Defineix l'estàndard per a agents d'enginyeria en banca, assegurances i sector públic amb governança i compliment normatiu.
OpenClaw Ús Gratuït: ✔️ (Auto-allotjat) | OSS: ✔️ Creador: Peter Steinberger (ara a OpenAI) · 228k+ ⭐ GitHub ⭐: 228,000+ (#1 històric)
Autonomia: Completa (execució 24/7 sense supervisió)
Ecosistema: +10,000 Skills comunitaris, 126+ startups basades en OpenClaw
Versions SaaS: Kimi Claw, MaxClaw (sota demanda)
Impacte: OpenClaw és ja el major consumidor de tokens a OpenRouter
El framework que ha redefinit l'estàndard dels agents autònoms open source. El seu creador, Peter Steinberger, va ser contractat per OpenAI per liderar la seva estratègia d'agents.
OpenAI GPT-5.4 (OpenAI - Mar 2026) Ús: ChatGPT Plus/Team/Enterprise + API | OSS: ❌ Versió Pro disponible per a usuaris Pro/Enterprise SWE-bench Verified: 79.2% (segons taula Vals.ai)
SWE-bench Pro: 57.7% (líder)
OSWorld-Verified: 75.0% (supera rendiment humà: 72.4%)
GDPval: 83.0% (vs GPT-5.2: 70.9%)
BrowseComp (Pro): 89.3%
Context: 1M
Tool search: Redueix consum de tokens un 47% en ecosistemes grans d'eines
Evolució directa de GPT-5.3-Codex, integrant capacitats de codi, raonament profund i control d'ordinador. Disponible a GitHub Copilot com a opció seleccionable.
Claude Code (Anthropic) Ús: API / GitHub Copilot / Xcode | OSS: ❌ #1 en preferència desenvolupadors SWE-bench Verified: 80.9% (líder en codificació)
Terminal-Bench 2.0: 65.4%
Adopció empresarial: Meta, Netflix, Salesforce, Accenture
Integracions: GitHub Copilot, Apple Xcode (suport natiu)
L'agent de codi preferit per la comunitat tècnica, amb millor rendiment en SWE-bench Verified.
Cursor (Agents de Llarga Durada) (SOTA en IDEs Agèntics) Ús Gratuït: ✔️ (Pla gratuït) | OSS: ❌ Actualitzat: Feb 2026 Novetats Feb 2026: Agents de llarga durada, subagents en paral·lel
Traçabilitat: Cursor Blame (atribució IA/humà)
Funcions Clau: Planificació autònoma, execució sense supervisió
Context multi-agent: Capacitat d'executar múltiples agents especialitzats simultàniament
L'experiència més avançada en desenvolupament amb agents dins de l'editor, ara competint directament amb GitHub Copilot que ha integrat múltiples models.
Aider Ús Gratuït: ✔️ | OSS: ✔️ (Apache 2.0) Actualitzat: Contínuament Benchmarks propis: Resultats competitius en Aider Polyglot
Flexibilitat: Models locals o remots (OpenAI, Claude, DeepSeek, etc.)
Control: Total per a desenvolupadors
Integració amb OpenClaw: Compatible amb l'ecosistema de skills d'OpenClaw per a automatització avançada
L'alternativa OSS més potent per a la programació agèntica en CLI, ara part d'un ecosistema més ampli d'agents autònoms.
Traducció Automàtica
DeepL Pro (SOTA en Traducció de Textos Llargos) Ús Gratuït: ✔️ (Limitat) | Pro: Pagament | OSS: ❌ Actualitzat: Mar 2026 MOS (textos llargs): Molt alt en idiomes europeus
Formats: PDF, DOCX, PPTX amb preservació de maquetació
Especialització: Patents, documents legals, màrqueting
Limitació: 33 idiomes (principalment europeus)
La referència per a traducció professional on el format i la precisió terminològica són crítics.
Google Translate (Gemini) Ús Gratuït: ✔️ | OSS: ❌ Actualitzat: Mar 2026 Idiomes: 249 suportats
Modalitats: Text, veu, imatge, documents
Precisió: 16/21 traduccions precises en estudis amb termes tècnics
NMT: Motor neuronal amb 10 anys d'evolució
L'opció gratuïta més versàtil i amb major cobertura idiomàtica.
MiLMMT-46 (Gemma3-based) (SOTA en Traducció Open Source) Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ Llançat: Feb 2026 WMT24 (promig 46 idiomes): Supera Seed-X, HY-MT-1.5 i TranslateGemma
Comparativa: Rendiment competitiu amb Google Translate i Gemini 3 Pro
Arquitectura: Continual pretraining + instruction finetuning sobre Gemma3
El primer model open source que iguala sistemes propietaris en traducció multilingüe a gran escala.
Google TranslateGemma Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ Llançat: Gen 2026 Idiomes: 55 oficials + 500 parells addicionals
Versions: 4B (mòbil), 12B (portàtil), 27B (cloud)
WMT24++: 12B supera Gemma3 27B
Capacitats: Traducció de text en imatges sense fine-tuning específic
Execució local: Possible en mòbil (4B) i portàtil (12B) sense connexió a internet
L'aposta de Google per la democratització de la traducció amb models lleugers, transparents i que preserven la privacitat en funcionar offline.
Mistral Voxtral Realtime (SOTA en Traducció en Temps Real) Ús Gratuït: ✔️ (Pesos oberts) | API: Pagament | OSS: ✔️ (Apache 2.0) Llançat: Feb 2026 Latència: <200ms (vs 2 segons de Google)
Idiomes: 13 idiomes (incl. espanyol, francès, alemany)
Mida: 4B paràmetres (executable en mòbil)
Privacitat: Processament local, sense núvol
Arquitectura: Model especialitzat en transcripció i traducció, no un LLM generalista
Un pas cap a la conversa fluida entre idiomes sense barreres de latència, amb l'avantatge de ser open source i executable localment.
Gemini 3 Pro (Traducció) Ús Gratuït: ✔️ (Limitat) | OSS: ❌ Actualitzat: Feb 2026 Latència: ~2 segons
Context: Traducció conversacional amb comprensió de matisos i emocions
Integració: Dins de l'assistent Gemini, amb capacitat de 200 idiomes via Google Translate
Ús: "Respon en anglès", "tradueix això" com a part natural de la conversa
Ideal per a converses informals on el context prima sobre la latència, amb l'avantatge de la multimodalitat i l'ecosistema Google.
Qwen3-8B (SOTA en Cobertura Multilingüe) Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ Llançat: 2026 Idiomes: +100 llengües i dialectes
Context: 131K tokens
Modus: Raonament profund / resposta ràpida (intercanviable)
Capacitats: Traducció multilingüe, codi, raonament matemàtic
Preu (API): ~$0.06/M tokens
El model de propòsit general amb major cobertura idiomàtica, ideal per a aplicacions que necessiten traducció en llengües minoritàries a més de les principals.
Llama 3.1 8B Instruct Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ Llançat: 2025 Entrenament: 15 bilions de tokens
RLHF: Sí (seguretat i utilitat)
Context: 33K tokens
Benchmarks: Supera molts models tancats en tasques multilingües
Coneixement: Actualitzat a desembre 2023
L'opció més robusta per a aplicacions que requereixen traducció amb alt estàndard de seguretat i naturalitat conversacional.