Març del 2026 · Models avaluats per utilitat pràctica, no per màrqueting
Una guia visual per entendre quin model d'intel·ligència artificial destaca en cada tasca real: des de raonament profund i agents autònoms fins a generació de vídeo, veu, imatge i ajuda en investigació. beta
| Agents de Propòsit General: Intel·ligència que Raona i Actua | |||
|---|---|---|---|
| Gemini 3.1 Pro Preview (Google - Feb 2026) Ús: API / AI Studio | OSS: ❌ |
GPQA: 88.5+ (estimat) MMLU-Pro: 89.0+ (estimat) MMMU-Pro: 81% Video-MMMU: 87.6% SWE-bench Verified: 76.8% Context: 1M tokens Preu: $2.00/M tokens entrada, $12.00/M tokens sortida La descripció oficial el defineix com "el nostre model de raonament SOTA més recent, amb una profunditat i matisos sense precedents". Respon a la pressió competitiva de Claude Opus 4.6 millorant la profunditat de raonament i capacitats de codificació. |
GLM-5 (744B) (Zhipu - Feb 2026) Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ (MIT) |
GPQA: 81.5 SWE-Bench: 77.8% MMLU: 88.5 Context: 128k El model open source més potent per a tasques de raonament general i codi. |
| Claude Opus 4.6 (Anthropic - Feb 2026) Ús: API / Claude.ai | OSS: ❌ |
LMArena Elo: #1 Global SWE-bench Verified: 80.9% Terminal-Bench 2.0: #1 NIAH (1M): 100% Equips d'agents: Líder + subagents especialitzats (implementació, documentació, revisió) Context: 1M Capacitat de formar equips d'agents que col·laboren en tasques complexes. La pressió competitiva d'aquest model va obligar Google a llançar Gemini 3.1 Pro ràpidament. |
Arcee Trinity Large (400B) (Arcee - Feb 2026) Ús Gratuït: ✔️ (Pesos HF) | OSS: ✔️ (Apache 2.0) |
NIAH (1M): 98.5% MMLU: 86.5 Arquitectura: MoE amb atenció entrellaçada Context: 1M El model open source amb millor rendiment en context llarg. |
| Grok 4.1 Fast (xAI - 2025/2026) Ús: API / Empreses | OSS: ❌ |
MATH: 83.0 GPQA: 88.0 τ²-bench (Telecom): 100% (rendiment perfecte en tasques de telecomunicacions) LMArena: 4t global Context: 2M Especialista en raonament matemàtic i ús d'eines empresarials. S'espera el llançament de Grok 4.2 amb capacitat d'"aprenentatge ràpid" en les properes setmanes. |
DeepSeek V3.1 (DeepSeek - Feb 2026) Ús Gratuït: ✔️ (Pesos/API) | OSS: ✔️ (MIT) |
SWE-bench Verified: 66.0% (millor OSS) Agentic Bench (Signal65): 92.19% (#3 global) MATH: 83.5% GPQA: 92.19% (estimat) Context: 164K Model de propòsit general amb fortalesa en codi i matemàtiques. Disponible com a API gratuïta o per a execució local. Integrat a AWS Bedrock. |
| OpenAI GPT-5.4 Thinking (OpenAI - Mar 2026) Ús: ChatGPT Plus/Team/Enterprise + API | OSS: ❌ Versió Pro disponible per a usuaris Pro/Enterprise |
SWE-bench Pro: 57.7% OSWorld-Verified: 75.0% (supera rendiment humà: 72.4%) GDPval: 83.0% (vs GPT-5.2: 70.9%) BrowseComp (Pro): 89.3% MMMU-Pro: 81.2% Reducció d'errors: -33% en afirmacions falses vs GPT-5.2 [citation:2][citation:5] Context: 1M Tool search: Redueix consum de tokens un 47% en ecosistemes grans d'eines [citation:2][citation:5][citation:6] Primer model d'OpenAI amb capacitat nativa d'operar l'ordinador: pot fer clic, navegar i executar accions basant-se en captures de pantalla [citation:1][citation:2][citation:4]. Integra les capacitats de GPT-5.3-Codex amb raonament profund i agents autònoms. Disponible en dues versions: Thinking (ChatGPT Plus/Team) i Pro (per a tasques extremes) [citation:4][citation:7]. |
Claude Code (Anthropic - 2026) Ús: API / GitHub Copilot / Xcode | OSS: ❌ |
SWE-bench Verified: 80.9% (líder en codificació) Adopció empresarial: Meta, Netflix, Salesforce, Accenture Preferència: #1 en enquesta a desenvolupadors Integracions: GitHub Copilot, Apple Xcode (suport natiu) L'agent de codi preferit per la comunitat tècnica, amb millor rendiment en SWE-bench Verified però sense capacitats d'operació de sistema operatiu. |
| Gemma 3 4B (Google - 2025) Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ |
Paràmetres: 4B Ús principal: Dispositius mòbils, edge computing Capacitats: Raonament bàsic, comprensió multilingüe Context: 8k La base dels models TranslateGemma i MiLMMT-46, que han aconseguit rendiment SOTA en traducció multilingüe. |
Phi-4 Mini (Microsoft - 2025) Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ |
Paràmetres: 3.8B Rendiment: Comparable a models de 7B-13B en tasques de raonament Entrenament: Dades d'alta qualitat curades Context: 4k Demostra que la qualitat de les dades d'entrenament pot superar l'escala bruta. |
| Claude Opus 4.6 Thinking (Anthropic - Feb 2026) Ús: API / Claude.ai | OSS: ❌ |
LMArena Elo: #1 global (versió thinking) Raonament profund: SOTA en tasques complexes Humanity's Last Exam: Líder en aquest benchmark de preguntes extremadament difícils Context: 1M La referència absoluta per a raonament de nivell expert. |
Ant Group Ring-2.5-1T (Ant Group - Feb 2026) Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ |
IMO 2025: 35/42 (medalla d'or) CMO 2025: 105/126 (supera el tall de l'equip nacional xinès) Eficiència en context llarg: Reducció 10x en accés a memòria Arquitectura: Híbrida lineal, 63B paràmetres actius El primer model open source que assoleix nivell de medalla d'or en olimpíades matemàtiques. |
| Funcionalitat Agèntica i Presa de Decisions | |||
| Claude Agent SDK (a Xcode 26.3) (SOTA en Agents Integrats en IDE) Ús: Apple Developer Program (release candidate) | OSS: ❌ Integrat: Feb 2026 |
Visual verification: Captura de Xcode Previews per verificar interfícies Raonament multi-projecte: Comprensió de tota l'arquitectura del projecte Execució autònoma: Tasques de llarga durada sense supervisió constant Model Context Protocol: Integració amb Claude Code via MCP Capacitat de Claude per explorar l'estructura completa de fitxers, entendre com es connecten els frameworks (SwiftUI, UIKit, Swift Data) i identificar on fer canvis abans d'escriure codi. |
OpenClaw (Ecosistema) Ús Gratuït: ✔️ (Auto-allotjat) | OSS: ✔️ 228k+ ⭐ · Creador a OpenAI |
GitHub ⭐: 228,000+ (#1 històric) Autonomia: Completa (execució 24/7 sense supervisió) Ecosistema: +10,000 Skills comunitaris, 126+ startups basades en OpenClaw Integració IDE: Compatible amb Cursor i Aider via plugins comunitaris El framework que ha redefinit l'estàndard dels agents autònoms, ara amb un ecosistema de skills que permet estendre les seves capacitats a qualsevol entorn. |
| Claude Opus 4.6 (Agent Teams) (SOTA en Orquestració Multi-Agent) Ús: API / Claude.ai (Max/Team/Enterprise) | OSS: ❌ Llançat: Feb 2026 |
Terminal-Bench 2.0: #1 GDPval-AA: +144 Elo vs GPT-5.2 (millor en tasques d'alt valor econòmic) Context llarg: 1M tokens amb Context compaction Equips d'agents: Subagents en paral·lel (implementació, documentació, revisió) Integracions: PowerPoint (creació automàtica de presentacions), Excel (anàlisi financera), Cowork (macOS) Capacitat de formar equips d'agents que col·laboren en tasques complexes, amb un líder que coordina i sintetitza resultats. |
CrewAI (Multi-Agent) Ús Gratuït: ✔️ | OSS: ✔️ (MIT) Actualitzat: Feb 2026 |
Framework: Multi-agent amb rols (investigador, escriptor, revisor, etc.) Equips: Paral·lelització de tasques, fluxos de treball jeràrquics Comunitat: 44k ⭐ a GitHub, +100 contribuïdors actius Integració OpenClaw: Compatible amb skills d'OpenClaw per a automatització de sistema El framework OSS més complet per definir i executar equips d'agents especialitzats, ara amb suport per a integracions amb l'ecosistema OpenClaw. |
| GitHub Copilot (Agents Multi-model) (SOTA en Plataformes de Desenvolupament Agèntic) Ús: Copilot Pro+ / Enterprise | OSS: ❌ Actualitzat: Gen-Feb 2026 |
GPT-5.2-Codex GA: Disponible general Agents disponibles: Claude + Codex en preview pública Memòria agèntica: Captura insights del repositori (28 dies) Sandboxing: Comandaments en terminal amb aïllament Copilot SDK: Technical preview per a extensions La plataforma més completa per a desenvolupament agèntic, permetent triar entre múltiples models i gestionar sessions de manera unificada. |
Aider Ús Gratuït: ✔️ (BYOK) | OSS: ✔️ (Apache 2.0) Actualitzat: Contínuament |
Aider Polyglot: Resultats competitius Flexibilitat: Qualsevol model (OpenAI, Anthropic, DeepSeek, etc.) Integració Git: Commits automàtics amb missatges clars Control: Total per a desenvolupadors Ecosistema OpenClaw: Compatible amb skills per a automatització avançada L'alternativa OSS més potent per a programació agèntica en CLI, amb l'avantatge de poder utilitzar models de baix cost com DeepSeek. |
| Claude Code Security (SOTA en Agents de Seguretat) Ús: Research preview a Claude Code | OSS: ❌ Llançat: Feb 2026 |
Capacitats: Anàlisi de components, fluxos de dades, detecció de vulnerabilitats (injecció, bypass d'autenticació) Resultats: Claude Opus 4.6 va descobrir 500+ vulnerabilitats desconegudes en projectes open source Sortida: Explicació en llenguatge natural + pedaços suggerits Integració: Nativa a Claude Code Capacitat d'actuar com a "red team" autònom, identificant i pedaçant vulnerabilitats sense intervenció humana. |
Aider + models de seguretat Ús Gratuït: ✔️ | OSS: ✔️ Flexible |
Flexibilitat: Ús de models fine-tuneats per a seguretat Control: Total sobre el procés d'anàlisi Integració: Amb sistemes de CI/CD via scripts personalitzats Comunitat: Activa en desenvolupament de skills de seguretat per a OpenClaw La combinació d'un framework OSS flexible amb models especialitzats permet construir pipelines de seguretat adaptats a necessitats específiques. |
| Aprenentatge Personalitzat i Tutoria amb IA | |||
| OpenAI GPT-5 (Mode Tutor) (SOTA en Tutoria Adaptativa i Precisió) Ús: ChatGPT Plus/Team/Enterprise | OSS: ❌ GPT-5.2: Feb 2026 |
Metodologia: Aprenentatge adaptatiu i socràtic Personalització: Ajust al nivell i ritme de l'estudiant GPT Store: Tutors especialitzats creats per la comunitat Benchmark matemàtic 2026: 90% (millor en precisió) Estudi acadèmic 2026: "Parceiro intelectual para escrita" El tutor de referència per a qualsevol matèria, amb la millor precisió numèrica segons auditories independents. |
Google LearnLM (a Gemini for Education) Ús: Gratuït (via Gemini) | OSS: ❌ Integrat a Gemini: Feb 2026 |
Principis pedagògics: Aprenentatge actiu, metacognició, personalització Millora demostrada: +5.5% en resolució de problemes nous vs. tutors humans Valoració acadèmica: "Multimodalidade nativa e recursos para pesquisa e aprendizagem ativa" L'alternativa amb base científica en pedagogia i forta integració multimodal. |
| Google Little Language Lessons (SOTA en Aprenentatge Contextual d'Idiomes) Ús Gratuït: ✔️ (Google Labs) | OSS: ❌ Llançament: Gen-Feb 2026 |
Enfocament: Lliçons breus basades en situacions quotidianes Tecnologia: Gemini + Cloud Text-to-Speech per a pronunciació Eines: Tiny Lesson, Slang Hang, Word Cam Idiomes: +40 idiomes disponibles Aprenentatge pràctic, contextual i gratuït sense estructura curricular rígida. |
ELSA Speak Ús Gratuït: ✔️ (Bàsic) | Pro: Pagament | OSS: ❌ Actualitzat: Feb 2026 |
Especialització: Pronunciació i accent (neutre americà) Exercicis: +40,000 pràctiques en contextos diversos (viatges, entrevistes) Feedback: Anàlisi fonèmica en temps real Preparació: IELTS, Pearson PTE, TOEFL La millor opció per perfeccionar la pronunciació amb precisió científica. |
| Wolfram Alpha (Step-by-Step) (SOTA en Resolució Guiada de Problemes Tècnics) Ús Gratuït: ✔️ (Limitat) | Pro: ~$5/mes | OSS: ❌ Actualitzat: Contínuament |
Dominis: Matemàtiques, Física, Química, Enginyeria, Estadística Qualitat: Rigorosa, basada en coneixement expert computacional Generació: Pràctica il·limitada amb problemes similars Visualització: Gràfics interactius i passos detallats L'estàndard d'or per a estudiants de ciències que necessiten entendre el procés. |
Photomath (amb IA) Ús Gratuït: ✔️ (Bàsic) | Plus: ~$7/mes | OSS: ❌ Actualitzat: Feb 2026 |
Dominis: Matemàtiques (des d'aritmètica fins a càlcul) Mètode d'entrada: Escaneig amb càmera (ultraràpid) Qualitat: Explicacions clares i visuals Funcions IA: Pràctica personalitzada basada en el progrés L'alternativa més accessible i popular per a matemàtiques en dispositius mòbils. |
| NotebookLM (Gemini 3.1 Pro) (SOTA en Generació de Contingut Educatiu Personalitzat) Ús Gratuït: ✔️ | OSS: ❌ Actualitzat: Feb 2026 |
Novetats Feb 2026: "Video Overviews" amb estils visuals (aquarel·la, pissarra, anime), exportació a PPTX editable, compatibilitat amb Google Slides (pròximament) Lecture Mode: Àudio de fins a 30 minuts amb un sol ponent, ideal per a cursos i materials densos Confiabilitat acadèmica: Elevada confiabilitat acadèmica. Generació: Pòdcasts, FAQs, guies d'estudi, línies de temps, infografies, PPTX, Learning Guide amb tutoria socràtica, quizzes, flashcards, mapes mentals Capacitat: Fins a 50 fonts per quadern (PDFs, àudios, presentacions, YouTube, Google Sheets) |
Teach Anything (per a professors) Ús Gratuït: ✔️ | OSS: ✔️ Finançat per Institute for Humane Studies · The New York Times: 2026 |
Mencionat a The New York Times: "Open access revolution" Per a qui: Professors universitaris i de secundària que vulguin crear les seves pròpies eines Models utilitzats: Mistral, Llama i altres LLMs open source Què permet: Dissenyar i desplegar aplicacions educatives d'IA sense programar Característiques clau: Apps permanentment gratuïtes, sense login per a estudiants, privacitat total, fàcilment compartibles |
| Qwen2.5-VL-7B-Instruct (Qwen - 2026) Ús Gratuït: ✔️ (Pesos) | API: $0.05/M tokens | OSS: ✔️ |
Capacitats: Comprensió visual (gràfics, diagrames), anàlisi de vídeos educatius, localització d'objectes Context: 33K tokens Preu (SiliconFlow): $0.05/M tokens entrada i sortida Perfecte per a: Analitzar materials educatius amb text i imatges (llibres de text, problemes de ciència amb diagrames) Model multimodal assequible per a estudiants i educadors amb pressupostos limitats. |
Llama 3.1 8B Instruct (Meta - 2025) Ús Gratuït: ✔️ (Pesos) | API: $0.06/M tokens | OSS: ✔️ |
Suport multilingüe: +100 idiomes Context: 33K tokens Entrenament: 15 bilions de tokens amb RLHF Preu (SiliconFlow): $0.06/M tokens Perfecte per a: Plataformes de tutoria que atenen poblacions estudiantils diverses, diàleg instructiu segur El model open source amb millor relació qualitat-preu per a educació multilingüe. |
| GLM-4.5V (Zhipu AI) (SOTA en Raonament STEM) Ús Gratuït: ✔️ (Pesos) | API: $0.14/M entrada, $0.86/M sortida | OSS: ✔️ Llançat: 2026 |
Arquitectura: MoE (106B params totals, 12B actius) Innovació tècnica: 3D-RoPE per a relacions espacials 3D 'Mode Pensament': Equilibri entre rapidesa i raonament profund Context: 66K tokens Resolució: Suporta imatges 4K Preu (SiliconFlow): $0.14/M entrada, $0.86/M sortida Perfecte per a: Educació STEM avançada, problemes complexos que requereixen anàlisi visual profund i raonament matemàtic El model de codi obert amb millor rendiment en benchmarks multimodals, ideal per a universitats i institucions que necessiten màxima capacitat. |
Hugging Face (Models Educatius) Ús Gratuït: ✔️ | OSS: ✔️ +1M models disponibles |
Accés: +1 milió de models open source Cost: Gratuït per a recerca i ús personal Comunitat: La major comunitat d'IA del món Valor per a educadors: Permet explorar, provar i descarregar models especialitzats per a necessitats educatives concretes sense dependre d'APIs comercials El punt de partida per a qualsevol professor que vulgui experimentar amb IA open source. |
| Ajuda en Investigació | |||
| Consensus (Síntesi d'Evidència) (SOTA en Síntesi d'Evidència) Ús Gratuït: ✔️ (Cerques limitades) | OSS: ❌ Actualitzat: Feb 2026 |
Funció Principal: Extracció de Troballes Científiques Mètrica Clau: Síntesi de consens (+200M papers) Precisió de Respostes: Molt Alta Filtres: Per tipus d'estudi, data, accés obert Respon preguntes mostrant el percentatge de papers que donen suport a cada postura. |
Scite.ai Ús Gratuït: ✔️ (Limitat) | Pro: Pagament | OSS: ❌ Actualitzat: Feb 2026 |
Funció Principal: Verificació de Cites ("Smart Citations") Base de Dades: +250M d'articles, capítols, preprints i datasets Novetat Feb 2026: Scite MCP: Integració directa amb ChatGPT, Claude, Copilot, Cursor i Claude Code. Els assistents poden cercar dins d'articles, avaluar com han estat citats, i accedir a PDFs sense sortir del flux de treball Ideal per avaluar l'impacte i la fiabilitat d'un paper per com ha estat citat, ara directament des dels teus assistents d'IA favorits. |
| Elicit (Revisió de Literatura) (SOTA en Automatització de Revisions Sistemàtiques) Ús Gratuït: ✔️ (Crèdits) | OSS: ❌ Actualitzat: Feb 2026 |
Funció Principal: Extracció estructurada de dades Base de Dades: +200M papers (Semantic Scholar) Automatització: Cerca, filtratge, extracció i síntesi Exportació: Taules, resums, BibTeX Permet passar d'una pregunta d'investigació a una taula amb les troballes clau de desenes de papers en minuts. |
SciSpace (Typeset) Ús Gratuït: ✔️ (Limitat) | OSS: ❌ Actualitzat: Feb 2026 |
Funció Principal: Comprensió de papers via xat Base de Dades: +270M papers Mètrica Clau: Anàlisi conversacional, generació d'il·lustracions científiques amb IA Integracions: Zotero, Mendeley, Chrome extension Extracció: Resums, equacions, taules Excel·lent per entendre un paper complex fent-li preguntes directament. |
| Claude Opus 4.6 (Anàlisi Profund) (SOTA en Extracció Fidel d'Informació) Ús Gratuït: ❌ | OSS: ❌ Llançat: Feb 2026 |
NIAH (200k): 100% FEVER: 97.2% QASPER: 86.5% GPQA: 87.8% Context: 1M Estudi de detecció humana (feb 2026): més del 90% de participants no distingeixen els seus outputs de contingut humà. |
Llama 3.1 405B (1M) Ús Gratuït: ✔️ (Models) | OSS: ✔️ (Llama Lic) Llançat: 2024 |
NIAH (1M): ~99.2% GPQA: 58.2% QASPER: ~75.3% MMLU: 86.1% Context: 1M |
| Gemini 3.1 Pro (Anàlisi Massiu) (SOTA en Anàlisi Multimodal a Gran Escala) Ús Gratuït: ✔️ (AI Studio) | OSS: ❌ Llançat: Feb 2026 |
NIAH (1M): 99.9% MMMU: 84.2% GPQA: 88.5% QASPER: 86.0% Context: 1M (amb multimodalitat) |
Kimi (Moonshot AI) Ús Gratuït: ✔️ | OSS: ❌ Actualitzat: Feb 2026 |
NIAH (1M): ~98.5% Anàlisi de Fitxers: PDF, Word, Excel, PPT, imatges Context: 1M+ (gratuït) La millor alternativa gratuïta per a anàlisi de context massiu, especialment per a usuaris fora de la Xina. |
| Perplexity Pro (RAG) (SOTA en Cerca amb Fonts) Ús Gratuït: ✔️ (Limitat) | OSS: ❌ Actualitzat: Feb 2026 |
Qualitat de RAG: SOTA Precisió contextual: 94% Transparència en riscos: 89% Deep Research: Síntesi de 50+ fonts Mode "Pro" (feb 2026): Cerca en papers científics El millor per a respostes ràpides i verificades amb fonts directes. |
Phind (Mode Investigació) Ús Gratuït: ✔️ | OSS: ❌ Actualitzat: Feb 2026 |
Especialització: Codi i preguntes tècniques (92% paste-ready) Precisió general: 83% Velocitat: 1.9 segons de resposta Integració: VS Code nativa Enfocament recomanat: Usar Perplexity per a investigació i planificació, Phind per a implementació i depuració Optimitzat per a respostes tècniques precises amb exemples de codi, encara que menys fiable per a investigació general. |
| Generació de Veu i Música | |||
| ElevenLabs V3 (SOTA en Veu Realista i Clonació) Ús Gratuït: ✔️ (Crèdits mensuals) | Pro: Pagament | OSS: ❌ Llançat: Feb 2026 |
MOS (Naturalitat): >4.5 Clonació: Mostra de 5 segons, preservació emocional Latència streaming: <200ms Millora precisió v3: 68% menys errors en benchmark intern (27 categories, 8 idiomes). Taxa d'error global: 4.9% Idiomes: +30 amb accents regionals L'estàndard de la indústria per a veus d'alta qualitat en producció professional. |
Fish Speech V1.5 (fishaudio - 2026) Ús Gratuït: ✔️ (Pesos) | API: $15/M bytes | OSS: ✔️ |
TTS Arena ELO: 1339 WER (anglès): 3.5% CER (anglès): 1.2% CER (xinès): 1.3% Arquitectura: DualAR (doble transformer autoregressiu) L'alternativa open source amb la millor precisió multilingüe del mercat. Dona suport a múltiples idiomes amb 300k+ hores d'entrenament. |
| Suno AI v4 (SOTA en Generació de Cançons) Ús Gratuït: ✔️ (Crèdits diaris) | Pro: Pagament | OSS: ❌ Llançat: Feb 2026 |
Qualitat vocal: SOTA (veus gairebé indistingibles d'humanes) Control d'estructura: Vers, tornada, pont Durada: Fins a 4 minuts per cançó Rang vocal: 30-45 semitons L'eina de referència per a creadors que volen generar cançons completes amb lletra i melodia coherent. |
Udio Ús Gratuït: ✔️ (Crèdits) | Pro: Pagament | OSS: ❌ Actualitzat: Feb 2026 |
Qualitat de producció: Molt alta (èmfasi en mescla i masterització) Extensió: Afegir seccions a temes existents Replace section: Corregeix problemes específics Preferit per molts músics pel seu so més polit i possibilitats creatives. |
| Stable Audio Open 2.0 (SOTA en Efectes de So i Disseny Sonor) Ús Gratuït: ✔️ (Pesos) | API: Pagament | OSS: ✔️ Actualitzat: Feb 2026 |
Durada màxima: 47 segons (ideal per a SFX i loops) Qualitat: 44.1kHz estèreo Tipus de sortida: Efectes, stems, loops, instrumentals Fine-tuning personal: Sí (amb gravacions pròpies) La referència per a creadors que necessiten efectes de so personalitzats i lliures de drets. |
CosyVoice2-0.5B (FunAudioLLM - 2026) Ús Gratuït: ✔️ (Pesos) | API: $7.15/M bytes | OSS: ✔️ |
Latència streaming: 150ms (ultra-baixa) Millora vs v1.0: 30-50% menys errors de pronunciació MOS: 5.53 (vs 5.4 anterior) Idiomes: Xinès (inclou dialectes: cantonès, sichuanès, shanghainès, tianjinès), anglès, japonès, coreà Cross-lingual: Sí Perfecte per a aplicacions que requereixen respostes de veu en temps real amb mínima latència. |
| ElevenLabs V3 (Diàlegs) (SOTA en Veu per a Diàlegs) Ús: API / Web | OSS: ❌ Llançat: Feb 2026 |
MOS (Naturalitat): >4.4 Control emocional: Èmfasi, to, ritme ajustable Durada: Optimitzat per a paràgrafs llargs i converses TTS expressiu: Capta matisos i entonació contextual Millora en interpretació contextual: 68% menys errors en símbols i números El mateix model SOTA, amb millores significatives en interpretació de context. |
ChatTTS Ús Gratuït: ✔️ | OSS: ✔️ Actualitzat: 2025 |
MOS (Naturalitat): ~4.1 Enfocament: Converses i diàlegs naturals Control: To i emoció ajustables Comunitat: Molt activa, amb nombrosos fine-tunes Alternativa OSS estable per a diàlegs conversacionals. |
| Generació d'Imatges | |||
| GPT Image 1.5 (OpenAI) (SOTA en Generació General) Ús: ChatGPT Plus/Pro/API | OSS: ❌ Llançat: Des 2025 |
LM Arena Elo: 1264 Renderitzat de text: SOTA (tipografia complexa, logos, senyalètica) Fotorrealisme: Excepcional Integració: Nativa amb ChatGPT, fluxos multimodals sense fissures El nou estàndard per a materials de màrqueting professionals, maquetes de producte i composicions complexes que requereixen text llegible. |
Flux 2 Max Ús Gratuït: ✔️ (Pesos) | API: Pagament | OSS: ✔️ Llançat: 2025 |
LM Arena Elo: 1168 Suport LoRA: Sí (milers de models comunitaris) Execució local: Possible amb RTX 4090 Comunitat: Activa a Civitai amb milers de variants El rei del codi obert per a qui necessita control absolut, privacitat o models personalitzats. |
| Gemini 3.1 Pro Image (Nano Banana Pro) (Google - Feb 2026) Ús Gratuït: ✔️ (AI Studio) | API: Pagament | OSS: ❌ |
LM Arena Elo: 1235+ (estimat) Latència: 3-5 segons per imatge Capacitats destacades: Comprensió d'identitats (genera retrats de personatges famosos amb logos corporatius), generació multilingüe (menús en 4 idiomes amb text precís), raonament cultural (acupuntura, quiromància), resolució matemàtica amb passos visuals Integració: Google Workspace, Cloud Platform, cerca Model amb enfocament "primer raona, després dibuixa", demostrant comprensió de relacions espacials, física i lògica abans de generar la imatge. |
Flux 2 Flex Ús Gratuït: ✔️ (Pesos) | API: Pagament | OSS: ✔️ Llançat: 2025 |
LM Arena Elo: 1157 Velocitat: 2-4 segons (més ràpida que Max) Requisits: Menys computació, apte per a més entorns Qualitat: Lleugerament inferior a Max, però excel·lent per a alt volum L'opció open source quan la velocitat d'iteració és prioritària sobre el màxim detall. |
| Flux 1.1 Pro Ultra (SOTA en Resolució i Control) Ús: API via plataformes (SiliconFlow, etc.) | OSS: ❌ (API) Llançat: 2025 |
Resolució màxima: 4 megapíxels (2048x2048) / 2K Fotorrealisme: Superior, amb modes Ultra (composició precisa) i Raw (textures naturals) Preu: ~$0.06/imatge via SiliconFlow La referència per a producció visual comercial on el detall i la fidelitat són crítics. |
Flux.1 Kontext Pro Ús: API | OSS: ❌ (API) Llançat: 2025 |
Comprensió semàntica: Avançada, amb suport d'imatges de referència Control local precís: Edicions detallades mantenint context global Preu: ~$0.04/imatge Ideal per a disseny de marques, visualització de productes i il·lustració narrativa que requereix coherència en múltiples iteracions. |
| Hunyuan Image 3.0 (Tencent) (SOTA en Edició Avançada) Ús: API / "元宝" App | OSS: ❌ Versió Instruct: Gen 2026 |
LM Arena Elo: 1152 (text-imatge) Noves capacitats (Instruct): Edició imatge-a-imatge (afegir/eliminar objectes), fusió multi-imatge, estil "think first, then edit" amb Chain of Thought Arquitectura: MoE 80B params totals, 13B actius Especialització: Edició precisa, contingut asiàtic Preu: ~$0.02-0.05/imatge L'elecció per a edició avançada amb comprensió profunda d'instruccions i manipulació detallada d'elements en la imatge. |
Seedream 5.0 (ByteDance) Ús: API / CapCut / JI Meng | OSS: ❌ Llançat: Feb 2026 |
LM Arena Elo: Competitiu amb Nano Banana Pro Capacitats clau: Cerca a internet en temps real, comprensió de prompts abstractes, renderitzat de text precís, edició controlada Resolució: 2K (directe) / 4K (amb IA) Preu: Econòmic, amb usos gratuïts Perfecte per crear imatges que requereixen coneixement específic, infografies, cartells amb text i conceptes abstractes. Posicionat com el competidor directe i més econòmic de Gemini 3.1 Pro Image. |
| Generació de Vídeo | |||
| Seedance 2.0 Pro (ByteDance) (SOTA en Control Creatiu i Popularitat) Ús: Freemium / API / Jimeng / Doubao | OSS: ❌ Llançat: Feb 2026 |
Rànquing comunitari: #1 (per sobre de Kling 3.0 i Sora 2) Referències: Fins a 12 fitxers (9 imatges + 3 vídeos + 3 àudios) Lip-sync: Precisió fonèmica, 8 idiomes (anglès, xinès, japonès, coreà, espanyol, indonesi, cantonès, sichuanès) Resolució: Nativa 2K (2160p) Beat-sync: Sí, amb àudio multi-pista Dual-channel audio: Efectes ASMR, so ambiental immersiu Preu: ~$0.10/minut (80% més barat que competidors) Definit per la comunitat com el "Game Changer" i "Nou Rei del AI Video". The Information, CNBC i The Economic Times el destaquen com el model que supera Sora i Veo en velocitat i control narratiu. |
Kling 3.0 Pro (Kuaishou) Ús Gratuït: ✔️ (Crèdits) | API: $0.3-0.5/10s | OSS: ❌ Llançat: Feb 2026 |
Elo: Competitiu amb Seedance Resolució: 4K natiu (3840×2160) a 60fps (l'únic) Durada màxima: 120 segons (el més llarg) Storyboard: Fins a 6 talls de càmera Idiomes: Anglès, xinès, japonès, coreà, espanyol (amb accents regionals) Perfecte per a workflows que requereixen màxima resolució, durada estesa i control de càmera professional. |
| Sora 2 Pro (OpenAI) (SOTA en Narrativa i Física) Ús: ChatGPT Pro ($200/mes) | API: $0.50/seg | OSS: ❌ Llançat: 2025 |
Durada màxima: 25 segons (únic en la seva classe) Física realista: SOTA en interaccions complexes Complexitat d'escena: Gestiona multi-personatge amb interaccions naturals Resolució: 1080p Storyboard: Sí, amb edició narrativa Àudio: Natiu amb diàleg L'opció per a projectes on la durada estesa, la física realista i la complexitat narrativa són prioritàries. |
Veo 3.1 (Google DeepMind) Ús: API / Vertex AI | OSS: ❌ Actualitzat: Feb 2026 |
Fotorrealisme: #1 en textures i materials Durada: 8 segons (el més curt, ideal per a hero shots) Material rendering: Superior (pell, teles, vidre, aigua) Vocabulari tècnic: Comprèn f-stop, focal length, lighting ratios Àudio: Natiu sincronitzat L'elecció per a hero shots i fotografia de producte que requereix màxim realisme. |
| Runway Gen-4.5 + GWM-1 (SOTA en Eines d'Edició i Models de Món) Ús: Freemium (pagament) / API / SDK Robòtica | OSS: ❌ Gen-4.5: Des 2025 · GWM-1: Feb 2026 |
Elo (Gen-4.5): 1230 (#4) Estudi de detecció humana (feb 2026): >90% de participants no distingeixen Gen-4.5 de vídeos reals Motion tracking: Avançat Control de càmera: Director Mode Novetat GWM-1 (feb 2026): Família de Models de Món General (GWM Worlds, Avatars, Robotics) amb SDK per a robòtica i simulació Integració de tercers: Kling 3.0, Sora 2 Pro, WAN2.2 Animate, GPT-Image-1.5 disponibles dins de Runway L'eina de referència per a professionals que necessiten control granular i simulació realista, amb una suite que va més enllà de la generació simple. |
CogVideoX-5b-I2V Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ Llançat: 2025 |
VRAM mínima: 4.4GB (INT8 quantitzat) Comunitat: 8,000+ estrelles a GitHub Ecosistema: Ampli, amb múltiples forks i eines Especialització: Imatge a vídeo amb control fi El model amb l'ecosistema més madur per a qui necessita personalització total. |
| Pika 2.5 (SOTA en Velocitat i Creativitat Social) Ús Gratuït: ✔️ (Crèdits diaris) | Pro: Pagament | OSS: ❌ Llançat: Nov 2025 |
Elo: 1095 Velocitat: 30-90 segons per generació (Turbo: 12s) Lip sync: Sí Pikaffects: Únic en la seva classe L'opció gratuïta més accessible per a creadors de contingut social, amb crèdits diaris renovables. |
HunyuanVideo-1.5 (Tencent) Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ Llançat: Gen 2026 |
Elo: 1022 Requisits: RTX 4090 amb 13.6GB VRAM Durada: Fins a 10 segons en 1080p Text compliance: >95% El model open source més recent, optimitzat per a execució en maquinari de consum amb excel·lent comprensió de prompts. |
| Generació de Vídeo | |||
| Seedance 2.0 Pro (ByteDance) (SOTA en Control Creatiu i Popularitat) Ús: Freemium / API / Jimeng / Doubao | OSS: ❌ Llançat: Feb 2026 |
Rànquing comunitari: #1 (per sobre de Kling 3.0 i Sora 2) Referències: Fins a 12 fitxers (9 imatges + 3 vídeos + 3 àudios) Lip-sync: Precisió fonèmica, 8 idiomes (anglès, xinès, japonès, coreà, espanyol, indonesi, cantonès, sichuanès) Resolució: Nativa 2K (2160p) Beat-sync: Sí, amb àudio multi-pista Dual-channel audio: Efectes ASMR, so ambiental immersiu Preu: ~$0.10/minut (80% més barat que competidors) Definit per la comunitat com el "Game Changer" i "Nou Rei del AI Video". The Information, CNBC i The Economic Times el destaquen com el model que supera Sora i Veo en velocitat i control narratiu. |
Kling 3.0 Pro (Kuaishou) Ús Gratuït: ✔️ (Crèdits) | API: $0.3-0.5/10s | OSS: ❌ Llançat: Feb 2026 |
Elo: Competitiu amb Seedance Resolució: 4K natiu (3840×2160) a 60fps (l'únic) Durada màxima: 120 segons (el més llarg) Storyboard: Fins a 6 talls de càmera Idiomes: Anglès, xinès, japonès, coreà, espanyol (amb accents regionals) Perfecte per a workflows que requereixen màxima resolució, durada estesa i control de càmera professional. |
| Sora 2 Pro (OpenAI) (SOTA en Narrativa i Física) Ús: ChatGPT Pro ($200/mes) | API: $0.50/seg | OSS: ❌ Llançat: 2025 |
Durada màxima: 25 segons (únic en la seva classe) Física realista: SOTA en interaccions complexes Complexitat d'escena: Gestiona multi-personatge amb interaccions naturals Resolució: 1080p Storyboard: Sí, amb edició narrativa Àudio: Natiu amb diàleg L'opció per a projectes on la durada estesa, la física realista i la complexitat narrativa són prioritàries. |
Veo 3.1 (Google DeepMind) Ús: API / Vertex AI | OSS: ❌ Actualitzat: Feb 2026 |
Fotorrealisme: #1 en textures i materials Durada: 8 segons (el més curt, ideal per a hero shots) Material rendering: Superior (pell, teles, vidre, aigua) Vocabulari tècnic: Comprèn f-stop, focal length, lighting ratios Àudio: Natiu sincronitzat L'elecció per a hero shots i fotografia de producte que requereix màxim realisme. |
| Runway Gen-4.5 + GWM-1 (SOTA en Eines d'Edició i Models de Món) Ús: Freemium (pagament) / API / SDK Robòtica | OSS: ❌ Gen-4.5: Des 2025 · GWM-1: Feb 2026 |
Elo (Gen-4.5): 1230 (#4) Estudi de detecció humana (feb 2026): >90% de participants no distingeixen Gen-4.5 de vídeos reals Motion tracking: Avançat Control de càmera: Director Mode Novetat GWM-1 (feb 2026): Família de Models de Món General (GWM Worlds, Avatars, Robotics) amb SDK per a robòtica i simulació Integració de tercers: Kling 3.0, Sora 2 Pro, WAN2.2 Animate, GPT-Image-1.5 disponibles dins de Runway L'eina de referència per a professionals que necessiten control granular i simulació realista, amb una suite que va més enllà de la generació simple. |
CogVideoX-5b-I2V Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ Llançat: 2025 |
VRAM mínima: 4.4GB (INT8 quantitzat) Comunitat: 8,000+ estrelles a GitHub Ecosistema: Ampli, amb múltiples forks i eines Especialització: Imatge a vídeo amb control fi El model amb l'ecosistema més madur per a qui necessita personalització total. |
| Pika 2.5 (SOTA en Velocitat i Creativitat Social) Ús Gratuït: ✔️ (Crèdits diaris) | Pro: Pagament | OSS: ❌ Llançat: Nov 2025 |
Elo: 1095 Velocitat: 30-90 segons per generació (Turbo: 12s) Lip sync: Sí Pikaffects: Únic en la seva classe L'opció gratuïta més accessible per a creadors de contingut social, amb crèdits diaris renovables. |
HunyuanVideo-1.5 (Tencent) Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ Llançat: Gen 2026 |
Elo: 1022 Requisits: RTX 4090 amb 13.6GB VRAM Durada: Fins a 10 segons en 1080p Text compliance: >95% El model open source més recent, optimitzat per a execució en maquinari de consum amb excel·lent comprensió de prompts. |
| Enginyeria de Programari Autònoma | |||
| Cognition Labs Devin (Enterprise) (SOTA en Automatització de Programari Empresarial) Ús: Enterprise (via Synechron i sector públic) | OSS: ❌ Partnership: Feb 2026 · Expansió federal: Mar 2026 |
Cases d'Ús Reals: Modernització COBOL, Java, SAS-to-PySpark Certificació: Enginyers entrenats per Cognition Integració: Amb acceleradors de Synechron SWE-Bench (Empresarial): Puntuacions líders en entorns legacy Defineix l'estàndard per a agents d'enginyeria en banca, assegurances i sector públic amb governança i compliment normatiu. |
OpenClaw Ús Gratuït: ✔️ (Auto-allotjat) | OSS: ✔️ Creador: Peter Steinberger (ara a OpenAI) · 228k+ ⭐ |
GitHub ⭐: 228,000+ (#1 històric) Autonomia: Completa (execució 24/7 sense supervisió) Ecosistema: +10,000 Skills comunitaris, 126+ startups basades en OpenClaw Versions SaaS: Kimi Claw, MaxClaw (sota demanda) Impacte: OpenClaw és ja el major consumidor de tokens a OpenRouter El framework que ha redefinit l'estàndard dels agents autònoms open source. El seu creador, Peter Steinberger, va ser contractat per OpenAI per liderar la seva estratègia d'agents. |
| OpenAI GPT-5.4 (OpenAI - Mar 2026) Ús: ChatGPT Plus/Team/Enterprise + API | OSS: ❌ Versió Pro disponible per a usuaris Pro/Enterprise |
SWE-bench Verified: 79.2% (segons taula Vals.ai) SWE-bench Pro: 57.7% (líder) OSWorld-Verified: 75.0% (supera rendiment humà: 72.4%) GDPval: 83.0% (vs GPT-5.2: 70.9%) BrowseComp (Pro): 89.3% Context: 1M Tool search: Redueix consum de tokens un 47% en ecosistemes grans d'eines Evolució directa de GPT-5.3-Codex, integrant capacitats de codi, raonament profund i control d'ordinador. Disponible a GitHub Copilot com a opció seleccionable. |
Claude Code (Anthropic) Ús: API / GitHub Copilot / Xcode | OSS: ❌ #1 en preferència desenvolupadors |
SWE-bench Verified: 80.9% (líder en codificació) Terminal-Bench 2.0: 65.4% Adopció empresarial: Meta, Netflix, Salesforce, Accenture Integracions: GitHub Copilot, Apple Xcode (suport natiu) L'agent de codi preferit per la comunitat tècnica, amb millor rendiment en SWE-bench Verified. |
| Cursor (Agents de Llarga Durada) (SOTA en IDEs Agèntics) Ús Gratuït: ✔️ (Pla gratuït) | OSS: ❌ Actualitzat: Feb 2026 |
Novetats Feb 2026: Agents de llarga durada, subagents en paral·lel Traçabilitat: Cursor Blame (atribució IA/humà) Funcions Clau: Planificació autònoma, execució sense supervisió Context multi-agent: Capacitat d'executar múltiples agents especialitzats simultàniament L'experiència més avançada en desenvolupament amb agents dins de l'editor, ara competint directament amb GitHub Copilot que ha integrat múltiples models. |
Aider Ús Gratuït: ✔️ | OSS: ✔️ (Apache 2.0) Actualitzat: Contínuament |
Benchmarks propis: Resultats competitius en Aider Polyglot Flexibilitat: Models locals o remots (OpenAI, Claude, DeepSeek, etc.) Control: Total per a desenvolupadors Integració amb OpenClaw: Compatible amb l'ecosistema de skills d'OpenClaw per a automatització avançada L'alternativa OSS més potent per a la programació agèntica en CLI, ara part d'un ecosistema més ampli d'agents autònoms. |
| Traducció Automàtica | |||
| DeepL Pro (SOTA en Traducció de Textos Llargos) Ús Gratuït: ✔️ (Limitat) | Pro: Pagament | OSS: ❌ Actualitzat: Mar 2026 |
MOS (textos llargs): Molt alt en idiomes europeus Formats: PDF, DOCX, PPTX amb preservació de maquetació Especialització: Patents, documents legals, màrqueting Limitació: 33 idiomes (principalment europeus) La referència per a traducció professional on el format i la precisió terminològica són crítics. |
Google Translate (Gemini) Ús Gratuït: ✔️ | OSS: ❌ Actualitzat: Mar 2026 |
Idiomes: 249 suportats Modalitats: Text, veu, imatge, documents Precisió: 16/21 traduccions precises en estudis amb termes tècnics NMT: Motor neuronal amb 10 anys d'evolució L'opció gratuïta més versàtil i amb major cobertura idiomàtica. |
| MiLMMT-46 (Gemma3-based) (SOTA en Traducció Open Source) Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ Llançat: Feb 2026 |
WMT24 (promig 46 idiomes): Supera Seed-X, HY-MT-1.5 i TranslateGemma Comparativa: Rendiment competitiu amb Google Translate i Gemini 3 Pro Arquitectura: Continual pretraining + instruction finetuning sobre Gemma3 El primer model open source que iguala sistemes propietaris en traducció multilingüe a gran escala. |
Google TranslateGemma Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ Llançat: Gen 2026 |
Idiomes: 55 oficials + 500 parells addicionals Versions: 4B (mòbil), 12B (portàtil), 27B (cloud) WMT24++: 12B supera Gemma3 27B Capacitats: Traducció de text en imatges sense fine-tuning específic Execució local: Possible en mòbil (4B) i portàtil (12B) sense connexió a internet L'aposta de Google per la democratització de la traducció amb models lleugers, transparents i que preserven la privacitat en funcionar offline. |
| Mistral Voxtral Realtime (SOTA en Traducció en Temps Real) Ús Gratuït: ✔️ (Pesos oberts) | API: Pagament | OSS: ✔️ (Apache 2.0) Llançat: Feb 2026 |
Latència: <200ms (vs 2 segons de Google) Idiomes: 13 idiomes (incl. espanyol, francès, alemany) Mida: 4B paràmetres (executable en mòbil) Privacitat: Processament local, sense núvol Arquitectura: Model especialitzat en transcripció i traducció, no un LLM generalista Un pas cap a la conversa fluida entre idiomes sense barreres de latència, amb l'avantatge de ser open source i executable localment. |
Gemini 3 Pro (Traducció) Ús Gratuït: ✔️ (Limitat) | OSS: ❌ Actualitzat: Feb 2026 |
Latència: ~2 segons Context: Traducció conversacional amb comprensió de matisos i emocions Integració: Dins de l'assistent Gemini, amb capacitat de 200 idiomes via Google Translate Ús: "Respon en anglès", "tradueix això" com a part natural de la conversa Ideal per a converses informals on el context prima sobre la latència, amb l'avantatge de la multimodalitat i l'ecosistema Google. |
| Qwen3-8B (SOTA en Cobertura Multilingüe) Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ Llançat: 2026 |
Idiomes: +100 llengües i dialectes Context: 131K tokens Modus: Raonament profund / resposta ràpida (intercanviable) Capacitats: Traducció multilingüe, codi, raonament matemàtic Preu (API): ~$0.06/M tokens El model de propòsit general amb major cobertura idiomàtica, ideal per a aplicacions que necessiten traducció en llengües minoritàries a més de les principals. |
Llama 3.1 8B Instruct Ús Gratuït: ✔️ (Pesos) | OSS: ✔️ Llançat: 2025 |
Entrenament: 15 bilions de tokens RLHF: Sí (seguretat i utilitat) Context: 33K tokens Benchmarks: Supera molts models tancats en tasques multilingües Coneixement: Actualitzat a desembre 2023 L'opció més robusta per a aplicacions que requereixen traducció amb alt estàndard de seguretat i naturalitat conversacional. |