Claus de la IA: Comparativa per funcionalitats

Març del 2026 · Models avaluats per utilitat pràctica, no per màrqueting

Una guia visual per entendre quin model d'intel·ligència artificial destaca en cada tasca real: des de raonament profund i agents autònoms fins a generació de vídeo, veu, imatge i ajuda en investigació. beta

Agents de Propòsit General: Intel·ligència que Raona i Actua
Gemini 3.1 Pro Preview (Google - Feb 2026) Ús: API / AI Studio \| OSS: ❌	GPQA: 88.5+ (estimat) MMLU-Pro: 89.0+ (estimat) MMMU-Pro: 81% Video-MMMU: 87.6% SWE-bench Verified: 76.8% Context: 1M tokens Preu: $2.00/M tokens entrada, $12.00/M tokens sortida La descripció oficial el defineix com "el nostre model de raonament SOTA més recent, amb una profunditat i matisos sense precedents". Respon a la pressió competitiva de Claude Opus 4.6 millorant la profunditat de raonament i capacitats de codificació.	GLM-5 (744B) (Zhipu - Feb 2026) Ús Gratuït: ✔️ (Pesos) \| OSS: ✔️ (MIT)	GPQA: 81.5 SWE-Bench: 77.8% MMLU: 88.5 Context: 128k El model open source més potent per a tasques de raonament general i codi.
Claude Opus 4.6 (Anthropic - Feb 2026) Ús: API / Claude.ai \| OSS: ❌	LMArena Elo: #1 Global SWE-bench Verified: 80.9% Terminal-Bench 2.0: #1 NIAH (1M): 100% Equips d'agents: Líder + subagents especialitzats (implementació, documentació, revisió) Context: 1M Capacitat de formar equips d'agents que col·laboren en tasques complexes. La pressió competitiva d'aquest model va obligar Google a llançar Gemini 3.1 Pro ràpidament.	Arcee Trinity Large (400B) (Arcee - Feb 2026) Ús Gratuït: ✔️ (Pesos HF) \| OSS: ✔️ (Apache 2.0)	NIAH (1M): 98.5% MMLU: 86.5 Arquitectura: MoE amb atenció entrellaçada Context: 1M El model open source amb millor rendiment en context llarg.
Grok 4.1 Fast (xAI - 2025/2026) Ús: API / Empreses \| OSS: ❌	MATH: 83.0 GPQA: 88.0 τ²-bench (Telecom): 100% (rendiment perfecte en tasques de telecomunicacions) LMArena: 4t global Context: 2M Especialista en raonament matemàtic i ús d'eines empresarials. S'espera el llançament de Grok 4.2 amb capacitat d'"aprenentatge ràpid" en les properes setmanes.	DeepSeek V3.1 (DeepSeek - Feb 2026) Ús Gratuït: ✔️ (Pesos/API) \| OSS: ✔️ (MIT)	SWE-bench Verified: 66.0% (millor OSS) Agentic Bench (Signal65): 92.19% (#3 global) MATH: 83.5% GPQA: 92.19% (estimat) Context: 164K Model de propòsit general amb fortalesa en codi i matemàtiques. Disponible com a API gratuïta o per a execució local. Integrat a AWS Bedrock.
OpenAI GPT-5.4 Thinking (OpenAI - Mar 2026) Ús: ChatGPT Plus/Team/Enterprise + API \| OSS: ❌ Versió Pro disponible per a usuaris Pro/Enterprise	SWE-bench Pro: 57.7% OSWorld-Verified: 75.0% (supera rendiment humà: 72.4%) GDPval: 83.0% (vs GPT-5.2: 70.9%) BrowseComp (Pro): 89.3% MMMU-Pro: 81.2% Reducció d'errors: -33% en afirmacions falses vs GPT-5.2 [citation:2][citation:5] Context: 1M Tool search: Redueix consum de tokens un 47% en ecosistemes grans d'eines [citation:2][citation:5][citation:6] Primer model d'OpenAI amb capacitat nativa d'operar l'ordinador: pot fer clic, navegar i executar accions basant-se en captures de pantalla [citation:1][citation:2][citation:4]. Integra les capacitats de GPT-5.3-Codex amb raonament profund i agents autònoms. Disponible en dues versions: Thinking (ChatGPT Plus/Team) i Pro (per a tasques extremes) [citation:4][citation:7].	Claude Code (Anthropic - 2026) Ús: API / GitHub Copilot / Xcode \| OSS: ❌	SWE-bench Verified: 80.9% (líder en codificació) Adopció empresarial: Meta, Netflix, Salesforce, Accenture Preferència: #1 en enquesta a desenvolupadors Integracions: GitHub Copilot, Apple Xcode (suport natiu) L'agent de codi preferit per la comunitat tècnica, amb millor rendiment en SWE-bench Verified però sense capacitats d'operació de sistema operatiu.
Gemma 3 4B (Google - 2025) Ús Gratuït: ✔️ (Pesos) \| OSS: ✔️	Paràmetres: 4B Ús principal: Dispositius mòbils, edge computing Capacitats: Raonament bàsic, comprensió multilingüe Context: 8k La base dels models TranslateGemma i MiLMMT-46, que han aconseguit rendiment SOTA en traducció multilingüe.	Phi-4 Mini (Microsoft - 2025) Ús Gratuït: ✔️ (Pesos) \| OSS: ✔️	Paràmetres: 3.8B Rendiment: Comparable a models de 7B-13B en tasques de raonament Entrenament: Dades d'alta qualitat curades Context: 4k Demostra que la qualitat de les dades d'entrenament pot superar l'escala bruta.
Claude Opus 4.6 Thinking (Anthropic - Feb 2026) Ús: API / Claude.ai \| OSS: ❌	LMArena Elo: #1 global (versió thinking) Raonament profund: SOTA en tasques complexes Humanity's Last Exam: Líder en aquest benchmark de preguntes extremadament difícils Context: 1M La referència absoluta per a raonament de nivell expert.	Ant Group Ring-2.5-1T (Ant Group - Feb 2026) Ús Gratuït: ✔️ (Pesos) \| OSS: ✔️	IMO 2025: 35/42 (medalla d'or) CMO 2025: 105/126 (supera el tall de l'equip nacional xinès) Eficiència en context llarg: Reducció 10x en accés a memòria Arquitectura: Híbrida lineal, 63B paràmetres actius El primer model open source que assoleix nivell de medalla d'or en olimpíades matemàtiques.
Funcionalitat Agèntica i Presa de Decisions
Claude Agent SDK (a Xcode 26.3) (SOTA en Agents Integrats en IDE) Ús: Apple Developer Program (release candidate) \| OSS: ❌ Integrat: Feb 2026	Visual verification: Captura de Xcode Previews per verificar interfícies Raonament multi-projecte: Comprensió de tota l'arquitectura del projecte Execució autònoma: Tasques de llarga durada sense supervisió constant Model Context Protocol: Integració amb Claude Code via MCP Capacitat de Claude per explorar l'estructura completa de fitxers, entendre com es connecten els frameworks (SwiftUI, UIKit, Swift Data) i identificar on fer canvis abans d'escriure codi.	OpenClaw (Ecosistema) Ús Gratuït: ✔️ (Auto-allotjat) \| OSS: ✔️ 228k+ ⭐ · Creador a OpenAI	GitHub ⭐: 228,000+ (#1 històric) Autonomia: Completa (execució 24/7 sense supervisió) Ecosistema: +10,000 Skills comunitaris, 126+ startups basades en OpenClaw Integració IDE: Compatible amb Cursor i Aider via plugins comunitaris El framework que ha redefinit l'estàndard dels agents autònoms, ara amb un ecosistema de skills que permet estendre les seves capacitats a qualsevol entorn.
Claude Opus 4.6 (Agent Teams) (SOTA en Orquestració Multi-Agent) Ús: API / Claude.ai (Max/Team/Enterprise) \| OSS: ❌ Llançat: Feb 2026	Terminal-Bench 2.0: #1 GDPval-AA: +144 Elo vs GPT-5.2 (millor en tasques d'alt valor econòmic) Context llarg: 1M tokens amb Context compaction Equips d'agents: Subagents en paral·lel (implementació, documentació, revisió) Integracions: PowerPoint (creació automàtica de presentacions), Excel (anàlisi financera), Cowork (macOS) Capacitat de formar equips d'agents que col·laboren en tasques complexes, amb un líder que coordina i sintetitza resultats.	CrewAI (Multi-Agent) Ús Gratuït: ✔️ \| OSS: ✔️ (MIT) Actualitzat: Feb 2026	Framework: Multi-agent amb rols (investigador, escriptor, revisor, etc.) Equips: Paral·lelització de tasques, fluxos de treball jeràrquics Comunitat: 44k ⭐ a GitHub, +100 contribuïdors actius Integració OpenClaw: Compatible amb skills d'OpenClaw per a automatització de sistema El framework OSS més complet per definir i executar equips d'agents especialitzats, ara amb suport per a integracions amb l'ecosistema OpenClaw.
GitHub Copilot (Agents Multi-model) (SOTA en Plataformes de Desenvolupament Agèntic) Ús: Copilot Pro+ / Enterprise \| OSS: ❌ Actualitzat: Gen-Feb 2026	GPT-5.2-Codex GA: Disponible general Agents disponibles: Claude + Codex en preview pública Memòria agèntica: Captura insights del repositori (28 dies) Sandboxing: Comandaments en terminal amb aïllament Copilot SDK: Technical preview per a extensions La plataforma més completa per a desenvolupament agèntic, permetent triar entre múltiples models i gestionar sessions de manera unificada.	Aider Ús Gratuït: ✔️ (BYOK) \| OSS: ✔️ (Apache 2.0) Actualitzat: Contínuament	Aider Polyglot: Resultats competitius Flexibilitat: Qualsevol model (OpenAI, Anthropic, DeepSeek, etc.) Integració Git: Commits automàtics amb missatges clars Control: Total per a desenvolupadors Ecosistema OpenClaw: Compatible amb skills per a automatització avançada L'alternativa OSS més potent per a programació agèntica en CLI, amb l'avantatge de poder utilitzar models de baix cost com DeepSeek.
Claude Code Security (SOTA en Agents de Seguretat) Ús: Research preview a Claude Code \| OSS: ❌ Llançat: Feb 2026	Capacitats: Anàlisi de components, fluxos de dades, detecció de vulnerabilitats (injecció, bypass d'autenticació) Resultats: Claude Opus 4.6 va descobrir 500+ vulnerabilitats desconegudes en projectes open source Sortida: Explicació en llenguatge natural + pedaços suggerits Integració: Nativa a Claude Code Capacitat d'actuar com a "red team" autònom, identificant i pedaçant vulnerabilitats sense intervenció humana.	Aider + models de seguretat Ús Gratuït: ✔️ \| OSS: ✔️ Flexible	Flexibilitat: Ús de models fine-tuneats per a seguretat Control: Total sobre el procés d'anàlisi Integració: Amb sistemes de CI/CD via scripts personalitzats Comunitat: Activa en desenvolupament de skills de seguretat per a OpenClaw La combinació d'un framework OSS flexible amb models especialitzats permet construir pipelines de seguretat adaptats a necessitats específiques.
Aprenentatge Personalitzat i Tutoria amb IA
OpenAI GPT-5 (Mode Tutor) (SOTA en Tutoria Adaptativa i Precisió) Ús: ChatGPT Plus/Team/Enterprise \| OSS: ❌ GPT-5.2: Feb 2026	Metodologia: Aprenentatge adaptatiu i socràtic Personalització: Ajust al nivell i ritme de l'estudiant GPT Store: Tutors especialitzats creats per la comunitat Benchmark matemàtic 2026: 90% (millor en precisió) Estudi acadèmic 2026: "Parceiro intelectual para escrita" El tutor de referència per a qualsevol matèria, amb la millor precisió numèrica segons auditories independents.	Google LearnLM (a Gemini for Education) Ús: Gratuït (via Gemini) \| OSS: ❌ Integrat a Gemini: Feb 2026	Principis pedagògics: Aprenentatge actiu, metacognició, personalització Millora demostrada: +5.5% en resolució de problemes nous vs. tutors humans Valoració acadèmica: "Multimodalidade nativa e recursos para pesquisa e aprendizagem ativa" L'alternativa amb base científica en pedagogia i forta integració multimodal.
Google Little Language Lessons (SOTA en Aprenentatge Contextual d'Idiomes) Ús Gratuït: ✔️ (Google Labs) \| OSS: ❌ Llançament: Gen-Feb 2026	Enfocament: Lliçons breus basades en situacions quotidianes Tecnologia: Gemini + Cloud Text-to-Speech per a pronunciació Eines: Tiny Lesson, Slang Hang, Word Cam Idiomes: +40 idiomes disponibles Aprenentatge pràctic, contextual i gratuït sense estructura curricular rígida.	ELSA Speak Ús Gratuït: ✔️ (Bàsic) \| Pro: Pagament \| OSS: ❌ Actualitzat: Feb 2026	Especialització: Pronunciació i accent (neutre americà) Exercicis: +40,000 pràctiques en contextos diversos (viatges, entrevistes) Feedback: Anàlisi fonèmica en temps real Preparació: IELTS, Pearson PTE, TOEFL La millor opció per perfeccionar la pronunciació amb precisió científica.
Wolfram Alpha (Step-by-Step) (SOTA en Resolució Guiada de Problemes Tècnics) Ús Gratuït: ✔️ (Limitat) \| Pro: ~$5/mes \| OSS: ❌ Actualitzat: Contínuament	Dominis: Matemàtiques, Física, Química, Enginyeria, Estadística Qualitat: Rigorosa, basada en coneixement expert computacional Generació: Pràctica il·limitada amb problemes similars Visualització: Gràfics interactius i passos detallats L'estàndard d'or per a estudiants de ciències que necessiten entendre el procés.	Photomath (amb IA) Ús Gratuït: ✔️ (Bàsic) \| Plus: ~$7/mes \| OSS: ❌ Actualitzat: Feb 2026	Dominis: Matemàtiques (des d'aritmètica fins a càlcul) Mètode d'entrada: Escaneig amb càmera (ultraràpid) Qualitat: Explicacions clares i visuals Funcions IA: Pràctica personalitzada basada en el progrés L'alternativa més accessible i popular per a matemàtiques en dispositius mòbils.
NotebookLM (Gemini 3.1 Pro) (SOTA en Generació de Contingut Educatiu Personalitzat) Ús Gratuït: ✔️ \| OSS: ❌ Actualitzat: Feb 2026	Novetats Feb 2026: "Video Overviews" amb estils visuals (aquarel·la, pissarra, anime), exportació a PPTX editable, compatibilitat amb Google Slides (pròximament) Lecture Mode: Àudio de fins a 30 minuts amb un sol ponent, ideal per a cursos i materials densos Confiabilitat acadèmica: Elevada confiabilitat acadèmica. Generació: Pòdcasts, FAQs, guies d'estudi, línies de temps, infografies, PPTX, Learning Guide amb tutoria socràtica, quizzes, flashcards, mapes mentals Capacitat: Fins a 50 fonts per quadern (PDFs, àudios, presentacions, YouTube, Google Sheets)	Teach Anything (per a professors) Ús Gratuït: ✔️ \| OSS: ✔️ Finançat per Institute for Humane Studies · The New York Times: 2026	Mencionat a The New York Times: "Open access revolution" Per a qui: Professors universitaris i de secundària que vulguin crear les seves pròpies eines Models utilitzats: Mistral, Llama i altres LLMs open source Què permet: Dissenyar i desplegar aplicacions educatives d'IA sense programar Característiques clau: Apps permanentment gratuïtes, sense login per a estudiants, privacitat total, fàcilment compartibles
Qwen2.5-VL-7B-Instruct (Qwen - 2026) Ús Gratuït: ✔️ (Pesos) \| API: $0.05/M tokens \| OSS: ✔️	Capacitats: Comprensió visual (gràfics, diagrames), anàlisi de vídeos educatius, localització d'objectes Context: 33K tokens Preu (SiliconFlow): $0.05/M tokens entrada i sortida Perfecte per a: Analitzar materials educatius amb text i imatges (llibres de text, problemes de ciència amb diagrames) Model multimodal assequible per a estudiants i educadors amb pressupostos limitats.	Llama 3.1 8B Instruct (Meta - 2025) Ús Gratuït: ✔️ (Pesos) \| API: $0.06/M tokens \| OSS: ✔️	Suport multilingüe: +100 idiomes Context: 33K tokens Entrenament: 15 bilions de tokens amb RLHF Preu (SiliconFlow): $0.06/M tokens Perfecte per a: Plataformes de tutoria que atenen poblacions estudiantils diverses, diàleg instructiu segur El model open source amb millor relació qualitat-preu per a educació multilingüe.
GLM-4.5V (Zhipu AI) (SOTA en Raonament STEM) Ús Gratuït: ✔️ (Pesos) \| API: $0.14/M entrada, $0.86/M sortida \| OSS: ✔️ Llançat: 2026	Arquitectura: MoE (106B params totals, 12B actius) Innovació tècnica: 3D-RoPE per a relacions espacials 3D 'Mode Pensament': Equilibri entre rapidesa i raonament profund Context: 66K tokens Resolució: Suporta imatges 4K Preu (SiliconFlow): $0.14/M entrada, $0.86/M sortida Perfecte per a: Educació STEM avançada, problemes complexos que requereixen anàlisi visual profund i raonament matemàtic El model de codi obert amb millor rendiment en benchmarks multimodals, ideal per a universitats i institucions que necessiten màxima capacitat.	Hugging Face (Models Educatius) Ús Gratuït: ✔️ \| OSS: ✔️ +1M models disponibles	Accés: +1 milió de models open source Cost: Gratuït per a recerca i ús personal Comunitat: La major comunitat d'IA del món Valor per a educadors: Permet explorar, provar i descarregar models especialitzats per a necessitats educatives concretes sense dependre d'APIs comercials El punt de partida per a qualsevol professor que vulgui experimentar amb IA open source.
Ajuda en Investigació
Consensus (Síntesi d'Evidència) (SOTA en Síntesi d'Evidència) Ús Gratuït: ✔️ (Cerques limitades) \| OSS: ❌ Actualitzat: Feb 2026	Funció Principal: Extracció de Troballes Científiques Mètrica Clau: Síntesi de consens (+200M papers) Precisió de Respostes: Molt Alta Filtres: Per tipus d'estudi, data, accés obert Respon preguntes mostrant el percentatge de papers que donen suport a cada postura.	Scite.ai Ús Gratuït: ✔️ (Limitat) \| Pro: Pagament \| OSS: ❌ Actualitzat: Feb 2026	Funció Principal: Verificació de Cites ("Smart Citations") Base de Dades: +250M d'articles, capítols, preprints i datasets Novetat Feb 2026: Scite MCP: Integració directa amb ChatGPT, Claude, Copilot, Cursor i Claude Code. Els assistents poden cercar dins d'articles, avaluar com han estat citats, i accedir a PDFs sense sortir del flux de treball Ideal per avaluar l'impacte i la fiabilitat d'un paper per com ha estat citat, ara directament des dels teus assistents d'IA favorits.
Elicit (Revisió de Literatura) (SOTA en Automatització de Revisions Sistemàtiques) Ús Gratuït: ✔️ (Crèdits) \| OSS: ❌ Actualitzat: Feb 2026	Funció Principal: Extracció estructurada de dades Base de Dades: +200M papers (Semantic Scholar) Automatització: Cerca, filtratge, extracció i síntesi Exportació: Taules, resums, BibTeX Permet passar d'una pregunta d'investigació a una taula amb les troballes clau de desenes de papers en minuts.	SciSpace (Typeset) Ús Gratuït: ✔️ (Limitat) \| OSS: ❌ Actualitzat: Feb 2026	Funció Principal: Comprensió de papers via xat Base de Dades: +270M papers Mètrica Clau: Anàlisi conversacional, generació d'il·lustracions científiques amb IA Integracions: Zotero, Mendeley, Chrome extension Extracció: Resums, equacions, taules Excel·lent per entendre un paper complex fent-li preguntes directament.
Claude Opus 4.6 (Anàlisi Profund) (SOTA en Extracció Fidel d'Informació) Ús Gratuït: ❌ \| OSS: ❌ Llançat: Feb 2026	NIAH (200k): 100% FEVER: 97.2% QASPER: 86.5% GPQA: 87.8% Context: 1M Estudi de detecció humana (feb 2026): més del 90% de participants no distingeixen els seus outputs de contingut humà.	Llama 3.1 405B (1M) Ús Gratuït: ✔️ (Models) \| OSS: ✔️ (Llama Lic) Llançat: 2024	NIAH (1M): ~99.2% GPQA: 58.2% QASPER: ~75.3% MMLU: 86.1% Context: 1M
Gemini 3.1 Pro (Anàlisi Massiu) (SOTA en Anàlisi Multimodal a Gran Escala) Ús Gratuït: ✔️ (AI Studio) \| OSS: ❌ Llançat: Feb 2026	NIAH (1M): 99.9% MMMU: 84.2% GPQA: 88.5% QASPER: 86.0% Context: 1M (amb multimodalitat)	Kimi (Moonshot AI) Ús Gratuït: ✔️ \| OSS: ❌ Actualitzat: Feb 2026	NIAH (1M): ~98.5% Anàlisi de Fitxers: PDF, Word, Excel, PPT, imatges Context: 1M+ (gratuït) La millor alternativa gratuïta per a anàlisi de context massiu, especialment per a usuaris fora de la Xina.
Perplexity Pro (RAG) (SOTA en Cerca amb Fonts) Ús Gratuït: ✔️ (Limitat) \| OSS: ❌ Actualitzat: Feb 2026	Qualitat de RAG: SOTA Precisió contextual: 94% Transparència en riscos: 89% Deep Research: Síntesi de 50+ fonts Mode "Pro" (feb 2026): Cerca en papers científics El millor per a respostes ràpides i verificades amb fonts directes.	Phind (Mode Investigació) Ús Gratuït: ✔️ \| OSS: ❌ Actualitzat: Feb 2026	Especialització: Codi i preguntes tècniques (92% paste-ready) Precisió general: 83% Velocitat: 1.9 segons de resposta Integració: VS Code nativa Enfocament recomanat: Usar Perplexity per a investigació i planificació, Phind per a implementació i depuració Optimitzat per a respostes tècniques precises amb exemples de codi, encara que menys fiable per a investigació general.
Generació de Veu i Música
ElevenLabs V3 (SOTA en Veu Realista i Clonació) Ús Gratuït: ✔️ (Crèdits mensuals) \| Pro: Pagament \| OSS: ❌ Llançat: Feb 2026	MOS (Naturalitat): >4.5 Clonació: Mostra de 5 segons, preservació emocional Latència streaming: <200ms Millora precisió v3: 68% menys errors en benchmark intern (27 categories, 8 idiomes). Taxa d'error global: 4.9% Idiomes: +30 amb accents regionals L'estàndard de la indústria per a veus d'alta qualitat en producció professional.	Fish Speech V1.5 (fishaudio - 2026) Ús Gratuït: ✔️ (Pesos) \| API: $15/M bytes \| OSS: ✔️	TTS Arena ELO: 1339 WER (anglès): 3.5% CER (anglès): 1.2% CER (xinès): 1.3% Arquitectura: DualAR (doble transformer autoregressiu) L'alternativa open source amb la millor precisió multilingüe del mercat. Dona suport a múltiples idiomes amb 300k+ hores d'entrenament.
Suno AI v4 (SOTA en Generació de Cançons) Ús Gratuït: ✔️ (Crèdits diaris) \| Pro: Pagament \| OSS: ❌ Llançat: Feb 2026	Qualitat vocal: SOTA (veus gairebé indistingibles d'humanes) Control d'estructura: Vers, tornada, pont Durada: Fins a 4 minuts per cançó Rang vocal: 30-45 semitons L'eina de referència per a creadors que volen generar cançons completes amb lletra i melodia coherent.	Udio Ús Gratuït: ✔️ (Crèdits) \| Pro: Pagament \| OSS: ❌ Actualitzat: Feb 2026	Qualitat de producció: Molt alta (èmfasi en mescla i masterització) Extensió: Afegir seccions a temes existents Replace section: Corregeix problemes específics Preferit per molts músics pel seu so més polit i possibilitats creatives.
Stable Audio Open 2.0 (SOTA en Efectes de So i Disseny Sonor) Ús Gratuït: ✔️ (Pesos) \| API: Pagament \| OSS: ✔️ Actualitzat: Feb 2026	Durada màxima: 47 segons (ideal per a SFX i loops) Qualitat: 44.1kHz estèreo Tipus de sortida: Efectes, stems, loops, instrumentals Fine-tuning personal: Sí (amb gravacions pròpies) La referència per a creadors que necessiten efectes de so personalitzats i lliures de drets.	CosyVoice2-0.5B (FunAudioLLM - 2026) Ús Gratuït: ✔️ (Pesos) \| API: $7.15/M bytes \| OSS: ✔️	Latència streaming: 150ms (ultra-baixa) Millora vs v1.0: 30-50% menys errors de pronunciació MOS: 5.53 (vs 5.4 anterior) Idiomes: Xinès (inclou dialectes: cantonès, sichuanès, shanghainès, tianjinès), anglès, japonès, coreà Cross-lingual: Sí Perfecte per a aplicacions que requereixen respostes de veu en temps real amb mínima latència.
ElevenLabs V3 (Diàlegs) (SOTA en Veu per a Diàlegs) Ús: API / Web \| OSS: ❌ Llançat: Feb 2026	MOS (Naturalitat): >4.4 Control emocional: Èmfasi, to, ritme ajustable Durada: Optimitzat per a paràgrafs llargs i converses TTS expressiu: Capta matisos i entonació contextual Millora en interpretació contextual: 68% menys errors en símbols i números El mateix model SOTA, amb millores significatives en interpretació de context.	ChatTTS Ús Gratuït: ✔️ \| OSS: ✔️ Actualitzat: 2025	MOS (Naturalitat): ~4.1 Enfocament: Converses i diàlegs naturals Control: To i emoció ajustables Comunitat: Molt activa, amb nombrosos fine-tunes Alternativa OSS estable per a diàlegs conversacionals.
Generació d'Imatges
GPT Image 1.5 (OpenAI) (SOTA en Generació General) Ús: ChatGPT Plus/Pro/API \| OSS: ❌ Llançat: Des 2025	LM Arena Elo: 1264 Renderitzat de text: SOTA (tipografia complexa, logos, senyalètica) Fotorrealisme: Excepcional Integració: Nativa amb ChatGPT, fluxos multimodals sense fissures El nou estàndard per a materials de màrqueting professionals, maquetes de producte i composicions complexes que requereixen text llegible.	Flux 2 Max Ús Gratuït: ✔️ (Pesos) \| API: Pagament \| OSS: ✔️ Llançat: 2025	LM Arena Elo: 1168 Suport LoRA: Sí (milers de models comunitaris) Execució local: Possible amb RTX 4090 Comunitat: Activa a Civitai amb milers de variants El rei del codi obert per a qui necessita control absolut, privacitat o models personalitzats.
Gemini 3.1 Pro Image (Nano Banana Pro) (Google - Feb 2026) Ús Gratuït: ✔️ (AI Studio) \| API: Pagament \| OSS: ❌	LM Arena Elo: 1235+ (estimat) Latència: 3-5 segons per imatge Capacitats destacades: Comprensió d'identitats (genera retrats de personatges famosos amb logos corporatius), generació multilingüe (menús en 4 idiomes amb text precís), raonament cultural (acupuntura, quiromància), resolució matemàtica amb passos visuals Integració: Google Workspace, Cloud Platform, cerca Model amb enfocament "primer raona, després dibuixa", demostrant comprensió de relacions espacials, física i lògica abans de generar la imatge.	Flux 2 Flex Ús Gratuït: ✔️ (Pesos) \| API: Pagament \| OSS: ✔️ Llançat: 2025	LM Arena Elo: 1157 Velocitat: 2-4 segons (més ràpida que Max) Requisits: Menys computació, apte per a més entorns Qualitat: Lleugerament inferior a Max, però excel·lent per a alt volum L'opció open source quan la velocitat d'iteració és prioritària sobre el màxim detall.
Flux 1.1 Pro Ultra (SOTA en Resolució i Control) Ús: API via plataformes (SiliconFlow, etc.) \| OSS: ❌ (API) Llançat: 2025	Resolució màxima: 4 megapíxels (2048x2048) / 2K Fotorrealisme: Superior, amb modes Ultra (composició precisa) i Raw (textures naturals) Preu: ~$0.06/imatge via SiliconFlow La referència per a producció visual comercial on el detall i la fidelitat són crítics.	Flux.1 Kontext Pro Ús: API \| OSS: ❌ (API) Llançat: 2025	Comprensió semàntica: Avançada, amb suport d'imatges de referència Control local precís: Edicions detallades mantenint context global Preu: ~$0.04/imatge Ideal per a disseny de marques, visualització de productes i il·lustració narrativa que requereix coherència en múltiples iteracions.
Hunyuan Image 3.0 (Tencent) (SOTA en Edició Avançada) Ús: API / "元宝" App \| OSS: ❌ Versió Instruct: Gen 2026	LM Arena Elo: 1152 (text-imatge) Noves capacitats (Instruct): Edició imatge-a-imatge (afegir/eliminar objectes), fusió multi-imatge, estil "think first, then edit" amb Chain of Thought Arquitectura: MoE 80B params totals, 13B actius Especialització: Edició precisa, contingut asiàtic Preu: ~$0.02-0.05/imatge L'elecció per a edició avançada amb comprensió profunda d'instruccions i manipulació detallada d'elements en la imatge.	Seedream 5.0 (ByteDance) Ús: API / CapCut / JI Meng \| OSS: ❌ Llançat: Feb 2026	LM Arena Elo: Competitiu amb Nano Banana Pro Capacitats clau: Cerca a internet en temps real, comprensió de prompts abstractes, renderitzat de text precís, edició controlada Resolució: 2K (directe) / 4K (amb IA) Preu: Econòmic, amb usos gratuïts Perfecte per crear imatges que requereixen coneixement específic, infografies, cartells amb text i conceptes abstractes. Posicionat com el competidor directe i més econòmic de Gemini 3.1 Pro Image.
Generació de Vídeo
Seedance 2.0 Pro (ByteDance) (SOTA en Control Creatiu i Popularitat) Ús: Freemium / API / Jimeng / Doubao \| OSS: ❌ Llançat: Feb 2026	Rànquing comunitari: #1 (per sobre de Kling 3.0 i Sora 2) Referències: Fins a 12 fitxers (9 imatges + 3 vídeos + 3 àudios) Lip-sync: Precisió fonèmica, 8 idiomes (anglès, xinès, japonès, coreà, espanyol, indonesi, cantonès, sichuanès) Resolució: Nativa 2K (2160p) Beat-sync: Sí, amb àudio multi-pista Dual-channel audio: Efectes ASMR, so ambiental immersiu Preu: ~$0.10/minut (80% més barat que competidors) Definit per la comunitat com el "Game Changer" i "Nou Rei del AI Video". The Information, CNBC i The Economic Times el destaquen com el model que supera Sora i Veo en velocitat i control narratiu.	Kling 3.0 Pro (Kuaishou) Ús Gratuït: ✔️ (Crèdits) \| API: $0.3-0.5/10s \| OSS: ❌ Llançat: Feb 2026	Elo: Competitiu amb Seedance Resolució: 4K natiu (3840×2160) a 60fps (l'únic) Durada màxima: 120 segons (el més llarg) Storyboard: Fins a 6 talls de càmera Idiomes: Anglès, xinès, japonès, coreà, espanyol (amb accents regionals) Perfecte per a workflows que requereixen màxima resolució, durada estesa i control de càmera professional.
Sora 2 Pro (OpenAI) (SOTA en Narrativa i Física) Ús: ChatGPT Pro ($200/mes) \| API: $0.50/seg \| OSS: ❌ Llançat: 2025	Durada màxima: 25 segons (únic en la seva classe) Física realista: SOTA en interaccions complexes Complexitat d'escena: Gestiona multi-personatge amb interaccions naturals Resolució: 1080p Storyboard: Sí, amb edició narrativa Àudio: Natiu amb diàleg L'opció per a projectes on la durada estesa, la física realista i la complexitat narrativa són prioritàries.	Veo 3.1 (Google DeepMind) Ús: API / Vertex AI \| OSS: ❌ Actualitzat: Feb 2026	Fotorrealisme: #1 en textures i materials Durada: 8 segons (el més curt, ideal per a hero shots) Material rendering: Superior (pell, teles, vidre, aigua) Vocabulari tècnic: Comprèn f-stop, focal length, lighting ratios Àudio: Natiu sincronitzat L'elecció per a hero shots i fotografia de producte que requereix màxim realisme.
Runway Gen-4.5 + GWM-1 (SOTA en Eines d'Edició i Models de Món) Ús: Freemium (pagament) / API / SDK Robòtica \| OSS: ❌ Gen-4.5: Des 2025 · GWM-1: Feb 2026	Elo (Gen-4.5): 1230 (#4) Estudi de detecció humana (feb 2026): >90% de participants no distingeixen Gen-4.5 de vídeos reals Motion tracking: Avançat Control de càmera: Director Mode Novetat GWM-1 (feb 2026): Família de Models de Món General (GWM Worlds, Avatars, Robotics) amb SDK per a robòtica i simulació Integració de tercers: Kling 3.0, Sora 2 Pro, WAN2.2 Animate, GPT-Image-1.5 disponibles dins de Runway L'eina de referència per a professionals que necessiten control granular i simulació realista, amb una suite que va més enllà de la generació simple.	CogVideoX-5b-I2V Ús Gratuït: ✔️ (Pesos) \| OSS: ✔️ Llançat: 2025	VRAM mínima: 4.4GB (INT8 quantitzat) Comunitat: 8,000+ estrelles a GitHub Ecosistema: Ampli, amb múltiples forks i eines Especialització: Imatge a vídeo amb control fi El model amb l'ecosistema més madur per a qui necessita personalització total.
Pika 2.5 (SOTA en Velocitat i Creativitat Social) Ús Gratuït: ✔️ (Crèdits diaris) \| Pro: Pagament \| OSS: ❌ Llançat: Nov 2025	Elo: 1095 Velocitat: 30-90 segons per generació (Turbo: 12s) Lip sync: Sí Pikaffects: Únic en la seva classe L'opció gratuïta més accessible per a creadors de contingut social, amb crèdits diaris renovables.	HunyuanVideo-1.5 (Tencent) Ús Gratuït: ✔️ (Pesos) \| OSS: ✔️ Llançat: Gen 2026	Elo: 1022 Requisits: RTX 4090 amb 13.6GB VRAM Durada: Fins a 10 segons en 1080p Text compliance: >95% El model open source més recent, optimitzat per a execució en maquinari de consum amb excel·lent comprensió de prompts.
Enginyeria de Programari Autònoma
Cognition Labs Devin (Enterprise) (SOTA en Automatització de Programari Empresarial) Ús: Enterprise (via Synechron i sector públic) \| OSS: ❌ Partnership: Feb 2026 · Expansió federal: Mar 2026	Cases d'Ús Reals: Modernització COBOL, Java, SAS-to-PySpark Certificació: Enginyers entrenats per Cognition Integració: Amb acceleradors de Synechron SWE-Bench (Empresarial): Puntuacions líders en entorns legacy Defineix l'estàndard per a agents d'enginyeria en banca, assegurances i sector públic amb governança i compliment normatiu.	OpenClaw Ús Gratuït: ✔️ (Auto-allotjat) \| OSS: ✔️ Creador: Peter Steinberger (ara a OpenAI) · 228k+ ⭐	GitHub ⭐: 228,000+ (#1 històric) Autonomia: Completa (execució 24/7 sense supervisió) Ecosistema: +10,000 Skills comunitaris, 126+ startups basades en OpenClaw Versions SaaS: Kimi Claw, MaxClaw (sota demanda) Impacte: OpenClaw és ja el major consumidor de tokens a OpenRouter El framework que ha redefinit l'estàndard dels agents autònoms open source. El seu creador, Peter Steinberger, va ser contractat per OpenAI per liderar la seva estratègia d'agents.
OpenAI GPT-5.4 (OpenAI - Mar 2026) Ús: ChatGPT Plus/Team/Enterprise + API \| OSS: ❌ Versió Pro disponible per a usuaris Pro/Enterprise	SWE-bench Verified: 79.2% (segons taula Vals.ai) SWE-bench Pro: 57.7% (líder) OSWorld-Verified: 75.0% (supera rendiment humà: 72.4%) GDPval: 83.0% (vs GPT-5.2: 70.9%) BrowseComp (Pro): 89.3% Context: 1M Tool search: Redueix consum de tokens un 47% en ecosistemes grans d'eines Evolució directa de GPT-5.3-Codex, integrant capacitats de codi, raonament profund i control d'ordinador. Disponible a GitHub Copilot com a opció seleccionable.	Claude Code (Anthropic) Ús: API / GitHub Copilot / Xcode \| OSS: ❌ #1 en preferència desenvolupadors	SWE-bench Verified: 80.9% (líder en codificació) Terminal-Bench 2.0: 65.4% Adopció empresarial: Meta, Netflix, Salesforce, Accenture Integracions: GitHub Copilot, Apple Xcode (suport natiu) L'agent de codi preferit per la comunitat tècnica, amb millor rendiment en SWE-bench Verified.
Cursor (Agents de Llarga Durada) (SOTA en IDEs Agèntics) Ús Gratuït: ✔️ (Pla gratuït) \| OSS: ❌ Actualitzat: Feb 2026	Novetats Feb 2026: Agents de llarga durada, subagents en paral·lel Traçabilitat: Cursor Blame (atribució IA/humà) Funcions Clau: Planificació autònoma, execució sense supervisió Context multi-agent: Capacitat d'executar múltiples agents especialitzats simultàniament L'experiència més avançada en desenvolupament amb agents dins de l'editor, ara competint directament amb GitHub Copilot que ha integrat múltiples models.	Aider Ús Gratuït: ✔️ \| OSS: ✔️ (Apache 2.0) Actualitzat: Contínuament	Benchmarks propis: Resultats competitius en Aider Polyglot Flexibilitat: Models locals o remots (OpenAI, Claude, DeepSeek, etc.) Control: Total per a desenvolupadors Integració amb OpenClaw: Compatible amb l'ecosistema de skills d'OpenClaw per a automatització avançada L'alternativa OSS més potent per a la programació agèntica en CLI, ara part d'un ecosistema més ampli d'agents autònoms.
Traducció Automàtica
DeepL Pro (SOTA en Traducció de Textos Llargos) Ús Gratuït: ✔️ (Limitat) \| Pro: Pagament \| OSS: ❌ Actualitzat: Mar 2026	MOS (textos llargs): Molt alt en idiomes europeus Formats: PDF, DOCX, PPTX amb preservació de maquetació Especialització: Patents, documents legals, màrqueting Limitació: 33 idiomes (principalment europeus) La referència per a traducció professional on el format i la precisió terminològica són crítics.	Google Translate (Gemini) Ús Gratuït: ✔️ \| OSS: ❌ Actualitzat: Mar 2026	Idiomes: 249 suportats Modalitats: Text, veu, imatge, documents Precisió: 16/21 traduccions precises en estudis amb termes tècnics NMT: Motor neuronal amb 10 anys d'evolució L'opció gratuïta més versàtil i amb major cobertura idiomàtica.
MiLMMT-46 (Gemma3-based) (SOTA en Traducció Open Source) Ús Gratuït: ✔️ (Pesos) \| OSS: ✔️ Llançat: Feb 2026	WMT24 (promig 46 idiomes): Supera Seed-X, HY-MT-1.5 i TranslateGemma Comparativa: Rendiment competitiu amb Google Translate i Gemini 3 Pro Arquitectura: Continual pretraining + instruction finetuning sobre Gemma3 El primer model open source que iguala sistemes propietaris en traducció multilingüe a gran escala.	Google TranslateGemma Ús Gratuït: ✔️ (Pesos) \| OSS: ✔️ Llançat: Gen 2026	Idiomes: 55 oficials + 500 parells addicionals Versions: 4B (mòbil), 12B (portàtil), 27B (cloud) WMT24++: 12B supera Gemma3 27B Capacitats: Traducció de text en imatges sense fine-tuning específic Execució local: Possible en mòbil (4B) i portàtil (12B) sense connexió a internet L'aposta de Google per la democratització de la traducció amb models lleugers, transparents i que preserven la privacitat en funcionar offline.
Mistral Voxtral Realtime (SOTA en Traducció en Temps Real) Ús Gratuït: ✔️ (Pesos oberts) \| API: Pagament \| OSS: ✔️ (Apache 2.0) Llançat: Feb 2026	Latència: <200ms (vs 2 segons de Google) Idiomes: 13 idiomes (incl. espanyol, francès, alemany) Mida: 4B paràmetres (executable en mòbil) Privacitat: Processament local, sense núvol Arquitectura: Model especialitzat en transcripció i traducció, no un LLM generalista Un pas cap a la conversa fluida entre idiomes sense barreres de latència, amb l'avantatge de ser open source i executable localment.	Gemini 3 Pro (Traducció) Ús Gratuït: ✔️ (Limitat) \| OSS: ❌ Actualitzat: Feb 2026	Latència: ~2 segons Context: Traducció conversacional amb comprensió de matisos i emocions Integració: Dins de l'assistent Gemini, amb capacitat de 200 idiomes via Google Translate Ús: "Respon en anglès", "tradueix això" com a part natural de la conversa Ideal per a converses informals on el context prima sobre la latència, amb l'avantatge de la multimodalitat i l'ecosistema Google.
Qwen3-8B (SOTA en Cobertura Multilingüe) Ús Gratuït: ✔️ (Pesos) \| OSS: ✔️ Llançat: 2026	Idiomes: +100 llengües i dialectes Context: 131K tokens Modus: Raonament profund / resposta ràpida (intercanviable) Capacitats: Traducció multilingüe, codi, raonament matemàtic Preu (API): ~$0.06/M tokens El model de propòsit general amb major cobertura idiomàtica, ideal per a aplicacions que necessiten traducció en llengües minoritàries a més de les principals.	Llama 3.1 8B Instruct Ús Gratuït: ✔️ (Pesos) \| OSS: ✔️ Llançat: 2025	Entrenament: 15 bilions de tokens RLHF: Sí (seguretat i utilitat) Context: 33K tokens Benchmarks: Supera molts models tancats en tasques multilingües Coneixement: Actualitzat a desembre 2023 L'opció més robusta per a aplicacions que requereixen traducció amb alt estàndard de seguretat i naturalitat conversacional.

Captura de la web amb els meus continguts sobre IA

Tornar als meus continguts sobre IA