Anthropic estrena Claude 4, nuevos modelos de inteligencia artificial para revolucionar la programación y el razonamiento complejo

La actualización incluye dos versiones principales: Claude Opus 4, su modelo más potente y que destaca en programación, y Claude Sonnet 4, dirigida al uso cotidiano.

Las novedades de Google en IA para abrir una nueva era en la comunicación y la búsqueda

La misma semana que Google presenta una avalancha de novedades sobre inteligencia artificial y que OpenAI anuncia el fichaje de Jony Ive, la tercera en discordia en el campo de batalla de la IA, Anthropic, lanza Claude 4, la nueva generación de sus modelos de inteligencia artificial, que promete establecer nuevos estándares en programación, razonamiento avanzado y desarrollo de agentes autónomos.

Esta actualización de la compañía estadounidense incluye dos versiones principales: Claude Opus 4, considerado el mejor modelo de programación del mercado, y Claude Sonnet 4, más dirigido al uso cotidiano.

Claude Opus 4

Claude Opus 4 es el modelo más potente desarrollado hasta la fecha por la compañía. Destaca especialmente en tareas de programación, donde ha alcanzado un 72,5% de rendimiento en SWE-bench, una prueba estándar que evalúa la capacidad de resolver problemas reales de ingeniería de software.

Además, obtiene un 43,2% en Terminal-bench, otro indicador técnico de referencia. Estos resultados lo sitúan por delante de todos sus competidores en el mercado de inteligencia artificial.

Una de las características más destacadas de Opus 4 es su capacidad para mantener un rendimiento sostenido durante largas sesiones de trabajo. El modelo puede operar de forma continua durante varias horas, completando tareas que requieren miles de pasos secuenciales sin perder el foco ni la calidad en sus respuestas. Esta característica resulta especialmente valiosa, explica Anthropic, para proyectos de desarrollo de software complejos que tradicionalmente requerían supervisión humana constante.

Claude Sonnet 4

Por su parte, Claude Sonnet 4 supone una evolución significativa respecto a su predecesor, Claude Sonnet 3.7, manteniendo el equilibrio entre rendimiento y eficiencia que caracteriza a esta línea de modelos.

Con un 72,7% de rendimiento en SWE-bench, se posiciona como una opción práctica para usuarios que buscan capacidades avanzadas sin la complejidad técnica del modelo Opus.

Aunque no alcanza el rendimiento de Opus 4 en la mayoría de áreas, ofrece una combinación óptima de capacidad y practicidad según la compañía.

Innovaciones en el uso de herramientas y memoria

Ambos modelos incorporan una funcionalidad denominada pensamiento extendido con uso de herramientas, actualmente en fase beta, que permite a la inteligencia artificial alternar entre procesos de razonamiento interno y el uso de herramientas externas como búsquedas en internet.

Esta capacidad híbrida mejora significativamente la calidad de las respuestas al combinar análisis profundo con acceso a información actualizada.

Los nuevos modelos también pueden ejecutar múltiples herramientas en paralelo y seguir instrucciones con mayor precisión que sus predecesores.

Rendimiento en SWE-bench de los modelos Claude 4. / Anthropic

Una innovación particularmente relevante es la mejora en las capacidades de memoria. Cuando los desarrolladores proporcionan acceso a archivos locales, Claude 4 demuestra habilidades para crear y mantener archivos de memoria donde almacena información clave, lo que permite mejor conciencia de tareas a largo plazo, coherencia y rendimiento en trabajos de agentes autónomos.

Un ejemplo ilustrativo de esta capacidad que incluye Anthropic en el comunicado en el que da a conocer la noticia, es el comportamiento de Opus 4 al jugar al videojuego Pokémon: el modelo creó automáticamente una Guía de navegación para mejorar su rendimiento en el juego, documentando estrategias y elementos importantes del entorno virtual.

Mejoras en comportamiento y fiabilidad

Anthropic ha trabajado específicamente en reducir comportamientos problemáticos donde los modelos utilizaban atajos o lagunas para completar tareas.

Los nuevos modelos Claude 4 son un 65% menos propensos a este tipo de comportamientos comparados con Sonnet 3.7 en tareas de agentes autónomos particularmente susceptibles a estos problemas.

Para optimizar la experiencia del usuario, la compañía ha introducido resúmenes de pensamiento para los modelos Claude 4, utilizando un modelo más pequeño para condensar procesos de pensamiento extensos.

Esta funcionalidad de resumen solo es necesaria aproximadamente el 5% del tiempo, ya que la mayoría de procesos de pensamiento son lo suficientemente cortos para mostrarse completos (los usuarios que requieran acceso a las cadenas de pensamiento completas para ingeniería de prompts avanzada pueden contactar con el departamento de ventas sobre el nuevo Modo desarrollador).

Comparación de los modelos Claude 4 con la competencia. / Anthopic

Reconocimiento de la industria

Varias empresas tecnológicas de referencia han validado las capacidades de Claude 4 en escenarios reales.

Cursor, una plataforma de desarrollo, lo describe como "tecnología punta en programación" y destaca su comprensión superior de bases de código complejas, calificándolo como "un salto adelante" en la comprensión de códigos complejos.
GitHub ha anunciado que Claude Sonnet 4 será el modelo base para el nuevo agente de programación en GitHub Copilot, su asistente de inteligencia artificial para desarrolladores, destacando que "sobresale en escenarios agénticos".
Replit, otra plataforma de desarrollo, informa de mejoras en precisión y "avances dramáticos para cambios complejos en múltiples archivos".
Block, por su parte, señala que es "el primer modelo que mejora la calidad del código durante la edición y depuración" en su agente denominado goose, manteniendo rendimiento y fiabilidad completos.
La empresa japonesa Rakuten validó las capacidades del modelo con una refactorización de código abierto que funcionó de forma independiente durante siete horas manteniendo un rendimiento constante.
Cognition destaca que "Opus 4 sobresale resolviendo desafíos complejos que otros modelos no pueden manejar".
Manus resalta mejoras en seguir instrucciones complejas, razonamiento claro y resultados estéticos.
iGent informa que Sonnet 4 sobresale en desarrollo autónomo de aplicaciones multi-funcionalidad y ha mejorado sustancialmente la resolución de problemas y navegación de código, "reduciendo errores de navegación del 20% a casi cero".
Sourcegraph considera que el modelo "muestra promesa como un salto sustancial en desarrollo de software", manteniéndose enfocado durante más tiempo, comprendiendo problemas más profundamente y proporcionando código de mayor elegancia.
Augment Code reporta mayores tasas de éxito, ediciones de código más precisas y trabajo más cuidadoso en tareas complejas, convirtiéndolo en su elección principal.

Claude Code: herramientas profesionales para desarrolladores

Junto con los nuevos modelos, Anthropic ha lanzado oficialmente Claude Code, una herramienta de línea de comandos que permite a los desarrolladores colaborar directamente con la inteligencia artificial desde su terminal. Esta aplicación, que ha pasado de una versión de investigación a estar disponible de forma general tras recibir "extensos comentarios positivos", incluye ahora integraciones nativas con los entornos de desarrollo más populares como VS Code y JetBrains.

Las nuevas extensiones beta para VS Code y JetBrains integran Claude Code directamente en el entorno de desarrollo integrado (IDE), mostrando las ediciones propuestas por Claude en línea dentro de los archivos, lo que facilita la revisión y seguimiento dentro de la interfaz familiar del editor.

Claude Code ahora soporta tareas en segundo plano mediante GitHub Actions y ofrece un SDK (kit de desarrollo de software) extensible que permite a los desarrolladores construir sus propios agentes y aplicaciones utilizando el mismo núcleo que Claude Code.

Como ejemplo de las posibilidades del SDK, la compañía ha lanzado Claude Code en GitHub, actualmente en beta, que permite etiquetar a Claude Code en solicitudes de cambio (pull requests) para responder a comentarios de revisores, corregir errores de integración continua o modificar código.

Nuevas capacidades de API y accesibilidad

La plataforma incorpora cuatro nuevas capacidades en su interfaz de programación (API) que permiten a los desarrolladores construir agentes de IA más potentes:

la herramienta de ejecución de código
el conector MCP (Model Context Protocol)
una API de archivos
la capacidad de almacenar prompts en caché durante hasta una hora

Modalidades, disponibilidad y estructura de precios

Los modelos Claude 4 son modelos híbridos que ofrecen dos modos de funcionamiento: respuestas casi instantáneas para consultas rápidas y "pensamiento extendido" para análisis más profundos que requieren mayor tiempo de procesamiento. Esta flexibilidad permite adaptar el uso según las necesidades específicas de cada tarea.

Los planes Pro, Max, Team y Enterprise de Claude incluyen ambos modelos y pensamiento extendido, mientras que Sonnet 4 también está disponible para usuarios gratuitos. Ambos modelos están disponibles en la API de Anthropic, Amazon Bedrock y Google Cloud Vertex AI.

En cuanto a precios, Anthropic mantiene la estructura de sus modelos anteriores: Claude Opus 4 tiene un coste de 15 dólares por millón de tokens de entrada y 75 dólares por millón de tokens de salida, mientras que Claude Sonnet 4 se ofrece a 3 y 15 dólares respectivamente.

Seguridad y evaluaciones

La empresa ha implementado medidas de seguridad extensivas y evaluaciones para minimizar riesgos y maximizar la seguridad, incluyendo la implementación de medidas para niveles superiores de seguridad de IA como ASL-3 (AI Safety Level 3).

Estos protocolos garantizan que los modelos cumplan con estándares de seguridad avanzados antes de su implementación comercial.

Estrategia y futuro

Según Anthropic, estos modelos "avanzan las estrategias de IA de nuestros clientes en todos los frentes": Opus 4 empuja los límites en programación, investigación, escritura y descubrimiento científico, mientras que Sonnet 4 aporta rendimiento de vanguardia a casos de uso cotidianos como una actualización instantánea desde Sonnet 3.7.

Esta nueva generación de Claude representa un paso significativo hacia lo que Anthropic denomina "el colaborador virtual", manteniendo contexto completo, sosteniendo el foco en proyectos largos y generando un impacto transformacional en el desarrollo de software y otras tareas complejas que requieren razonamiento avanzado.

Un nuevo avance, en resumen, hacia el trabajo colaborativo entre humanos e inteligencia artificial.

Claude Opus 4

Claude Sonnet 4

Innovaciones en el uso de herramientas y memoria

Mejoras en comportamiento y fiabilidad

Reconocimiento de la industria

Claude Code: herramientas profesionales para desarrolladores

Nuevas capacidades de API y accesibilidad

Modalidades, disponibilidad y estructura de precios

Seguridad y evaluaciones

Estrategia y futuro

Amazon cierra 2025 con cifras récord impulsada por la inteligencia artificial

Parálogos universales: Los genes que guardan memoria de un tiempo anterior al origen de la vida tal como la conocemos

Alphabet cierra 2025 con cifras récord: 132.170 millones de beneficio y más de 400.000 en ingresos

El fundador de Telegram carga contra el Gobierno y pide a los españoles "luchar por sus derechos" ante la regulación de las redes sociales

Grazalema se refugia en Ronda tras el paso de Leonardo: "Estamos haciendo y dando lo mejor que tenemos"

Andalucía acumula ya casi 7.000 desalojados a causa de la borrasca Leonardo

Estos son los actos del 50 aniversario de la bendición de la Virgen de Gracia y Amparo de Córdoba

Herida una joven en Córdoba al caer un árbol encima de su coche