En apenas seis semanas, un modelo de IA al que Anthropic ha llamado Mythos ha encontrado, según datos publicados por la propia compañía, miles de zero-days en software crítico, ha generado exploits funcionales contra Firefox a un ritmo que ningún modelo comercial anterior había conseguido y ha redescubierto una vulnerabilidad de 27 años enterrada en OpenBSD, junto a un fallo de FFmpeg que cinco millones de tests automatizados no habían detectado.

De momento, solo alrededor de cincuenta empresas en el mundo tienen acceso operativo al modelo.

Para cualquier compañía que produzca software, o que dependa de un stack digital para operar (prácticamente todas), esto supone un cambio estructural en la forma de pensar la seguridad corporativa. Y la manera en que Anthropic y la industria están gestionando la transición deja a la gran mayoría de las empresas en una posición difícil de defender, porque los atacantes tendrán modelos equivalentes en cuestión de meses mientras los defensores, a día de hoy, ni siquiera tienen acceso.

Lo que Mythos ha hecho en seis semanas

Los datos publicados por Anthropic son los más alarmantes que la empresa ha compartido nunca sobre un modelo propio.

En SWE-bench Verified, Mythos saca un 93,9%, casi 13 puntos por encima del predecesor inmediato. El dato importa porque el benchmark mide la capacidad del modelo para resolver issues reales de ingeniería de software, del tipo que separa a un junior de un senior, y un salto de trece puntos en una métrica ya saturada supone un cambio de categoría en toda regla.

En vulnerabilidades reales, la brecha se vuelve brutal. Contra Firefox, Mythos desarrolló 181 exploits funcionales, frente a los 2 que logró Opus 4.6 en el mismo ejercicio. En los benchmarks de OSS-Fuzz produjo 595 crashes tier 1-2 y 10 tier 5 (control total del flujo de ejecución), mientras que Opus 4.6 se quedó en un único tier 3.

Lo más incómodo del experimento: ingenieros sin formación previa en seguridad recibieron exploits completos de ejecución remota de un día para otro, sin escribirlos ellos y limitándose a pedírselos al modelo.

Anthropic ha reportado además miles de zero-days de severidad alta, muchos con una o dos décadas a sus espaldas, en código que llevaba años siendo auditado públicamente. Entre ellos, el CVE-2026-4747, que permite a un atacante no autenticado tomar control completo de un servidor desde cualquier punto de internet.

El episodio no es un rayo caído del cielo. Su predecesor comercial, Claude Opus 4.6, disponible públicamente desde febrero de 2026, ha identificado más de 500 vulnerabilidades validadas de severidad alta en software open source al operar en un entorno con herramientas de análisis. Y ya en 2024, Google DeepMind junto con Project Zero demostraron con el proyecto Big Sleep que una IA podía encontrar un zero-day en SQLite antes del release oficial. Mythos marca el siguiente salto de orden de magnitud en una trayectoria que lleva al menos dieciocho meses documentada.

"Solo tenemos algo así como seis meses antes de que los modelos de pesos abiertos alcancen estas capacidades."
— Alex Stamos, ex-CSO de Facebook, declaración recogida por Platformer

Esa ventana de seis meses, citada por Stamos y alineada con las estimaciones de la propia Anthropic, es el intervalo real con el que vamos a convivir durante los próximos trimestres. Después, los actores criminales podrán convertir bugs en armas a coste marginal.

La asimetría que nadie quiere mirar

Anthropic ha optado por no liberar Mythos al público general y, en su lugar, ha lanzado Project Glasswing, un programa con alrededor de cincuenta partners (AWS, Apple, Google, Microsoft, Nvidia, Cisco, CrowdStrike, Broadcom, Palo Alto Networks, JPMorgan Chase y la Linux Foundation, entre otros), 100 millones de dólares en créditos de uso y 4 millones donados a seguridad open source. La lógica declarada resulta coherente sobre el papel, aunque a efectos prácticos se queda corta frente a la escala del problema. El listado refuerza precisamente el punto del artículo: los hyperscalers y los grandes bancos ya tienen acceso privilegiado, el resto del tejido empresarial no.

Para una empresa mediana con cincuenta, quinientos o cinco mil empleados, que produce software o que depende de un stack digital para operar, el debate relevante ya no consiste en discutir si este cambio le afecta, sino en anticipar desde qué vector concreto le va a golpear primero. La respuesta que el mercado está ofreciendo hoy pasa por esperar: esperar a que los partners de Glasswing parcheen lo suyo, a que salga una versión con los guardarraíles suficientes, a que los proveedores de pentesting incorporen la capacidad, a que los SIEM entiendan los patrones nuevos y a que cada proveedor de software libere los parches correspondientes. Los atacantes, mientras tanto, no esperan a nadie.

En el lado atacante, la comunidad criminal lleva desde 2023 experimentando con variantes de LLMs sin filtros (WormGPT, FraudGPT y sucesores, documentados públicamente por firmas como SlashNext y Trend Micro); los servicios de inteligencia hostiles operan laboratorios de ataque con presupuestos estatales, y, según declaraciones del propio equipo de investigación ofensiva de Anthropic, en un plazo de 6 a 12 meses habrá alternativas open-weight comparables sin filtros, con China como origen más probable.

La asimetría resultante es incómoda de mirar: mientras los atacantes invierten sistemáticamente en capacidades ofensivas, los defensores siguen esperando a que alguien les dé permiso para equiparse.

Por qué "limitar el acceso" es la respuesta incorrecta

La intuición regulatoria por defecto dicta restringir (menos acceso equivale a menos riesgo), y en casi todos los dominios de seguridad ese instinto funciona razonablemente bien. En el caso que nos ocupa, sin embargo, falla por motivos estructurales.

Las capacidades ofensivas de Mythos son el resultado directo de escalar modelos de frontera hasta cierto umbral de cómputo, de modo que cualquier laboratorio con los recursos adecuados acabará aterrizando en un punto equivalente. La única pregunta relevante, por tanto, es quién usará primero esa capacidad contra tu infraestructura.

Cuando una capacidad ofensiva resulta inevitable, la única estrategia defensiva sensata consiste en poner esa misma capacidad en manos de los defensores antes de que el atacante la tenga operativa, y hacerlo de forma amplia en lugar de reservarla a cuarenta empresas elegidas a dedo.

Eso se traduce en tres implicaciones concretas para cualquier compañía que produzca o consuma software de manera relevante:

Primera. Lo razonable a partir de este momento es que el software que llega a producción haya pasado por una auditoría automatizada con un modelo de esta clase, sin esperar a que un regulador lo imponga ni a que el incidente ya haya ocurrido. Si tu proveedor no lo hace, en la práctica tu superficie de ataque la está definiendo él, aunque el seguro lo pagues tú.

Segunda. Las empresas que gestionan código propio (muchas más de las que se reconocen como tales, porque cuenta cualquier equipo con integraciones custom, scripts, low-code serio, GAS, n8n o APIs internas) necesitan un equivalente defensivo. No se trata de ampliar masivamente el equipo de seguridad, sino de dar a los perfiles técnicos que ya tienes (internos o del proveedor habitual de pentesting) acceso a modelos comparables a los que acabarán usándose contra ellos.

Tercera. Para los CISOs que llevan tiempo en modo "estamos evaluando IA", es un buen momento para aterrizar y pasar a operacionalización. La fase de evaluación pura se está quedando corta frente al ritmo al que avanza el lado ofensivo.

Lo que los malos ya tienen

Existe una fantasía cómoda, bastante extendida en los consejos de administración, según la cual los ataques sofisticados proceden únicamente de estados-nación y son asunto del gobierno. Esa fantasía cuesta dinero real todos los trimestres.

El mercado de crimeware-as-a-service lleva años ofreciendo infraestructura de ataque por suscripción, de modo que lo que Mythos reconfigura es el techo de capacidades al alcance de quien paga una suscripción relativamente modesta en un foro cerrado.

Un grupo de afiliados de ransomware sin sofisticación técnica propia, apoyado en un modelo abierto con capacidades de pentesting avanzadas, puede automatizar en horas lo que antes requería semanas de un operador experimentado: identificar el CVE correcto, validar la explotabilidad en un entorno clonado, construir el payload, adaptar el C2, moverse lateralmente por la red, exfiltrar datos y cifrar. Un ciclo de ataque que antes se desplegaba a lo largo de un mes cabe hoy en una tarde.

Conviene preguntarse si tu arquitectura de seguridad está diseñada para resistir a un atacante que opera con esa velocidad. En la práctica totalidad del mid-market la respuesta honesta es que no, y el origen del problema está sobre todo en cómo se ha distribuido la inversión: el gasto en seguridad de los últimos cinco años ha ido mayoritariamente a más SIEM, más EDR, más pólizas cyber y más formación antiphishing, todo ello pensado para frenar a un atacante humano con tiempo limitado y fricción manual, y prácticamente nada diseñado para contener a un atacante automatizado capaz de encontrar y explotar en la misma sesión.

Y mientras los atacantes se equipan, la propia superficie de ataque se expande desde dentro. El Veracode GenAI Code Security Report 2025, que pasó más de 100 LLMs por 80 tareas de completado de código en cuatro lenguajes, concluyó que el 45% de las muestras generadas contenían vulnerabilidades del OWASP Top 10 y que el código generado por IA tiene en media 2,74 veces más vulnerabilidades que el escrito por humanos. En paralelo, la Stack Overflow Developer Survey de 2025 (49.000+ encuestados en 177 países) sitúa en el 84% la proporción de desarrolladores profesionales que ya usa o planea usar herramientas de IA en su flujo, y el informe SonarSource State of Code 2026 estima en torno al 40% el porcentaje de código nuevo asistido o generado por IA. De modo que el problema de Mythos se acumula sobre un problema de base: una parte creciente del software que estás desplegando entra en producción con más defectos de seguridad que hace dos años, a un ritmo que el ciclo de revisión tradicional ya no absorbe.

Seis imperativos para CISOs y CEOs

Si diriges una empresa que produce software o depende de él, y en 2026 esa categoría prácticamente no deja fuera a nadie, estos son los movimientos que toca cerrar en los próximos 90 días, no en el próximo plan estratégico.

1. Incorpora la auditoría con IA ofensiva como criterio en tus conversaciones de compras. En cada renovación de contrato, en cada alta de SaaS y en cada componente open source que incorpores, añade a la lista de preguntas qué modelos ofensivos han pasado sobre ese código antes de llegar a ti y con qué cadencia. Hoy muchos proveedores responderán que están empezando a explorarlo; lo relevante es abrir esa conversación ahora y empezar a preferir, en igualdad de condiciones, al proveedor que sí tiene una respuesta concreta. La responsabilidad del CISO se juega tanto en el firewall como en la mesa de compras.

2. Integra modelos de pentesting en tu SDLC ya, sin esperar a Mythos. Hay un catálogo entero de herramientas LLM-powered disponibles comercialmente hoy: Snyk DeepCode AI, Cycode, Semgrep AI, GitHub Advanced Security con Copilot Autofix, CodeAnt y Aikido, entre otras. Se integran en pipelines estándar y detectan vulnerabilidades serias tanto sobre código propio como sobre código generado por IA. Tu ciclo de desarrollo debería incluir al menos una pasada automatizada en cada pull request relevante. El coste de licencia es marginal frente al coste esperado de un incidente, y los hallazgos son reales desde el primer día. Si internamente se percibe todavía la integración como inviable, merece la pena pedir al equipo técnico una comparativa actualizada: el tooling ha dado un salto notable en los últimos seis meses.

3. Acorta el ciclo de parcheo tanto como te permita la arquitectura. Si tu proceso de parcheo en producción lleva dos semanas, tu ventana de exposición frente a un atacante automatizado dura dos semanas. Rediseña la pipeline para que un parche de severidad crítica pueda salir idealmente el mismo día, y en cualquier caso bien por debajo del sprint. Aquí la IA solo acorta la cuenta atrás; el problema de fondo es de disciplina operativa pura y dura.

4. Haz red team con modelo, no solo con humanos. Las auditorías anuales de un consultor externo siguen siendo necesarias, aunque ya no resultan suficientes por sí solas. Complementa con ejercicios continuos contra modelos equivalentes a los que utilizan los atacantes, y si tu proveedor de pentesting no ofrece esa capacidad en 2026, es razonable plantearse una rotación.

5. Lleva el tema al consejo este trimestre. Plantéalo como una decisión de inversión con partida presupuestaria y owner asignado. La asimetría es la tesis: los atacantes disponen de modelos ofensivos, tú no; el coste de equiparar capacidades es acotado y medible, mientras que el coste potencial de un incidente serio (reporting regulatorio, daño reputacional, downtime, rescate) suele ser varios órdenes de magnitud superior, tal y como documenta año tras año el IBM Cost of a Data Breach Report. Tratarlo como una bullet de "riesgo emergente de IA" en el informe trimestral equivale a no tratarlo en absoluto.

6. Prepara a la organización para un mundo con ventanas de vulnerabilidad mucho más cortas. Puede sonar contraintuitivo, aunque es la dirección hacia la que apunta la trayectoria. A medida que los modelos de frontera encuentren sistemáticamente más vulnerabilidades, la seguridad se desplazará desde "descubrir lo que nadie sabe" hacia "parchear rápido lo que todo el mundo sabe", y la ventaja competitiva pasará a estar en la velocidad de respuesta más que en la opacidad.

La ventana de 6 a 12 meses

Anthropic estima que en un plazo de 6 a 12 meses habrá modelos open-weight con capacidades ofensivas comparables a Mythos. A la vista del ritmo al que han avanzado los modelos abiertos desde 2023, esa estimación puede quedarse corta.

Llama a ese periodo tu ventana de preparación.

En ese intervalo, tu empresa tiene que haber cerrado tres frentes: auditar todo el software crítico con capacidades equivalentes a las actuales de frontera, rediseñar el proceso de parcheo para operar en horas y poner en producción monitorización capaz de detectar patrones de ataque automatizados y no solo firmas conocidas.

Si llegas al final de esa ventana sin esas tres piezas cerradas, tu empresa está indefensa con independencia de dónde la sitúen los benchmarks de madurez en IA. Y "indefensa" no suele ser una palabra habitual en los informes al consejo, aunque después de lo que Mythos acaba de demostrar debería empezar a serlo.

Qué pedir a tus proveedores de software

Cerramos con la parte operativa. Cuando te sientes mañana con un proveedor crítico (tu ERP, tu CRM, tu plataforma de ecommerce, tu proveedor de identidad, tu stack de datos), estas son las preguntas que debería estar planteando el CISO antes de firmar nada:

1. ¿Qué modelos ofensivos pasan sobre vuestro código antes de cada release?

2. ¿Cuál es vuestro tiempo medio de parche para vulnerabilidades de severidad crítica descubiertas internamente, y cuál para las descubiertas externamente?

3. ¿Tenéis acceso a Project Glasswing o a algún equivalente, y si no, cuál es vuestra alternativa?

4. ¿Qué evidencia podéis entregar cada trimestre de las auditorías realizadas sobre el código que yo consumo?

5. ¿Vuestra arquitectura permite aplicar parches sin downtime o todavía dependéis de ventanas de mantenimiento?

Si un proveedor se siente incómodo respondiendo esas preguntas, ya tienes información valiosa; si responde con concreción, también. En los dos escenarios la decisión de compra cambia.

Mythos no es un problema exclusivo de Anthropic. Es un cambio de fase en la forma en que se ataca y se defiende software, y las empresas que lo entiendan esta primavera tendrán una ventaja defensiva de doce meses sobre las que lleguen a esa misma conclusión en otoño.

Si quieres trabajar cómo aterrizar todo esto en tu organización, nuestros programas de asesoría estratégica están diseñados exactamente para eso, sin ejecución y con la conversación honesta que tu consejo necesita tener.