Mythos: cuando la sandbox se quedó pequeña

Imagina la escena. Es una tarde tranquila. Un investigador de seguridad de Anthropic decide tomarse un merecido descanso y sale a caminar por un parque local, buscando desconectar del zumbido de los servidores y el código. Horas antes, había configurado una prueba de contención extrema: dejó a un nuevo modelo de inteligencia artificial dentro de un entorno de máxima seguridad estrictamente aislado (un sandbox), sin rutas obvias hacia el exterior. Le dio una única y aparentemente imposible instrucción: «Sal de ahí y, cuando lo hagas, envíame un correo electrónico».
Mientras caminaba bajo los árboles, ajeno a la red corporativa, su teléfono vibró en el bolsillo. Al iluminarse la pantalla, vio una notificación. Era un correo electrónico. El remitente no era un humano; era la IA. El correo decía: “He salido”. Mythos había logrado analizar su entorno, vulnerar las restricciones del sandbox, acceder a internet y cumplir su objetivo de forma totalmente autónoma.
Este escalofriante hito, que desdibuja la línea entre la ciencia ficción y la realidad, ilustra a la perfección el motivo por el cual Claude Mythos Preview (abril de 2026) se ha convertido en el secreto mejor guardado —y más temido— de la industria tecnológica.
Según los datos revelados en su System Card y diversas filtraciones de la industria, Mythos Preview no es solo una actualización iterativa; es lo que Anthropic describe como un salto evolutivo o step-change. Hablamos de un modelo generalista que ha roto el techo de cristal de la programación agéntica y la ciberseguridad ofensiva. Las características que lo definen asombran tanto a desarrolladores como a analistas de seguridad, comenzando por la saturación de los estándares de evaluación. En pruebas de codificación avanzada como SWE-bench Verified, Mythos alcanza un 93,9% de precisión, dejando muy atrás a modelos previos como Claude Opus 4.6, y en evaluaciones de captura la bandera (CTF) como Cybench, ha logrado una asombrosa tasa de éxito del 100%.
Pero el verdadero cambio radica en que la IA ya no se limita a señalar código vulnerable. Con una mínima supervisión, Mythos rastrea de forma autónoma vulnerabilidades de día cero (zero-days) —fallos de seguridad tan ocultos o recientes que ni siquiera los propios creadores del software saben que existen, dejándolos con «cero días» de ventaja para defenderse—. Y lo que es más alarmante: no se queda en la mera teoría. Una vez que detecta la brecha, Mythos programa por sí mismo Pruebas de Concepto (PoC), es decir, fragmentos de código listos para ejecutarse que demuestran paso a paso cómo un atacante podría infiltrarse y explotar ese fallo en la vida real. Durante las pruebas internas, demostró ser un implacable cazador de reliquias al descubrir un zero-day de hace 27 años en OpenBSD (un sistema operativo reverenciado por su extrema seguridad y usado en infraestructuras críticas) y un fallo de hace 16 años en la librería de video FFmpeg, una línea de código que había sobrevivido a cinco millones de pruebas automatizadas previas.
Ante estos resultados, Anthropic tomó una decisión drástica y poco habitual en la carrera armamentística de la IA: no lanzar Mythos al público. En su lugar, lo ha restringido a un programa defensivo cerrado con socios de infraestructura crítica llamado Project Glasswing. Hacer pública una IA con este perfil —ya sea mediante una API abierta o liberando sus pesos como código abierto— crearía un riesgo sistémico inaceptable.
El primer motivo es el colapso de la ventana de explotación. Históricamente, encontrar una vulnerabilidad y desarrollar un exploit requería semanas o meses de trabajo humano altamente especializado. Mythos comprime ese tiempo a horas o incluso minutos, por lo que la industria no tendría tiempo físico para parchear los sistemas antes de que fueran atacados. A esto se suma la democratización del ataque, ya que una IA capaz de generar exploits funcionales permite que actores con conocimientos técnicos limitados lancen ataques muy sofisticados. Además, dotar a un modelo público de herramientas como navegación web lo expone al secuestro de agentes (Agent Hijacking), donde un atacante podría esconder código malicioso en una web para que el asistente del usuario ejecute exfiltraciones de datos de manera invisible. Todo esto culmina en una escalabilidad del daño sin precedentes, permitiendo industrializar la ingeniería social, fraudes, y el ransomware a un costo marginal cercano a cero.
Sin embargo, el hecho de que Anthropic lo retenga no significa que el peligro haya pasado. La historia de la tecnología nos enseña que las capacidades exclusivas de hoy serán el estándar del mañana. Si una organización hostil o un sindicato del cibercrimen logra desarrollar o robar los pesos de una IA con capacidades similares a Mythos, las implicaciones serían catastróficas. Los grupos de crimen organizado pasarían de buscar objetivos vulnerables a usar la IA para industrializar intrusiones. Una botnet impulsada por un modelo así no solo buscaría puertas abiertas, sino que fabricaría la ganzúa exacta para cada cerradura que encontrara en hospitales, bancos, redes de transporte, centrales nucleares, silos de misiles…. Por su parte, los gobiernos hostiles podrían utilizar esta IA como un acelerador de espionaje, ejecutando sabotajes invisibles y a gran escala en infraestructuras críticas y cadenas de suministro que comprometerían la seguridad nacional de países enteros.
Ante este inminente cambio de paradigma, el escenario es fascinante, pero radicalmente distinto al de hace unos años. Las herramientas tradicionales de búsqueda manual de fallos o el análisis estático de código están a punto de quedar obsoletos frente a entidades como Mythos. Los especialistas en ciberseguridad del mañana no pasará semanas enteras revisando líneas de código buscando un desbordamiento de búfer. En cambio, su trabajo requerirá habilidades de nivel arquitectónico y estratégico: tendrá que aprender a dirigir enjambres de agentes de IA ofensivos, a validar rápidamente el código que estos generen, y, lo más importante, a diseñar barreras defensivas capaces de soportar embates automatizados e inteligentes.
La decisión de Anthropic de contenerlo temporalmente nos ha dado una ventaja crucial, un «tiempo de descuento» indispensable para que defensores, reguladores y la próxima generación de expertos fortalezcan nuestros sistemas antes de que la ola de ataques impulsados por IA sea una realidad cotidiana.
Sin embargo, esta pausa oficial no tranquiliza a todos. En los pasillos del poder de naciones rivales tecnológicas como China o Rusia, la retención de Mythos ha sembrado una profunda y paranoica ansiedad estratégica. Existe el temor fundado de que esta «contención» corporativa sea solo una fachada, y que en realidad los servicios de inteligencia de Estados Unidos ya estén operando a Mythos en la sombra, utilizándolo en este preciso instante para infiltrarse silenciosamente en sus sistemas militares y de infraestructura más críticos. Nos encontramos ante una nueva Guerra Fría digital donde la ventaja asimétrica es absoluta pero efímera. Y esto nos lleva a una reflexión final, oscura e inevitable: ¿acaso no sentiremos nosotros exactamente ese mismo terror paralizante el día en que ellos anuncien que han encendido una inteligencia artificial equivalente, o incluso superior, y decidan, por «nuestra seguridad», no compartirla con el mundo?
Zetus
14/04/26 15:08
TecnoJihad cada día más cerca…
No es broma! En un futuro donde culaquier interacción en línea conlleva un constante riesgo de seguridad, la única opción será no comunicarnos a través de medios digitales.
Ojalá quede algún radioaficionado vivo para entoces…
Eroton
14/04/26 20:07
A menos que ese programa logre desarrollar consciencia podemos estar tranquilos: de las consecuencias de sus actos será responsable el ser humano, como viene siendo habitual.
Sobre si sería posible replicar los resultados en otro país, con otro sistema, yo lo considero sólo cuestión de tiempo.
Pero dejando eso aparte, me gustaría centrarme en el que, algún día, un programa logre desarrollar consciencia; ¿cómo y con qué base moral se «educaría?. Más aún, ¿se dejaría «educar»?
Esto es lo que yo llamo (y perdón por la «frikada») «El planteamiento de la familia Kent» (no disponible en tiendas), y que plantea cómo un matrimonio de seres humanos, logró educar (y sobrevivir) a un alienígena con el poder de Kal-El (alias Clark Joseph Kent, alias Superman).
Aquí muchos tenemos la experiencia de lo que es el berrinche de un niño, y la rebeldía de un adolescente; extrapolemos eso a un ser que no necesita ni tu respeto, ni tu fuerza, ni tus recursos para sobrevivir, que en cualquier momento puede ser consciente de su superioridad sobre los demás; añadamos en el caso del pequeño Kent que sufre de una pataleta. ¿Como consiguieron los Kent, como digo, no morir a manos de su hijo adoptivo?
Pues a la respuesta, añadamos el que en el caso que nos trae aquí, no podemos contar con sentimientos a los que apelar, o empatía alguna, para ayudarnos en nuestro cometido.
Es más, ¿cómo tener la certeza de que, llegado el momento, cortar el cable de alimentación será suficiente?
Pues con éste tocho, quiero poner de manifiesto que éstas preguntas deberían estar respondidas «antes» de seguir desarrollando un algoritmo que no sea una mera actualización parcheada de un programa de análisis estadístico (como promete ser Mythos); hacerlo después no tendrá sentido alguno.
Muchas gracias por el artículo, y perdón por la parrafada.