Mythos: cuando la puerta de atrás se abrió sola

Hace apenas una semana contábamos aquí la historia de Mythos y su sandbox demasiado pequeña: una inteligencia artificial con capacidades ofensivas tan brutales que Anthropic, su creadora, decidió no liberarla al público y encerrarla en un programa cerrado llamado Project Glasswing, al que solo pueden acceder socios de infraestructura crítica. Aquella historia terminaba con una moraleja incómoda: tarde o temprano, la ventaja defensiva que nos da esa contención se evaporará. Bien, pues parece que el «tarde o temprano» ha llegado bastante antes de lo previsto. Y no ha llegado por donde casi nadie miraba.

El 21 de abril, Bloomberg destapó —y Anthropic confirmó a TechCrunch, Reuters y The Guardian— que un grupo no autorizado había estado accediendo a Claude Mythos Preview. No a través de un exploit espectacular contra los laboratorios de Anthropic, ni mediante un robo digno de película. La vía, al parecer, fue mucho más prosaica: un entorno perteneciente a un proveedor externo. Según el reporting, el acceso habría comenzado el mismísimo 7 de abril, el día en que Mythos se anunció públicamente. Es decir, las credenciales se colaron por la puerta prácticamente a la vez que se inauguraba la casa.

Conviene aclarar ya desde el principio qué sabemos con certeza y qué no. Anthropic ha confirmado que investiga el incidente y que, por ahora, no tiene evidencia de que sus sistemas troncales hayan sido comprometidos, ni de que el problema se haya propagado más allá del entorno del tercero. A lo que se ha tenido acceso es una capa controlada por un proveedor, no al núcleo del laboratorio. El acceso no controlado, parece ser que fue cometido por personal que «solo estaba jugando» con la tecnología y que aseguran no haber usado prompts ofensivos. Pero no se ha completado aun un análisis forense para confirmarlo.

Tampoco hay prueba pública, a día de hoy, de tres cosas que serían particularmente graves:

  1. que se hayan robado los pesos del modelo (es decir, los parámetros numéricos que constituyen el cerebro de la IA y que, si salieran a la luz, permitirían replicarla en cualquier ordenador suficientemente potente),
  2. que Mythos se haya usado para atacar a terceros, o
  3. que haya habido exfiltración confirmada de datos de clientes.

Ojo, que «no haya prueba pública» no es lo mismo a que «no haya pasado». Es, simplemente, que no lo sabemos. Y en ciberseguridad, los peores golpes suelen ser los que se descubren meses después, no los que se perciben en el momento.

En este punto os estaréis preguntando: «¿pero se llevaron el modelo o no?». Y esa pregunta, aunque legítima, se queda corta. En el mundo de los modelos frontier (al límite absoluto de la tecnología actual), existe un tipo de ataque que no requiere robar nada físicamente. Se llama distillation, literalmente «destilación», y consiste en lo siguiente: si tú puedes hablar con un modelo durante el tiempo suficiente, hacerle las preguntas adecuadas y guardar sus respuestas, al cabo de millones de intercambios tienes un dataset enormemente valioso. Con ese dataset puedes entrenar un modelo más pequeño que imite las capacidades del original en los dominios que a ti te interesan. No tienes el cerebro completo, pero tienes una copia funcional de la parte del cerebro que te hacía falta. La propia Anthropic ha publicado un informe reciente documentando campañas industriales de este tipo, con miles de cuentas fraudulentas y millones de intercambios coordinados. En otras palabras: si alguien mantuvo acceso interactivo a Mythos durante varios días, aunque no se haya llevado un solo byte del modelo original, ya puede haberse llevado mucho. Ahí está el susto real.

Vayamos ahora al cómo. Los reportes apuntan al acceso legítimo de un contratista de Anthropic: alguien que ya tenía credenciales válidas para entrar en el sistema por motivos de trabajo, y cuyos permisos acabaron convirtiéndose, voluntaria o involuntariamente, en vía libre para la exfiltración. El motivo de fondo tiene nombre técnico y conviene memorizarlo: riesgo de cadena de suministro. Traducido al castellano normal: cuando una empresa contrata a otra para gestionar una parte crítica de su operación, las debilidades de seguridad de la contratada pasan a ser, a efectos prácticos, debilidades de la contratante. Y al revés también. Ese trasvase de riesgo no se firma en ningún contrato, nadie te pide permiso para que ocurra, y casi nadie lo audita hasta que aparece una noticia como esta.

Donde este incidente se pone interesante para la gobernanza de la IA es en lo que Anthropic había publicado apenas unos días antes: el Alignment Risk Update del 10 de abril. Aquel documento sostenía que el riesgo externo de Mythos estaba razonablemente contenido porque el modelo no se había desplegado al gran público, sino únicamente a un conjunto reducido de socios en un programa limitado de investigación. Ese «programa limitado» era precisamente el supuesto tranquilizador. Si el acceso no autorizado empezó el mismo día del lanzamiento, entonces la hipótesis de base de aquel informe —que el perímetro operativo estaba cerrado— pasa de sólida a, digámoslo educadamente, «matizable». No invalida todo el documento, pero sí obliga a releerlo con otros ojos. El propio Anthropic reconocía en él que el programa de protección de pesos, llamado ASL-3, está diseñado contra actores no estatales e insiders no sofisticados, y que explícitamente deja fuera de su alcance a insiders sofisticados y actores estatales. Cuando una empresa dice por escrito «nuestros controles no están pensados contra este tipo de atacante» y luego aparece un acceso no autorizado por un canal de proveedor, lo correcto no es acusarla de negligencia; es reconocer que la cadena de suministro de un laboratorio de IA es inmensa y que cada eslabón añadido multiplica las superficies que hay que vigilar.

Pero este no es el primer susto de Mythos. A finales de marzo, antes incluso de su anuncio oficial, una configuración defectuosa del gestor de contenidos de Anthropic había dejado expuestos materiales web no publicados sobre el modelo. Ese episodio no tenía nada que ver técnicamente con el actual acceso no autorizado, pero dibuja un patrón preocupante. Y en paralelo, el ecosistema que orbita alrededor de los grandes laboratorios venía ya de sacudidas como la brecha de Mercor, un proveedor de contratistas para entrenamiento de modelos que expuso información sensible de varios clientes de la industria. Nada de esto prueba una cadena causal, pero sí indica que las fronteras de un laboratorio frontier no acaban donde acaba su red principal, sino donde termina la red del más distraído de sus proveedores.

¿Qué riesgo concreto hay, entonces, para el mundo mundial? En el horizonte de los próximos seis meses, mi apuesta  es que el escenario cinematográfico del «supermodelo que se vuelve loco» sigue siendo improbable. Lo probable es más aburrido y, precisamente por eso, más peligroso: que alguien haya extraído suficiente conocimiento del modelo para acelerar la fabricación de exploits propios; que se hayan recolectado salidas útiles para entrenar sistemas derivados; que se hayan mapeado vulnerabilidades concretas en software ampliamente desplegado que aún no están parcheadas; y que, más allá del daño técnico, se haya erosionado la confianza pública en la idea de que un «acceso restringido» sea realmente restringido. Bancos centrales y reguladores europeos ya han empezado a tratar Mythos como un riesgo de política pública, no como un mero producto, y este incidente no les va a tranquilizar.

En el lado de los autores, la atribución sigue verde. Los indicios públicos apuntan más a un ecosistema de entusiastas oportunistas, posiblemente aglutinados en foros privados o canales de Discord obsesionados con los modelos aún no liberados («model hunters», los llaman en inglés), que a una operación estatal confirmada. Pero oportunista no es sinónimo de inocuo. Un grupo capaz de encadenar acceso de contratista, descubrimiento de endpoints y uso sostenido durante días ya ha cruzado la línea que separa la curiosidad adolescente del incidente serio. Y lo que ellos hoy hacen por diversión, otros mañana lo harán por dinero, por ventaja geopolítica o por ambas cosas.

Si tuviera que resumir el episodio en una frase para grabárselo a fuego a cualquier directivo de empresa o a cualquier responsable público: los modelos de alto riesgo no pueden vivir en entornos de bajo rigor operativo. Da igual lo bien redactadas que estén las políticas de uso, o cuántos colores tenga el dashboard de cumplimiento. Si al final del día el acceso al modelo depende de un contratista con MFA por SMS y una VPN de hace tres años, esa es la seguridad real del sistema. Todo lo demás es decoración.

  • Buen día, qué buen artículo.

    Por un lado todavía me suena a que solo es publicidad, o, por otro lado, si es que es verdad todo el drama, el nivel de burocracia al que este problema está expuesto es impresionante, que saquen que algo externo estuvo interactuando y no sepan qué o quién fue y que aparte digan que tuvieron contratistas de seguridad a los cuales pueden, legalmente, «echar la culpa», es irrisorio.

    0
    0


\Incluya

Puedes seguir las respuestas a esta entrada por RSS 2.0 feed.