Estados Unidos ordena a Anthropic suspender el acceso de ciudadanos extranjeros a Fable 5 y Mythos 5 – CYBERDEFENSA.MX

antrópico dicho el viernes «inhabilitará abruptamente» sus modelos de inteligencia artificial (IA) más avanzados, Claude Fábula 5 y Mitos 5para todos los usuarios después de que el gobierno de EE. UU. le ordenara suspender el acceso a los modelos para ciudadanos extranjeros, ya sea dentro o fuera de EE. UU., citando preocupaciones de seguridad nacional.

La compañía AI dijo que recibió una orden a las 5:21 pm ET, instruyéndole a suspender todo acceso a los modelos por parte de ciudadanos extranjeros. Dijo que creía que había habido un «malentendido» y que estaba trabajando para restablecer el acceso a los modelos lo antes posible. El acceso a otros modelos no se verá afectado por la directiva de control de exportaciones.

«Tenemos entendido que el gobierno cree que se ha dado cuenta de un método para eludir o ‘liberar’ Fable 5», dijo la compañía.

«Revisamos una demostración de esta técnica específica que se utiliza para identificar una pequeña cantidad de vulnerabilidades menores previamente conocidas. Todas estas vulnerabilidades parecen relativamente simples, y hemos descubierto que otros modelos disponibles públicamente también pueden descubrirlas sin necesidad de pasar por alto».

La medida inesperada se produce días después del lanzamiento de Claude Fable 5 y su homólogo Mythos 5, que utiliza el mismo modelo subyacente pero con las salvaguardias eliminadas en algunas áreas, como la ciberseguridad. Este último, descrito como el que tiene «las mayores capacidades de ciberseguridad de cualquier modelo en el mundo», sigue siendo accesible a un grupo examinado de ciberdefensores y operadores de infraestructura crítica.

Ciberseguridad

Anthropic enfatizó que ha implementado barreras de seguridad «fuertes» para evitar el uso indebido de sus modelos para tareas relacionadas con la ciberseguridad. Específicamente, esto está respaldado por un conjunto de clasificadores de seguridad que se utilizan para detectar posibles usos indebidos, incluidos intentos de jailbreak, y prohíben que el modelo principal responda.

El clasificador de ciberseguridad está diseñado para bloquear solicitudes dañinas de un solo turno relacionadas con la planificación de un ciberataque, el desarrollo de exploits o la evasión de defensa, y la compañía señala que los modelos de clase Mythos son expertos en encontrar y explotar vulnerabilidades de software, brindando así a los atacantes una ventaja estratégica.

La semana pasada, Anthropic reveló que su modelo de clase Mythos puede convertir vulnerabilidades de software recientemente reveladas en exploits funcionales en horas, o incluso minutos en algunos casos, en lugar de semanas, convirtiendo N días en N horas. Los hallazgos sugieren que los modelos de frontera pueden ser igual de buenos para convertir rápidamente en armas los defectos que se han revelado públicamente.

«Un operador solitario ahora puede convertir los parches de un mes en exploits funcionales en una sola tarde, por unos pocos miles de dólares y sin experiencia especializada», dijo el equipo rojo de Anthropic. dicho. «Esto significa que el típico manual de parches que los desarrolladores de software utilizan hoy en día – con cadencias de lanzamiento mensuales, implementaciones por etapas de varias semanas y un desfase entre los canales de prelanzamiento y estables – ya no se cumple».

Las protecciones de Fable 5 significan que las consultas sobre temas de ciberseguridad recibirán una respuesta de Claude Opus 4.8, el próximo modelo capaz de la compañía.

En su última declaración, la compañía argumentó que no se han desarrollado métodos universales de jailbreak contra los últimos modelos hasta la fecha, y agregó que los ejercicios internos y de terceros han descubierto que sus salvaguardas son «sustancialmente más efectivas que las de cualquier modelo implementado anteriormente».

Además, Anthropic afirmó que «la resistencia perfecta al jailbreak» no es posible para ningún proveedor modelo, ya que cada salvaguarda utilizada por la industria es susceptible a jailbreaks no universales que son «efectivos en contextos muy limitados o requieren un esfuerzo adicional para adaptarse a cada nueva situación».

Ciberseguridad

«Hasta la fecha, el gobierno sólo nos ha dado evidencia verbal de un potencial jailbreak limitado y no universal, que esencialmente consiste en pedirle al modelo que lea una base de código específica y corrija cualquier falla de software», dijo.

«Tenemos entendido que se compartió un posible jailbreak con el gobierno. Hemos revisado un informe que creemos que es la base de la directiva del gobierno y validamos que el nivel de capacidad mostrado allí está ampliamente disponible en otros modelos (incluido el GPT-5.5 de OpenAI), y es utilizado todos los días por los defensores que mantienen seguros los sistemas».

Anthropic también señaló que si bien corresponde al gobierno bloquear los despliegues inseguros de IA, dijo que el descubrimiento de un «posible jailbreak estrecho» no debería ser la razón para retirar un modelo comercial que se ha implementado ampliamente. El proceso legal debe ser «transparente, justo, claro y basado en hechos técnicos», añadió.

A principios de este año, el Departamento de Defensa de EE.UU. calificó a Anthropic como un «riesgo para la cadena de suministro» después de que el fabricante de Claude intentara trazar líneas rojas sobre el uso militar de su tecnología. La empresa ha presentado dos demandas para bloquear la designación.

Anthropic lanza Claude Fable 5, su IA más poderosa hasta el momento, con salvaguardias cibernéticas – CYBERDEFENSA.MX

El 9 de junio, Antrópico lanzado Claude Fábula 5el modelo más capaz que jamás haya fabricado, está disponible de forma generalizada. También hizo algo inusual: envió un modelo como dos productos, divididos no por capacidad sino por una capa de clasificadores de seguridad.

Fábula 5 sale al público. Su gemelo, Claude Mythos 5, el mismo modelo subyacente con las salvaguardas cibernéticas eliminadas, permanece restringido a un grupo examinado de ciberdefensores y operadores de infraestructura crítica.

Anthropic considera que Mythos 5 es el modelo de ciberseguridad más sólido del mundo.

La diferencia práctica es la siguiente: Fable 5 enruta las solicitudes cibernéticas, biológicas, químicas y de destilación al Claude Opus 4.8, más débil, mientras que Mythos 5 mantiene las capacidades cibernéticas disponibles para los usuarios examinados. Ambos modelos cuestan 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida, menos de la mitad del precio del Mythos Preview anterior, y Fable 5 ya está disponible a través de la API de Claude.

Está incluido en los planes Pro, Max, Team y Enterprise basados ​​en asientos sin costo adicional hasta el 22 de junio y luego pasa a créditos de uso.

Cómo funcionan los clasificadores cibernéticos de Fable 5

La división existe porque los modelos de clase Mythos encuentran y explotan vulnerabilidades de software lo suficientemente bien como para que, en el marco de Anthropic, entregar esa capacidad al público en general sin controles daría a los atacantes un gran beneficio.

El mecanismo es un conjunto de clasificadores: sistemas de IA separados que vigilan el mal uso y los intentos de jailbreak. Cuando una solicitud lo hace tropezar, Fable 5 no se niega. La respuesta se entrega a Opus 4.8 y se le informa al usuario que se produjo la transferencia. De las categorías marcadas, la destilación es la que destaca: significa extraer las capacidades de un modelo para entrenar un modelo competidor, que Anthropic bloquea para evitar que las habilidades cercanas a la frontera se filtren sin salvaguardias adjuntas.

Ciberseguridad

El clasificador de ciberseguridad es el amplio. Anthropic lo diseñó para bloquear no sólo el desarrollo de exploits sino también las tareas cibernéticas ofensivas en general: reconocimiento, descubrimiento, movimiento lateral, los pasos de agencia que conforman un ataque real.

En una evaluación interna ejecutada con Fable 5 configurado para bloquear en lugar de retroceder, y que no intentó evadir las salvaguardas, los clasificadores impidieron que el modelo progresara en esas tareas. Un socio externo descubrió que Fable 5 cumplió con cero solicitudes dañinas de un solo turno sobre planificación de ataques cibernéticos, desarrollo de exploits o evasión de defensa, resistiendo 30 técnicas públicas diferentes de jailbreak.

La compensación son los falsos positivos. Anthropic ajustó las medidas de seguridad de manera conservadora para realizar envíos rápidos, por lo que a veces detectan solicitudes inofensivas. La compañía dice que el respaldo se activa en menos del 5% de todas las sesiones, por lo que durante más del 95%, Fable 5 se comporta como el Mythos 5 cibernético sin restricciones. Esa cifra cubre todos los respaldos, incluidos los bloques genuinos, por lo que limita la interrupción total en lugar de medir la tasa de falsos positivos por sí solo. Anthropic dice que reducirá las salvaguardas y eliminará los falsos positivos después del lanzamiento.

En cuanto a la solidez, las cifras son específicas. Una recompensa por errores externos duró más de 1000 horas y no produjo ningún jailbreak universal, ni un aviso ni un arnés que elimine las salvaguardias por completo. Los equipos rojos externos tampoco encontraron ninguno en tareas de agente de larga duración, con una advertencia que Anthropic afirma claramente: el Instituto de Seguridad de IA del Reino Unido avanzó hacia un jailbreak universal dentro de una breve ventana de prueba inicial. Anthropic admite que probablemente sea imposible prevenir por completo los jailbreaks universales, y su objetivo declarado es hacer que aquellos que sigan siendo lo suficientemente lentos y costosos como para detectarlos antes de que se utilicen a escala.

¿Por qué la capacidad es una amenaza?

Los argumentos a favor de tratar este modelo con cuidado se expusieron en abril, cuando Anthropic lanzó Vista previa de Claude Mythos para un grupo limitado a través de Proyecto Ala de Vidrio. El redacción técnica del equipo rojo de Anthropic es la parte que vale la pena leer.

Durante las pruebas, Mythos Preview identificó y aprovechó vulnerabilidades de día cero en todos los principales sistemas operativos y en todos los principales navegadores web cuando un usuario lo indicó. El error más antiguo que encontró fue una falla de hace 27 años en OpenBSD, un sistema operativo conocido principalmente por su seguridad. Escribió de forma autónoma un exploit de ejecución remota de código contra el servidor NFS de FreeBSD a partir de un error de hace 17 años, clasificado como CVE-2026-4747.

Anthropic describe el resultado como raíz completa para un atacante no autenticado desde cualquier lugar de Internet; La entrada de NVD es más mesurada, teniendo en cuenta que el desbordamiento de la pila en sí no requiere que el cliente se autentique, sino que encuadra la ejecución del código del kernel como accesible para un atacante capaz de enviar paquetes al servidor NFS mientras el módulo kgssapi.ko está cargado.

Según el propio Anthropic, no entrenó explícitamente estas capacidades en; surgieron como un efecto secundario de mejoras generales en el código, el razonamiento y la autonomía, las mismas ganancias que hacen que el modelo sea mejor en la aplicación de parches. La advertencia categórica del equipo rojo: las mitigaciones cuyo valor de seguridad proviene de la fricción en lugar de barreras duras se vuelven mucho más débiles frente a un modelo que avanza a través de tediosos pasos de explotación a escala.

Barreras técnicas duras como KASLR y W^X aún aumentan el costo; la advertencia es más limitada, dirigida a defensas que dependen de la paciencia del atacante o del esfuerzo manual, y el modelo ahora puede autoabastecerse.

Mythos 5 lleva adelante esas habilidades. Anthropic dice que los usuarios lo encontrarán comparable o algo más potente que Mythos Preview.

El verdadero problema del defensor

El argumento defensivo no es hipotético. En las primeras semanas del Proyecto Glasswing, Anthropic y aproximadamente 50 socios utilizaron Mythos Preview para encontrar más de diez mil vulnerabilidades de gravedad alta o crítica en software de importancia sistémica.

Solo Cloudflare encontró 2000 errores, 400 de ellos de gravedad alta o crítica. Mozilla encontró y solucionó 271 en Firefox 150, más de diez veces lo que detectó en Firefox 148 usando el antiguo Opus 4.6. Anthropic dice que la misma presión es visible más allá de Glasswing, en los proveedores que envían versiones de seguridad inusualmente grandes.

Esa inundación es el truco. Encontrar errores ahora es barato y rápido. Verificarlos, clasificarlos y parchearlos no lo es, y aún funciona en tiempo humano.

Anthropic informa que los mantenedores de código abierto, ya enterrados bajo informes de errores de baja calidad generados por IA, le han pedido que ralentice sus divulgaciones porque no pueden escribir parches lo suficientemente rápido. En Glasswing, dice que un error de gravedad alta o crítica encontrado por el modelo tarda unas dos semanas en corregirse en promedio.

El cuello de botella ha pasado del descubrimiento a la solución, y la brecha entre una divulgación pública y un parche implementado es donde viven los atacantes. Los experimentos del día N del equipo rojo agudizan el punto: partiendo de nada más que un CVE revelado y su parche, Mythos Preview creó exploits de escalada de privilegios de Linux en menos de un día cada uno, con unos pocos miles de dólares o menos en cómputo.

Ciberseguridad

Para los defensores, la lectura es la misma de siempre, solo que en un tiempo más corto: asumir que un CVE de alta gravedad puede convertirse en un exploit funcional a las pocas horas de su divulgación, no semanas. Eso significa priorizar las rutas de actualización automática para los sistemas conectados a Internet y tratar los problemas de dependencia que conllevan correcciones CVE como un trabajo urgente en lugar de un trabajo atrasado.

La MFA y el registro integral siguen siendo la base, por lo que un único parche perdido no se convierte en lo único que se interpone entre un atacante y la red. Anthropic ha abierto una Programa de verificación cibernética que permite a los profesionales de seguridad examinados utilizar sus modelos para trabajos ofensivos legítimos sin las salvaguardias cibernéticas.

Un nuevo requisito de retención de datos de 30 días

Anthropic también está cambiando la forma en que maneja los datos para los modelos de clase Mythos.

Requerirá una retención de 30 días para todo el tráfico en Fable 5, Mythos 5 y modelos futuros en este nivel de capacidad, tanto en superficies propias como de terceros. La compañía dice que no utilizará los datos para capacitación ni ningún propósito que no sea de seguridad, registrará todo acceso humano y los eliminará después de 30 días, excepto cuando una investigación de seguridad u obligación legal requiera conservarlos por más tiempo.

La razón declarada es defensiva: los datos ayudan a detectar nuevos ataques y jailbreaks que operan en muchas solicitudes. Los equipos con requisitos estrictos de manejo de datos querrán tener en cuenta esa ventana de retención antes de enrutar el tráfico confidencial a través de estos modelos.

Anthropic planea ampliar el acceso a Mythos 5 a través de un programa de acceso confiable y dice que una vez que la capacidad de cómputo se ponga al día, su objetivo es volver a incluir Fable 5 en planes de suscripción sin la prima de crédito de uso que entrará en vigor después del 22 de junio.

La pregunta más importante que plantea el lanzamiento es la que Anthropic ha estado dando vueltas desde abril: están llegando modelos con capacidades similares de otros laboratorios, y no todos se enviarán con una pared de clasificadores al frente. La ventaja defensiva que Glasswing debía comprar sólo importa si el resto de la industria la utiliza.