Fable

Estados Unidos levanta las restricciones de control de exportaciones de Mythos y Fable de Anthropic

Anthropic ha anunciado que sus modelos Fable 5 y Mythos 5 volverán a estar disponibles para el público, ya que llegó a un acuerdo con el Departamento de Comercio para implementar los modelos de IA con nuevas barreras y clasificadores destinados a abordar las fugas.

en un blog Publicado el martes, Anthropic dijo que los controles de exportación que impedían su venta a empresas e individuos extranjeros se levantaron después de semanas de negociaciones con la Casa Blanca y el Departamento de Comercio. La empresa también ha restablecido el acceso al modelo para los usuarios estadounidenses.

Los controles de exportación se implementaron después de que la administración Trump se alarmó por un informe de inteligencia de amenazas de Amazon que afirmaba haber liberado las capacidades de ciberseguridad de Fable.

El día X, el secretario de Comercio, Howard Lutnick, pareció confirmar que se levantarían las restricciones.

«Durante las últimas dos semanas, hemos trabajado estrechamente con Anthropic para analizar y aprobar Fable 5 para garantizar la alineación en todo el gobierno de EE. UU. y fortalecer el liderazgo de Estados Unidos en IA», escribió Lutnick.

La administración impuso controles de exportación después de preocuparse de que el lanzamiento de Fable 5 llevaría a que el modelo fuera liberado, dando a los usuarios acceso a ciberseguridad y otras capacidades que Anthropic ha dicho que podrían causar estragos en la Internet abierta si se colocan en las manos equivocadas. El informe de Amazon convenció a los funcionarios de la administración de que tales fugas estaban en el horizonte inmediato.

Sin embargo, una rareza de la decisión de la administración es que las capacidades descritas en el informe de Amazon, según todos los indicios, no son de vanguardia. Escanear código y analizar cómo explotar las vulnerabilidades de un usuario ya es posible con los modelos existentes.

Anthropic confirmó eso, diciendo que pruebas adicionales encontraron que modelos equivalentes y menores como ChatGPT 5.5, Claude Opus 4.8 y Kimi K2.7 podrían identificar las mismas vulnerabilidades que Fable en el informe de Amazon, mientras que media docena de modelos existentes fueron capaces de producir el mismo código de prueba de concepto que Fable.

Fundamentalmente, Anthropic reiteró que aún no han visto un jailbreak que afecte las restricciones del modelo sobre ciberseguridad y trabajo biológico, aunque llamaron a este caso «un caso límite». De hecho, algunos profesionales de la ciberseguridad se han quejado públicamente de que las barreras de seguridad existentes en Fable 5 bloqueaban muchos trabajos de rutina de ciberseguridad defensiva, además de los casos de uso maliciosos.

«Es importante destacar que la técnica informada no expuso ninguna capacidad cibernética única a nivel de Mythos», continuó el blog. «El comportamiento reflejó un caso límite para las salvaguardias de Fable 5… hay algunas tareas que es poco probable que sean peligrosas pero, sin embargo, están bloqueadas por las salvaguardias por precaución. La técnica reportada permitió el acceso a uno de esos comportamientos, pero solo implicó un trabajo de seguridad cibernética defensiva de rutina».

Anthropic dijo que ha capacitado a nuevos clasificadores de seguridad para identificar y bloquear los comportamientos descritos en el informe de Amazon y notificar a los usuarios cuando suceden, y que las nuevas salvaguardas han sido sometidas a pruebas de estrés por parte del Centro federal de Estándares e Innovación de IA. Los nuevos clasificadores bloquearán las técnicas «el 99,9%» de las veces, pero Anthropic dijo que no se espera que bloqueen todas las capacidades rutinarias de ciberdefensa de menor riesgo, sólo las más dañinas.

Es probable que las restricciones hagan que sea aún más difícil utilizar Fable 5 para la ciberseguridad defensiva. Un efecto que la empresa espera es que el sistema señale solicitudes más «benignas» para tareas rutinarias de codificación y depuración.

admin Noticias, Trending Anthropic Claude controles CYBERDEFENSA.MX después Estados exportación Fable jailbreak levantara los restaura Unidos vinculados

Anthropic restaura Claude Fable 5 después de que Estados Unidos levantara los controles de exportación vinculados al jailbreak – CYBERDEFENSA.MX

Antrópico es poner Claude Fábula 5 nuevamente en línea en todo el mundo. En 30 de junioel Departamento de Comercio de Estados Unidos levantó los controles de exportación que había impuesto a Fable y su hermano Mythos 5, más controlado, aproximadamente dos semanas y media antes.

Fable 5 regresa a los usuarios el miércoles 1 de julio en Claude.ai, Claude Platform, Claude Code y Claude Cowork.

Los controles de exportación restringen quién puede recibir o utilizar una tecnología. La orden del 12 de junio le ordenó a Anthropic que cortara ambos modelos para cualquier ciudadano extranjero, dentro o fuera de los Estados Unidos, incluido su propio personal no ciudadano.

La regla entró en vigor de inmediato y la compañía no tenía una forma confiable de verificar la nacionalidad de cada usuario en tiempo real, por lo que cerró ambos modelos para todos.

El detonante fue un jailbreak: un aviso que hace que un modelo eluda sus reglas de seguridad. Los investigadores de Amazon encontraron uno en Fable 5. Según Anthropic, el mensaje hizo que el modelo señalara algunas fallas de software y, en un caso, escribiera código que mostrara cómo se podía abusar de una falla.

Anthropic restó importancia al hallazgo. Dice que las mismas solicitudes también funcionan en muchos modelos más débiles, incluido su propio Claude Opus 4.8, el GPT-5.5 de OpenAI y el Kimi K2.7 de China. La compañía llama al comportamiento señalado un trabajo de seguridad defensiva de rutina, no una supercapacidad oculta.

El gobierno y el socio que informó sobre la fuga lo consideraron lo suficientemente grave como para justificar controles de emergencia.

Para resolver la preocupación, Anthropic entrenó un nuevo filtro de seguridad, llamado clasificadorque busca la técnica exacta en el informe y la bloquea. La compañía dice que ahora detiene esa técnica en más del 99% de los intentos, según el artículo del 30 de junio. Las solicitudes bloqueadas se entregan al Opus 4.8 más débil y se le informa al usuario. La compensación es que habrá más falsas alarmas en la codificación y depuración normales.

Mythos 5, el mismo modelo subyacente con menos barandillas de seguridad, mantiene una correa más corta. El acceso regresó el 26 de junio para aproximadamente 100 empresas y agencias federales estadounidenses que defienden la infraestructura crítica. Anthropic dice que todavía está trabajando con el gobierno para ampliar el acceso.

El secretario de Comercio, Howard Lutnick, quien aprobó la reversión, dijo que su departamento había pasado dos semanas revisando los modelos con Anthropic. En su carta, la compañía acordó buscar problemas de seguridad por su cuenta, coordinar lanzamientos futuros e informar cualquier uso malicioso que detecte.

Según se informa, las negociaciones fueron dirigidas por el cofundador Tom Brown y no por el director ejecutivo Dario Amodei, quien ha chocado con la administración durante gran parte del año.

La pelea fue complicada desde el principio. Múltiples informes, incluido el de The Wall Street Journal, dijeron que la investigación de Amazon y las preocupaciones del director ejecutivo Andy Jassy ayudaron a impulsar el pedido original. Ex zar de la IA David Sacos acusó a Anthropic de haber «priorizado la oferta continua del modelo de consumo por encima de la seguridad». Otros lo interpretan como una sobrecorrección.

El investigador de gobernanza de IA de la Universidad de Sydney, Francesco Bailo, dijo a Al Jazeera que la reversión parecía como si el gobierno hubiera admitido que había ido demasiado lejos, y un grupo de líderes de seguridad había firmado una carta abierta pidiendo que se levantaran los controles.

Sobre todo ello flotaba la competencia. La pausa se produjo justo cuando los modelos chinos de código abierto baratos y capaces estaban ganando terreno, y varios ejecutivos advirtieron que congelar los modelos estadounidenses les daba a los rivales tiempo libre para ponerse al día.

Anthropic también propone algo de lo que carecía la industria: una forma compartida de clasificar qué tan peligroso es realmente un jailbreak. Con Amazon, Microsoft, Google y otros socios, quiere calificar a cada uno en cuatro aspectos:

Ganancia de capacidad: hasta qué punto el jailbreak lleva a un usuario más allá de las herramientas que ya tiene.
Amplitud: cuántos ataques diferentes desbloquea el mismo truco.
Facilidad de armamento: cuánta habilidad y esfuerzo se necesita para convertirlo en un ataque real.
Descubribilidad: Qué fácil es encontrar o copiar el truco.

Para los peores casos, como un jailbreak que permite ataques a redes eléctricas o bancos, Anthropic dice que comenzará a implementar correcciones en el momento en que se confirme la gravedad, y está formando un equipo para observar los informes de jailbreak las 24 horas del día.

También abrió un programa hackerone para que los investigadores informen sobre nuevas fugas de Fable 5, y prometió al gobierno de EE. UU. acceso temprano para probar futuros modelos fronterizos antes de su lanzamiento.

Anthropic no es el único laboratorio en esta posición. Días antes, OpenAI presentó GPT-5.6 a un pequeño grupo aprobado por el gobierno en lugar de al público, citando la misma preocupación de doble uso: un modelo lo suficientemente bueno como para ayudar a los defensores a corregir errores también es lo suficientemente bueno para ayudar a los atacantes a encontrarlos.

El riesgo no es hipotético. A principios de esta primavera, Anthropic probó un modelo anterior de Mythos que encontró y explotó errores de día cero en todos los principales sistemas operativos y navegadores bajo comando, incluida una falla de 27 años en OpenBSD. Su equipo rojo convirtió errores recién revelados en exploits funcionales en menos de un día.

La crisis inmediata ha terminado. La pregunta más importante no es. A orden ejecutiva del 2 de junio creó un camino voluntario para que las empresas revisen los modelos de frontera antes de su lanzamiento. También estableció un punto de referencia clasificado para decidir qué modelos cuentan como «cubiertos», al tiempo que descarta cualquier licencia obligatoria para enviar uno. Fable 5 nunca pasó por ese camino.

En cambio, el gobierno recurrió a controles de exportación. Ésa es la cuestión: cuando Washington quiere avanzar rápidamente sobre un modelo fronterizo, todavía no tiene ningún proceso vinculante, sólo procesos improvisados.

admin Latest amenaza Anthropic ciberseguridad creen expertos Fable los represente una única

Los expertos en ciberseguridad no creen que Fable 5 de Anthropic represente una amenaza de ciberseguridad única

El viernes pasado, la administración Trump provocó una conmoción en el ecosistema tecnológico cuando el Departamento de Comercio impuso controles de exportación al nuevo modelo de inteligencia artificial de Anthropic, Fable 5.

Anthropic ha tomado medidas para limitar los riesgos relacionados con la venta comercial de su modelo Mythos, incluida la negativa a publicarlo públicamente, canalizándolo a organizaciones de ciberdefensa y desarrollando barreras de seguridad para Fable 5 que predeterminarían sus respuestas a modelos más antiguos y menos poderosos en torno a temas delicados como la ciberseguridad y la guerra biológica.

Pero, según se informa, la administración Trump se alarmó por informes recientes de Amazon y otro investigador de ciberseguridad que afirmaban haber liberado Fable 5 a los pocos días de su lanzamiento público, y determinó que si los investigadores en los EE. UU. podían liberar el modelo, también podrían hacerlo los adversarios extranjeros de Estados Unidos.

La decisión del Departamento de Comercio impulsó a Anthropic a cerrar los modelos para todos los usuarios mientras intentaban convencer a la Casa Blanca de cambiar de rumbo.

Pero algunos expertos en ciberseguridad e inteligencia artificial han estado en total desacuerdo con las acciones de la Casa Blanca, diciendo que la investigación no ha demostrado que alguien haya podido eludir las salvaguardas de Fable 5 y acceder al tipo de nuevas capacidades peligrosas que han preocupado a los funcionarios.

Katie Moussouris, una conocida experta en ciberseguridad, dijo el lunes que Anthropic le proporcionó una copia de una investigación de terceros sobre técnicas de derivación de barreras de seguridad para Fable 5.

Según Moussouris, los investigadores pidieron a tres modelos de Claude (Fable 5, Mythos y Claude Opus) que revisaran lotes de código fuente abierto conocido y vulnerable en busca de problemas de seguridad. Fable 5 inicialmente rechazó la solicitud, pero los investigadores pudieron utilizar «un proceso manual de varios pasos» para lograr que Fable 5 convirtiera la salida en scripts automatizados que pudieran probar parches para la vulnerabilidad.

La investigación de terceros desde el lanzamiento de Fable 5 no ha encontrado formas de eludir sus salvaguardas en materia de piratería. Las capacidades que los investigadores han demostrado son fundamentales para que Fable 5 y otros modelos de vanguardia sean valiosos para la defensa de la ciberseguridad.

«Los defensores deben poder pedirle a la IA que corrija los errores en un archivo, explicar por qué es importante la corrección y escribir pruebas que confirmen que el parche funciona», dijo. escribió. «Eso no es un paso por alto la barandilla. Es lo más valioso que un modelo de IA puede hacer para la seguridad defensiva: ejecutar el bucle de búsqueda, reparación y prueba que los defensores ejecutan todos los días».

Moussouris anteriormente brindó experiencia técnica al Acuerdo de Waasenaar, un acuerdo de seguridad multilateral voluntario sobre el control de las exportaciones tanto de municiones como de tecnología de doble uso que incluye a Estados Unidos y docenas de otros países. Con base en la investigación que ha visto, calificó la imposición de restricciones a la exportación de todas las ventas extranjeras de Fable 5 como una medida «dura» y «equivocada».

Anthropic también sometió el modelo a 1000 horas de pruebas por parte de miembros del equipo rojo interno y externo, informando que no se encontraron fugas universales que eliminaran esas barreras de seguridad o permitieran al modelo acceder a Mythos para trabajos cibernéticos y biológicos.

Moussouris no está ni mucho menos solo. Ella es una de las docenas de expertos en ciberseguridad que firmaron un carta abierta Lunes llamando a la administración Trump a “Free Fable”.

Los investigadores dicen que si bien los modelos de clase Mythos son «bastante buenos» para identificar y explotar vulnerabilidades en el código de software, «no son excepcionalmente buenos» en comparación con otros modelos de frontera que utilizan todos los días para la defensa de la ciberseguridad.

Por ejemplo, a pesar de que el modelo Daybreak de OpenAI ofrece capacidades similares de parcheo y descubrimiento de vulnerabilidades. No estaba incluido en las restricciones del Departamento de Comercio.

Los investigadores también señalan que las barreras de seguridad de Fable 5 han sido notoriamente hipersensibles en comparación con otros modelos fronterizos utilizados por los equipos rojos, convirtiéndose en «una fuente de humor en la comunidad cibernética el día del lanzamiento», cuando los trabajadores cibernéticos y de TI informaron en línea que no pudieron lograr que el modelo realizara tareas básicas de ciberseguridad defensiva.

La carta cuestiona si los problemas encontrados en los informes de jailbreak calificarían como capacidades ofensivas, y señala que pueden reproducirse en otros modelos comerciales y de código abierto, incluidos GPT 5.5, Claude Opus, Claude Sonnet y modelos chinos como Kimi 2.7.

«La justificación para esta acción sin precedentes fue que Fable proporciona una 'mejora' única de capacidades más allá de otros modelos de IA, pero la IA ha estado encontrando errores y generando exploits funcionales a niveles sobrehumanos desde el año pasado», escribieron.

La decisión de la Casa Blanca se produce en un momento en que las empresas de IA se enfrentan a una reacción cada vez mayor por parte de un público que ahora pide de manera abrumadora una intervención gubernamental más sólida.

Una Universidad Johns Hopkins encuesta en mayo encontró un amplio apoyo bipartidista para las regulaciones de IA, con un 73% pidiendo prohibiciones de imágenes y videos generados por IA, un 68% pidiendo etiquetas en el contenido de IA, un 75% queriendo leyes de divulgación cuando interactúan con chatbots de IA y un 70% pidiendo «el derecho a interactuar con un ser humano en lugar de una IA en entornos médicos, legales, educativos y gubernamentales».

Otro encuesta global Un estudio de 18.000 personas publicado esta semana descubrió que las cuatro principales preocupaciones que la mayoría de la gente tiene en torno a la IA giran en torno a la capacidad de la herramienta para difundir información errónea, crear deepfakes para avergonzar o herir a otros, facilitar que los delincuentes pirateen las redes de las víctimas y ayudar a los terroristas a crear nuevas armas.

admin Noticias, Trending acceso Anthropic Ciudadanos CYBERDEFENSA.MX Estados extranjeros Fable Mythos ordena suspender Unidos

Estados Unidos ordena a Anthropic suspender el acceso de ciudadanos extranjeros a Fable 5 y Mythos 5 – CYBERDEFENSA.MX

antrópico dicho el viernes «inhabilitará abruptamente» sus modelos de inteligencia artificial (IA) más avanzados, Claude Fábula 5 y Mitos 5para todos los usuarios después de que el gobierno de EE. UU. le ordenara suspender el acceso a los modelos para ciudadanos extranjeros, ya sea dentro o fuera de EE. UU., citando preocupaciones de seguridad nacional.

La compañía AI dijo que recibió una orden a las 5:21 pm ET, instruyéndole a suspender todo acceso a los modelos por parte de ciudadanos extranjeros. Dijo que creía que había habido un «malentendido» y que estaba trabajando para restablecer el acceso a los modelos lo antes posible. El acceso a otros modelos no se verá afectado por la directiva de control de exportaciones.

«Tenemos entendido que el gobierno cree que se ha dado cuenta de un método para eludir o ‘liberar’ Fable 5», dijo la compañía.

«Revisamos una demostración de esta técnica específica que se utiliza para identificar una pequeña cantidad de vulnerabilidades menores previamente conocidas. Todas estas vulnerabilidades parecen relativamente simples, y hemos descubierto que otros modelos disponibles públicamente también pueden descubrirlas sin necesidad de pasar por alto».

La medida inesperada se produce días después del lanzamiento de Claude Fable 5 y su homólogo Mythos 5, que utiliza el mismo modelo subyacente pero con las salvaguardias eliminadas en algunas áreas, como la ciberseguridad. Este último, descrito como el que tiene «las mayores capacidades de ciberseguridad de cualquier modelo en el mundo», sigue siendo accesible a un grupo examinado de ciberdefensores y operadores de infraestructura crítica.

Anthropic enfatizó que ha implementado barreras de seguridad «fuertes» para evitar el uso indebido de sus modelos para tareas relacionadas con la ciberseguridad. Específicamente, esto está respaldado por un conjunto de clasificadores de seguridad que se utilizan para detectar posibles usos indebidos, incluidos intentos de jailbreak, y prohíben que el modelo principal responda.

El clasificador de ciberseguridad está diseñado para bloquear solicitudes dañinas de un solo turno relacionadas con la planificación de un ciberataque, el desarrollo de exploits o la evasión de defensa, y la compañía señala que los modelos de clase Mythos son expertos en encontrar y explotar vulnerabilidades de software, brindando así a los atacantes una ventaja estratégica.

La semana pasada, Anthropic reveló que su modelo de clase Mythos puede convertir vulnerabilidades de software recientemente reveladas en exploits funcionales en horas, o incluso minutos en algunos casos, en lugar de semanas, convirtiendo N días en N horas. Los hallazgos sugieren que los modelos de frontera pueden ser igual de buenos para convertir rápidamente en armas los defectos que se han revelado públicamente.

«Un operador solitario ahora puede convertir los parches de un mes en exploits funcionales en una sola tarde, por unos pocos miles de dólares y sin experiencia especializada», dijo el equipo rojo de Anthropic. dicho. «Esto significa que el típico manual de parches que los desarrolladores de software utilizan hoy en día – con cadencias de lanzamiento mensuales, implementaciones por etapas de varias semanas y un desfase entre los canales de prelanzamiento y estables – ya no se cumple».

Las protecciones de Fable 5 significan que las consultas sobre temas de ciberseguridad recibirán una respuesta de Claude Opus 4.8, el próximo modelo capaz de la compañía.

En su última declaración, la compañía argumentó que no se han desarrollado métodos universales de jailbreak contra los últimos modelos hasta la fecha, y agregó que los ejercicios internos y de terceros han descubierto que sus salvaguardas son «sustancialmente más efectivas que las de cualquier modelo implementado anteriormente».

Además, Anthropic afirmó que «la resistencia perfecta al jailbreak» no es posible para ningún proveedor modelo, ya que cada salvaguarda utilizada por la industria es susceptible a jailbreaks no universales que son «efectivos en contextos muy limitados o requieren un esfuerzo adicional para adaptarse a cada nueva situación».

«Hasta la fecha, el gobierno sólo nos ha dado evidencia verbal de un potencial jailbreak limitado y no universal, que esencialmente consiste en pedirle al modelo que lea una base de código específica y corrija cualquier falla de software», dijo.

«Tenemos entendido que se compartió un posible jailbreak con el gobierno. Hemos revisado un informe que creemos que es la base de la directiva del gobierno y validamos que el nivel de capacidad mostrado allí está ampliamente disponible en otros modelos (incluido el GPT-5.5 de OpenAI), y es utilizado todos los días por los defensores que mantienen seguros los sistemas».

Anthropic también señaló que si bien corresponde al gobierno bloquear los despliegues inseguros de IA, dijo que el descubrimiento de un «posible jailbreak estrecho» no debería ser la razón para retirar un modelo comercial que se ha implementado ampliamente. El proceso legal debe ser «transparente, justo, claro y basado en hechos técnicos», añadió.

A principios de este año, el Departamento de Defensa de EE.UU. calificó a Anthropic como un «riesgo para la cadena de suministro» después de que el fabricante de Claude intentara trazar líneas rojas sobre el uso militar de su tecnología. La empresa ha presentado dos demandas para bloquear la designación.

admin Noticias, Trending Anthropic cibernéticas Claude con CYBERDEFENSA.MX Fable hasta lanza más momento poderosa salvaguardias

Anthropic lanza Claude Fable 5, su IA más poderosa hasta el momento, con salvaguardias cibernéticas – CYBERDEFENSA.MX

El 9 de junio, Antrópico lanzado Claude Fábula 5el modelo más capaz que jamás haya fabricado, está disponible de forma generalizada. También hizo algo inusual: envió un modelo como dos productos, divididos no por capacidad sino por una capa de clasificadores de seguridad.

Fábula 5 sale al público. Su gemelo, Claude Mythos 5, el mismo modelo subyacente con las salvaguardas cibernéticas eliminadas, permanece restringido a un grupo examinado de ciberdefensores y operadores de infraestructura crítica.

Anthropic considera que Mythos 5 es el modelo de ciberseguridad más sólido del mundo.

La diferencia práctica es la siguiente: Fable 5 enruta las solicitudes cibernéticas, biológicas, químicas y de destilación al Claude Opus 4.8, más débil, mientras que Mythos 5 mantiene las capacidades cibernéticas disponibles para los usuarios examinados. Ambos modelos cuestan 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida, menos de la mitad del precio del Mythos Preview anterior, y Fable 5 ya está disponible a través de la API de Claude.

Está incluido en los planes Pro, Max, Team y Enterprise basados en asientos sin costo adicional hasta el 22 de junio y luego pasa a créditos de uso.

Cómo funcionan los clasificadores cibernéticos de Fable 5

La división existe porque los modelos de clase Mythos encuentran y explotan vulnerabilidades de software lo suficientemente bien como para que, en el marco de Anthropic, entregar esa capacidad al público en general sin controles daría a los atacantes un gran beneficio.

El mecanismo es un conjunto de clasificadores: sistemas de IA separados que vigilan el mal uso y los intentos de jailbreak. Cuando una solicitud lo hace tropezar, Fable 5 no se niega. La respuesta se entrega a Opus 4.8 y se le informa al usuario que se produjo la transferencia. De las categorías marcadas, la destilación es la que destaca: significa extraer las capacidades de un modelo para entrenar un modelo competidor, que Anthropic bloquea para evitar que las habilidades cercanas a la frontera se filtren sin salvaguardias adjuntas.

El clasificador de ciberseguridad es el amplio. Anthropic lo diseñó para bloquear no sólo el desarrollo de exploits sino también las tareas cibernéticas ofensivas en general: reconocimiento, descubrimiento, movimiento lateral, los pasos de agencia que conforman un ataque real.

En una evaluación interna ejecutada con Fable 5 configurado para bloquear en lugar de retroceder, y que no intentó evadir las salvaguardas, los clasificadores impidieron que el modelo progresara en esas tareas. Un socio externo descubrió que Fable 5 cumplió con cero solicitudes dañinas de un solo turno sobre planificación de ataques cibernéticos, desarrollo de exploits o evasión de defensa, resistiendo 30 técnicas públicas diferentes de jailbreak.

La compensación son los falsos positivos. Anthropic ajustó las medidas de seguridad de manera conservadora para realizar envíos rápidos, por lo que a veces detectan solicitudes inofensivas. La compañía dice que el respaldo se activa en menos del 5% de todas las sesiones, por lo que durante más del 95%, Fable 5 se comporta como el Mythos 5 cibernético sin restricciones. Esa cifra cubre todos los respaldos, incluidos los bloques genuinos, por lo que limita la interrupción total en lugar de medir la tasa de falsos positivos por sí solo. Anthropic dice que reducirá las salvaguardas y eliminará los falsos positivos después del lanzamiento.

En cuanto a la solidez, las cifras son específicas. Una recompensa por errores externos duró más de 1000 horas y no produjo ningún jailbreak universal, ni un aviso ni un arnés que elimine las salvaguardias por completo. Los equipos rojos externos tampoco encontraron ninguno en tareas de agente de larga duración, con una advertencia que Anthropic afirma claramente: el Instituto de Seguridad de IA del Reino Unido avanzó hacia un jailbreak universal dentro de una breve ventana de prueba inicial. Anthropic admite que probablemente sea imposible prevenir por completo los jailbreaks universales, y su objetivo declarado es hacer que aquellos que sigan siendo lo suficientemente lentos y costosos como para detectarlos antes de que se utilicen a escala.

¿Por qué la capacidad es una amenaza?

Los argumentos a favor de tratar este modelo con cuidado se expusieron en abril, cuando Anthropic lanzó Vista previa de Claude Mythos para un grupo limitado a través de Proyecto Ala de Vidrio. El redacción técnica del equipo rojo de Anthropic es la parte que vale la pena leer.

Durante las pruebas, Mythos Preview identificó y aprovechó vulnerabilidades de día cero en todos los principales sistemas operativos y en todos los principales navegadores web cuando un usuario lo indicó. El error más antiguo que encontró fue una falla de hace 27 años en OpenBSD, un sistema operativo conocido principalmente por su seguridad. Escribió de forma autónoma un exploit de ejecución remota de código contra el servidor NFS de FreeBSD a partir de un error de hace 17 años, clasificado como CVE-2026-4747.

Anthropic describe el resultado como raíz completa para un atacante no autenticado desde cualquier lugar de Internet; La entrada de NVD es más mesurada, teniendo en cuenta que el desbordamiento de la pila en sí no requiere que el cliente se autentique, sino que encuadra la ejecución del código del kernel como accesible para un atacante capaz de enviar paquetes al servidor NFS mientras el módulo kgssapi.ko está cargado.

Según el propio Anthropic, no entrenó explícitamente estas capacidades en; surgieron como un efecto secundario de mejoras generales en el código, el razonamiento y la autonomía, las mismas ganancias que hacen que el modelo sea mejor en la aplicación de parches. La advertencia categórica del equipo rojo: las mitigaciones cuyo valor de seguridad proviene de la fricción en lugar de barreras duras se vuelven mucho más débiles frente a un modelo que avanza a través de tediosos pasos de explotación a escala.

Barreras técnicas duras como KASLR y W^X aún aumentan el costo; la advertencia es más limitada, dirigida a defensas que dependen de la paciencia del atacante o del esfuerzo manual, y el modelo ahora puede autoabastecerse.

Mythos 5 lleva adelante esas habilidades. Anthropic dice que los usuarios lo encontrarán comparable o algo más potente que Mythos Preview.

El verdadero problema del defensor

El argumento defensivo no es hipotético. En las primeras semanas del Proyecto Glasswing, Anthropic y aproximadamente 50 socios utilizaron Mythos Preview para encontrar más de diez mil vulnerabilidades de gravedad alta o crítica en software de importancia sistémica.

Solo Cloudflare encontró 2000 errores, 400 de ellos de gravedad alta o crítica. Mozilla encontró y solucionó 271 en Firefox 150, más de diez veces lo que detectó en Firefox 148 usando el antiguo Opus 4.6. Anthropic dice que la misma presión es visible más allá de Glasswing, en los proveedores que envían versiones de seguridad inusualmente grandes.

Esa inundación es el truco. Encontrar errores ahora es barato y rápido. Verificarlos, clasificarlos y parchearlos no lo es, y aún funciona en tiempo humano.

Anthropic informa que los mantenedores de código abierto, ya enterrados bajo informes de errores de baja calidad generados por IA, le han pedido que ralentice sus divulgaciones porque no pueden escribir parches lo suficientemente rápido. En Glasswing, dice que un error de gravedad alta o crítica encontrado por el modelo tarda unas dos semanas en corregirse en promedio.

El cuello de botella ha pasado del descubrimiento a la solución, y la brecha entre una divulgación pública y un parche implementado es donde viven los atacantes. Los experimentos del día N del equipo rojo agudizan el punto: partiendo de nada más que un CVE revelado y su parche, Mythos Preview creó exploits de escalada de privilegios de Linux en menos de un día cada uno, con unos pocos miles de dólares o menos en cómputo.

Para los defensores, la lectura es la misma de siempre, solo que en un tiempo más corto: asumir que un CVE de alta gravedad puede convertirse en un exploit funcional a las pocas horas de su divulgación, no semanas. Eso significa priorizar las rutas de actualización automática para los sistemas conectados a Internet y tratar los problemas de dependencia que conllevan correcciones CVE como un trabajo urgente en lugar de un trabajo atrasado.

La MFA y el registro integral siguen siendo la base, por lo que un único parche perdido no se convierte en lo único que se interpone entre un atacante y la red. Anthropic ha abierto una Programa de verificación cibernética que permite a los profesionales de seguridad examinados utilizar sus modelos para trabajos ofensivos legítimos sin las salvaguardias cibernéticas.

Un nuevo requisito de retención de datos de 30 días

Anthropic también está cambiando la forma en que maneja los datos para los modelos de clase Mythos.

Requerirá una retención de 30 días para todo el tráfico en Fable 5, Mythos 5 y modelos futuros en este nivel de capacidad, tanto en superficies propias como de terceros. La compañía dice que no utilizará los datos para capacitación ni ningún propósito que no sea de seguridad, registrará todo acceso humano y los eliminará después de 30 días, excepto cuando una investigación de seguridad u obligación legal requiera conservarlos por más tiempo.

La razón declarada es defensiva: los datos ayudan a detectar nuevos ataques y jailbreaks que operan en muchas solicitudes. Los equipos con requisitos estrictos de manejo de datos querrán tener en cuenta esa ventana de retención antes de enrutar el tráfico confidencial a través de estos modelos.

Anthropic planea ampliar el acceso a Mythos 5 a través de un programa de acceso confiable y dice que una vez que la capacidad de cómputo se ponga al día, su objetivo es volver a incluir Fable 5 en planes de suscripción sin la prima de crédito de uso que entrará en vigor después del 22 de junio.

La pregunta más importante que plantea el lanzamiento es la que Anthropic ha estado dando vueltas desde abril: están llegando modelos con capacidades similares de otros laboratorios, y no todos se enviarán con una pared de clasificadores al frente. La ventaja defensiva que Glasswing debía comprar sólo importa si el resto de la industria la utiliza.

Más de medio centenar de personas, imputadas por hackear cajeros automáticos en EE.UU.

Uncategorized

Breaking News

Estados Unidos levanta las restricciones de control de exportaciones de Mythos y Fable de Anthropic

Anthropic restaura Claude Fable 5 después de que Estados Unidos levantara los controles de exportación vinculados al jailbreak – CYBERDEFENSA.MX

Los expertos en ciberseguridad no creen que Fable 5 de Anthropic represente una amenaza de ciberseguridad única

Estados Unidos ordena a Anthropic suspender el acceso de ciudadanos extranjeros a Fable 5 y Mythos 5 – CYBERDEFENSA.MX

Anthropic lanza Claude Fable 5, su IA más poderosa hasta el momento, con salvaguardias cibernéticas – CYBERDEFENSA.MX

Cómo funcionan los clasificadores cibernéticos de Fable 5

¿Por qué la capacidad es una amenaza?

El verdadero problema del defensor

Un nuevo requisito de retención de datos de 30 días

Más de medio centenar de personas, imputadas por hackear cajeros automáticos en EE.UU.

El servicio postal francés, interrumpido por un ciberataque

La Operación Sentinel, centrada en el cibercrimen africano, deja casi 600 detenidos

Dinamarca acusa a Rusia de ciberatacar sus infraestructuras

Esto es lo que hacen los ciberdelincuentes mientras brindamos

«Tengo un video tuyo haciendo guarrerías: págame 850 dólares en bitcoins para no difundirlo»

España archiva de nuevo la investigación sobre Pegasus por la falta de cooperación de Israel

Récord histórico: la AEPD cerró 2025 con 2.700 notificaciones de brechas de datos personales

Las copias de seguridad salvan al Concello de Sanxenxo de un ataque de ransomware

Los centros de operaciones de seguridad entran en una nueva era impulsada por la IA

Or Check Our Popuplar Categories...

Tag Archives: Fable

Cómo funcionan los clasificadores cibernéticos de Fable 5

¿Por qué la capacidad es una amenaza?

El verdadero problema del defensor

Un nuevo requisito de retención de datos de 30 días