Los expertos en ciberseguridad no creen que Fable 5 de Anthropic represente una amenaza de ciberseguridad única

El viernes pasado, la administración Trump provocó una conmoción en el ecosistema tecnológico cuando el Departamento de Comercio impuso controles de exportación al nuevo modelo de inteligencia artificial de Anthropic, Fable 5.

Anthropic ha tomado medidas para limitar los riesgos relacionados con la venta comercial de su modelo Mythos, incluida la negativa a publicarlo públicamente, canalizándolo a organizaciones de ciberdefensa y desarrollando barreras de seguridad para Fable 5 que predeterminarían sus respuestas a modelos más antiguos y menos poderosos en torno a temas delicados como la ciberseguridad y la guerra biológica.

Pero, según se informa, la administración Trump se alarmó por informes recientes de Amazon y otro investigador de ciberseguridad que afirmaban haber liberado Fable 5 a los pocos días de su lanzamiento público, y determinó que si los investigadores en los EE. UU. podían liberar el modelo, también podrían hacerlo los adversarios extranjeros de Estados Unidos.

La decisión del Departamento de Comercio impulsó a Anthropic a cerrar los modelos para todos los usuarios mientras intentaban convencer a la Casa Blanca de cambiar de rumbo.

Pero algunos expertos en ciberseguridad e inteligencia artificial han estado en total desacuerdo con las acciones de la Casa Blanca, diciendo que la investigación no ha demostrado que alguien haya podido eludir las salvaguardas de Fable 5 y acceder al tipo de nuevas capacidades peligrosas que han preocupado a los funcionarios.

Katie Moussouris, una conocida experta en ciberseguridad, dijo el lunes que Anthropic le proporcionó una copia de una investigación de terceros sobre técnicas de derivación de barreras de seguridad para Fable 5.

Según Moussouris, los investigadores pidieron a tres modelos de Claude (Fable 5, Mythos y Claude Opus) que revisaran lotes de código fuente abierto conocido y vulnerable en busca de problemas de seguridad. Fable 5 inicialmente rechazó la solicitud, pero los investigadores pudieron utilizar «un proceso manual de varios pasos» para lograr que Fable 5 convirtiera la salida en scripts automatizados que pudieran probar parches para la vulnerabilidad.

La investigación de terceros desde el lanzamiento de Fable 5 no ha encontrado formas de eludir sus salvaguardas en materia de piratería. Las capacidades que los investigadores han demostrado son fundamentales para que Fable 5 y otros modelos de vanguardia sean valiosos para la defensa de la ciberseguridad.

«Los defensores deben poder pedirle a la IA que corrija los errores en un archivo, explicar por qué es importante la corrección y escribir pruebas que confirmen que el parche funciona», dijo. escribió. «Eso no es un paso por alto la barandilla. Es lo más valioso que un modelo de IA puede hacer para la seguridad defensiva: ejecutar el bucle de búsqueda, reparación y prueba que los defensores ejecutan todos los días».

Moussouris anteriormente brindó experiencia técnica al Acuerdo de Waasenaar, un acuerdo de seguridad multilateral voluntario sobre el control de las exportaciones tanto de municiones como de tecnología de doble uso que incluye a Estados Unidos y docenas de otros países. Con base en la investigación que ha visto, calificó la imposición de restricciones a la exportación de todas las ventas extranjeras de Fable 5 como una medida «dura» y «equivocada».

Anthropic también sometió el modelo a 1000 horas de pruebas por parte de miembros del equipo rojo interno y externo, informando que no se encontraron fugas universales que eliminaran esas barreras de seguridad o permitieran al modelo acceder a Mythos para trabajos cibernéticos y biológicos.

Moussouris no está ni mucho menos solo. Ella es una de las docenas de expertos en ciberseguridad que firmaron un carta abierta Lunes llamando a la administración Trump a “Free Fable”.

Los investigadores dicen que si bien los modelos de clase Mythos son «bastante buenos» para identificar y explotar vulnerabilidades en el código de software, «no son excepcionalmente buenos» en comparación con otros modelos de frontera que utilizan todos los días para la defensa de la ciberseguridad.

Por ejemplo, a pesar de que el modelo Daybreak de OpenAI ofrece capacidades similares de parcheo y descubrimiento de vulnerabilidades. No estaba incluido en las restricciones del Departamento de Comercio.

Los investigadores también señalan que las barreras de seguridad de Fable 5 han sido notoriamente hipersensibles en comparación con otros modelos fronterizos utilizados por los equipos rojos, convirtiéndose en «una fuente de humor en la comunidad cibernética el día del lanzamiento», cuando los trabajadores cibernéticos y de TI informaron en línea que no pudieron lograr que el modelo realizara tareas básicas de ciberseguridad defensiva.

La carta cuestiona si los problemas encontrados en los informes de jailbreak calificarían como capacidades ofensivas, y señala que pueden reproducirse en otros modelos comerciales y de código abierto, incluidos GPT 5.5, Claude Opus, Claude Sonnet y modelos chinos como Kimi 2.7.

«La justificación para esta acción sin precedentes fue que Fable proporciona una 'mejora' única de capacidades más allá de otros modelos de IA, pero la IA ha estado encontrando errores y generando exploits funcionales a niveles sobrehumanos desde el año pasado», escribieron.

La decisión de la Casa Blanca se produce en un momento en que las empresas de IA se enfrentan a una reacción cada vez mayor por parte de un público que ahora pide de manera abrumadora una intervención gubernamental más sólida.

Una Universidad Johns Hopkins encuesta en mayo encontró un amplio apoyo bipartidista para las regulaciones de IA, con un 73% pidiendo prohibiciones de imágenes y videos generados por IA, un 68% pidiendo etiquetas en el contenido de IA, un 75% queriendo leyes de divulgación cuando interactúan con chatbots de IA y un 70% pidiendo «el derecho a interactuar con un ser humano en lugar de una IA en entornos médicos, legales, educativos y gubernamentales».

Otro encuesta global Un estudio de 18.000 personas publicado esta semana descubrió que las cuatro principales preocupaciones que la mayoría de la gente tiene en torno a la IA giran en torno a la capacidad de la herramienta para difundir información errónea, crear deepfakes para avergonzar o herir a otros, facilitar que los delincuentes pirateen las redes de las víctimas y ayudar a los terroristas a crear nuevas armas.

Derek B. Johnson

Escrito por Derek B. Johnson

Derek B. Johnson es reportero de CyberScoop, donde su área incluye la ciberseguridad, las elecciones y el gobierno federal. Antes de eso, ha brindado una cobertura galardonada de noticias sobre ciberseguridad en los sectores público y privado para varias publicaciones desde 2017. Derek tiene una licenciatura en periodismo impreso de la Universidad de Hofstra en Nueva York y una maestría en políticas públicas de la Universidad George Mason en Virginia.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *