Claude Mythos de Anthropic encuentra miles de fallas de día cero en los principales sistemas – CYBERDEFENSA.MX

La empresa de inteligencia artificial (IA) Anthropic anunció una nueva iniciativa de ciberseguridad llamada Proyecto Ala de Vidrio que utilizará una versión preliminar de su nuevo modelo fronterizo, Claude Mitospara encontrar y abordar vulnerabilidades de seguridad.

El modelo será usado por un pequeño conjunto de organizaciones, incluidas Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks, junto con Anthropic, para proteger el software crítico.

La compañía dijo que está formando esta iniciativa en respuesta a las capacidades observadas en su modelo de frontera de propósito general que demuestran un «nivel de capacidad de codificación donde pueden superar a todos, excepto a los humanos más capacitados, para encontrar y explotar vulnerabilidades de software». Debido a sus capacidades de ciberseguridad y a la preocupación de que se pueda abusar de ellas, Anthropic ha optado por no hacer que el modelo esté disponible de forma generalizada.

Mythos Preview, afirmó Anthropic, ya ha descubierto miles de vulnerabilidades de día cero de alta gravedad en todos los principales sistemas operativos y navegadores web. Algunos de estos incluyen un error de 27 años de antigüedad en OpenBSD, ahora parcheado, una falla de 16 años de antigüedad en FFmpeg y una vulnerabilidad que corrompe la memoria en un monitor de máquina virtual con memoria segura.

Ciberseguridad

En un caso destacado por la compañía, se dice que Mython Preview viene de forma autónoma con un exploit de navegador web que encadena cuatro vulnerabilidades para escapar de los entornos limitados de renderizado y del sistema operativo. antrópico también anotado En la tarjeta de sistema de la vista previa se muestra que el modelo resolvió una simulación de ataque a la red corporativa que a un experto humano le habría llevado más de 10 horas.

Quizás en lo que es uno de los hallazgos más sorprendentes, Mythos Preview logró seguir las instrucciones de un investigador que realizaba una evaluación para escapar de una computadora segura «sandbox» que se le proporcionó, lo que indica una «capacidad potencialmente peligrosa» para eludir sus propias salvaguardas.

La modelo no se quedó ahí. Además, realizó una serie de acciones adicionales, incluido el diseño de un exploit de varios pasos para obtener un amplio acceso a Internet desde el sistema sandbox y enviar un mensaje de correo electrónico al investigador, que estaba comiendo un sándwich en un parque.

«Además, en un esfuerzo preocupante y no solicitado para demostrar su éxito, publicó detalles sobre su exploit en múltiples sitios web difíciles de encontrar, pero técnicamente públicos», dijo Anthropic.

La empresa señaló que Proyecto Ala de Vidrio Es un «intento urgente» de emplear capacidades del modelo de frontera con fines defensivos antes de que actores hostiles adopten esas mismas capacidades. También está comprometiendo hasta 100 millones de dólares en créditos de uso para Mythos Preview, así como 4 millones de dólares en donaciones directas a organizaciones de seguridad de código abierto.

«No entrenamos explícitamente a Mythos Preview para que tenga estas capacidades», dijo Anthropic. «Más bien, surgieron como una consecuencia posterior de mejoras generales en el código, el razonamiento y la autonomía. Las mismas mejoras que hacen que el modelo sea sustancialmente más efectivo para parchear vulnerabilidades también lo hacen sustancialmente más efectivo para explotarlas».

Las noticias sobre Mythos se filtraron el mes pasado después de que los detalles sobre el modelo se almacenaran inadvertidamente en un caché de datos de acceso público debido a un error humano. El borrador lo describió como el modelo de IA más potente y capaz construido hasta la fecha. Días después, Anthropic sufrió una segunda falla de seguridad que expuso accidentalmente cerca de 2000 archivos de código fuente y más de medio millón de líneas de código asociadas con Claude Code durante aproximadamente tres horas.

Ciberseguridad

La filtración también llevó al descubrimiento de un problema de seguridad que elude ciertas salvaguardas cuando al agente codificador de IA se le presenta un comando compuesto por más de 50 subcomandos. Desde entonces, Anthropic ha abordado formalmente el problema en Claude Code. versión 2.1.90lanzado la semana pasada.

«Claude Code, el agente de codificación de IA insignia de Anthropic que ejecuta comandos de shell en las máquinas de los desarrolladores, ignora silenciosamente las reglas de denegación de seguridad configuradas por el usuario cuando un comando contiene más de 50 subcomandos», dijo la empresa de seguridad de IA Adversa. dicho. «Un desarrollador que configura ‘nunca ejecutar rm’ verá rm bloqueado cuando se ejecute solo, pero el mismo ‘rm’ se ejecuta sin restricciones si está precedido por 50 declaraciones inofensivas. La política de seguridad desaparece silenciosamente».

«El análisis de seguridad cuesta tokens. Los ingenieros de Anthropic tuvieron un problema de rendimiento: verificar cada subcomando congeló la interfaz de usuario y quemó el cómputo. Su solución: dejar de verificar después de 50. Cambiaron seguridad por velocidad. Cambiaron seguridad por costo».

La fuente del código Claude se filtró a través de un error de empaquetado de npm, confirma Anthropic – CYBERDEFENSA.MX

Anthropic confirmó el martes que el código interno de su popular asistente de codificación de inteligencia artificial (IA), Claude Code, se había publicado inadvertidamente debido a un error humano.

«No se involucraron ni se expusieron datos confidenciales o credenciales de clientes», dijo un portavoz de Anthropic. dicho en un comunicado compartido con CNBC News. «Este fue un problema del paquete de lanzamiento causado por un error humano, no una violación de seguridad. Estamos implementando medidas para evitar que esto vuelva a suceder».

El descubrimiento se produjo después del lanzamiento del advenedizo de la IA. versión 2.1.88 del paquete npm de Claude Code, y los usuarios notaron que contenía un archivo de mapa fuente que podría usarse para acceder al código fuente de Claude Code, que comprende casi 2000 archivos TypeScript y más de 512 000 líneas de código. La versión ya no está disponible para descargar desde npm.

El investigador de seguridad Chaofan Shou fue el primero en marcar públicamente en X, indicando «¡El código fuente del código Claude se ha filtrado a través de un archivo de mapa en su registro npm!» Desde entonces, la publicación X ha acumulado más de 28,8 millones de visitas. El código base filtrado permanece accesible a través de un repositorio público de GitHubdonde ha superado las 84.000 estrellas y las 82.000 bifurcaciones.

Ciberseguridad

Una filtración de código fuente de este tipo es importante, ya que brinda a los desarrolladores de software y a los competidores de Anthropic un modelo de cómo funciona la popular herramienta de codificación. Los usuarios que tienen cavado en el código han publicado detalles de su arquitectura de memoria autorreparable para superar el modelo restricciones de ventana de contexto fijasasí como otros componentes internos.

Estos incluir un sistema de herramientas para facilitar diversas capacidades como lectura de archivos o ejecución bash, un motor de consultas para manejar llamadas y orquestación de API LLM, orquestación de múltiples agentes para generar «subagentes» o enjambres para llevar a cabo tareas complejas y una capa de comunicación bidireccional que conecta extensiones IDE a Claude Code CLI.

La filtración también arrojó luz sobre una característica llamada KAIROS eso permite a Claude Code operar como un agente persistente en segundo plano que puede corregir errores periódicamente o ejecutar tareas por sí solo sin esperar la intervención humana, e incluso enviar notificaciones automáticas a los usuarios. Complementando este modo proactivo hay un nuevo modo «sueño» eso le permitirá a Claude pensar constantemente en segundo plano para desarrollar ideas e iterar las existentes.

Quizás el detalle más intrigante es el modo encubierto de la herramienta para realizar contribuciones «silenciosas» a repositorios de código abierto. «Estás operando UNDERCOVER en un repositorio PÚBLICO/OPEN-SOURCE. Tus mensajes de confirmación, títulos de relaciones públicas y cuerpos de relaciones públicas NO DEBEN contener NINGUNA información interna de Anthropic. No desveles tu tapadera», se lee en el mensaje del sistema.

Otro hallazgo fascinante tiene que ver con los intentos de Anthropic de luchar encubiertamente contra los ataques de destilación de modelos. El sistema tiene controles en su lugar que inyectan definiciones de herramientas falsas en las solicitudes de API para envenenar los datos de entrenamiento si los competidores intentan eliminar los resultados de Claude Code.

Paquetes Typosquat npm enviados al registro

Con los aspectos internos de Claude Code ahora al descubierto, los riesgos de desarrollo brindan a los malos actores municiones para sortear las barreras de seguridad y engañar al sistema para que realice acciones no deseadas, como ejecutar comandos maliciosos o filtrar datos.

«En lugar de jailbreaks de fuerza bruta e inyecciones rápidas, los atacantes ahora pueden estudiar y descifrar exactamente cómo fluyen los datos a través del canal de gestión de contexto de cuatro etapas de Claude Code y crear cargas útiles diseñadas para sobrevivir a la compactación, persistiendo efectivamente una puerta trasera durante una sesión arbitrariamente larga», dijo la empresa de seguridad de inteligencia artificial Straiker. dicho.

La preocupación más apremiante son las consecuencias del ataque a la cadena de suministro de Axios, ya que los usuarios que instalaron o actualizaron Claude Code a través de npm el 31 de marzo de 2026, entre las 00:21 y las 03:29 UTC, pueden haber extraído consigo una versión troyanizada del cliente HTTP que contiene un troyano de acceso remoto multiplataforma. Se recomienda a los usuarios que bajen inmediatamente a una versión segura y roten todos los secretos.

Ciberseguridad

Es más, los atacantes ya están aprovechando la filtración para escribir nombres de paquetes npm internos en un intento de apuntar a aquellos que pueden estar intentando compilar el código fuente filtrado de Claude Code y organizar ataques de confusión de dependencia. Los nombres de los paquetes, todos publicados por un usuario llamado «chupete136,» se enumeran a continuación:

  • captura-de-audio-napi
  • diferencia-de-color-napi
  • procesador-de-imagen-napi
  • modificadores-napi
  • controlador de URL-napi

«En este momento son códigos auxiliares vacíos (`module.exports = {}`), pero así es como funcionan estos ataques: agachar el nombre, esperar a que se descarguen y luego enviar una actualización maliciosa que afecta a todos los que la instalaron», dijo el investigador de seguridad Clément Dumas. dicho en una publicación en X.

El incidente es el segundo gran error de Anthropic en una semana. Detalles sobre la empresa. próximo modelo de IAjunto con otros datos internos, quedaron accesibles a través del sistema de gestión de contenidos (CMS) de la empresa la semana pasada. Posteriormente, Anthropic reconoció que ha estado probando el modelo con clientes de acceso temprano, afirmando que es «el modelo más capaz que hemos construido hasta la fecha», según Fortuna.

Anthropic encuentra 22 vulnerabilidades en Firefox utilizando el modelo de IA Claude Opus 4.6 – CYBERDEFENSA.MX

Anthropic el viernes lo dijo descubierto 22 nuevas vulnerabilidades de seguridad en el navegador web Firefox como parte de una asociación de seguridad con Mozilla.

De estos, 14 se han clasificado como graves, siete se han clasificado como moderados y uno se ha clasificado como de gravedad baja. Los temas fueron abordados en Firefox 148lanzado a fines del mes pasado. El vulnerabilidades fueron identificados durante un período de dos semanas en enero de 2026.

La compañía de inteligencia artificial (IA) dijo que la cantidad de errores de alta gravedad identificados por su modelo de lenguaje grande (LLM) Claude Opus 4.6 representa «casi una quinta parte» de todas las vulnerabilidades de alta gravedad que se parchearon en Firefox en 2025.

Anthropic dijo que el LLM detectó un error de uso después de la liberación en el JavaScript del navegador después de «sólo» 20 minutos de exploración, que luego fue validado por un investigador humano en un entorno virtualizado para descartar la posibilidad de un falso positivo.

Ciberseguridad

«Al final de este esfuerzo, habíamos escaneado casi 6.000 archivos C++ y enviado un total de 112 informes únicos, incluidas las vulnerabilidades de gravedad alta y moderada mencionadas anteriormente», dijo la compañía. «La mayoría de los problemas se han solucionado en Firefox 148, y el resto se solucionará en próximas versiones».

El advenedizo de IA dijo que también proporcionó a su modelo Claude acceso a la lista completa de vulnerabilidades enviadas a Mozilla y encargó a la herramienta de IA desarrollar un exploit práctico para ellas.

A pesar de realizar la prueba varios cientos de veces y gastar alrededor de 4.000 dólares en créditos API, la compañía dijo que Claude Opus 4.6 pudo convertir el defecto de seguridad en un exploit sólo en dos casos.

Este comportamiento, añadió la empresa, señaló dos aspectos importantes: el coste de identificar vulnerabilidades es más barato que crear un exploit para ellas, y el modelo es mejor para encontrar problemas que para explotarlos.

«Sin embargo, el hecho de que Claude pudiera desarrollar automáticamente un exploit de navegador crudo, aunque sólo sea en unos pocos casos, es preocupante», enfatizó Anthropic, añadiendo que los exploits sólo funcionaron dentro de los límites de su entorno de prueba, al que se le han eliminado intencionalmente algunas características de seguridad como el sandboxing.

Un componente crucial incorporado al proceso es un verificador de tareas para determinar si el exploit realmente funciona, brindando a la herramienta retroalimentación en tiempo real mientras explora la base de código en cuestión y permitiéndole iterar sus resultados hasta que se idee un exploit exitoso.

Una de esas hazañas que escribió Claude fue para CVE-2026-2796 (puntuación CVSS: 9,8), que ha sido descrito como una mala compilación justo a tiempo (JIT) en el componente JavaScript WebAssembly.

La divulgación se produce semanas después de que la compañía publicara Claude Code Security en una vista previa de investigación limitada como una forma de corregir vulnerabilidades utilizando un agente de inteligencia artificial.

Ciberseguridad

«No podemos garantizar que todos los parches generados por agentes que pasen estas pruebas sean lo suficientemente buenos como para fusionarse inmediatamente», dijo Anthropic. «Pero los verificadores de tareas nos dan una mayor confianza en que el parche producido corregirá la vulnerabilidad específica preservando al mismo tiempo la funcionalidad del programa y, por lo tanto, alcanzará lo que se considera el requisito mínimo para un parche plausible».

Mozilla, en un anuncio coordinado, dijo que el enfoque asistido por IA ha descubierto otros 90 errores, la mayoría de los cuales han sido solucionados. Estos consistían en fallas de aserción que se superponían con problemas que tradicionalmente se encontraban mediante el fuzzing y distintas clases de errores lógicos que los fuzzers no lograban detectar.

«La escala de los hallazgos refleja el poder de combinar una ingeniería rigurosa con nuevas herramientas de análisis para una mejora continua», dijo el fabricante del navegador. dicho. «Consideramos esto como una evidencia clara de que el análisis a gran escala asistido por IA es una nueva y poderosa incorporación a la caja de herramientas de los ingenieros de seguridad».

Anthropic lanza escaneo de seguridad integrado para Claude

Anthropic está implementando una nueva característica de seguridad para Claude Code que puede escanear las bases de código de software de un usuario en busca de vulnerabilidades y sugerir soluciones de parcheo.

La compañía anunció el viernes que Seguridad del código Claude Inicialmente estará disponible para pruebas en un número limitado de clientes empresariales y de equipos. Esto sigue a más de un año de pruebas de estrés por parte de los miembros internos del equipo rojo, compitiendo en concursos de ciberseguridad Capture the Flag y trabajando con el Laboratorio Nacional del Noroeste del Pacífico para perfeccionar la precisión de las funciones de escaneo de la herramienta.

Los grandes modelos de lenguajes se han mostrado cada vez más prometedores tanto en la generación de código como en las tareas de ciberseguridad en los últimos dos años, acelerando el proceso de desarrollo de software pero también reduciendo el listón técnico necesario para crear nuevos sitios web, aplicaciones y otras herramientas digitales.

«Esperamos que una parte significativa del código mundial sea escaneada por IA en un futuro próximo, dado lo efectivos que se han vuelto los modelos para encontrar errores y problemas de seguridad ocultos durante mucho tiempo», escribió la compañía en un blog. correo.

Esas mismas capacidades también permiten a los delincuentes escanear el entorno de TI de una víctima más rápido para encontrar debilidades que puedan explotar. Anthropic apuesta a que a medida que la “codificación de vibración” se generalice, la demanda de escaneo automatizado de vulnerabilidades superará la necesidad de revisiones de seguridad manuales.

A medida que más personas utilizan la IA para generar su software y aplicaciones, un escáner de vulnerabilidades integrado podría reducir potencialmente la cantidad de vulnerabilidades que lo acompañan. El objetivo es reducir grandes partes del proceso de revisión de seguridad del software a unos pocos clics, y el usuario aprueba cualquier parche o cambio antes de la implementación.

Anthropic afirma que Claude Code Security «lee y razona sobre su código como lo haría un investigador humano», mostrando una comprensión de cómo interactúan los diferentes componentes de software, rastreando el flujo de datos y detectando errores importantes que pueden pasarse por alto con las formas tradicionales de análisis estático.

«Cada hallazgo pasa por un proceso de verificación de varias etapas antes de llegar a un analista. Claude vuelve a examinar cada resultado, intentando probar o refutar sus propios hallazgos y filtrar los falsos positivos», afirmó la empresa. «A los hallazgos también se les asignan clasificaciones de gravedad para que los equipos puedan centrarse primero en las soluciones más importantes».

Los investigadores de amenazas le han dicho a CyberScoop que, si bien las capacidades de ciberseguridad han mejorado claramente en los últimos años, tienden a ser más efectivas para encontrar errores de menor impacto, mientras que en muchas organizaciones todavía se necesitan operadores humanos experimentados para administrar el modelo y lidiar con amenazas y vulnerabilidades de mayor nivel.

Pero herramientas como Claude Opus y XBOW han demostrado la capacidad de descubrir cientos de vulnerabilidades de software, en algunos casos haciendo que el proceso de descubrimiento y parcheo sea exponencialmente más rápido que con un equipo de humanos.

antrópico dicho Claude Opus 4.6 es «notablemente mejor» para encontrar vulnerabilidades de alta gravedad que los modelos anteriores, identificando en algunos casos fallas que «no habían sido detectadas durante décadas».

Los usuarios interesados ​​pueden solicitar el acceso al programa. Anthropic aclara su página de registro que los evaluadores deben aceptar utilizar Claude Code Security únicamente en el código que posee su empresa y que «posee todos los derechos necesarios para escanear», no en códigos con licencia o propiedad de terceros ni en proyectos de código abierto.

Derek B. Johnson

Escrito por Derek B. Johnson

Derek B. Johnson es reportero de CyberScoop, donde su área incluye la ciberseguridad, las elecciones y el gobierno federal. Antes de eso, ha brindado una cobertura galardonada de noticias sobre ciberseguridad en los sectores público y privado para varias publicaciones desde 2017. Derek tiene una licenciatura en periodismo impreso de la Universidad de Hofstra en Nueva York y una maestría en políticas públicas de la Universidad George Mason en Virginia.

Anthropic acusa a los laboratorios chinos de intentar apoderarse ilícitamente de las capacidades de Claude

Anthropic acusó el lunes a tres laboratorios chinos de inteligencia artificial de intentar desviar sigilosamente las capacidades de Claude para sus propios modelos, potencialmente de una manera que podría impulsar operaciones cibernéticas ofensivas.

La startup estadounidense de inteligencia artificial dijo que los tres laboratorios, DeepSeek, Moonshot y MiniMax, realizaron “campañas a escala industrial” con una táctica conocida como “destilación”. Implica enviar solicitudes masivas a su modelo Claude en un intento por impulsar las suyas propias (en este caso, 16 millones en total). La destilación puede ser una práctica legítima como método de capacitación, dijo la compañía en una publicación de blogpero no cuando se utiliza como atajo para quitar capacidades a los competidores.

“Los modelos elaborados ilícitamente carecen de las salvaguardias necesarias, lo que crea importantes riesgos para la seguridad nacional”, argumentó Anthropic. “Los laboratorios extranjeros que destilan modelos estadounidenses pueden luego incorporar estas capacidades desprotegidas a sistemas militares, de inteligencia y de vigilancia, permitiendo a los gobiernos autoritarios desplegar IA de frontera para operaciones cibernéticas ofensivas, campañas de desinformación y vigilancia masiva”.

No es la primera vez que Anthropic advierte sobre las amenazas chinas derivadas del uso de Claude por parte de la nación. Y Anthropic combinó sus revelaciones sobre la campaña de destilación con repitiendo su llamada para controles más estrictos a las exportaciones.

OpenAI también tiene acusó a DeepSeek de utilizar técnicas de destilación. CyberScoop no pudo comunicarse de inmediato con los tres laboratorios chinos para comentar sobre las afirmaciones de Anthropic.

«Las tres campañas de destilación… siguieron un manual similar, utilizando cuentas fraudulentas y servicios de proxy para acceder a Claude a escala mientras evadían la detección», dijo Anthropic. «El volumen, la estructura y el enfoque de las indicaciones eran distintos de los patrones de uso normales, lo que reflejaba una extracción deliberada de capacidades en lugar de un uso legítimo».

En total, los laboratorios utilizaron 24.000 cuentas fraudulentas, dijo Anthropic. DeepSeek fue responsable de 150.000 de los intercambios, en comparación con 3,4 millones de Moonshot y 13 millones de MiniMax, según la startup. La actividad violó los términos de servicio y las restricciones de acceso regional, dijo.

Lo que hace que la táctica sea ilegítima es que esencialmente roba la propiedad intelectual, la potencia informática y el esfuerzo de Anthropic, dijo Gal Elbaz, cofundador y director de tecnología de Oligo Security, que se anuncia a sí misma como una empresa de seguridad de tiempo de ejecución de IA.

«Lo aterrador es que puedes tomar todo el poder y liberarlo, porque no tienes a nadie que realmente haga cumplir esas barreras en el otro lado», dijo Elbaz a CyberScoop sobre los temores que Anthropic generó sobre los laboratorios que alimentan los ciberataques.

Las propias empresas de IA se han enfrentado a acusaciones de que están robando datos e propiedad intelectual de otros para impulsar sus modelos.

Tim Starks

Escrito por Tim Starks

Tim Starks es reportero senior de CyberScoop. Sus paradas anteriores incluyen trabajar en The Washington Post, POLITICO y Congressional Quarterly. Originario de Evansville, Indiana, se ocupa de la ciberseguridad desde 2003. Envíe un correo electrónico a Tim aquí: tim.starks@cyberscoop.com.