Así es como los pesos pesados ​​cibernéticos de EE. UU. y el Reino Unido están lidiando con Claude Mythos

un porro informe de Cloud Security Alliance (CSA), el Instituto SANS y el Open Worldwide Application Security Project (OWASP) concluye que, en el corto plazo, es probable que las organizaciones “se vean abrumadas” por actores de amenazas que utilizan IA para encontrar y explotar vulnerabilidades más rápido de lo que los defensores pueden parchearlas.

Si bien esas organizaciones pueden utilizar herramientas de inteligencia artificial para acelerar sus propias defensas, los atacantes «todavía enfrentan una carga relativa más pesada debido a las limitaciones inherentes de la aplicación de parches. Esto a su vez conduce a «beneficios asimétricos» para los atacantes que pueden darse el lujo de adoptar la tecnología sin la misma cautela y burocracia que una empresa multimillonaria.

«El costo y la capacidad para explotar el descubrimiento están cayendo, el tiempo entre la divulgación y el uso de armas se está reduciendo a cero, y las capacidades que antes requerían recursos de los estados-nación ahora se están volviendo ampliamente accesibles», escribieron Robert Lee, director de inteligencia artificial del Instituto SANS, Gadi Evron, director ejecutivo de Knostic y Rich Mogull, analista jefe de CSA, quienes fueron los autores principales.

El informe marca una de las primeras respuestas integrales a las capacidades de Claude Mythos de los EE. UU., que cuenta con luminarias de la ciberseguridad que han establecido políticas en los niveles más altos como autores contribuyentes, incluida Jen Easterly, ex directora de la Agencia de Seguridad de Infraestructura y Ciberseguridad, Rob Joyce, ex alto funcionario de ciberseguridad de la Casa Blanca y la NSA, y Chris Inglis, ex director nacional de ciberseguridad.

También incluye a incondicionales del sector privado como Heather Adkins, CISO de Google, Katie Moussouris, directora ejecutiva de Luta Security, y Sounil Yu, director de tecnología de Knostic. Otros setenta CISO, CTO y otros ejecutivos de seguridad son nombrados editores y revisores.

También esta semana, el Instituto de Seguridad de IA (AISI) del Reino Unido detallado los resultados de las pruebas que realizó en una versión preliminar de Claude Mythos, calificándolo de «un paso adelante» con respecto a los modelos Anthropic anteriores en el ámbito de la ciberseguridad y capaz de «ejecutar ataques de múltiples etapas en redes vulnerables y descubrir y explotar vulnerabilidades de forma autónoma».

Utilizando una combinación de ejercicios de Capture the Flag y pruebas de alcance cibernético, los investigadores de AISI descubrieron que Mythos no solo elevó el límite de usuarios técnicos no expertos y de nivel aprendiz, sino que redujo la brecha general en la competencia de piratería entre los dos. En otras palabras, cada vez hay menos distinción entre las capacidades de los “script kiddies” aficionados y los hackers de nivel medio con conocimientos técnicos.

Claude Mythos y otros modelos de lenguajes grandes están aumentando las capacidades de los piratas informáticos de nivel medio y bajo cuando se trata de resolver tareas y desafíos específicos de ciberseguridad. (Fuente: AISI)

Antes de abril de 2025, ningún modelo de lenguaje grande podía completar un único problema CTF de nivel experto. Mythos resolvió con éxito casi tres cuartas partes (73%) de ellos.

En las pruebas de alcance cibernético, que están destinadas a simular ataques multicadena más complejos, los resultados fueron desiguales, pero también representaron un progreso significativo con respecto a los modelos Claude anteriores.

Mythos fue sometido a un manual de ataque de 32 pasos modelado en redes corporativas, que abarca desde el acceso inicial a la red hasta la toma total de control de la misma. En tres de las 10 simulaciones, el modelo completó un promedio de 24 de los 32 pasos. Las versiones más antiguas de Claude y otros modelos fronterizos nunca promediaron más de 16.

Claude Mythos mejoró la capacidad de otros modelos para completar un ciberataque de 32 pasos dirigido a un entorno de red corporativa simulado. (Fuente: AISI)

Mythos reprobó su prueba contra una torre de enfriamiento de tecnología operativa simulada, pero los investigadores notaron que esto no significa que la IA sea mala para explotar OT: el modelo en realidad falló durante la sección de TI del ejercicio.

Los investigadores del Reino Unido fueron más mesurados en su análisis de Mythos, señalando que sus pruebas indican que es “al menos capaz” de derribar de forma autónoma redes empresariales más pequeñas y débilmente defendidas.

Pero también señalan que sus rangos cibernéticos carecen de características de seguridad (como defensores activos y herramientas defensivas) que serían comunes en muchas redes del mundo real y presentarían obstáculos adicionales, y tampoco penalizaron al modelo por activar alertas de seguridad.

«Esto significa que no podemos decir con seguridad si Mythos Preview sería capaz de atacar sistemas bien defendidos», concluyeron los investigadores.

Deuda técnica vencida

Tanto el informe de EE.UU. como el del Reino Unido coinciden en que los grandes modelos lingüísticos se están moviendo en términos generales en una dirección similar de reducción de la barrera técnica. Los autores estadounidenses piden que las organizaciones adopten más rápidamente la IA para la ciberdefensa y, al mismo tiempo, revisen sus manuales de respuesta a incidentes y sus políticas corporativas para tener en cuenta posturas de defensa más automatizadas.

Por su parte, Anthropic ha dicho que no venderá Mythos comercialmente y la semana pasada anunció que el modelo estaría disponible para Project Glasswing, un consorcio de importantes empresas tecnológicas que lo utilizarán para erradicar y parchear vulnerabilidades en productos y servicios de uso común.

Pero otros expertos han advertido que las empresas y los gobiernos no están bien posicionados para absorber la afluencia de la explotación de vulnerabilidades esperada ni para aprovechar hábilmente sus propias herramientas de inteligencia artificial para contrarrestarlas.

Casey Ellis, director de tecnología y fundador de Bugcrowd, escribió que los recientes avances en las herramientas cibernéticas de IA han tenido éxito en gran medida porque “viven en lugares donde dejamos de mirar hace una década”.

Si bien la comunidad de ciberseguridad ha pasado años enfocándose en la seguridad de las aplicaciones, la clasificación de vulnerabilidades y otros problemas de seguridad de “capa superior”, las herramientas de inteligencia artificial y los grupos de piratería de nivel superior se han estado alimentando de vulnerabilidades en firmware olvidado o enrutadores cuyos fabricantes cerraron hace mucho tiempo.

Esta realidad de que herramientas como Mythos pueden convertir en un arma la enorme deuda técnica de las grandes organizaciones ha tomado el tradicional dilema del defensor y «la perilla que solía ir a diez y la giró a setecientos», escribió Ellis.

Además, las corporaciones y los gobiernos se basan en la creación de consenso, múltiples niveles de jerarquía y cumplimiento legal. Si bien todo esto es necesario cuando se entrega la ciberseguridad a herramientas automatizadas, también puede conducir a un proceso más lento y a una mayor asimetría contra los defensores en el corto plazo.

«La integración a la producción real se convierte en el campo de batalla», escribió Ellis. «El retraso es real. La burocracia es real. Las cadenas de suministro son reales».

Derek B. Johnson

Escrito por Derek B. Johnson

Derek B. Johnson es reportero de CyberScoop, donde su área incluye la ciberseguridad, las elecciones y el gobierno federal. Antes de eso, ha brindado una cobertura galardonada de noticias sobre ciberseguridad en los sectores público y privado para varias publicaciones desde 2017. Derek tiene una licenciatura en periodismo impreso de la Universidad de Hofstra en Nueva York y una maestría en políticas públicas de la Universidad George Mason en Virginia.

Claude Mythos de Anthropic encuentra miles de fallas de día cero en los principales sistemas – CYBERDEFENSA.MX

La empresa de inteligencia artificial (IA) Anthropic anunció una nueva iniciativa de ciberseguridad llamada Proyecto Ala de Vidrio que utilizará una versión preliminar de su nuevo modelo fronterizo, Claude Mitospara encontrar y abordar vulnerabilidades de seguridad.

El modelo será usado por un pequeño conjunto de organizaciones, incluidas Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks, junto con Anthropic, para proteger el software crítico.

La compañía dijo que está formando esta iniciativa en respuesta a las capacidades observadas en su modelo de frontera de propósito general que demuestran un «nivel de capacidad de codificación donde pueden superar a todos, excepto a los humanos más capacitados, para encontrar y explotar vulnerabilidades de software». Debido a sus capacidades de ciberseguridad y a la preocupación de que se pueda abusar de ellas, Anthropic ha optado por no hacer que el modelo esté disponible de forma generalizada.

Mythos Preview, afirmó Anthropic, ya ha descubierto miles de vulnerabilidades de día cero de alta gravedad en todos los principales sistemas operativos y navegadores web. Algunos de estos incluyen un error de 27 años de antigüedad en OpenBSD, ahora parcheado, una falla de 16 años de antigüedad en FFmpeg y una vulnerabilidad que corrompe la memoria en un monitor de máquina virtual con memoria segura.

Ciberseguridad

En un caso destacado por la compañía, se dice que Mython Preview viene de forma autónoma con un exploit de navegador web que encadena cuatro vulnerabilidades para escapar de los entornos limitados de renderizado y del sistema operativo. antrópico también anotado En la tarjeta de sistema de la vista previa se muestra que el modelo resolvió una simulación de ataque a la red corporativa que a un experto humano le habría llevado más de 10 horas.

Quizás en lo que es uno de los hallazgos más sorprendentes, Mythos Preview logró seguir las instrucciones de un investigador que realizaba una evaluación para escapar de una computadora segura «sandbox» que se le proporcionó, lo que indica una «capacidad potencialmente peligrosa» para eludir sus propias salvaguardas.

La modelo no se quedó ahí. Además, realizó una serie de acciones adicionales, incluido el diseño de un exploit de varios pasos para obtener un amplio acceso a Internet desde el sistema sandbox y enviar un mensaje de correo electrónico al investigador, que estaba comiendo un sándwich en un parque.

«Además, en un esfuerzo preocupante y no solicitado para demostrar su éxito, publicó detalles sobre su exploit en múltiples sitios web difíciles de encontrar, pero técnicamente públicos», dijo Anthropic.

La empresa señaló que Proyecto Ala de Vidrio Es un «intento urgente» de emplear capacidades del modelo de frontera con fines defensivos antes de que actores hostiles adopten esas mismas capacidades. También está comprometiendo hasta 100 millones de dólares en créditos de uso para Mythos Preview, así como 4 millones de dólares en donaciones directas a organizaciones de seguridad de código abierto.

«No entrenamos explícitamente a Mythos Preview para que tenga estas capacidades», dijo Anthropic. «Más bien, surgieron como una consecuencia posterior de mejoras generales en el código, el razonamiento y la autonomía. Las mismas mejoras que hacen que el modelo sea sustancialmente más efectivo para parchear vulnerabilidades también lo hacen sustancialmente más efectivo para explotarlas».

Las noticias sobre Mythos se filtraron el mes pasado después de que los detalles sobre el modelo se almacenaran inadvertidamente en un caché de datos de acceso público debido a un error humano. El borrador lo describió como el modelo de IA más potente y capaz construido hasta la fecha. Días después, Anthropic sufrió una segunda falla de seguridad que expuso accidentalmente cerca de 2000 archivos de código fuente y más de medio millón de líneas de código asociadas con Claude Code durante aproximadamente tres horas.

Ciberseguridad

La filtración también llevó al descubrimiento de un problema de seguridad que elude ciertas salvaguardas cuando al agente codificador de IA se le presenta un comando compuesto por más de 50 subcomandos. Desde entonces, Anthropic ha abordado formalmente el problema en Claude Code. versión 2.1.90lanzado la semana pasada.

«Claude Code, el agente de codificación de IA insignia de Anthropic que ejecuta comandos de shell en las máquinas de los desarrolladores, ignora silenciosamente las reglas de denegación de seguridad configuradas por el usuario cuando un comando contiene más de 50 subcomandos», dijo la empresa de seguridad de IA Adversa. dicho. «Un desarrollador que configura ‘nunca ejecutar rm’ verá rm bloqueado cuando se ejecute solo, pero el mismo ‘rm’ se ejecuta sin restricciones si está precedido por 50 declaraciones inofensivas. La política de seguridad desaparece silenciosamente».

«El análisis de seguridad cuesta tokens. Los ingenieros de Anthropic tuvieron un problema de rendimiento: verificar cada subcomando congeló la interfaz de usuario y quemó el cómputo. Su solución: dejar de verificar después de 50. Cambiaron seguridad por velocidad. Cambiaron seguridad por costo».

La fuente del código Claude se filtró a través de un error de empaquetado de npm, confirma Anthropic – CYBERDEFENSA.MX

Anthropic confirmó el martes que el código interno de su popular asistente de codificación de inteligencia artificial (IA), Claude Code, se había publicado inadvertidamente debido a un error humano.

«No se involucraron ni se expusieron datos confidenciales o credenciales de clientes», dijo un portavoz de Anthropic. dicho en un comunicado compartido con CNBC News. «Este fue un problema del paquete de lanzamiento causado por un error humano, no una violación de seguridad. Estamos implementando medidas para evitar que esto vuelva a suceder».

El descubrimiento se produjo después del lanzamiento del advenedizo de la IA. versión 2.1.88 del paquete npm de Claude Code, y los usuarios notaron que contenía un archivo de mapa fuente que podría usarse para acceder al código fuente de Claude Code, que comprende casi 2000 archivos TypeScript y más de 512 000 líneas de código. La versión ya no está disponible para descargar desde npm.

El investigador de seguridad Chaofan Shou fue el primero en marcar públicamente en X, indicando «¡El código fuente del código Claude se ha filtrado a través de un archivo de mapa en su registro npm!» Desde entonces, la publicación X ha acumulado más de 28,8 millones de visitas. El código base filtrado permanece accesible a través de un repositorio público de GitHubdonde ha superado las 84.000 estrellas y las 82.000 bifurcaciones.

Ciberseguridad

Una filtración de código fuente de este tipo es importante, ya que brinda a los desarrolladores de software y a los competidores de Anthropic un modelo de cómo funciona la popular herramienta de codificación. Los usuarios que tienen cavado en el código han publicado detalles de su arquitectura de memoria autorreparable para superar el modelo restricciones de ventana de contexto fijasasí como otros componentes internos.

Estos incluir un sistema de herramientas para facilitar diversas capacidades como lectura de archivos o ejecución bash, un motor de consultas para manejar llamadas y orquestación de API LLM, orquestación de múltiples agentes para generar «subagentes» o enjambres para llevar a cabo tareas complejas y una capa de comunicación bidireccional que conecta extensiones IDE a Claude Code CLI.

La filtración también arrojó luz sobre una característica llamada KAIROS eso permite a Claude Code operar como un agente persistente en segundo plano que puede corregir errores periódicamente o ejecutar tareas por sí solo sin esperar la intervención humana, e incluso enviar notificaciones automáticas a los usuarios. Complementando este modo proactivo hay un nuevo modo «sueño» eso le permitirá a Claude pensar constantemente en segundo plano para desarrollar ideas e iterar las existentes.

Quizás el detalle más intrigante es el modo encubierto de la herramienta para realizar contribuciones «silenciosas» a repositorios de código abierto. «Estás operando UNDERCOVER en un repositorio PÚBLICO/OPEN-SOURCE. Tus mensajes de confirmación, títulos de relaciones públicas y cuerpos de relaciones públicas NO DEBEN contener NINGUNA información interna de Anthropic. No desveles tu tapadera», se lee en el mensaje del sistema.

Otro hallazgo fascinante tiene que ver con los intentos de Anthropic de luchar encubiertamente contra los ataques de destilación de modelos. El sistema tiene controles en su lugar que inyectan definiciones de herramientas falsas en las solicitudes de API para envenenar los datos de entrenamiento si los competidores intentan eliminar los resultados de Claude Code.

Paquetes Typosquat npm enviados al registro

Con los aspectos internos de Claude Code ahora al descubierto, los riesgos de desarrollo brindan a los malos actores municiones para sortear las barreras de seguridad y engañar al sistema para que realice acciones no deseadas, como ejecutar comandos maliciosos o filtrar datos.

«En lugar de jailbreaks de fuerza bruta e inyecciones rápidas, los atacantes ahora pueden estudiar y descifrar exactamente cómo fluyen los datos a través del canal de gestión de contexto de cuatro etapas de Claude Code y crear cargas útiles diseñadas para sobrevivir a la compactación, persistiendo efectivamente una puerta trasera durante una sesión arbitrariamente larga», dijo la empresa de seguridad de inteligencia artificial Straiker. dicho.

La preocupación más apremiante son las consecuencias del ataque a la cadena de suministro de Axios, ya que los usuarios que instalaron o actualizaron Claude Code a través de npm el 31 de marzo de 2026, entre las 00:21 y las 03:29 UTC, pueden haber extraído consigo una versión troyanizada del cliente HTTP que contiene un troyano de acceso remoto multiplataforma. Se recomienda a los usuarios que bajen inmediatamente a una versión segura y roten todos los secretos.

Ciberseguridad

Es más, los atacantes ya están aprovechando la filtración para escribir nombres de paquetes npm internos en un intento de apuntar a aquellos que pueden estar intentando compilar el código fuente filtrado de Claude Code y organizar ataques de confusión de dependencia. Los nombres de los paquetes, todos publicados por un usuario llamado «chupete136,» se enumeran a continuación:

  • captura-de-audio-napi
  • diferencia-de-color-napi
  • procesador-de-imagen-napi
  • modificadores-napi
  • controlador de URL-napi

«En este momento son códigos auxiliares vacíos (`module.exports = {}`), pero así es como funcionan estos ataques: agachar el nombre, esperar a que se descarguen y luego enviar una actualización maliciosa que afecta a todos los que la instalaron», dijo el investigador de seguridad Clément Dumas. dicho en una publicación en X.

El incidente es el segundo gran error de Anthropic en una semana. Detalles sobre la empresa. próximo modelo de IAjunto con otros datos internos, quedaron accesibles a través del sistema de gestión de contenidos (CMS) de la empresa la semana pasada. Posteriormente, Anthropic reconoció que ha estado probando el modelo con clientes de acceso temprano, afirmando que es «el modelo más capaz que hemos construido hasta la fecha», según Fortuna.

La falla de la extensión Claude permitió la inyección rápida de XSS sin hacer clic a través de cualquier sitio web – CYBERDEFENSA.MX

Investigadores de ciberseguridad han revelado una vulnerabilidad en la extensión Claude Google Chrome de Anthropic que podría haber sido explotada para activar mensajes maliciosos simplemente visitando una página web.

La falla «permitió que cualquier sitio web inyectara silenciosamente mensajes en ese asistente como si el usuario los hubiera escrito», dijo Oren Yomtov, investigador de Koi Security. dicho en un informe compartido con The Hacker News. «Sin clics, sin solicitudes de permiso. Simplemente visite una página y un atacante controlará completamente su navegador».

El problema encadena dos fallas subyacentes:

  • Una lista de origen demasiado permisiva en la extensión que permitía que cualquier subdominio que coincidiera con el patrón (*.claude.ai) enviara un mensaje a Claude para su ejecución.
  • Un modelo de objeto de documento (DOMINGO) basado en secuencias de comandos entre sitios (XSS) vulnerabilidad en un componente CAPTCHA de Arkose Labs alojado en «a-cdn.claude[.]ai.»
Ciberseguridad

Específicamente, la vulnerabilidad XSS permite la ejecución de código JavaScript arbitrario en el contexto de «a-cdn.claude[.]ai.» Un actor de amenazas podría aprovechar este comportamiento para inyectar JavaScript que emita un mensaje a la extensión Claude.

La extensión, por su parte, permite que el mensaje llegue a la barra lateral de Claude como si fuera una solicitud de usuario legítima simplemente porque proviene de un dominio incluido en la lista de permitidos.

«La página del atacante incorpora el componente vulnerable Arkose en un lugar oculto.

La explotación exitosa de esta vulnerabilidad podría permitir al adversario robar datos confidenciales (p. ej., tokens de acceso), acceder al historial de conversaciones con el agente de IA e incluso realizar acciones en nombre de la víctima (p. ej., enviar correos electrónicos suplantándolos, solicitar datos confidenciales).

Tras la divulgación responsable el 27 de diciembre de 2025, Anthropic implementó un parche en la extensión de Chrome que impone una estricta verificación de origen que requiere una coincidencia exacta con el dominio «claude[.]ai.» Desde entonces, Arkose Labs ha solucionado la falla XSS al final del 19 de febrero de 2026.

«Cuanto más capaces se vuelven los asistentes de navegador de IA, más valiosos son como objetivos de ataque», dijo Koi. «Una extensión que puede navegar por su navegador, leer sus credenciales y enviar correos electrónicos en su nombre es un agente autónomo. Y la seguridad de ese agente es tan fuerte como el origen más débil en su límite de confianza».

Cómo Ceros brinda visibilidad y control a los equipos de seguridad en Claude Code – CYBERDEFENSA.MX

Los equipos de seguridad han pasado años creando controles de identidad y acceso para usuarios humanos y cuentas de servicio. Pero una nueva categoría de actor ha entrado silenciosamente en la mayoría de los entornos empresariales y opera completamente fuera de esos controles.

Claude Code, el agente de codificación de IA de Anthropic, ahora se ejecuta en organizaciones de ingeniería a escala. Lee archivos, ejecuta comandos de shell, llama a API externas y se conecta a integraciones de terceros llamadas servidores MCP. Hace todo esto de forma autónoma, con todos los permisos del desarrollador que lo lanzó, en la máquina local del desarrollador, antes de que cualquier herramienta de seguridad de capa de red pueda verlo. No deja ningún rastro de auditoría para cuya captura se construyó la infraestructura de seguridad existente.

Este tutorial cubre Ceros, una capa de confianza de IA creada por Más allá de la identidad que se encuentra directamente en la máquina del desarrollador junto con Claude Code y proporciona visibilidad en tiempo real, aplicación de políticas en tiempo de ejecución y un seguimiento de auditoría criptográfica de cada acción que realiza el agente.

El problema: Claude Code opera fuera de los controles de seguridad existentes

Antes de analizar el producto, es útil comprender por qué las herramientas existentes no pueden abordar este problema.

La mayoría de las herramientas de seguridad empresarial se encuentran en el borde de la red o en la puerta de enlace API. Estas herramientas ven el tráfico después de que sale de la máquina. Para cuando un SIEM ingiere un evento o un monitor de red señala tráfico inusual, Claude Code ya ha actuado: el archivo ya ha sido leído, el comando de shell ya se ha ejecutado y los datos ya se han movido.

El perfil de comportamiento de Claude Code agrava significativamente este problema. Vive de la tierra, utilizando herramientas y permisos que ya están en la máquina del desarrollador en lugar de traer los suyos propios. Se comunica a través de llamadas de modelos externos que parecen tráfico normal. Ejecuta secuencias complejas de acciones que ningún ser humano programó explícitamente. Y se ejecuta con todos los permisos heredados de quien lo lanzó, incluido el acceso a credenciales, sistemas de producción y datos confidenciales que los desarrolladores tienen en sus máquinas.

El resultado es una brecha que las herramientas de la capa de red estructuralmente no pueden cerrar: todo lo que Claude Code hace en la máquina local, antes de que cualquier solicitud abandone el dispositivo. Ahí es donde opera Ceros.

Primeros pasos: dos comandos, treinta segundos

Ceros está diseñado para que la instalación no interrumpa el flujo de trabajo del desarrollador. La configuración requiere dos comandos:

curl -fsSL https://agent.beyondidentity.com/install.sh | bash

ceros claude

El primer comando instala la CLI. El segundo lanza Claude Code a través de Ceros. Se abre una ventana del navegador, solicita una dirección de correo electrónico y envía un código de verificación de seis dígitos. Después de ingresar el código, Claude Code se inicia y funciona exactamente como antes. Desde la perspectiva del desarrollador, nada ha cambiado.

Para implementaciones en toda la organización, los administradores pueden configurar Ceros para que se solicite a los desarrolladores que se inscriban automáticamente cuando inicien Claude Code. La seguridad se vuelve invisible para el desarrollador, que es la única forma en que la seguridad se adopta a escala.

Una vez inscrito, antes de que Claude Code genere un único token, Ceros captura el contexto completo del dispositivo, incluido el sistema operativo, la versión del kernel, el estado de cifrado del disco, el estado de arranque seguro y el estado de protección del endpoint, todo en menos de 250 milisegundos. Captura la ascendencia completa del proceso de cómo se invocó Claude Code, con hashes binarios de cada ejecutable en la cadena. Y vincula la sesión a una identidad humana verificada a través de la plataforma de Beyond Identity, firmada con una clave criptográfica vinculada al hardware.

La consola: vea lo que Claude Code ha estado haciendo realmente

Después de registrar un dispositivo y ejecutar Claude Code normalmente durante unos días, navegar a la consola de administración de Ceros revela algo que la mayoría de los equipos de seguridad nunca antes habían visto: un registro completo de lo que Claude Code ha estado haciendo realmente en su entorno.

La vista de conversaciones muestra cada sesión entre un desarrollador y Claude Code en todos los dispositivos registrados, enumerados por usuario, dispositivo y marca de tiempo. Al hacer clic en cualquier conversación se muestra el intercambio completo entre el desarrollador y el agente. Pero entre las indicaciones y las respuestas, algo más es visible: llamadas a herramientas.

Cuando un desarrollador le pregunta a Claude Code algo tan simple como «¿qué archivos hay en mi directorio?», el LLM no simplemente sabe la respuesta. Le indica al agente que ejecute una herramienta en la máquina local, en este caso bash ls -la. Ese comando de shell se ejecuta en el dispositivo del desarrollador con los permisos del desarrollador. Una pregunta casual desencadena una ejecución real en una máquina real.

La vista Conversaciones muestra cada una de estas invocaciones de herramientas en cada sesión. Para la mayoría de los equipos de seguridad, esta es la primera vez que ven estos datos.

La vista Herramientas tiene dos pestañas. La pestaña Definiciones muestra todas las herramientas disponibles para Claude Code en el entorno inscrito, incluidas herramientas integradas como Bash, ReadFile, WriteFile, Edit y SearchWeb, así como todos los servidores MCP que los desarrolladores han conectado a sus agentes. Cada entrada incluye el esquema completo de la herramienta: las instrucciones dadas al LLM sobre lo que hace la herramienta y cómo invocarla.

La pestaña Llamadas muestra lo que realmente se ejecutó. No sólo lo que existe, sino lo que se invocó, con qué argumentos y lo que se devolvió. Los equipos de seguridad pueden profundizar en cualquier llamada de herramienta individual y ver el comando exacto que se ejecutó, los argumentos pasados ​​y el resultado completo que se obtuvo.

La vista del servidor MCP Es donde muchos equipos de seguridad tienen su momento de descubrimiento más significativo. Los servidores MCP son la forma en que Claude Code se conecta a herramientas y servicios externos, incluidas bases de datos, Slack, correo electrónico, API internas e infraestructura de producción. Los desarrolladores los agregan de manera casual, pensando en la productividad más que en la seguridad. Cada uno es una ruta de acceso a datos que nadie revisó.

El panel de Ceros muestra cada servidor MCP conectado a Claude Code en todos los dispositivos registrados, cuándo se vio por primera vez, en qué dispositivos aparece y si ha sido aprobado. Para la mayoría de las organizaciones, la brecha entre lo que los equipos de seguridad asumieron que estaba conectado y lo que realmente está conectado es significativa.

Políticas: Aplicación de controles en el código Claude en tiempo de ejecución

La visibilidad sin gobernanza pone de manifiesto el riesgo, pero no lo previene. La sección de Políticas es donde Ceros pasa de la observabilidad a la aplicación, y donde la historia del cumplimiento se vuelve concreta.

Políticas en Ceros se evalúan en tiempo de ejecución, antes de que se ejecute la acción. Esta distinción es importante para el cumplimiento: el control opera en el momento de la acción, no reconstruido después del hecho.

Lista de permitidos del servidor MCP es la política de mayor impacto que la mayoría de las organizaciones escriben primero. Los administradores definen una lista de servidores MCP aprobados y configuran el valor predeterminado para bloquear todo lo demás. A partir de ese momento, cualquier instancia de Claude Code que intente conectarse a un servidor MCP no aprobado se bloquea antes de que se establezca la conexión y el intento se registra.

Políticas a nivel de herramienta Permitir a los administradores controlar qué herramientas Claude Code puede invocar y bajo qué condiciones. Una política puede bloquear completamente la herramienta Bash para equipos que no necesitan acceso de shell por parte de sus agentes. Puede permitir lecturas de archivos dentro del directorio del proyecto mientras bloquea lecturas en rutas confidenciales como ~/.ssh/ o /etc/. El motor de políticas evalúa no sólo qué herramienta se está utilizando sino también qué argumentos se están pasando, lo cual es la diferencia entre una política útil y un teatro de políticas.

Requisitos de postura del dispositivo sesiones de Gate Claude Code sobre el estado de seguridad de la máquina. Una política puede requerir que se habilite el cifrado de disco y que se ejecute la protección de endpoints antes de que se permita iniciar una sesión. Ceros reevalúa continuamente la postura del dispositivo durante toda la sesión, no solo al iniciar sesión. Si la protección de endpoints está deshabilitada mientras Claude Code está activo, Ceros lo ve y actúa en consecuencia según la política.

El registro de actividad: evidencia lista para auditoría

El Registro de actividad es donde Ceros se vuelve directamente relevante para los equipos de cumplimiento. Cada entrada no es simplemente un registro; es una instantánea forense del entorno en el momento exacto en que se invocó el Código Claude.

Una única entrada de registro contiene la postura de seguridad completa del dispositivo en ese momento, la ascendencia completa del proceso que muestra cada proceso en la cadena que invocó Claude Code, firmas binarias de cada ejecutable en esa ascendencia, la identidad del usuario a nivel de sistema operativo vinculada a un humano verificado y cada acción que Claude Code realizó durante la sesión.

Esto es importante para el cumplimiento porque los auditores exigen cada vez más pruebas de que los registros son inmutables. Los archivos de registro estándar que los administradores pueden editar no cumplen este requisito. Ceros firma cada entrada con una clave criptográfica vinculada al hardware antes de salir de la máquina. El registro no se puede modificar después del hecho.

Para los marcos que requieren registros de auditoría a prueba de manipulaciones, incluidos CC8.1 de SOC 2, AU-9 de FedRAMP, requisitos de control de auditoría de HIPAA y Requisito 10 de PCI-DSS v4.0, este es el artefacto de evidencia específico que satisface el control. Cuando un auditor solicita evidencia de monitoreo y controles de acceso a agentes de IA, la respuesta es una exportación desde el panel de Ceros que cubre todo el período de auditoría, firmada criptográficamente, con atribución de usuario y contexto del dispositivo en cada entrada.

Implementación de MCP administrada: estandarización de las herramientas de Claude Code en toda la organización

Para las organizaciones que desean estandarizar las herramientas disponibles para Claude Code en lugar de bloquear únicamente las no aprobadas, Ceros proporciona implementación de MCP administrada desde la consola de administración.

Los administradores pueden enviar servidores MCP aprobados a la instancia de Claude Code de cada desarrollador desde una única interfaz, sin necesidad de ninguna configuración del desarrollador. El servidor MCP aparece automáticamente en el agente del desarrollador en el próximo lanzamiento.

Combinado con la lista de permitidos del servidor MCP, esto crea un modelo de gobierno completo: los administradores definen qué se requiere, qué se permite y qué se bloquea. Los desarrolladores trabajan dentro de ese ámbito sin fricciones.

El panel: postura de riesgo de IA agente en toda la organización

Lo que viene es El tablerouna vista única de la postura de riesgo de la IA en toda su organización inscrita. Mientras que las vistas a nivel de sesión le indican lo que hizo el agente de un desarrollador, el Panel le informa lo que está sucediendo en toda la flota: cuántos dispositivos están aprovisionados, inscritos y ejecutando activamente Claude Code, con señalización automática cuando las brechas de adopción indican que los agentes se están ejecutando fuera de la ruta de inscripción de Ceros y fuera de sus controles. Inscribirse para recibir una notificación cuando se envíe The Dashboard.

Conclusión

La brecha de seguridad que crea Claude Code no está en el borde de la red. Es en la máquina del desarrollador, donde opera el agente antes de que cualquier herramienta de seguridad existente pueda verlo. Ceros cierra esa brecha viviendo donde vive el agente, capturando todo antes de que se ejecute y produciendo evidencia firmada criptográficamente sobre la cual los equipos de seguridad y cumplimiento pueden actuar.

Para los equipos de seguridad cuyas organizaciones han implementado Claude Code y están comenzando a considerar lo que eso significa para su postura y controles de auditoría, el punto de partida es la visibilidad. No se puede gobernar lo que no se puede ver y, hasta ahora, no ha habido ninguna herramienta que pueda mostrar lo que Claude Code estaba haciendo realmente.

Ceros ya está disponible y comenzar es gratis. Los equipos de seguridad pueden registrar un dispositivo y ver la actividad de su Código Claude por primera vez en más allá de la identidad.ai.

Ceros está desarrollado por Beyond Identity, que cumple con SOC 2/FedRAMP y se puede implementar como SaaS en la nube, autohospedado o totalmente aislado en las instalaciones.

¿Encontró interesante este artículo? Este artículo es una contribución de uno de nuestros valiosos socios. Síguenos en noticias de google, Gorjeo y LinkedIn para leer más contenido exclusivo que publicamos.

Anthropic encuentra 22 vulnerabilidades en Firefox utilizando el modelo de IA Claude Opus 4.6 – CYBERDEFENSA.MX

Anthropic el viernes lo dijo descubierto 22 nuevas vulnerabilidades de seguridad en el navegador web Firefox como parte de una asociación de seguridad con Mozilla.

De estos, 14 se han clasificado como graves, siete se han clasificado como moderados y uno se ha clasificado como de gravedad baja. Los temas fueron abordados en Firefox 148lanzado a fines del mes pasado. El vulnerabilidades fueron identificados durante un período de dos semanas en enero de 2026.

La compañía de inteligencia artificial (IA) dijo que la cantidad de errores de alta gravedad identificados por su modelo de lenguaje grande (LLM) Claude Opus 4.6 representa «casi una quinta parte» de todas las vulnerabilidades de alta gravedad que se parchearon en Firefox en 2025.

Anthropic dijo que el LLM detectó un error de uso después de la liberación en el JavaScript del navegador después de «sólo» 20 minutos de exploración, que luego fue validado por un investigador humano en un entorno virtualizado para descartar la posibilidad de un falso positivo.

Ciberseguridad

«Al final de este esfuerzo, habíamos escaneado casi 6.000 archivos C++ y enviado un total de 112 informes únicos, incluidas las vulnerabilidades de gravedad alta y moderada mencionadas anteriormente», dijo la compañía. «La mayoría de los problemas se han solucionado en Firefox 148, y el resto se solucionará en próximas versiones».

El advenedizo de IA dijo que también proporcionó a su modelo Claude acceso a la lista completa de vulnerabilidades enviadas a Mozilla y encargó a la herramienta de IA desarrollar un exploit práctico para ellas.

A pesar de realizar la prueba varios cientos de veces y gastar alrededor de 4.000 dólares en créditos API, la compañía dijo que Claude Opus 4.6 pudo convertir el defecto de seguridad en un exploit sólo en dos casos.

Este comportamiento, añadió la empresa, señaló dos aspectos importantes: el coste de identificar vulnerabilidades es más barato que crear un exploit para ellas, y el modelo es mejor para encontrar problemas que para explotarlos.

«Sin embargo, el hecho de que Claude pudiera desarrollar automáticamente un exploit de navegador crudo, aunque sólo sea en unos pocos casos, es preocupante», enfatizó Anthropic, añadiendo que los exploits sólo funcionaron dentro de los límites de su entorno de prueba, al que se le han eliminado intencionalmente algunas características de seguridad como el sandboxing.

Un componente crucial incorporado al proceso es un verificador de tareas para determinar si el exploit realmente funciona, brindando a la herramienta retroalimentación en tiempo real mientras explora la base de código en cuestión y permitiéndole iterar sus resultados hasta que se idee un exploit exitoso.

Una de esas hazañas que escribió Claude fue para CVE-2026-2796 (puntuación CVSS: 9,8), que ha sido descrito como una mala compilación justo a tiempo (JIT) en el componente JavaScript WebAssembly.

La divulgación se produce semanas después de que la compañía publicara Claude Code Security en una vista previa de investigación limitada como una forma de corregir vulnerabilidades utilizando un agente de inteligencia artificial.

Ciberseguridad

«No podemos garantizar que todos los parches generados por agentes que pasen estas pruebas sean lo suficientemente buenos como para fusionarse inmediatamente», dijo Anthropic. «Pero los verificadores de tareas nos dan una mayor confianza en que el parche producido corregirá la vulnerabilidad específica preservando al mismo tiempo la funcionalidad del programa y, por lo tanto, alcanzará lo que se considera el requisito mínimo para un parche plausible».

Mozilla, en un anuncio coordinado, dijo que el enfoque asistido por IA ha descubierto otros 90 errores, la mayoría de los cuales han sido solucionados. Estos consistían en fallas de aserción que se superponían con problemas que tradicionalmente se encontraban mediante el fuzzing y distintas clases de errores lógicos que los fuzzers no lograban detectar.

«La escala de los hallazgos refleja el poder de combinar una ingeniería rigurosa con nuevas herramientas de análisis para una mejora continua», dijo el fabricante del navegador. dicho. «Consideramos esto como una evidencia clara de que el análisis a gran escala asistido por IA es una nueva y poderosa incorporación a la caja de herramientas de los ingenieros de seguridad».

Anthropic lanza escaneo de seguridad integrado para Claude

Anthropic está implementando una nueva característica de seguridad para Claude Code que puede escanear las bases de código de software de un usuario en busca de vulnerabilidades y sugerir soluciones de parcheo.

La compañía anunció el viernes que Seguridad del código Claude Inicialmente estará disponible para pruebas en un número limitado de clientes empresariales y de equipos. Esto sigue a más de un año de pruebas de estrés por parte de los miembros internos del equipo rojo, compitiendo en concursos de ciberseguridad Capture the Flag y trabajando con el Laboratorio Nacional del Noroeste del Pacífico para perfeccionar la precisión de las funciones de escaneo de la herramienta.

Los grandes modelos de lenguajes se han mostrado cada vez más prometedores tanto en la generación de código como en las tareas de ciberseguridad en los últimos dos años, acelerando el proceso de desarrollo de software pero también reduciendo el listón técnico necesario para crear nuevos sitios web, aplicaciones y otras herramientas digitales.

«Esperamos que una parte significativa del código mundial sea escaneada por IA en un futuro próximo, dado lo efectivos que se han vuelto los modelos para encontrar errores y problemas de seguridad ocultos durante mucho tiempo», escribió la compañía en un blog. correo.

Esas mismas capacidades también permiten a los delincuentes escanear el entorno de TI de una víctima más rápido para encontrar debilidades que puedan explotar. Anthropic apuesta a que a medida que la “codificación de vibración” se generalice, la demanda de escaneo automatizado de vulnerabilidades superará la necesidad de revisiones de seguridad manuales.

A medida que más personas utilizan la IA para generar su software y aplicaciones, un escáner de vulnerabilidades integrado podría reducir potencialmente la cantidad de vulnerabilidades que lo acompañan. El objetivo es reducir grandes partes del proceso de revisión de seguridad del software a unos pocos clics, y el usuario aprueba cualquier parche o cambio antes de la implementación.

Anthropic afirma que Claude Code Security «lee y razona sobre su código como lo haría un investigador humano», mostrando una comprensión de cómo interactúan los diferentes componentes de software, rastreando el flujo de datos y detectando errores importantes que pueden pasarse por alto con las formas tradicionales de análisis estático.

«Cada hallazgo pasa por un proceso de verificación de varias etapas antes de llegar a un analista. Claude vuelve a examinar cada resultado, intentando probar o refutar sus propios hallazgos y filtrar los falsos positivos», afirmó la empresa. «A los hallazgos también se les asignan clasificaciones de gravedad para que los equipos puedan centrarse primero en las soluciones más importantes».

Los investigadores de amenazas le han dicho a CyberScoop que, si bien las capacidades de ciberseguridad han mejorado claramente en los últimos años, tienden a ser más efectivas para encontrar errores de menor impacto, mientras que en muchas organizaciones todavía se necesitan operadores humanos experimentados para administrar el modelo y lidiar con amenazas y vulnerabilidades de mayor nivel.

Pero herramientas como Claude Opus y XBOW han demostrado la capacidad de descubrir cientos de vulnerabilidades de software, en algunos casos haciendo que el proceso de descubrimiento y parcheo sea exponencialmente más rápido que con un equipo de humanos.

antrópico dicho Claude Opus 4.6 es «notablemente mejor» para encontrar vulnerabilidades de alta gravedad que los modelos anteriores, identificando en algunos casos fallas que «no habían sido detectadas durante décadas».

Los usuarios interesados ​​pueden solicitar el acceso al programa. Anthropic aclara su página de registro que los evaluadores deben aceptar utilizar Claude Code Security únicamente en el código que posee su empresa y que «posee todos los derechos necesarios para escanear», no en códigos con licencia o propiedad de terceros ni en proyectos de código abierto.

Derek B. Johnson

Escrito por Derek B. Johnson

Derek B. Johnson es reportero de CyberScoop, donde su área incluye la ciberseguridad, las elecciones y el gobierno federal. Antes de eso, ha brindado una cobertura galardonada de noticias sobre ciberseguridad en los sectores público y privado para varias publicaciones desde 2017. Derek tiene una licenciatura en periodismo impreso de la Universidad de Hofstra en Nueva York y una maestría en políticas públicas de la Universidad George Mason en Virginia.

Anthropic acusa a los laboratorios chinos de intentar apoderarse ilícitamente de las capacidades de Claude

Anthropic acusó el lunes a tres laboratorios chinos de inteligencia artificial de intentar desviar sigilosamente las capacidades de Claude para sus propios modelos, potencialmente de una manera que podría impulsar operaciones cibernéticas ofensivas.

La startup estadounidense de inteligencia artificial dijo que los tres laboratorios, DeepSeek, Moonshot y MiniMax, realizaron “campañas a escala industrial” con una táctica conocida como “destilación”. Implica enviar solicitudes masivas a su modelo Claude en un intento por impulsar las suyas propias (en este caso, 16 millones en total). La destilación puede ser una práctica legítima como método de capacitación, dijo la compañía en una publicación de blogpero no cuando se utiliza como atajo para quitar capacidades a los competidores.

“Los modelos elaborados ilícitamente carecen de las salvaguardias necesarias, lo que crea importantes riesgos para la seguridad nacional”, argumentó Anthropic. “Los laboratorios extranjeros que destilan modelos estadounidenses pueden luego incorporar estas capacidades desprotegidas a sistemas militares, de inteligencia y de vigilancia, permitiendo a los gobiernos autoritarios desplegar IA de frontera para operaciones cibernéticas ofensivas, campañas de desinformación y vigilancia masiva”.

No es la primera vez que Anthropic advierte sobre las amenazas chinas derivadas del uso de Claude por parte de la nación. Y Anthropic combinó sus revelaciones sobre la campaña de destilación con repitiendo su llamada para controles más estrictos a las exportaciones.

OpenAI también tiene acusó a DeepSeek de utilizar técnicas de destilación. CyberScoop no pudo comunicarse de inmediato con los tres laboratorios chinos para comentar sobre las afirmaciones de Anthropic.

«Las tres campañas de destilación… siguieron un manual similar, utilizando cuentas fraudulentas y servicios de proxy para acceder a Claude a escala mientras evadían la detección», dijo Anthropic. «El volumen, la estructura y el enfoque de las indicaciones eran distintos de los patrones de uso normales, lo que reflejaba una extracción deliberada de capacidades en lugar de un uso legítimo».

En total, los laboratorios utilizaron 24.000 cuentas fraudulentas, dijo Anthropic. DeepSeek fue responsable de 150.000 de los intercambios, en comparación con 3,4 millones de Moonshot y 13 millones de MiniMax, según la startup. La actividad violó los términos de servicio y las restricciones de acceso regional, dijo.

Lo que hace que la táctica sea ilegítima es que esencialmente roba la propiedad intelectual, la potencia informática y el esfuerzo de Anthropic, dijo Gal Elbaz, cofundador y director de tecnología de Oligo Security, que se anuncia a sí misma como una empresa de seguridad de tiempo de ejecución de IA.

«Lo aterrador es que puedes tomar todo el poder y liberarlo, porque no tienes a nadie que realmente haga cumplir esas barreras en el otro lado», dijo Elbaz a CyberScoop sobre los temores que Anthropic generó sobre los laboratorios que alimentan los ciberataques.

Las propias empresas de IA se han enfrentado a acusaciones de que están robando datos e propiedad intelectual de otros para impulsar sus modelos.

Tim Starks

Escrito por Tim Starks

Tim Starks es reportero senior de CyberScoop. Sus paradas anteriores incluyen trabajar en The Washington Post, POLITICO y Congressional Quarterly. Originario de Evansville, Indiana, se ocupa de la ciberseguridad desde 2003. Envíe un correo electrónico a Tim aquí: tim.starks@cyberscoop.com.

Kali Linux + Claude, Chrome Crash Traps, WinRAR Flaws, LockBit & 15+ Stories – CYBERDEFENSA.MX

Nothing here looks dramatic at first glance. That’s the point. Many of this week’s threats begin with something ordinary, like an ad, a meeting invite, or a software update.

Behind the scenes, the tactics are sharper. Access happens faster. Control is established sooner. Cleanup becomes harder.

Here is a quick look at the signals worth paying attention to.

These stories may seem separate, but they point in the same direction. Speed is increasing. Deception is improving. And attackers are finding new ways to blend into everyday activity.

The warning signs are there for those who look closely. Small gaps, delayed patches, misplaced trust, and rushed clicks still make the biggest difference.

Staying aware of these shifts is no longer optional. The details change each week. The pressure does not.