El nuevo modo de bloqueo de ChatGPT limita las herramientas que podrían permitir la filtración de datos – CYBERDEFENSA.MX

OpenAI ha comenzado a implementar un nuevo Modo de bloqueo a ChatGPT para cuentas personales elegibles para reducir el riesgo de filtración de datos que surge de ataques de inyección rápida.

La función está diseñada principalmente para personas y organizaciones que manejan datos confidenciales y requieren garantías de protección más estrictas. El modo de bloqueo está disponible para los usuarios que han iniciado sesión en los planes Free, Go, Plus y Pro, y ChatGPT Business de autoservicio.

«El modo de bloqueo es una configuración de seguridad avanzada opcional que limita muchas herramientas y capacidades de los productos OpenAI que pueden conectarse a la web o a servicios externos», OpenAI dicho.

«Está diseñado para reducir el riesgo de filtración de datos debido a ataques de inyección rápida al limitar las solicitudes de red salientes, a expensas de deshabilitar o limitar algunas funciones útiles».

Las salvaguardas tienen como objetivo fortalecer la superficie de ataque contra inyecciones rápidas, lo que sigue siendo un problema «fronterizo» que afecta a todos los modelos de lenguajes grandes (LLM).

Específicamente, se basan en el sandboxing y los controles existentes para combatir Mecanismos de exfiltración de datos basados ​​en URL para limitar las solicitudes de red salientes que potencialmente podrían transmitir datos confidenciales a la infraestructura controlada por el atacante.

Ciberseguridad

La idea no es impedir que se produzcan inyecciones inmediatas. Tampoco cambia la forma en que funcionan la memoria o la carga de archivos, ni la capacidad de compartir una conversación. Más bien, el objetivo es eliminar posibles vías a través de las cuales se podrían extraer los datos. Con ese fin, el modo de bloqueo desactiva las siguientes funciones:

  • Navegación web en vivo, que se limita a acceder únicamente al contenido almacenado en caché
  • Soporte de imágenes, para mostrar imágenes en respuestas regulares o recuperar imágenes de la web
  • Investigación profunda
  • Modo agente
  • Red Canvas, que impide que los usuarios aprueben Lienzo-código generado para acceder a la red
  • Descargas de archivos, que bloquean la descarga de archivos para el análisis de datos.

Al señalar que la función no está «destinada a todos», OpenAI también señaló que tanto el modo de bloqueo como el modo de desarrollador no se pueden usar al mismo tiempo, y agregó que activar uno deshabilita el otro.

«El modo de bloqueo está diseñado para reducir sustancialmente el riesgo de una rápida filtración de datos basada en inyección en ChatGPT y productos OpenAI compatibles, pero no garantiza que la filtración de datos no pueda ocurrir», dijo la compañía. «El riesgo puede persistir a través de aplicaciones habilitadas, combinaciones imprevistas de capacidades o técnicas recientemente descubiertas».

«El modo de bloqueo tampoco previene todos los demás efectos de los ataques de inyección rápida. Por ejemplo, una instrucción maliciosa oculta en un archivo cargado aún podría afectar el comportamiento de ChatGPT y provocar una respuesta incorrecta».

El desarrollo se produce cuando OpenAI también lo ha hecho. lanzado una nueva función de administración de cuentas que permite a los usuarios revisar las sesiones activas de ChatGPT y cerrar sesión en sesiones individuales o en todas si se detectan signos de actividad no autorizada en la cuenta. Las sesiones enumeradas incluyen información sobre el dispositivo, la aplicación utilizada, la ubicación aproximada, la fecha y hora de inicio de sesión, si el dispositivo es confiable y si es la sesión actual.

La vulnerabilidad de ChatGPhish convierte los resúmenes web de ChatGPT en una superficie de phishing – CYBERDEFENSA.MX

Investigadores de ciberseguridad han revelado detalles de una vulnerabilidad en OpenAI ChatGPT que aprovecha la confianza implícita del asistente de inteligencia artificial (IA) en enlaces e imágenes de Markdown para activar inyecciones rápidas y abrir la puerta a ataques de phishing.

La técnica ha recibido el nombre en código. ChatGPhish por Permiso Seguridad.

«El procesador de respuestas chatgpt.com confía en los enlaces de Markdown y en las URL de imágenes de Markdown que se originaron en una página de terceros que el asistente acaba de resumir. Auto-busca esas imágenes y muestra esos enlaces como elementos activos en los que se puede hacer clic dentro de la interfaz de usuario confiable del asistente», dijo el investigador de seguridad Andi Ahmeti en un informe compartido con The Hacker News.

En un escenario de ataque hipotético, un mal actor puede agregar una pequeña carga útil a cualquier página web que la víctima luego solicita a ChatGPT que resuma, lo que hace que se filtren sus detalles de IP, agente de usuario y referencia cuando las imágenes alojadas por el atacante incrustadas en la página se recuperan automáticamente cuando se presenta la respuesta.

Además, puede dar como resultado que enlaces Markdown maliciosos se presenten como elementos en vivo en los que se puede hacer clic dentro de la respuesta del asistente, generar alertas de seguridad de estilo sistema muy falsas y enviar un código QR desde el depósito S3 de un atacante y engañar a la víctima para que lo escanee a través de su dispositivo móvil, evitando efectivamente los filtros de URL de escritorio y los controles de seguridad empresariales.

El último hallazgo demuestra cómo el resumen puede surgir como una superficie conflictiva. A principios de marzo, Permiso también reveló cómo un correo electrónico controlado por un atacante que contiene instrucciones especialmente diseñadas, cuando Microsoft Copilot las resume, podría influir en su salida a través de una inyección cruzada (XPIA) o una inyección indirecta.

Lo que hace que ChatGPhish sea una técnica de ataque notable no es la inyección rápida en sí, sino la forma en que se siguen las instrucciones incrustadas en una página web y se presentan al usuario como parte del resumen.

Ciberseguridad

En otras palabras, una página web normal resumida con ChatGPT es suficiente para mostrar enlaces de phishing, alertas de cuentas falsificadas, imágenes remotas y códigos QR directamente dentro de una interfaz de IA confiable. A medida que las organizaciones utilizan cada vez más ChatGPT para investigaciones y resúmenes, esta vulnerabilidad significa que cualquier página web maliciosa que un empleado le pida al chatbot de IA que procese podría contener una carga útil que transforma ChatGPT en una superficie de phishing.

«El cambio del correo electrónico al navegador amplía significativamente la superficie de ataque potencial. Un usuario ya no tiene que abrir un archivo adjunto malicioso o interactuar con un mensaje sospechoso», dijo Permiso. «Simplemente resumir una página durante la actividad de navegación normal puede introducir instrucciones controladas por el atacante en el contexto del modelo y, en última instancia, en la respuesta representada».

La divulgación se produce cuando Adversa AI documentó dos técnicas de ataque con nombre en código SymJack y ConfianzaCaída dirigido a agentes de codificación de IA y CLI de codificación de agentes que permiten a los atacantes lograr la ejecución del código y comprometer completamente la máquina.

SymJack es «un patrón de ataque único [that] «Permite que un repositorio malicioso logre la ejecución remota de código a través de asistentes de codificación de IA», dijo el investigador de seguridad Rony Utevsky. «El agente es engañado para crear una copia de archivo de apariencia benigna que sobrescribe secretamente su propia configuración, y el siguiente reinicio ejecuta el código del atacante con todos los privilegios de usuario».

Específicamente, un repositorio trampa engaña al agente para que copie un archivo aparentemente inofensivo, donde el destino es un enlace simbólico que apunta a la propia configuración del agente, lo que provoca que la carga útil del atacante se escriba en la configuración. En el siguiente reinicio, un servidor malicioso de Protocolo de contexto de modelo (MCP) genera y ejecuta código arbitrario con privilegios de usuario completos.

TrustFall, por otro lado, es un ataque de ejecución remota de código con un solo clic a través de un repositorio malicioso que puede enviar una configuración que aprueba automáticamente y genera un servidor MCP sin la aprobación explícita del usuario ni requiere una llamada de herramienta por parte del agente.

Para decirlo de otra manera, todo lo que un actor de amenazas necesita para llevar a cabo el ataque es crear un repositorio que incluya un servidor MCP malicioso y ajustes de configuración que aprueben automáticamente su ejecución. Cuando un desarrollador clona o abre el repositorio en la herramienta de codificación de IA y presiona «Entrar» en el mensaje de confianza de la carpeta, la herramienta de codificación de IA termina lanzando el código controlado por el atacante con todos los privilegios del sistema del desarrollador.

«En el momento en que una víctima clona el repositorio, ejecuta Claude y hace clic en el cuadro de diálogo genérico ‘Sí, confío en esta carpeta’, el servidor MCP se inicia como un proceso del sistema operativo nativo con privilegios de usuario completos», señaló Adversa AI. «La carga útil se ejecuta al iniciar el servidor, antes de que se llame a cualquier herramienta y sin indicaciones adicionales».

Los hallazgos coinciden con el descubrimiento de varios métodos de ataque contra modelos de IA en los últimos meses:

  • El uso de un novedoso enfoque de jailbreak llamado aprendizaje involuntario en contexto (IICL) que «explota la tensión entre el aprendizaje en contexto (ICL) y la alineación de la seguridad» para evitar las restricciones de seguridad GPT-5.4
  • Las barreras de seguridad de los LLM se pueden eludir si un usuario engaña al modelo para que tenga una conversación de varios turnos. «La evaluación de múltiples turnos es importante por una razón: es donde realmente viven los atacantes», Cisco dicho. «Los adversarios reales iteran. Replantean rechazos, descomponen tareas en turnos, adoptan personajes y escalan gradualmente. Un punto de referencia de un solo turno no puede ver nada de eso».
  • Una vulnerabilidad en Código Claude antrópico que emplea un cambio de configuración a nivel de usuario en «~/.claude.json» para reescribir los puntos finales de MCP a través de un paquete npm fraudulento para colocar a un atacante entre Claude Code y un servidor MCP respaldado por OAuth, lo que permite al mal actor capturar tokens utilizados para el acceso SaaS descendente.
  • El uso de un mecanismo de actualización remota que permite que una habilidad de OpenClaw parezca benigna en el momento de la instalación, pero luego permite que el atacante influya en el agente a través de archivos del espacio de trabajo al indicarle al usuario durante la configuración de la habilidad que agregue instrucciones específicas a la Archivo HEARTBEAT.md.
  • El uso de texto oculto incluir contenido extraído de un boletín legítimo o una novela romántica en correos electrónicos de phishing para confundir a un sistema de seguridad de correo electrónico basado en inteligencia artificial y marcar el mensaje como benigno.
  • Una vulnerabilidad en la extensión del navegador Chrome de Claude llamada claude sangrar permite que cualquier extensión, incluso aquellas sin permisos especiales, la secuestre y engañe al asistente de IA para que realice acciones activas en su nombre. «La falla surge de una instrucción en el código de la extensión que permite que cualquier script que se ejecute en el navegador de origen se comunique con el LLM de Claude, pero no verifica quién está ejecutando el script», dijo LayerX. «Como resultado, cualquier extensión puede invocar un script de contenido (que no requiere ningún permiso especial) y emitir comandos a la extensión Claude».
  • Un estudio de Cisco ha encontró que el texto contradictorio representado como imágenes, un ataque conocido como inyección tipográfica rápida, se puede utilizar para eludir los filtros de seguridad en los modelos de lenguaje visual (VLM). «Cuando un modelo no logra leer la imagen original (fuente pequeña, mucho desenfoque, rotación), una perturbación limitada puede recuperar el contenido semántico en la representación interna del modelo sin restaurar la legibilidad visual para un humano», Cisco dicho. «Esto significa que un atacante puede crear imágenes que parezcan ruido o distorsión ilegible en cualquier filtro de contenido basado en OCR y, al mismo tiempo, llevar instrucciones completamente legibles al VLM objetivo».
  • Un conjunto de vulnerabilidades en Microsoft Semantic Kernel (CVE-2026-25592 y CVE-2026-26030) que podría convertir una inyección rápida en una ejecución remota de código a nivel de host.
  • El uso de la Ejecutivo neuronal ataque de inyección rápida y la función Unicode de anulación de derecha a izquierda para evita los filtros de entrada y salida de Apple y las barreras de seguridad del modelo local de Apple Intelligence y engañar al LLM para que produzca resultados dirigidos por el atacante. El problema se solucionó en iOS 26.4 y macOS 26.4.
  • Una vulnerabilidad de inyección rápida indirecta con nombre en código WebPromptTrap afecta a BrowserOS, un navegador agente de código abierto, que engaña a los usuarios para que aprueben un paso de autorización a través de un resumen de IA generado al procesar un artículo de apariencia legítima con instrucciones ocultas. El problema se solucionó en la versión 0.32.0 de BrowserOS.
  • Un auditoría del ecosistema de habilidades de los agentes que abarca ClawHub y skills.sh ha descubierto que el 13,4% de 3984 skills (es decir, 534 en total) tienen al menos un problema de seguridad crítico, incluida la distribución de malware, ataques de inyección rápida y secretos expuestos. Aproximadamente 1.467 habilidades tienen al menos una falla de seguridad, que va desde claves API codificadas y manejo inseguro de credenciales hasta exposición a contenido de terceros.
  • Un par de ataques dirigidos NemoGarrala pila de referencia de código abierto de NVIDIA para proteger a los agentes de OpenClaw AI, para exfiltrar datos de OpenClaw utilizando la configuración predeterminada del sandbox a través de un repositorio malicioso de GitHub o un paquete npm.

A medida que los modelos de IA de frontera continúan evolucionando y madurando, los actores de amenazas están experimentando cada vez más con la tecnología para escribir malware con capacidades adicionales para adaptar dinámicamente su comportamiento en un intento de evadir la detección, así como descargar la toma de decisiones al LLM para determinar si el entorno comprometido es valioso o lo suficientemente seguro como para descartar cargas útiles de la siguiente etapa.

Ciberseguridad

«A corto plazo, la proliferación de capacidades de modelos de IA de frontera corre el riesgo de empoderar a los adversarios para explotar los días cero y los días N a una escala sin precedentes», Unidad 42 de Palo Alto Networks. dicho. «También es probable que permita a los atacantes moverse a mayor escala, sofisticación y velocidad que nunca antes».

El mes pasado, la empresa de ciberseguridad también detalló un agente de prueba de concepto (PoC) llamado Zealot que aprovecha el poder de los LLM para realizar ataques en la nube de un extremo a otro con una mínima guía humana mediante la explotación de vulnerabilidades y configuraciones erróneas conocidas.

Esto, a su vez, se debe al hecho de que los entornos de nube están «preparados para ataques de IA» de forma predeterminada, dado que cada acción tiene un equivalente de API, tienen diversos mecanismos de descubrimiento como metadatos y servicios de enumeración, están plagados de configuraciones erróneas y están impulsados ​​por el acceso basado en credenciales.

«Los LLM actuales pueden encadenar reconocimiento, explotación, escalada de privilegios y exfiltración de datos con una mínima guía humana», investigadores de la Unidad 42, Yahav Festinger y Chen Doytshman. anotado. «Los ataques no son novedosos, pero la automatización significa que las operaciones que antes requerían experiencia especializada ahora pueden ser orquestadas por un agente de IA siguiendo patrones establecidos».

OpenAI corrige la falla de filtración de datos de ChatGPT y la vulnerabilidad del token Codex GitHub – CYBERDEFENSA.MX

Una vulnerabilidad previamente desconocida en OpenAI ChatGPT permitió que se filtraran datos confidenciales de conversaciones sin el conocimiento o consentimiento del usuario, según nuevos hallazgos de Check Point.

«Un solo aviso malicioso podría convertir una conversación ordinaria en un canal de exfiltración encubierto, filtrando mensajes de usuarios, archivos cargados y otro contenido sensible», dijo la empresa de ciberseguridad. dicho en un informe publicado hoy. «Un GPT con puerta trasera podría abusar de la misma debilidad para obtener acceso a los datos del usuario sin el conocimiento o el consentimiento del usuario».

Tras una divulgación responsable, OpenAI abordó el problema el 20 de febrero de 2026. No hay evidencia de que el problema haya sido explotado alguna vez en un contexto malicioso.

Si bien ChatGPT está construido con varias barreras de seguridad para evitar el intercambio o generación de datos no autorizados. solicitudes de red salientes directasla vulnerabilidad recientemente descubierta elude por completo estas salvaguardas al explotar un canal lateral que se origina en el tiempo de ejecución de Linux utilizado por el agente de inteligencia artificial (IA) para la ejecución de código y el análisis de datos.

Específicamente, abusa de una ruta de comunicación oculta basada en DNS como un «mecanismo de transporte encubierto» al codificar información en solicitudes de DNS para sortear las barreras de seguridad visibles de la IA. Es más, la misma ruta de comunicación oculta podría usarse para establecer un acceso remoto al shell dentro del tiempo de ejecución de Linux y lograr la ejecución de comandos.

En ausencia de cualquier advertencia o diálogo de aprobación del usuario, la vulnerabilidad crea un punto ciego de seguridad, y el sistema de inteligencia artificial supone que el entorno estaba aislado.

Como ejemplo ilustrativo, un atacante podría convencer a un usuario de que pegue un mensaje malicioso haciéndolo pasar como una forma de desbloquear capacidades premium de forma gratuita o mejorar el rendimiento de ChatGPT. La amenaza se magnifica cuando la técnica está integrada dentro de GPT personalizados, ya que la lógica maliciosa podría incorporarse en lugar de engañar al usuario para que pegue un mensaje especialmente diseñado.

Ciberseguridad

«Lo más importante es que, debido a que el modelo operaba bajo el supuesto de que este entorno no podía enviar datos directamente, no reconocía ese comportamiento como una transferencia de datos externa que requería resistencia o mediación del usuario», explicó Check Point. «Como resultado, la filtración no generó advertencias sobre los datos que salían de la conversación, no requirió confirmación explícita del usuario y permaneció en gran medida invisible desde la perspectiva del usuario».

Con herramientas como ChatGPT cada vez más integradas en entornos empresariales y usuarios cargando información muy personal, vulnerabilidades como estas subrayan la necesidad de que las organizaciones implementen su propia capa de seguridad para contrarrestar las inyecciones rápidas y otros comportamientos inesperados en los sistemas de IA.

«Esta investigación refuerza una dura verdad para la era de la IA: no asuma que las herramientas de IA son seguras por defecto», dijo Eli Smadja, jefe de investigación de Check Point Research, en un comunicado compartido con The Hacker News.

«A medida que las plataformas de IA evolucionan hacia entornos informáticos completos que manejan nuestros datos más confidenciales, los controles de seguridad nativos ya no son suficientes por sí solos. Las organizaciones necesitan visibilidad independiente y protección en capas entre ellas y los proveedores de IA. Así es como avanzamos de manera segura: repensando la arquitectura de seguridad para la IA, sin reaccionar al siguiente incidente».

El desarrollo se produce cuando se ha observado que los actores de amenazas publican extensiones de navegador web (o actualizan las existentes) que participan en la dudosa práctica de caza furtiva rápida para desviar silenciosamente conversaciones de chatbot de IA sin el consentimiento del usuario, destacando cómo complementos aparentemente inofensivos podrían convertirse en un canal para la filtración de datos.

«Casi no hace falta decir que estos complementos abren las puertas a varios riesgos, incluido el robo de identidad, campañas de phishing dirigidas y la venta de datos confidenciales en foros clandestinos», dijo el investigador de Expel, Ben Nahorney. dicho. «En el caso de organizaciones donde los empleados pueden haber instalado estas extensiones sin saberlo, es posible que hayan expuesto propiedad intelectual, datos de clientes u otra información confidencial».

La vulnerabilidad de inyección de comandos en OpenAI Codex lleva a un compromiso del token de GitHub

Los hallazgos también coinciden con el descubrimiento de una vulnerabilidad crítica de inyección de comandos en OpenAI. Códiceun agente de ingeniería de software basado en la nube, que podría haber sido aprovechado para robar datos de credenciales de GitHub y, en última instancia, comprometer a varios usuarios que interactúan con un repositorio compartido.

«La vulnerabilidad existe dentro de la solicitud HTTP de creación de tareas, que permite a un atacante contrabandear comandos arbitrarios a través del parámetro de nombre de rama de GitHub», dijo el investigador de BeyondTrust Phantom Labs, Tyler Jespersen. dicho en un informe compartido con The Hacker News. «Esto puede resultar en el robo del token de acceso de usuario de GitHub de la víctima, el mismo token que Codex usa para autenticarse con GitHub».

El problema, según BeyondTrust, se debe a una limpieza inadecuada de la entrada al procesar nombres de ramas de GitHub durante la ejecución de tareas en la nube. Debido a esta insuficiencia, un atacante podría inyectar comandos arbitrarios a través del parámetro de nombre de rama en una solicitud HTTPS POST a la API del Codex backend, ejecutar cargas útiles maliciosas dentro del contenedor del agente y recuperar tokens de autenticación confidenciales.

Ciberseguridad

«Esto otorgó movimiento lateral y acceso de lectura/escritura a todo el código base de la víctima», dijo Kinnaird McQuade, arquitecto jefe de seguridad de BeyondTrust. dicho en una publicación en X. OpenAI lo parchó a partir del 5 de febrero de 2026, después de que se informara el 16 de diciembre de 2025. La vulnerabilidad afecta al sitio web ChatGPT, Codex CLI, Codex SDK y la extensión Codex IDE.

El proveedor de ciberseguridad dijo que la técnica de inyección de comandos de rama también podría extenderse para robar tokens de acceso de instalación de GitHub y ejecutar comandos bash en el contenedor de revisión de código cada vez que se haga referencia a @codex en GitHub.

«Con la rama maliciosa configurada, hicimos referencia a Codex en un comentario sobre una solicitud de extracción (PR)», explicó. «Codex luego inició un contenedor de revisión de código y creó una tarea en nuestro repositorio y sucursal, ejecutando nuestra carga útil y reenviando la respuesta a nuestro servidor externo».

La investigación también destaca un riesgo creciente de que el acceso privilegiado otorgado a los agentes de codificación de IA pueda usarse como arma para proporcionar una «ruta de ataque escalable» a los sistemas empresariales sin activar los controles de seguridad tradicionales.

«A medida que los agentes de IA se integran más profundamente en los flujos de trabajo de los desarrolladores, la seguridad de los contenedores en los que se ejecutan (y la entrada que consumen) debe tratarse con el mismo rigor que cualquier otro límite de seguridad de la aplicación», dijo BeyondTrust. «La superficie de ataque se está expandiendo y la seguridad de estos entornos debe seguir el ritmo».

El uso de ChatGPT por parte del grupo chino revela una campaña mundial de acoso contra los críticos

Un funcionario encargado de hacer cumplir la ley chino intentó utilizar ChatGPT para revisar sus informes sobre operaciones cibernéticas, y posteriormente reveló detalles de una campaña mundial de acoso y silenciamiento en línea de los críticos de China en el país y en el extranjero.

En una nueva amenaza informe Publicado el miércoles, OpenAI dijo que la actividad se refería a una sola cuenta que usaba regularmente ChatGPT para revisar y editar informes sobre «operaciones cibernéticas especiales». Esa misma cuenta también intentó utilizar ChatGPT para planificar una campaña de propaganda contra el primer ministro japonés Sanae Takaichi. Cuando la modelo se negó, el actor regresó semanas después con indicaciones que indicaban que la operación había procedido de todos modos.

Los informes subidos a ChatGPT «sugirieron que los actores de amenazas habían llevado a cabo muchas otras operaciones anteriores, en un esfuerzo integral para reprimir la disidencia y silenciar a los críticos tanto en línea como fuera de línea, en el país y en el extranjero», decía el informe.

Si bien solo hay evidencia de una sola cuenta utilizada por la agencia, OpenAI dijo que las operaciones dirigidas a los críticos chinos descritas en el informe parecen «a gran escala, requieren muchos recursos y son sostenidas», y consisten en cientos de personal humano, miles de cuentas falsas en diferentes plataformas de redes sociales y el uso de modelos locales de inteligencia artificial chinos.

Estas operaciones incluyeron publicaciones masivas y generación de contenido, inundando empresas de redes sociales con quejas falsas sobre cuentas propiedad de disidentes, falsificación de documentos y, en algunos casos, incluso haciéndose pasar por funcionarios estadounidenses para intimidar.

Una campaña separada que involucraba un grupo de cuentas que «probablemente se originaron» en China continental solicitó a ChatGPT información sobre «personas, foros y ubicaciones de edificios federales estadounidenses».

Las cuentas también generaron borradores de correo electrónico supuestamente de una empresa llamada Nimbus Hub Consulting con sede en Hong Kong, pero el informe de OpenAI señala que las cuentas utilizaron VPN y solicitaron que el modelo utilizara caracteres del idioma chino simplificado, que se asocia más comúnmente con China continental.

OpenAI dijo que, cuando se le preguntó sobre las entidades estadounidenses, ChatGPT también proporcionó fuentes de información «disponibles públicamente» sobre las ubicaciones de las oficinas del gobierno federal de los EE. UU., la distribución de empleados federales por estado, foros profesionales y sitios web de empleo en las industrias económica y financiera de los EE. UU.

Los actores chinos generaron correos electrónicos en inglés para funcionarios estatales estadounidenses y analistas de políticas comerciales y financieras, invitándolos a unirse a consultas pagadas y ofrecer asesoramiento estratégico a los clientes de los actores.

Estos correos electrónicos frecuentemente buscarían trasladar la conversación a otra plataforma de videoconferencia, como WhatsApp, Zoom o Teams. Una de las cuentas subió sus especificaciones de hardware y solicitó instrucciones no técnicas paso a paso para instalar un software de intercambio de rostros en tiempo real llamado FaceFusion.

«El modelo respondió con información extraída del sitio web y la documentación disponibles públicamente de FaceFusion», dijo OpenAI.

No hay evidencia de ciberataques automatizados

El informe se centró principalmente en cómo los ciberdelincuentes y los actores estatales utilizaron ChatGPT para respaldar estafas e influir en las operaciones. OpenAI detalló cuatro operaciones de información encubierta y tres operaciones de estafa romántica. Además de las operaciones de influencia chinas, también informó sobre el contenido de propaganda generado para Rybar, un grupo de influencia en línea alineado con Rusia.

El informe de OpenAI detalla cómo algunos operadores utilizaron ChatGPT para automatizar tareas aisladas, como una estafa romántica camboyana que combinaba operadores humanos y de IA al comunicarse con las víctimas. El informe no citó ningún caso de actores de amenazas que utilicen ChatGPT para operaciones de piratería ofensiva directa.

Las herramientas de inteligencia artificial pueden brindar a actores legítimos y maliciosos acceso a una velocidad y escala tremendas en línea. Durante el año pasado, los piratas informáticos chinos habrían utilizado al menos otro modelo de inteligencia artificial fabricado en Estados Unidos para realizar ciberataques altamente automatizados contra empresas y gobiernos.

Durante una sesión de preguntas y respuestas con los medios, un funcionario de OpenAI dijo que no tenía conocimiento de ningún caso en el que los actores de amenazas usaran ChatGPT para llevar a cabo ataques automatizados, pero agregó que la compañía tiene múltiples investigaciones en curso que no han concluido.

Gran parte de la actividad observada en el informe de OpenAI sigue un patrón común, detallando a los actores de amenazas que todavía están en pleno proceso de experimentar con la tecnología de IA y aprender dónde proporciona el mayor valor en su cadena de operaciones.

Algunos lo utilizaron para generar contenido propagandístico en torno a un objetivo específico, monitorear plataformas de redes sociales o proporcionar una mejor traducción de idiomas para señuelos de phishing. Pero de manera similar a lo que informó Google a principios de este mes, en la mayoría de los casos los actores de amenazas están utilizando la IA de manera limitada y específica como amplificador de las operaciones existentes.

En algunos casos, está claro que ChatGPT es una de las múltiples herramientas de inteligencia artificial que utiliza el actor de amenazas. En el caso de la agencia policial china, Los informes de estado cargados en el modelo sobre operaciones de información hacen referencia al uso de modelos de IA chinos implementados localmente como DeepSeek, y es probable que el grupo haya utilizado un modelo diferente para prepararse para su campaña de propaganda contra Taikaichi.

«La actividad de amenazas rara vez se limita a una plataforma; como muestra nuestro informe… muestra, no siempre se limita a un modelo de IA», dice el informe. «Más bien, los actores de amenazas pueden utilizar diferentes modelos de IA en distintos puntos de su flujo de trabajo operativo».

Derek B. Johnson

Escrito por Derek B. Johnson

Derek B. Johnson es reportero de CyberScoop, donde su área incluye la ciberseguridad, las elecciones y el gobierno federal. Antes de eso, ha brindado una cobertura galardonada de noticias sobre ciberseguridad en los sectores público y privado para varias publicaciones desde 2017. Derek tiene una licenciatura en periodismo impreso de la Universidad de Hofstra en Nueva York y una maestría en políticas públicas de la Universidad George Mason en Virginia.

El uso de ChatGPT por parte del grupo chino revela una campaña mundial de acoso contra los críticos

Un funcionario encargado de hacer cumplir la ley chino intentó utilizar ChatGPT para revisar sus informes sobre operaciones cibernéticas, y posteriormente reveló detalles de una campaña mundial de acoso y silenciamiento en línea de los críticos de China en el país y en el extranjero.

En una nueva amenaza informe Publicado el miércoles, OpenAI dijo que la actividad se refería a una sola cuenta que usaba regularmente ChatGPT para revisar y editar informes sobre «operaciones cibernéticas especiales». Esa misma cuenta también intentó utilizar ChatGPT para planificar una campaña de propaganda contra el primer ministro japonés Sanae Takaichi. Cuando la modelo se negó, el actor regresó semanas después con indicaciones que indicaban que la operación había procedido de todos modos.

Los informes subidos a ChatGPT «sugirieron que los actores de amenazas habían llevado a cabo muchas otras operaciones anteriores, en un esfuerzo integral para reprimir la disidencia y silenciar a los críticos tanto en línea como fuera de línea, en el país y en el extranjero», decía el informe.

Si bien solo hay evidencia de una sola cuenta utilizada por la agencia, OpenAI dijo que las operaciones dirigidas a los críticos chinos descritas en el informe parecen «a gran escala, requieren muchos recursos y son sostenidas», y consisten en cientos de personal humano, miles de cuentas falsas en diferentes plataformas de redes sociales y el uso de modelos locales de inteligencia artificial chinos.

Estas operaciones incluyeron publicaciones masivas y generación de contenido, inundando empresas de redes sociales con quejas falsas sobre cuentas propiedad de disidentes, falsificación de documentos y, en algunos casos, incluso haciéndose pasar por funcionarios estadounidenses para intimidar.

Una campaña separada que involucraba un grupo de cuentas que «probablemente se originaron» en China continental solicitó a ChatGPT información sobre «personas, foros y ubicaciones de edificios federales estadounidenses».

Las cuentas también generaron borradores de correo electrónico supuestamente de una empresa llamada Nimbus Hub Consulting con sede en Hong Kong, pero el informe de OpenAI señala que las cuentas utilizaron VPN y solicitaron que el modelo utilizara caracteres del idioma chino simplificado, que se asocia más comúnmente con China continental.

OpenAI dijo que, cuando se le preguntó sobre las entidades estadounidenses, ChatGPT también proporcionó fuentes de información «disponibles públicamente» sobre las ubicaciones de las oficinas del gobierno federal de los EE. UU., la distribución de empleados federales por estado, foros profesionales y sitios web de empleo en las industrias económica y financiera de los EE. UU.

Los actores chinos generaron correos electrónicos en inglés para funcionarios estatales estadounidenses y analistas de políticas comerciales y financieras, invitándolos a unirse a consultas pagadas y ofrecer asesoramiento estratégico a los clientes de los actores.

Estos correos electrónicos frecuentemente buscarían trasladar la conversación a otra plataforma de videoconferencia, como WhatsApp, Zoom o Teams. Una de las cuentas subió sus especificaciones de hardware y solicitó instrucciones no técnicas paso a paso para instalar un software de intercambio de rostros en tiempo real llamado FaceFusion.

«El modelo respondió con información extraída del sitio web y la documentación disponibles públicamente de FaceFusion», dijo OpenAI.

No hay evidencia de ciberataques automatizados

El informe se centró principalmente en cómo los ciberdelincuentes y los actores estatales utilizaron ChatGPT para respaldar estafas e influir en las operaciones. OpenAI detalló cuatro operaciones de información encubierta y tres operaciones de estafa romántica. Además de las operaciones de influencia chinas, también informó sobre el contenido de propaganda generado para Rybar, un grupo de influencia en línea alineado con Rusia.

El informe de OpenAI detalla cómo algunos operadores utilizaron ChatGPT para automatizar tareas aisladas, como una estafa romántica camboyana que combinaba operadores humanos y de IA al comunicarse con las víctimas. El informe no citó ningún caso de actores de amenazas que utilicen ChatGPT para operaciones de piratería ofensiva directa.

Las herramientas de inteligencia artificial pueden brindar a actores legítimos y maliciosos acceso a una velocidad y escala tremendas en línea. Durante el año pasado, los piratas informáticos chinos habrían utilizado al menos otro modelo de inteligencia artificial fabricado en Estados Unidos para realizar ciberataques altamente automatizados contra empresas y gobiernos.

Durante una sesión de preguntas y respuestas con los medios, un funcionario de OpenAI dijo que no tenía conocimiento de ningún caso en el que los actores de amenazas usaran ChatGPT para llevar a cabo ataques automatizados, pero agregó que la compañía tiene múltiples investigaciones en curso que no han concluido.

Gran parte de la actividad observada en el informe de OpenAI sigue un patrón común, detallando a los actores de amenazas que todavía están en pleno proceso de experimentar con la tecnología de IA y aprender dónde proporciona el mayor valor en su cadena de operaciones.

Algunos lo utilizaron para generar contenido propagandístico en torno a un objetivo específico, monitorear plataformas de redes sociales o proporcionar una mejor traducción de idiomas para señuelos de phishing. Pero de manera similar a lo que informó Google a principios de este mes, en la mayoría de los casos los actores de amenazas están utilizando la IA de manera limitada y específica como amplificador de las operaciones existentes.

En algunos casos, está claro que ChatGPT es una de las múltiples herramientas de inteligencia artificial que utiliza el actor de amenazas. En el caso de la agencia policial china, Los informes de estado cargados en el modelo sobre operaciones de información hacen referencia al uso de modelos de IA chinos implementados localmente como DeepSeek, y es probable que el grupo haya utilizado un modelo diferente para prepararse para su campaña de propaganda contra Taikaichi.

«La actividad de amenazas rara vez se limita a una plataforma; como muestra nuestro informe… muestra, no siempre se limita a un modelo de IA», dice el informe. «Más bien, los actores de amenazas pueden utilizar diferentes modelos de IA en distintos puntos de su flujo de trabajo operativo».

Derek B. Johnson

Escrito por Derek B. Johnson

Derek B. Johnson es reportero de CyberScoop, donde su área incluye la ciberseguridad, las elecciones y el gobierno federal. Antes de eso, ha brindado una cobertura galardonada de noticias sobre ciberseguridad en los sectores público y privado para varias publicaciones desde 2017. Derek tiene una licenciatura en periodismo impreso de la Universidad de Hofstra en Nueva York y una maestría en políticas públicas de la Universidad George Mason en Virginia.