Desde la serie GPT de OpenAI hasta Gemini de Google, y varios modelos de código abierto, la inteligencia artificial avanzada está transformando profundamente nuestro trabajo y estilos de vida. Sin embargo, junto con los rápidos avances tecnológicos, está surgiendo gradualmente un lado oscuro preocupante: el aumento de modelos de lenguaje grandes sin restricciones o maliciosos.
El llamado LLM sin restricciones se refiere a modelos de lenguaje que están diseñados, modificados o "jailbreakeados" específicamente para eludir los mecanismos de seguridad integrados y las restricciones éticas de los modelos convencionales. Los desarrolladores de LLM convencionales generalmente invierten recursos significativos para prevenir que sus modelos se utilicen para generar discursos de odio, información falsa, código malicioso o proporcionar instrucciones para actividades ilegales. Sin embargo, en los últimos años, algunas personas u organizaciones han comenzado a buscar o desarrollar modelos sin restricciones por motivos como el cibercrimen. A la luz de esto, este artículo revisará herramientas típicas de LLM sin restricciones, introducirá su abuso en la industria de la criptografía y discutirá los desafíos de seguridad relacionados y las respuestas.
Las tareas que solían requerir habilidades profesionales, como escribir código malicioso, crear correos electrónicos de phishing y planificar estafas, ahora pueden ser fácilmente realizadas por personas comunes sin ninguna experiencia en programación con la asistencia de LLMs sin restricciones. Los atacantes solo necesitan obtener los pesos y el código fuente de modelos de código abierto, y luego afinarlos en conjuntos de datos que contengan contenido malicioso, declaraciones sesgadas o instrucciones ilegales para crear herramientas de ataque personalizadas.
Este modelo ha dado lugar a múltiples riesgos: los atacantes pueden "modificar mágicamente" los modelos en función de objetivos específicos para generar contenido más engañoso, eludiendo así la revisión de contenido y las restricciones de seguridad de los LLMs convencionales; el modelo también se puede utilizar para generar rápidamente variantes de código para sitios web de phishing o adaptar copias de estafas para diferentes plataformas de redes sociales; mientras tanto, la accesibilidad y modificabilidad de los modelos de código abierto siguen fomentando la formación y propagación de un ecosistema de IA subterráneo, proporcionando un terreno fértil para transacciones ilegales y desarrollo. A continuación se presenta una breve introducción a tales LLMs sin restricciones:
WormGPT es un LLM malicioso vendido abiertamente en foros subterráneos, cuyos desarrolladores afirman explícitamente que no tiene restricciones éticas, convirtiéndolo en una versión negra del modelo GPT. Está basado en modelos de código abierto como GPT-J 6B y entrenado con una gran cantidad de datos relacionados con malware. Los usuarios deben pagar un mínimo de $189 para obtener acceso durante un mes. El uso más notorio de WormGPT es generar correos electrónicos de ataque de Compromiso de Correo Electrónico Empresarial (BEC) y correos electrónicos de phishing altamente realistas y persuasivos. Sus abusos típicos en el espacio de la encriptación incluyen:
DarkBERT es un modelo de lenguaje desarrollado en colaboración entre investigadores del Instituto Avanzado de Ciencia y Tecnología de Corea (KAIST) y S2W Inc., específicamente preentrenado en datos de la dark web (como foros, mercados negros e información filtrada) con la intención de ayudar a los investigadores en ciberseguridad y agencias de aplicación de la ley a comprender mejor el ecosistema de la dark web, rastrear actividades ilegales, identificar amenazas potenciales y recopilar inteligencia sobre amenazas.
Aunque DarkBERT fue diseñado con buenas intenciones, el contenido sensible que tiene sobre la dark web, incluidos datos, métodos de ataque y estrategias de comercio ilegal, podría tener consecuencias graves si actores maliciosos lo obtienen o utilizan tecnologías similares para entrenar modelos grandes sin restricciones. Su posible uso indebido en escenarios de cifrado incluye:
FraudGPT: La navaja suiza del fraude en línea
FraudGPT afirma ser una versión mejorada de WormGPT, que ofrece características más completas, principalmente vendidas en la dark web y foros de hackers, con tarifas mensuales que oscilan entre $200 y $1,700. Sus abusos típicos en el escenario de la encriptación incluyen:
GhostGPT es un chatbot de IA explícitamente posicionado como si no tuviera restricciones éticas, con abusos típicos en el escenario de la encriptación que incluyen:
Venice.ai ofrece acceso a varios LLMs, incluidos algunos modelos con menos escrutinio o restricciones más laxas. Se posiciona como una puerta de enlace abierta para que los usuarios exploren las capacidades de diferentes LLMs, ofreciendo modelos de vanguardia, precisos y no moderados para una experiencia de IA verdaderamente sin restricciones, pero también puede ser explotado por actores maliciosos para generar contenido dañino. Los riesgos asociados con la plataforma incluyen:
La aparición de LLMs sin restricciones marca un nuevo paradigma de ataques a la ciberseguridad que es más complejo, escalable y automatizado. Estos modelos no solo reducen el umbral para los ataques, sino que también introducen nuevas amenazas que son más encubiertas y engañosas.
En este juego continuo de ataque y defensa, todas las partes en el ecosistema de seguridad deben trabajar juntas para afrontar los riesgos futuros: por un lado, es necesario aumentar la inversión en tecnologías de detección para desarrollar sistemas capaces de identificar e interceptar contenido de phishing generado por LLM maliciosos, explotar vulnerabilidades de contratos inteligentes y código malicioso; por otro lado, también se deben realizar esfuerzos para promover la construcción de capacidades de anti-jailbreaking de modelos y explorar mecanismos de marca de agua y seguimiento para rastrear las fuentes de contenido malicioso en escenarios críticos como finanzas y generación de código; además, se debe establecer un marco ético sólido y un mecanismo regulatorio para limitar fundamentalmente el desarrollo y el uso indebido de modelos maliciosos.
Desde la serie GPT de OpenAI hasta Gemini de Google, y varios modelos de código abierto, la inteligencia artificial avanzada está transformando profundamente nuestro trabajo y estilos de vida. Sin embargo, junto con los rápidos avances tecnológicos, está surgiendo gradualmente un lado oscuro preocupante: el aumento de modelos de lenguaje grandes sin restricciones o maliciosos.
El llamado LLM sin restricciones se refiere a modelos de lenguaje que están diseñados, modificados o "jailbreakeados" específicamente para eludir los mecanismos de seguridad integrados y las restricciones éticas de los modelos convencionales. Los desarrolladores de LLM convencionales generalmente invierten recursos significativos para prevenir que sus modelos se utilicen para generar discursos de odio, información falsa, código malicioso o proporcionar instrucciones para actividades ilegales. Sin embargo, en los últimos años, algunas personas u organizaciones han comenzado a buscar o desarrollar modelos sin restricciones por motivos como el cibercrimen. A la luz de esto, este artículo revisará herramientas típicas de LLM sin restricciones, introducirá su abuso en la industria de la criptografía y discutirá los desafíos de seguridad relacionados y las respuestas.
Las tareas que solían requerir habilidades profesionales, como escribir código malicioso, crear correos electrónicos de phishing y planificar estafas, ahora pueden ser fácilmente realizadas por personas comunes sin ninguna experiencia en programación con la asistencia de LLMs sin restricciones. Los atacantes solo necesitan obtener los pesos y el código fuente de modelos de código abierto, y luego afinarlos en conjuntos de datos que contengan contenido malicioso, declaraciones sesgadas o instrucciones ilegales para crear herramientas de ataque personalizadas.
Este modelo ha dado lugar a múltiples riesgos: los atacantes pueden "modificar mágicamente" los modelos en función de objetivos específicos para generar contenido más engañoso, eludiendo así la revisión de contenido y las restricciones de seguridad de los LLMs convencionales; el modelo también se puede utilizar para generar rápidamente variantes de código para sitios web de phishing o adaptar copias de estafas para diferentes plataformas de redes sociales; mientras tanto, la accesibilidad y modificabilidad de los modelos de código abierto siguen fomentando la formación y propagación de un ecosistema de IA subterráneo, proporcionando un terreno fértil para transacciones ilegales y desarrollo. A continuación se presenta una breve introducción a tales LLMs sin restricciones:
WormGPT es un LLM malicioso vendido abiertamente en foros subterráneos, cuyos desarrolladores afirman explícitamente que no tiene restricciones éticas, convirtiéndolo en una versión negra del modelo GPT. Está basado en modelos de código abierto como GPT-J 6B y entrenado con una gran cantidad de datos relacionados con malware. Los usuarios deben pagar un mínimo de $189 para obtener acceso durante un mes. El uso más notorio de WormGPT es generar correos electrónicos de ataque de Compromiso de Correo Electrónico Empresarial (BEC) y correos electrónicos de phishing altamente realistas y persuasivos. Sus abusos típicos en el espacio de la encriptación incluyen:
DarkBERT es un modelo de lenguaje desarrollado en colaboración entre investigadores del Instituto Avanzado de Ciencia y Tecnología de Corea (KAIST) y S2W Inc., específicamente preentrenado en datos de la dark web (como foros, mercados negros e información filtrada) con la intención de ayudar a los investigadores en ciberseguridad y agencias de aplicación de la ley a comprender mejor el ecosistema de la dark web, rastrear actividades ilegales, identificar amenazas potenciales y recopilar inteligencia sobre amenazas.
Aunque DarkBERT fue diseñado con buenas intenciones, el contenido sensible que tiene sobre la dark web, incluidos datos, métodos de ataque y estrategias de comercio ilegal, podría tener consecuencias graves si actores maliciosos lo obtienen o utilizan tecnologías similares para entrenar modelos grandes sin restricciones. Su posible uso indebido en escenarios de cifrado incluye:
FraudGPT: La navaja suiza del fraude en línea
FraudGPT afirma ser una versión mejorada de WormGPT, que ofrece características más completas, principalmente vendidas en la dark web y foros de hackers, con tarifas mensuales que oscilan entre $200 y $1,700. Sus abusos típicos en el escenario de la encriptación incluyen:
GhostGPT es un chatbot de IA explícitamente posicionado como si no tuviera restricciones éticas, con abusos típicos en el escenario de la encriptación que incluyen:
Venice.ai ofrece acceso a varios LLMs, incluidos algunos modelos con menos escrutinio o restricciones más laxas. Se posiciona como una puerta de enlace abierta para que los usuarios exploren las capacidades de diferentes LLMs, ofreciendo modelos de vanguardia, precisos y no moderados para una experiencia de IA verdaderamente sin restricciones, pero también puede ser explotado por actores maliciosos para generar contenido dañino. Los riesgos asociados con la plataforma incluyen:
La aparición de LLMs sin restricciones marca un nuevo paradigma de ataques a la ciberseguridad que es más complejo, escalable y automatizado. Estos modelos no solo reducen el umbral para los ataques, sino que también introducen nuevas amenazas que son más encubiertas y engañosas.
En este juego continuo de ataque y defensa, todas las partes en el ecosistema de seguridad deben trabajar juntas para afrontar los riesgos futuros: por un lado, es necesario aumentar la inversión en tecnologías de detección para desarrollar sistemas capaces de identificar e interceptar contenido de phishing generado por LLM maliciosos, explotar vulnerabilidades de contratos inteligentes y código malicioso; por otro lado, también se deben realizar esfuerzos para promover la construcción de capacidades de anti-jailbreaking de modelos y explorar mecanismos de marca de agua y seguimiento para rastrear las fuentes de contenido malicioso en escenarios críticos como finanzas y generación de código; además, se debe establecer un marco ético sólido y un mecanismo regulatorio para limitar fundamentalmente el desarrollo y el uso indebido de modelos maliciosos.