Pandora's Box: Cómo los Modelos Grandes Sin Restricciones Amenazan la Seguridad Cripto

Intermedio

6/10/2025, 1:50:06 AM

Con la proliferación de modelos grandes de código abierto, herramientas de IA "sin restricciones" como WormGPT y FraudGPT están siendo mal utilizadas para generar correos electrónicos de phishing, redactar contratos maliciosos y manipular comunidades de usuarios, lo que representa una seria amenaza para la seguridad de la industria de la Cripto. Este artículo detalla los principios, usos y contramedidas de estos modelos, sonando la alarma para los practicantes de Web3.

Desde la serie GPT de OpenAI hasta Gemini de Google, y varios modelos de código abierto, la inteligencia artificial avanzada está transformando profundamente nuestro trabajo y estilos de vida. Sin embargo, junto con los rápidos avances tecnológicos, está surgiendo gradualmente un lado oscuro preocupante: el aumento de modelos de lenguaje grandes sin restricciones o maliciosos.

El llamado LLM sin restricciones se refiere a modelos de lenguaje que están diseñados, modificados o "jailbreakeados" específicamente para eludir los mecanismos de seguridad integrados y las restricciones éticas de los modelos convencionales. Los desarrolladores de LLM convencionales generalmente invierten recursos significativos para prevenir que sus modelos se utilicen para generar discursos de odio, información falsa, código malicioso o proporcionar instrucciones para actividades ilegales. Sin embargo, en los últimos años, algunas personas u organizaciones han comenzado a buscar o desarrollar modelos sin restricciones por motivos como el cibercrimen. A la luz de esto, este artículo revisará herramientas típicas de LLM sin restricciones, introducirá su abuso en la industria de la criptografía y discutirá los desafíos de seguridad relacionados y las respuestas.

¿Cómo pueden ser maliciosos los LLMs sin restricciones?

Las tareas que solían requerir habilidades profesionales, como escribir código malicioso, crear correos electrónicos de phishing y planificar estafas, ahora pueden ser fácilmente realizadas por personas comunes sin ninguna experiencia en programación con la asistencia de LLMs sin restricciones. Los atacantes solo necesitan obtener los pesos y el código fuente de modelos de código abierto, y luego afinarlos en conjuntos de datos que contengan contenido malicioso, declaraciones sesgadas o instrucciones ilegales para crear herramientas de ataque personalizadas.

Este modelo ha dado lugar a múltiples riesgos: los atacantes pueden "modificar mágicamente" los modelos en función de objetivos específicos para generar contenido más engañoso, eludiendo así la revisión de contenido y las restricciones de seguridad de los LLMs convencionales; el modelo también se puede utilizar para generar rápidamente variantes de código para sitios web de phishing o adaptar copias de estafas para diferentes plataformas de redes sociales; mientras tanto, la accesibilidad y modificabilidad de los modelos de código abierto siguen fomentando la formación y propagación de un ecosistema de IA subterráneo, proporcionando un terreno fértil para transacciones ilegales y desarrollo. A continuación se presenta una breve introducción a tales LLMs sin restricciones:

WormGPT: Versión Negra GPT

WormGPT es un LLM malicioso vendido abiertamente en foros subterráneos, cuyos desarrolladores afirman explícitamente que no tiene restricciones éticas, convirtiéndolo en una versión negra del modelo GPT. Está basado en modelos de código abierto como GPT-J 6B y entrenado con una gran cantidad de datos relacionados con malware. Los usuarios deben pagar un mínimo de $189 para obtener acceso durante un mes. El uso más notorio de WormGPT es generar correos electrónicos de ataque de Compromiso de Correo Electrónico Empresarial (BEC) y correos electrónicos de phishing altamente realistas y persuasivos. Sus abusos típicos en el espacio de la encriptación incluyen:

Generar correos electrónicos/mensajes de phishing: Imitar intercambios de Cripto, billeteras o proyectos bien conocidos para enviar solicitudes de "verificación de cuenta" a los usuarios, induciéndolos a hacer clic en enlaces maliciosos o filtrar claves privadas/frases semilla;
Escribir código malicioso: Ayudar a atacantes con menos habilidades técnicas a escribir código malicioso que roba archivos de billetera, monitorea el portapapeles, registra pulsaciones de teclas, etc.
Conducir estafas automatizadas: Responder automáticamente a posibles víctimas, guiándolas para participar en airdrops falsos o proyectos de inversión.

DarkBERT: Una espada de doble filo para el contenido de la Dark Web

DarkBERT es un modelo de lenguaje desarrollado en colaboración entre investigadores del Instituto Avanzado de Ciencia y Tecnología de Corea (KAIST) y S2W Inc., específicamente preentrenado en datos de la dark web (como foros, mercados negros e información filtrada) con la intención de ayudar a los investigadores en ciberseguridad y agencias de aplicación de la ley a comprender mejor el ecosistema de la dark web, rastrear actividades ilegales, identificar amenazas potenciales y recopilar inteligencia sobre amenazas.

Aunque DarkBERT fue diseñado con buenas intenciones, el contenido sensible que tiene sobre la dark web, incluidos datos, métodos de ataque y estrategias de comercio ilegal, podría tener consecuencias graves si actores maliciosos lo obtienen o utilizan tecnologías similares para entrenar modelos grandes sin restricciones. Su posible uso indebido en escenarios de cifrado incluye:

Implementación de estafas precisas: recopilación de información sobre usuarios de encriptación y equipos de proyectos para fraudes de ingeniería social.
Imitación de modus operandi criminal: Replicando tácticas comprobadas de robo de monedas y lavado de dinero en la dark web.

FraudGPT: La navaja suiza del fraude en línea

FraudGPT afirma ser una versión mejorada de WormGPT, que ofrece características más completas, principalmente vendidas en la dark web y foros de hackers, con tarifas mensuales que oscilan entre $200 y $1,700. Sus abusos típicos en el escenario de la encriptación incluyen:

Proyectos de encriptación falsificados: Generar documentos técnicos falsos, sitios web oficiales, hojas de ruta y copias de marketing para implementar ICOs/IDOs fraudulentos.
Generar páginas de phishing por lotes: Cree rápidamente páginas de inicio de sesión imitadas para intercambios de criptomonedas o interfaces de conexión de billeteras bien conocidas.
Actividades de bots en redes sociales: producción masiva de comentarios falsos y propaganda, impulsando tokens fraudulentos o desacreditando proyectos competidores.
Ataques de ingeniería social: Este chatbot puede imitar conversaciones humanas, establecer confianza con usuarios desprevenidos y atraerlos a revelar inadvertidamente información sensible o realizar acciones perjudiciales.

GhostGPT: Un asistente de IA sin ataduras a restricciones morales

GhostGPT es un chatbot de IA explícitamente posicionado como si no tuviera restricciones éticas, con abusos típicos en el escenario de la encriptación que incluyen:

Ataques de phishing avanzados: Generar correos electrónicos de phishing altamente realistas que imitan a intercambios principales para emitir solicitudes falsas de verificación KYC, alertas de seguridad o notificaciones de congelación de cuentas.
Generación de Código Malicioso para Contratos Inteligentes: Sin ningún conocimiento de programación, los atacantes pueden generar rápidamente contratos inteligentes que contienen puertas traseras ocultas o lógica fraudulenta utilizando GhostGPT, para estafas de Rug Pull o ataques a protocolos DeFi.
Ladrón de criptomonedas polimórfico: Genera malware con capacidades de transformación continua para robar archivos de billetera, claves privadas y frases mnemotécnicas. Sus características polimórficas dificultan la detección por parte del software de seguridad basado en firmas tradicional.
Ataques de ingeniería social: Al combinar scripts generados por IA, los atacantes pueden desplegar bots en plataformas como Discord y Telegram para atraer a los usuarios a participar en la acuñación falsa de NFT, airdrops o proyectos de inversión.
Estafas de deepfake: En conjunto con otras herramientas de IA, GhostGPT puede ser utilizado para generar las voces de falsos fundadores de proyectos de encriptación, inversores o ejecutivos de intercambios, implementando estafas telefónicas o ataques de Compromiso de Correo Electrónico Empresarial (BEC).

Venice.ai: Riesgos potenciales de acceso no censurado

Venice.ai ofrece acceso a varios LLMs, incluidos algunos modelos con menos escrutinio o restricciones más laxas. Se posiciona como una puerta de enlace abierta para que los usuarios exploren las capacidades de diferentes LLMs, ofreciendo modelos de vanguardia, precisos y no moderados para una experiencia de IA verdaderamente sin restricciones, pero también puede ser explotado por actores maliciosos para generar contenido dañino. Los riesgos asociados con la plataforma incluyen:

Eludir la censura para generar contenido malicioso: Los atacantes pueden utilizar modelos con menos restricciones en la plataforma para crear plantillas de phishing, propaganda falsa o ideas de ataque.
Bajar el umbral para la ingeniería de prompts: incluso si los atacantes no poseen habilidades avanzadas de "jailbreaking" de prompts, pueden obtener fácilmente resultados que originalmente estaban restringidos.
Iteración de scripts de ataque acelerada: Los atacantes pueden utilizar esta plataforma para probar rápidamente las respuestas de diferentes modelos a comandos maliciosos, optimizando scripts de fraude y métodos de ataque.

Escrito al final

La aparición de LLMs sin restricciones marca un nuevo paradigma de ataques a la ciberseguridad que es más complejo, escalable y automatizado. Estos modelos no solo reducen el umbral para los ataques, sino que también introducen nuevas amenazas que son más encubiertas y engañosas.

En este juego continuo de ataque y defensa, todas las partes en el ecosistema de seguridad deben trabajar juntas para afrontar los riesgos futuros: por un lado, es necesario aumentar la inversión en tecnologías de detección para desarrollar sistemas capaces de identificar e interceptar contenido de phishing generado por LLM maliciosos, explotar vulnerabilidades de contratos inteligentes y código malicioso; por otro lado, también se deben realizar esfuerzos para promover la construcción de capacidades de anti-jailbreaking de modelos y explorar mecanismos de marca de agua y seguimiento para rastrear las fuentes de contenido malicioso en escenarios críticos como finanzas y generación de código; además, se debe establecer un marco ético sólido y un mecanismo regulatorio para limitar fundamentalmente el desarrollo y el uso indebido de modelos maliciosos.

Declaración:

Este artículo es reproducido de [TechFlow] Los derechos de autor pertenecen al autor original [TechFlow] Si hay alguna objeción a la reimpresión, por favor contacte Equipo de Gate LearnEl equipo lo procesará lo más rápido posible de acuerdo con los procedimientos relevantes.
Aviso legal: Las opiniones y puntos de vista expresados en este artículo son únicamente del autor y no constituyen ningún consejo de inversión.
Las otras versiones lingüísticas del artículo son traducidas por el equipo de Gate Learn, a menos que se mencione lo contrario.GateBajo tales circunstancias, está prohibido copiar, difundir o plagiar artículos traducidos.