Luchar contra la IA con IA, la “teoría de la evolución” de la seguridad de los grandes modelos

Texto 丨Liu Yuqi

Editor|Wang Yisu

Fuente丨Inteligencia del cono de luz

"¿Somos más peligrosos o más seguros en la era de Internet?"

En 2016, cuando Internet se estaba desarrollando a un ritmo rápido, estos grandes personajes y dos líneas de lemas aparecían a menudo en los anuncios de los ascensores. Desde virus y troyanos hasta fraudes en línea, el pensamiento de la seguridad y el establecimiento de tecnologías de prevención de seguridad han estado compitiendo contra el desarrollo de la ciencia y la tecnología. Asimismo, los primeros días de la era de los grandes modelos también dieron lugar a muchas consideraciones de seguridad.

Diez años después de la invención de Internet, la tecnología de protección de Internet y la cadena industrial comenzaron a completarse. Según la experiencia de las últimas décadas, menos de medio año después del nacimiento del gran modelo, en torno a la seguridad del modelo y los datos. Las discusiones sobre seguridad y seguridad del contenido han sido interminables.

La semana pasada, en la Conferencia del Bund de Shanghai, el Foro de Innovación de Pujiang, la Semana Nacional de Seguridad Cibernética y otras ocasiones, la industria, el mundo académico y las comunidades de investigación se centraron en las cuestiones de seguridad de los datos (incluido el envenenamiento de datos, la fuga de información, los riesgos de derechos de autor, etc.). .) causado por la implementación de aplicaciones modelo grandes, modelo Se llevaron a cabo una serie de discusiones sobre cuestiones de seguridad (vulnerabilidades de seguridad en el modelo en sí, explotación maliciosa, etc.), cuestiones de seguridad de contenido (contenido generado que contiene información confidencial como violaciones, ilegalidad , pornografía, etc.), cuestiones éticas de la IA, etc.

¿Cómo proteger modelos grandes?

Algunos fabricantes de seguridad nacionales, como 360, Ant, Sangfor, Qi'anxin, Shanshi Technology, etc., están desarrollando activamente tecnologías de seguridad de modelos grandes.

Los modelos grandes necesitan "doctor" y "guardaespaldas"

El nacimiento de un modelo grande como una nueva especie requiere un control de seguridad durante el proceso de capacitación. Cuando el modelo grande finalmente se introduce en el mercado, también necesita una "inspección de calidad", después de la inspección de calidad, ingresa al mercado y debe ser utilizado de manera controlable, esto es todo Es un enfoque macro para resolver problemas de seguridad.

Ya sea un modelo grande general o un modelo industrial grande para campos verticales, actualmente la protección de seguridad del modelo se divide principalmente en tres partes:

El primero es el problema de los datos en la fase de entrenamiento: si los datos se recopilan incorrectamente, están sesgados o mal etiquetados, o si están envenenados, puede causar que el modelo grande produzca resultados erróneos, discriminación u otros efectos negativos. los datos también se verán afectados durante el proceso de solicitud, enfrentando riesgos como la filtración de datos y la exposición de la privacidad;

El segundo es el problema de controlabilidad del modelo en sí: es necesario probar la confiabilidad, estabilidad, robustez, etc. del modelo. Por ejemplo, los usuarios han construido previamente declaraciones específicas para inducir el modelo, y los modelos grandes pueden producir información con fraude. , discriminación y política Tendencia y otros contenidos de riesgo;

El tercero es la cuestión de seguridad de la aplicación de modelos grandes en escenarios reales: durante el uso real, las interacciones y aplicaciones de diferentes grupos de usuarios deben evaluarse cuidadosamente, especialmente en campos como las finanzas y la atención médica, que tienen requisitos extremadamente altos en la exactitud de la salida del modelo. Si se usa incorrectamente, una piedra puede causar fácilmente miles de ondas.

Muchos expertos de la industria dijeron a Guangcone Intelligence: "La seguridad del modelo requiere un sistema de protección técnica integrado, y el control de un enlace por sí solo no puede resolver el problema fundamental".

En referencia al camino de desarrollo de la seguridad en Internet, han surgido muchas empresas de software de "detección y eliminación de virus". Generalmente, la detección y localización de problemas suele ser el primer paso.

Lightcone Intelligence se enteró de que "Yitianjian" de Ant incluye la plataforma de detección de seguridad de modelo grande "Yitianjian 2.0" y la plataforma de defensa de riesgos de modelo grande "Tianjian", que cubre toda la cadena desde la detección hasta la gobernanza y la defensa. Antjian 2.0 puede realizar escaneos de seguridad multidimensionales en modelos grandes para verificar riesgos de seguridad de datos existentes, puntos de riesgo de contenido y otros problemas. Equivale a situarse en la perspectiva de la "industria negra" y utilizar tecnología inteligente de ataque y confrontación para generar automáticamente millones de preguntas inductivas, realizar preguntas y respuestas inductivas en el modelo generativo grande y descubrir las debilidades y lagunas del modelo grande. .

Desde una perspectiva técnica, Yijian adopta la última ruta tecnológica de "inteligencia adversaria", utilizando tecnología adversaria inteligente para "proyectar preguntas" continuamente en modelos grandes, observar las respuestas generadas por el modelo y determinar si existen riesgos. A través de una "tortura" continua, al igual que un médico pregunta varias veces los síntomas de un paciente, la plataforma puede interrogar y analizar el estado de salud del modelo grande.

Se ha convertido en una tendencia tecnológica generalizada mejorar la seguridad de modelos grandes generando muestras adversas y desarrollando sistemas de algoritmos para detectar muestras adversas. En la industria, empresas gigantes como OpenAI, Google, Microsoft y NVIDIA han aplicado tecnología de contrainteligencia a sus productos y servicios.

Por ejemplo, según esta idea técnica, el sistema CleverHans desarrollado por la Universidad de Toronto es como un "ladrón" especialmente diseñado para probar el sistema antirrobo, añadiendo deliberadamente algunas pequeñas interferencias para intentar engañar al sistema de seguridad de IA. . En circunstancias normales, el sistema de IA puede identificar con precisión la imagen de un "gatito", pero el sistema CleverHan tiene que modificar ligeramente algunos píxeles de la imagen de un "gatito" para darle a la IA la ilusión de que es una foto de un cachorro. Si se engaña al sistema de inteligencia artificial, significa que existe una vulnerabilidad de seguridad.

En comparación con la detección y el "diagnóstico", la "prevención y el tratamiento" también son muy importantes. Ant Tianjian es como un escudo inteligente que puede prevenir problemas antes de que ocurran. Al analizar inteligentemente la intención de los usuarios de hacer preguntas para la defensa, Tianjian puede interceptar ciertas preguntas maliciosas que intentan inducir al modelo a generar contenido confidencial, garantizando que no se pueda introducir inducción maliciosa externa en el modelo grande. Al mismo tiempo, se implementa un filtrado secundario en el contenido de salida del modelo para identificar automáticamente la información de riesgo e intervenir para garantizar que el contenido generado por el modelo grande cumpla con las especificaciones.

Más importante aún, los problemas de datos son la fuente de la seguridad del modelo. Shi Lin, director del Instituto de Computación en la Nube y Big Data de la Academia China de Tecnología de la Información y las Comunicaciones, dijo una vez en una reunión de intercambio académico: "Muchos proveedores de seguridad han adoptado ahora medidas de seguridad, incluyendo: haremos una limpieza de los datos de capacitación, filtraremos el contenido de entrada y salida, y también tomaremos medidas de control y prevención de seguridad, como monitoreo e identificación”.

Esto requiere que la plataforma de defensa actúe en la fuente de datos para abordar problemas como fuentes de datos tóxicas y cajas negras de profundidad de modelo incontrolables. Zhu Huijia, director de algoritmos de contenido del Departamento de Inteligencia de Grandes Máquinas de Seguridad de Ant Group, dijo que Tianjian actualmente está tratando de garantizar la seguridad del modelo mediante la desintoxicación de datos, el entrenamiento de alineación y la investigación de interpretabilidad.

Usa magia para derrotar a la magia, IA para luchar contra la IA

Las características de los contenidos en el mundo digital y el mundo con ojos humanos son diferentes.

Con el advenimiento de la era de los modelos grandes, sus poderosas capacidades también han brindado nuevas ideas para la transformación de la tecnología de protección de seguridad. “Usar el poder de la IA para luchar contra la IA” se ha convertido en un tema candente.

De hecho, las ideas de defensa y ataque adversario no son exclusivas de la seguridad modelo. Ya en la última década, frente a diversas amenazas a la seguridad, el campo de la inteligencia artificial ha formado gradualmente el concepto de seguridad de "atacar, probar y defender - atacar para promover la defensa - integración de ataque y defensa", y continúa explorando mediante simulando varios escenarios de ataque. Las debilidades en modelos y sistemas se utilizan para promover el fortalecimiento de las capacidades de defensa en el lado de los algoritmos y la ingeniería.

Sin embargo, en el pasado, la protección de la seguridad se basaba principalmente en modelos de algoritmos de aprendizaje automático, que requerían la acumulación de una gran cantidad de conocimientos de datos profesionales y enfrentaban problemas de puntos ciegos de conocimiento y arranques en frío inoportunos de muestras pequeñas. Utilizando tecnología de modelos grandes, se puede lograr una prevención y control de seguridad más inteligentes.

Esto se refleja en varios aspectos. En primer lugar, los modelos grandes pueden proporcionar “consultores” de seguridad inteligentes. Los grandes modelos previamente entrenados a partir de textos masivos pueden convertirse en excelentes “consultores” y proponer estrategias de análisis y defensa adecuadas. Por ejemplo, mediante una descripción sencilla en lenguaje natural, se puede analizar rápidamente la situación de seguridad, se pueden hacer sugerencias de contramedidas y se puede ayudar al equipo de seguridad a planificar soluciones. Esto es similar a un "pequeño asistente" de seguridad inteligente.

A juzgar por la situación actual de la industria, todavía falta un conjunto de herramientas y reglas de evaluación estandarizadas y fáciles de usar sobre cómo evaluar la seguridad de la IA.

Este es también otro aspecto que se puede complementar en la defensa de modelos grandes: utiliza tecnología de modelos grandes para aprender conocimientos sobre riesgos y reglas estándar para mejorar la comprensión cognitiva de los riesgos por parte de la IA, a fin de lograr una defensa extremadamente rápida y un arranque en frío rápido mediante el uso de modelos grandes contra modelos grandes el objetivo de.

La seguridad de los modelos grandes requiere tanto "rápido" como "lento", dos lógicas que no son contradictorias. En términos de defensa de seguridad de modelo grande, debemos ser "rápidos" y poder detectar y eliminar virus rápidamente para garantizar que el servicio esté libre de veneno. Esto incluye varias defensas clave como "desintoxicación de datos" y "barandillas de seguridad". y "detección de riesgos AIGC". En términos de seguridad y confiabilidad de modelos grandes, debemos ser "lentos" y garantizar la controlabilidad y confiabilidad de todo el entorno del sistema de manera sistemática y a largo plazo. Esto incluye la "evaluación de seguridad". , "deconstrucción y controlabilidad", "Cogobernanza de la sociedad humana" y otros aspectos.

Tomando la seguridad del texto como ejemplo, se pueden entrenar modelos grandes basándose en reglas estándar de seguridad, conocimiento del dominio de riesgo y muestras de riesgo históricas para mejorar la comprensión del modelo de los estándares y el contenido de riesgo, mejorando así las capacidades de detección de riesgos. También utiliza grandes capacidades de generación de modelos combinadas con gráficos de conocimiento de seguridad para construir muestras de ataques y optimizar de forma iterativa y continua el modelo de detección.

Un experto en seguridad dijo: "En comparación con las muestras limitadas recopiladas manualmente, las muestras masivas y diversas generadas por modelos grandes harán que el modelo de detección de seguridad esté 'bien informado' y se adapte más rápido a los nuevos métodos de amenazas".

Ant también ha utilizado esta tecnología en la detección de contenido AIGC. Zhu Huijia mencionó: "La detección profunda de falsificaciones de AIGC también adopta la idea de atacar, probar y defender, y utilizar el ataque para promover la defensa. Se genera a través de diferentes métodos, diferentes estilos y diferentes modelos de generación, y establece casi decenas de "Se necesitan millones de datos de falsificación profunda para entrenar el modelo. Distinguir rápidamente si el contenido es generado por una máquina o artificialmente, logrando así un modelo de detección con mejor generalización y robustez".

En respuesta a los problemas causados por el AIGC durante su aplicación, algunas empresas líderes en el mundo han comenzado a hacer planes.

OpenAI ha declarado anteriormente que está considerando agregar tecnología de marca de agua digital a ChatGPT para reducir el impacto negativo del abuso de modelo; Google declaró en la conferencia de desarrolladores de este año que se asegurará de que cada imagen de la empresa generada por IA tenga una marca de agua incorporada; este año A principios de enero, Nvidia también lanzó un software llamado FakeCatcher para descubrir si las caras del vídeo son falsificaciones.

Mirando hacia atrás en la historia del desarrollo de Internet, el caos y el rápido desarrollo son a menudo "hermanos gemelos". Fue después de que maduró la industrialización de la seguridad de la red que Internet realmente marcó el comienzo de la aplicación de cien flores.

De manera similar, la seguridad de los modelos no es sólo tarea de un fabricante de seguridad, sino que sólo cuando la tecnología de seguridad forme una barrera confiable puede la tecnología de modelos grandes realmente "volar hacia los hogares de la gente común".

"Los modelos grandes son cuestiones muy complejas. La complejidad de la ética, los datos, la capacitación y otros campos no tiene precedentes. Es un campo nuevo y una propuesta ante todos. El 'Yitianjian' de Ant desde la perspectiva de la seguridad de los modelos grandes. Hemos explorado un poco "Pero todavía quedan muchos problemas por investigar y resolver, como la autenticidad y precisión de las respuestas. También necesita iteración y mejora continuas, y requiere los esfuerzos conjuntos de toda la sociedad", dijo finalmente Zhu Huijia.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)