Combattre l’IA par l’IA, la « théorie de l’évolution » de la sécurité des grands modèles

Texte丨Liu Yuqi

Éditeur|Wang Yisu

Source丨Intelligence du cône de lumière

« Sommes-nous plus dangereux ou plus sûrs à l’ère d’Internet ?

En 2016, alors qu'Internet se développait à un rythme rapide, ces grands personnages et deux lignes de slogans apparaissaient souvent dans les publicités des ascenseurs. Des virus et chevaux de Troie à la fraude en ligne, la réflexion sur la sécurité et la mise en place de technologies de prévention de la sécurité se sont affrontées. le développement de la science et de la technologie. De même, les débuts de l’ère du grand modèle ont également donné lieu à de nombreuses considérations de sécurité.

Dix ans après l'invention d'Internet, la technologie de protection d'Internet et la chaîne industrielle ont commencé à être complétées. Sur la base de l'expérience des dernières décennies, moins de six mois après la naissance du grand modèle, autour du modèle de sécurité et de données les discussions sur la sécurité, la sécurité du contenu ont été interminables.

Au cours de la semaine dernière, lors de la Conférence du Bund de Shanghai, du Forum de l'innovation de Pujiang, de la Semaine nationale de la cybersécurité et d'autres occasions, l'industrie, le monde universitaire et les communautés de recherche se sont concentrés sur les problèmes de sécurité des données (y compris l'empoisonnement des données, les fuites d'informations, les risques liés aux droits d'auteur, etc. .) causés par la mise en œuvre d'applications de grand modèle, modèle Une série de discussions ont eu lieu sur les problèmes de sécurité (failles de sécurité dans le modèle lui-même, exploitation malveillante, etc.), les problèmes de sécurité du contenu (contenu généré contenant des informations sensibles telles que des violations, l'illégalité , pornographie, etc.), questions d’éthique de l’IA, etc.

Comment protéger les grands modèles ?

Certains fabricants de produits de sécurité nationaux, tels que 360, Ant, Sangfor, Qi'anxin, Shanshi Technology, etc., développent activement des technologies de sécurité à grande échelle.

Les grands modèles ont besoin d'un "médecin" et d'un "garde du corps"

La naissance d'un grand modèle en tant que nouvelle espèce nécessite un contrôle de sécurité pendant le processus de formation. Lorsque le grand modèle est finalement introduit sur le marché, il nécessite également un "contrôle de qualité". Après le contrôle de qualité, il entre sur le marché et doit être utilisé de manière contrôlable. C'est tout C'est une approche macro pour résoudre les problèmes de sécurité.

Qu'il s'agisse d'un grand modèle général ou d'un grand modèle industriel pour les domaines verticaux, actuellement, la protection de sécurité du modèle est principalement divisée en trois parties :

Le premier est le problème des données dans la phase de formation : si les données sont mal collectées, biaisées ou mal étiquetées, ou si les données sont empoisonnées, le grand modèle peut produire des résultats erronés, une discrimination ou d'autres effets négatifs. les données seront également affectées pendant le processus de candidature.Face à des risques tels que la fuite de données et l'exposition de la vie privée ;

Le deuxième est le problème de contrôlabilité du modèle lui-même : la fiabilité, la stabilité, la robustesse, etc. du modèle doivent être testées. Par exemple, les utilisateurs ont déjà construit des déclarations ciblées pour induire le modèle, et les grands modèles peuvent produire des informations frauduleuses. , discrimination et politique.Tendances et autres éléments de risque ;

Le troisième est le problème de sécurité de l'application de grands modèles dans des scénarios réels : lors de l'utilisation réelle, les interactions et les applications des différents groupes d'utilisateurs doivent être soigneusement évaluées, en particulier dans des domaines tels que la finance et les soins médicaux, qui ont des exigences extrêmement élevées en matière de sécurité. l'exactitude de la sortie du modèle. Si elle est mal utilisée, une pierre peut facilement provoquer des milliers de vagues.

De nombreux initiés de l'industrie ont déclaré à Guangcone Intelligence : « La sécurité des modèles nécessite un système de protection technique intégré, et le contrôle d'un seul lien ne peut pas résoudre le problème fondamental à lui seul.

En ce qui concerne le développement de la sécurité Internet, de nombreuses sociétés de logiciels de « détection et suppression de virus » sont nées. En général, la détection et la localisation des problèmes constituent souvent la première étape.

Lightcone Intelligence a appris que « Yitianjian » d'Ant comprend la plate-forme de détection de sécurité à grand modèle « Yitianjian 2.0 » et la plate-forme de défense contre les risques à grand modèle « Tianjian », couvrant toute la chaîne de la détection à la gouvernance en passant par la défense. Antjian 2.0 peut effectuer des analyses de sécurité multidimensionnelles sur de grands modèles pour vérifier les risques de sécurité des données existants, les points de risque de contenu et d'autres problèmes. Cela équivaut à se placer dans la perspective de « l'industrie noire » et à utiliser une technologie intelligente d'attaque et de confrontation pour générer automatiquement des millions de questions inductives, poser des questions et réponses inductives sur le grand modèle génératif et découvrir les faiblesses et les failles du grand modèle. .

D'un point de vue technique, Yijian adopte la dernière voie technologique de « renseignement contradictoire », utilisant une technologie contradictoire intelligente pour « projeter en permanence des questions » sur de grands modèles, observer les réponses générées par le modèle et déterminer s'il existe des risques. Grâce à une « torture » continue, tout comme un médecin interrogeant plusieurs fois les symptômes d'un patient, la plateforme peut interroger et analyser l'état de santé du grand modèle.

L'amélioration de la sécurité des grands modèles en générant des échantillons contradictoires et en développant des systèmes algorithmiques pour détecter les échantillons contradictoires est devenue une tendance technologique dominante. Dans le secteur, des entreprises géantes telles qu’OpenAI, Google, Microsoft et NVIDIA ont appliqué la technologie de contre-espionnage à leurs produits et services.

Par exemple, selon cette idée technique, le système CleverHans développé par l'Université de Toronto est comme un "voleur" spécialement conçu pour tester le système antivol. Il ajoutera délibérément quelques petites interférences pour tenter de tromper le système de sécurité IA. . Dans des circonstances normales, le système d'IA peut identifier avec précision l'image d'un « chaton », mais le système CleverHan doit légèrement modifier quelques pixels sur l'image d'un « chaton » pour donner à l'IA l'illusion que c'est une photo d'un chiot. Si le système d’IA est trompé, cela signifie qu’il existe une faille de sécurité.

Par rapport à la détection et au « diagnostic », la « prévention et le traitement » sont également très importants. Ant Tianjian est comme un bouclier intelligent qui peut prévenir les problèmes avant qu'ils ne surviennent. En analysant intelligemment l'intention des utilisateurs de poser des questions de défense, Tianjian peut intercepter certaines questions malveillantes qui tentent d'inciter le modèle à générer du contenu sensible, garantissant ainsi qu'une induction malveillante externe ne puisse pas être introduite dans le grand modèle. Dans le même temps, un filtrage secondaire est mis en œuvre sur le contenu de sortie du modèle pour identifier automatiquement les informations sur les risques et intervenir pour garantir que le contenu en sortie du grand modèle est conforme aux spécifications.

Plus important encore, les problèmes de données sont à l'origine de la sécurité des modèles. Shi Lin, directeur de l'Institut du Cloud Computing et du Big Data de l'Académie chinoise des technologies de l'information et des communications, a déclaré un jour lors d'une réunion d'échange universitaire : « De nombreux fournisseurs de sécurité ont désormais adopté mesures de sécurité, y compris Nous effectuerons un certain nettoyage des données de formation, filtrerons le contenu d'entrée et de sortie, et prendrons également des mesures de prévention et de contrôle de sécurité telles que la surveillance et l'identification.

Cela nécessite que la plate-forme de défense agisse au niveau de la source de données pour résoudre des problèmes tels que les sources de données toxiques et les boîtes noires à profondeur de modèle incontrôlable. Zhu Huijia, directeur des algorithmes de contenu du département Big Security Machine Intelligence d'Ant Group, a déclaré que Tianjian tente actuellement d'assurer la sécurité des modèles grâce à la désintoxication des données, à la formation à l'alignement et à la recherche sur l'interprétabilité.

Utilisez la magie pour vaincre la magie, l'IA pour combattre l'IA

Les caractéristiques du contenu dans le monde numérique et dans le monde à yeux humains sont différentes.

Avec l'avènement de l'ère des grands modèles, ses puissantes capacités ont également fourni de nouvelles idées pour la transformation de la technologie de protection de la sécurité. « Utiliser la puissance de l’IA pour combattre l’IA » est devenu un sujet brûlant.

En fait, les idées d’attaque contradictoire et de défense ne sont pas exclusives au modèle de sécurité. Dès la dernière décennie, face à diverses menaces pour la sécurité, le domaine de l'intelligence artificielle a progressivement formé le concept de sécurité « attaquer, tester et défendre - attaque pour promouvoir la défense - attaque et intégration de la défense », et continue d'explorer en simuler divers scénarios d'attaque. Les faiblesses des modèles et des systèmes sont utilisées pour promouvoir le renforcement des capacités de défense du côté des algorithmes et de l'ingénierie.

Cependant, dans le passé, la protection de la sécurité reposait principalement sur des modèles d'algorithmes d'apprentissage automatique, qui nécessitaient l'accumulation d'une grande quantité de connaissances professionnelles en matière de données et étaient confrontées aux problèmes d'angle mort des connaissances et de démarrage à froid intempestif de petits échantillons. Grâce à la technologie des grands modèles, il est possible d’obtenir une prévention et un contrôle de sécurité plus intelligents.

Cela se reflète sous plusieurs aspects. Premièrement, les grands modèles peuvent fournir des « consultants » en matière de sécurité intelligents. De grands modèles pré-entraînés à partir de textes massifs peuvent devenir d’excellents « consultants » et proposer des stratégies d’analyse et de défense adaptées. Par exemple, grâce à une simple description en langage naturel, la situation de sécurité peut être rapidement analysée, des suggestions de contre-mesures peuvent être faites et l'équipe de sécurité peut être assistée dans la planification de solutions. Ceci est similaire à un « petit assistant » de sécurité intelligent.

À en juger par la situation actuelle du secteur, il manque toujours un ensemble d’outils et de règles d’évaluation faciles à utiliser et standardisés sur la manière d’évaluer la sécurité de l’IA.

C'est également un autre aspect qui peut être complété dans la défense des grands modèles.Il utilise la technologie des grands modèles pour acquérir des connaissances sur les risques et des règles standard afin d'améliorer la compréhension cognitive des risques par l'IA, afin d'obtenir une défense extrêmement rapide et un démarrage à froid rapide en utilisant de grands modèles contre grands modèles.le but de.

La sécurité des grands modèles requiert à la fois du « rapide » et du « lent », ces deux logiques ne sont pas contradictoires. En termes de défense de sécurité à grande échelle, nous devons être « rapides » et être capables de détecter et d'éliminer rapidement les virus pour garantir que le service est sans poison. Cela inclut plusieurs défenses clés telles que la « désintoxication des données », les « garde-corps de sécurité ». et « Détection des risques AIGC ». En termes de sécurité et de fiabilité des grands modèles, nous devons être « lents » et garantir la contrôlabilité et la fiabilité de l'ensemble de l'environnement du système de manière systématique et à long terme. Cela inclut « l'évaluation de la sécurité ». , « déconstruction et contrôlabilité », « Co-gouvernance de la société humaine » et d'autres aspects.

En prenant la sécurité des textes comme exemple, de grands modèles peuvent être formés sur la base de règles de normes de sécurité, de connaissances du domaine de risque et d'échantillons de risques historiques pour améliorer la compréhension du modèle des normes et du contenu de risque, améliorant ainsi les capacités de détection des risques. Il utilise également de grandes capacités de génération de modèles combinées à des graphiques de connaissances en matière de sécurité pour construire des échantillons d'attaques et optimiser de manière itérative et continue le modèle de détection.

Un expert en sécurité a déclaré : « Par rapport aux échantillons limités collectés manuellement, les échantillons massifs et diversifiés générés par les grands modèles rendront le modèle de détection de sécurité « bien informé » et s'adapteront plus rapidement aux nouvelles méthodes de menace.

Cette technologie a également été utilisée par Ant dans la détection de contenu AIGC. Zhu Huijia a mentionné : « La détection de contrefaçon profonde de l'AIGC adopte également l'idée d'attaquer, de tester et de défendre, et d'utiliser l'attaque pour promouvoir la défense. Elle génère par différentes méthodes, différents styles et différents modèles de génération, et établit près de dizaines de Des millions de données de contrefaçon profonde pour entraîner le modèle. Distinguez rapidement si le contenu est généré par une machine ou artificiellement, obtenant ainsi un modèle de détection avec une meilleure généralisation et robustesse.

En réponse aux problèmes causés par l'AIGC lors de son application, certaines entreprises leaders dans le monde ont commencé à élaborer des plans.

OpenAI a précédemment déclaré qu'elle envisageait d'ajouter la technologie de filigrane numérique à ChatGPT pour réduire l'impact négatif de l'abus de modèle ; Google a déclaré lors de la conférence des développeurs de cette année qu'il veillerait à ce que chaque image de l'entreprise générée par l'IA comporte un filigrane intégré ; cette année Début janvier, Nvidia a également publié un logiciel appelé FakeCatcher pour déterminer si les visages de la vidéo sont des faux.

En regardant l'histoire du développement d'Internet, le chaos et le développement rapide sont souvent des « frères jumeaux ».C'est après la maturité de l'industrialisation de la sécurité des réseaux qu'Internet a véritablement inauguré l'application d'une centaine de fleurs.

De même, la sécurité des modèles n'est pas seulement la tâche d'un seul fabricant de produits de sécurité, mais ce n'est que lorsque la technologie de sécurité forme une barrière fiable que la technologie des grands modèles peut réellement « voler dans les foyers des gens ordinaires ».

"Les grands modèles sont des questions très complexes. La complexité de l'éthique, des données, de la formation et d'autres domaines est sans précédent. C'est un nouveau domaine et une proposition devant tout le monde. Le 'Yitianjian' de Ant du point de vue de la sécurité des grands modèles Nous avons fait quelques explorations sur ", a finalement déclaré Zhu Huijia.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)