Combatendo a IA com IA, a “teoria da evolução” da segurança de grandes modelos

Texto丨Liu Yuqi

Editor|Wang Yisu

Fonte丨Inteligência do Cone de Luz

“Somos mais perigosos ou mais seguros na era da Internet?”

Em 2016, quando a Internet estava se desenvolvendo em ritmo acelerado, esses grandes personagens e duas linhas de slogans apareciam frequentemente em anúncios de elevadores.De vírus e cavalos de Tróia a fraudes on-line, o pensamento sobre segurança e o estabelecimento de tecnologias de prevenção de segurança têm corrido contra o desenvolvimento da ciência e da tecnologia. Da mesma forma, os primeiros dias da era dos grandes modelos também deram origem a muitas considerações de segurança.

Dez anos após a invenção da Internet, a tecnologia de proteção da Internet e a cadeia industrial começaram a ser concluídas.Com base na experiência das últimas décadas, menos de meio ano após o nascimento do grande modelo, em torno da segurança do modelo e dos dados segurança, , as discussões sobre segurança de conteúdo têm sido intermináveis.

Na semana passada, na Conferência Bund de Xangai, no Fórum de Inovação de Pujiang, na Semana Nacional de Segurança Cibernética e em outras ocasiões, a indústria, a academia e as comunidades de pesquisa se concentraram nas questões de segurança de dados (incluindo envenenamento de dados, vazamento de informações, riscos de direitos autorais, etc. .) causada pela implementação de aplicativos de grande porte, modelo Uma série de discussões foram realizadas sobre questões de segurança (vulnerabilidades de segurança no próprio modelo, exploração maliciosa, etc.), questões de segurança de conteúdo (conteúdo gerado contendo informações confidenciais, como violações, ilegalidade , pornografia, etc.), questões de ética de IA, etc.

Como proteger modelos grandes?

Alguns fabricantes nacionais de segurança, como 360, Ant, Sangfor, Qi’anxin, Shanshi Technology, etc., estão desenvolvendo ativamente tecnologias de segurança de grandes modelos.

Modelos grandes precisam de "médico" e "guarda-costas"

O nascimento de um modelo grande como uma nova espécie requer monitoramento de segurança durante o processo de treinamento. Quando o modelo grande é finalmente introduzido no mercado, ele também precisa de uma "inspeção de qualidade". Após a inspeção de qualidade, ele entra no mercado e precisa ser usado de maneira controlável. Isso é tudo É uma abordagem macro para resolver problemas de segurança.

Quer se trate de um grande modelo geral ou de um grande modelo industrial para campos verticais, atualmente, a proteção de segurança do modelo é dividida principalmente em três partes:

O primeiro é o problema dos dados na fase de treinamento: se os dados forem coletados incorretamente, tendenciosos ou rotulados incorretamente, ou se os dados forem envenenados, isso pode fazer com que o modelo grande produza resultados errôneos, discriminação ou outros efeitos negativos. Ao mesmo tempo, os dados também serão afetados durante o processo de inscrição, enfrentando riscos como vazamento de dados e exposição à privacidade;

O segundo é o problema de controlabilidade do próprio modelo: a confiabilidade, estabilidade, robustez, etc. do modelo precisam ser testadas. Por exemplo, os usuários construíram previamente declarações direcionadas para induzir o modelo, e grandes modelos podem produzir informações com fraude , discriminação e política Tendência e outros conteúdos de risco;

A terceira é a questão da segurança da aplicação de grandes modelos em cenários reais: durante a utilização real, as interacções e aplicações de diferentes grupos de utilizadores precisam de ser cuidadosamente avaliadas, especialmente em domínios como finanças e cuidados médicos, que têm requisitos extremamente elevados em termos de segurança. a exatidão da saída do modelo. Se usada incorretamente, uma pedra pode facilmente causar milhares de ondas.

Muitos membros da indústria disseram à Guangcone Intelligence: “A segurança do modelo requer um sistema de proteção técnica integrado, e o controle de um link por si só não pode resolver o problema fundamental”.

Referindo-se ao caminho de desenvolvimento da segurança da Internet, nasceram muitas empresas de software de "detecção e eliminação de vírus". Geralmente, detectar e localizar problemas costuma ser o primeiro passo.

A Light Cone Intelligence aprendeu que o “Yitianjian” do Ant inclui a plataforma de detecção de segurança de modelo grande “Yitianjian 2.0” e a plataforma de defesa de risco de modelo grande “Tianjian”, cobrindo toda a cadeia, desde a detecção até a governança e a defesa. O Antjian 2.0 pode realizar verificações de segurança multidimensionais em modelos grandes para verificar riscos de segurança de dados existentes, pontos de risco de conteúdo e outros problemas. É equivalente a permanecer na perspectiva da "indústria negra" e usar tecnologia inteligente de ataque e confronto para gerar automaticamente milhões de perguntas indutivas, conduzir perguntas e respostas indutivas no grande modelo generativo e descobrir as fraquezas e lacunas do grande modelo .

Do ponto de vista técnico, Yijian adota a mais recente rota tecnológica de "inteligência adversária", usando tecnologia adversária inteligente para "projetar questões" continuamente para grandes modelos, observar as respostas geradas pelo modelo e determinar se há riscos. Por meio de "tortura" contínua, assim como um médico perguntando várias vezes sobre os sintomas de um paciente, a plataforma pode interrogar e analisar o estado de saúde do grande modelo.

Tornou-se uma tendência tecnológica dominante melhorar a segurança de grandes modelos, gerando amostras adversárias e desenvolvendo sistemas de algoritmos para detectar amostras adversárias. Na indústria, empresas gigantes como OpenAI, Google, Microsoft e NVIDIA aplicaram tecnologia de contra-inteligência aos seus produtos e serviços.

Por exemplo, sob esta ideia técnica, o sistema CleverHans desenvolvido pela Universidade de Toronto é como um “ladrão” especialmente projetado para testar o sistema anti-roubo, adicionando deliberadamente algumas pequenas interferências para tentar enganar o sistema de segurança de IA. . Em circunstâncias normais, o sistema de IA pode identificar com precisão a imagem de um “gatinho”, mas o sistema CleverHan precisa modificar ligeiramente alguns pixels na imagem de um “gatinho” para dar à IA a ilusão de que é a foto de um cachorrinho. Se o sistema de IA for enganado, significa que há uma vulnerabilidade de segurança.

Em comparação com a detecção e o “diagnóstico”, a “prevenção e o tratamento” também são muito importantes. Ant Tianjian é como um escudo inteligente que pode prevenir problemas antes que eles ocorram. Ao analisar de forma inteligente a intenção dos usuários de fazer perguntas para defesa, Tianjian pode interceptar certas perguntas maliciosas que tentam induzir o modelo a gerar conteúdo confidencial, garantindo que a indução maliciosa externa não possa ser introduzida no modelo grande. Ao mesmo tempo, a filtragem secundária é implementada no conteúdo de saída do modelo para identificar automaticamente as informações de risco e intervir para garantir que o conteúdo produzido pelo modelo grande esteja em conformidade com as especificações.

Mais importante ainda, as questões de dados são a fonte da segurança do modelo. Shi Lin, diretor do Instituto de Computação em Nuvem e Big Data da Academia Chinesa de Tecnologia da Informação e Comunicação, certa vez em uma reunião de intercâmbio acadêmico: "Muitos fornecedores de segurança já adotaram medidas de segurança, incluindo Faremos alguma limpeza dos dados de treinamento, filtraremos o conteúdo de entrada e saída e também tomaremos medidas de prevenção e controle de segurança, como monitoramento e identificação.”

Isso exige que a plataforma de defesa atue na fonte de dados para resolver problemas como fontes de dados tóxicas e caixas pretas de profundidade de modelo incontroláveis. Zhu Huijia, diretor de algoritmo de conteúdo do Big Security Machine Intelligence Department do Ant Group, disse que Tianjian está atualmente tentando garantir a segurança do modelo por meio de desintoxicação de dados, treinamento de alinhamento e pesquisa de interpretabilidade.

Use magia para derrotar magia, IA para lutar contra IA

As características do conteúdo no mundo digital e no mundo com olhos humanos são diferentes.

Com o advento da era dos grandes modelos, suas poderosas capacidades também forneceram novas ideias para a transformação da tecnologia de proteção de segurança. “Usar o poder da IA para combater a IA” tornou-se um tema quente.

Na verdade, as ideias de ataque e defesa contraditórias não são exclusivas do modelo de segurança. Já na última década, face a várias ameaças à segurança, o campo da inteligência artificial formou gradualmente o conceito de segurança de "atacar, testar e defender - ataque para promover a defesa - ataque e integração de defesa", e continua a explorar por simulando vários cenários de ataque. Fraquezas em modelos e sistemas são usadas para promover o fortalecimento das capacidades de defesa do lado do algoritmo e da engenharia.

No entanto, no passado, a proteção da segurança dependia principalmente de modelos de algoritmos de aprendizado de máquina, que exigiam o acúmulo de uma grande quantidade de conhecimento de dados profissionais e enfrentavam problemas de pontos cegos de conhecimento e inicialização a frio prematura de pequenas amostras. Usando tecnologia de modelo grande, prevenção e controle de segurança mais inteligentes podem ser alcançados.

Isto se reflete em vários aspectos. Primeiro, modelos grandes podem fornecer “consultores” de segurança inteligentes. Grandes modelos pré-treinados com base em textos massivos podem se tornar excelentes “consultores” e propor estratégias adequadas de análise e defesa. Por exemplo, através de uma descrição simples em linguagem natural, a situação de segurança pode ser rapidamente analisada, sugestões de contramedidas podem ser feitas e a equipe de segurança pode ser auxiliada no planejamento de soluções. Isso é semelhante a um "pequeno assistente" de segurança inteligente.

A julgar pela situação atual da indústria, ainda falta um conjunto de ferramentas e regras de avaliação padronizadas e fáceis de usar sobre como avaliar a segurança da IA.

Este também é outro aspecto que pode ser complementado na defesa de modelos grandes. Ele usa tecnologia de modelos grandes para aprender conhecimento de risco e regras padrão para melhorar a compreensão cognitiva dos riscos da IA, de modo a alcançar defesa extremamente rápida e inicialização a frio rápida usando modelos grandes contra modelos grandes. o objetivo de.

A segurança de modelos grandes requer tanto “rápido” quanto “lento”.Essas duas lógicas não são contraditórias. Em termos de defesa de segurança de grande modelo, precisamos ser "rápidos" e ser capazes de detectar e eliminar vírus rapidamente para garantir que o serviço esteja livre de venenos. Isso inclui várias defesas importantes, como "desintoxicação de dados", "proteções de segurança" e "detecção de risco AIGC". Em termos de segurança e confiabilidade de grandes modelos, precisamos ser "lentos" e garantir a controlabilidade e confiabilidade de todo o ambiente do sistema de forma sistemática e de longo prazo. Isso inclui "avaliação de segurança" , “desconstrução e controlabilidade”, “cogovernança da sociedade humana” e outros aspectos.

Tomando a segurança de texto como exemplo, grandes modelos podem ser treinados com base em regras padrão de segurança, conhecimento do domínio de risco e amostras históricas de risco para melhorar a compreensão do modelo dos padrões e conteúdo de risco, melhorando assim as capacidades de detecção de risco. Ele também usa grandes recursos de geração de modelos combinados com gráficos de conhecimento de segurança para construir amostras de ataque e otimizar continuamente e iterativamente o modelo de detecção.

Um especialista em segurança disse: “Em comparação com as amostras limitadas coletadas manualmente, as amostras massivas e diversas geradas por grandes modelos tornarão o modelo de detecção de segurança ‘bem informado’ e se adaptarão mais rapidamente a novos métodos de ameaças”.

Essa tecnologia também tem sido usada pelo Ant na detecção de conteúdo AIGC. Zhu Huijia mencionou: "A detecção de falsificação profunda do AIGC também adota a ideia de atacar, testar e defender, e usar o ataque para promover a defesa. Ela é gerada por meio de diferentes métodos, estilos diferentes e modelos de geração diferentes, e estabelece quase dezenas de milhões de dados de falsificação profunda para treinar o modelo. Distinguir rapidamente se o conteúdo é gerado por máquina ou gerado artificialmente, alcançando assim um modelo de detecção com melhor generalização e robustez.”

Em resposta aos problemas causados pelo AIGC durante a sua aplicação, algumas empresas líderes no mundo começaram a fazer planos.

A OpenAI declarou anteriormente que está considerando adicionar tecnologia de marca d'água digital ao ChatGPT para reduzir o impacto negativo do abuso de modelo; o Google declarou na conferência de desenvolvedores deste ano que garantirá que cada imagem da empresa gerada por IA tenha uma marca d'água incorporada; este ano No início de janeiro, a Nvidia também lançou um software chamado FakeCatcher para descobrir se os rostos no vídeo são profundamente falsos.

Olhando para trás, para a história do desenvolvimento da Internet, o caos e o rápido desenvolvimento são muitas vezes "irmãos gêmeos".Foi após o amadurecimento da industrialização da segurança de rede que a Internet realmente inaugurou a aplicação de cem flores.

Da mesma forma, a segurança do modelo não é tarefa apenas de um fabricante de segurança, mas somente quando a tecnologia de segurança forma uma barreira confiável é que a tecnologia do modelo grande pode realmente “voar para as casas das pessoas comuns”.

"Grandes modelos são questões muito complexas. A complexidade da ética, dos dados, do treinamento e de outros campos não tem precedentes. É um novo campo e uma proposta diante de todos. O 'Yitianjian' do Ant na perspectiva da segurança de grandes modelos Fizemos algumas explorações sobre isso, mas ainda há muitos problemas a serem pesquisados e resolvidos, como a autenticidade e a precisão das respostas. Também precisa de iteração e melhoria contínuas e requer o esforço conjunto de toda a sociedade. ", disse Zhu Huijia finalmente.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)