«Мы более опасны или безопаснее в эпоху Интернета?»
В 2016 году, когда Интернет развивался быстрыми темпами, эти крупные символы и две строки лозунгов часто появлялись в рекламе в лифтах: от вирусов и троянов до онлайн-мошенничества, мышление в области безопасности и создание технологий предотвращения безопасности шли против развития. науки и техники. Аналогичным образом, первые дни эры больших моделей также породили множество соображений безопасности.
Через десять лет после изобретения Интернета технология защиты Интернета и промышленная цепочка начали завершаться.Основываясь на опыте последних нескольких десятилетий, менее чем через полгода после рождения большой модели, вокруг модели безопасности и данных. безопасность, , дискуссии о безопасности контента были бесконечными.
На прошлой неделе на Шанхайской конференции Бунда, Пуцзянском инновационном форуме, Национальной неделе кибербезопасности и других мероприятиях представители промышленности, научных кругов и исследовательских сообществ сосредоточили внимание на проблемах безопасности данных (включая отравление данных, утечку информации, риски, связанные с авторским правом и т. д.). .) вызванные реализацией приложений большой модели, модель. Была проведена серия обсуждений по вопросам безопасности (уязвимости безопасности в самой модели, злонамеренная эксплуатация и т. д.), проблемам безопасности контента (генерируемый контент, содержащий конфиденциальную информацию, такую как нарушения, незаконность , порнография и т. д.), вопросы этики ИИ и т. д.
Как защитить большие модели?
Некоторые отечественные производители систем безопасности, такие как 360, Ant, Sangfor, Qi’anxin, Shanshi Technology и др., активно разрабатывают технологии безопасности крупных моделей.
Большим моделям нужны "врач" и "телохранитель"
Рождение большой модели как нового вида требует контроля безопасности в процессе обучения. Когда большая модель наконец выводится на рынок, она также нуждается в «проверке качества». После проверки качества она выходит на рынок и должна быть используется контролируемым образом.Это все.Это макроподход к решению задач безопасности.
Будь то общая крупная модель или крупная отраслевая модель для вертикальных месторождений, в настоящее время защита модели в основном разделена на три части:
Во-первых, это проблема с данными на этапе обучения: если данные собираются неправильно, предвзяты или неправильно маркированы или данные отравлены, это может привести к тому, что большая модель выдаст ошибочные выходные данные, дискриминацию или другие негативные последствия. данные также будут затронуты в процессе подачи заявления. Столкнувшись с такими рисками, как утечка данных и раскрытие конфиденциальности;
Во-вторых, это проблема управляемости самой модели: необходимо проверить надежность, стабильность, устойчивость и т. д. Например, пользователи заранее построили целевые утверждения, чтобы побудить модель, а большие модели могут выдавать информацию с мошенничеством. , дискриминация и политика Тенденции и другой рискованный контент;
Третьим является вопрос безопасности применения больших моделей в реальных сценариях: во время фактического использования необходимо тщательно оценивать взаимодействие и приложения различных групп пользователей, особенно в таких областях, как финансы и медицина, которые предъявляют чрезвычайно высокие требования к правильность вывода модели.При неправильном использовании один камень легко может вызвать тысячи волн.
Многие инсайдеры отрасли сообщили Guangcone Intelligence: «Безопасность модели требует интегрированной системы технической защиты, и контроль только одного звена не может решить фундаментальную проблему».
Ссылаясь на путь развития интернет-безопасности, появилось множество компаний-разработчиков программного обеспечения для обнаружения и уничтожения вирусов. Как правило, обнаружение и локализация проблем часто является первым шагом.
Light Cone Intelligence узнала, что «Yitianjian» Ant включает в себя крупномасштабную платформу обнаружения безопасности «Yitianjian 2.0» и крупномасштабную платформу защиты от рисков «Tianjian», охватывающую всю цепочку от обнаружения до управления и защиты. Antjian 2.0 может выполнять многомерное сканирование безопасности больших моделей для проверки существующих угроз безопасности данных, точек риска контента и других проблем. Это эквивалентно тому, чтобы стоять с точки зрения «черной индустрии» и использовать интеллектуальные технологии атаки и конфронтации для автоматической генерации миллионов индуктивных вопросов, проведения индуктивных вопросов и ответов на большой генеративной модели и выявления слабых мест и лазеек в большой модели. .
С технической точки зрения Ицзянь использует новейшую технологию «состязательного интеллекта», используя интеллектуальную состязательную технологию для непрерывного «проецирования вопросов» на большие модели, наблюдения за ответами, генерируемыми моделью, и определения наличия рисков. Посредством непрерывных «пыток», подобно тому, как врач несколько раз спрашивает пациента о симптомах, платформа может опрашивать и анализировать состояние здоровья большой модели.
Основной технологической тенденцией стало повышение безопасности больших моделей путем создания состязательных образцов и разработки систем алгоритмов для обнаружения состязательных образцов. В отрасли такие гигантские компании, как OpenAI, Google, Microsoft и NVIDIA, применили контрразведывательные технологии в своих продуктах и услугах.
Например, согласно этой технической идее, система CleverHans, разработанная Университетом Торонто, представляет собой подобие «вора», специально созданного для проверки противоугонной системы. Она намеренно добавит небольшие помехи, чтобы попытаться обмануть систему безопасности ИИ. . В обычных обстоятельствах система ИИ может точно идентифицировать изображение «котенка», но системе CleverHan приходится слегка модифицировать несколько пикселей на изображении «котенка», чтобы создать у ИИ иллюзию, что это фотография щенка. Если систему ИИ обманули, это означает, что существует уязвимость безопасности.
По сравнению с обнаружением и «диагностикой» «профилактика и лечение» также очень важны. Муравей Тяньцзянь подобен умному щиту, который может предотвратить проблемы до того, как они возникнут. Разумно анализируя намерение пользователей задавать вопросы для защиты, Tianjian может перехватывать определенные злонамеренные вопросы, которые пытаются побудить модель генерировать конфиденциальный контент, гарантируя, что внешняя вредоносная индукция не может быть введена в большую модель. В то же время для выходного содержимого модели реализуется вторичная фильтрация для автоматического определения информации о рисках и вмешательства, чтобы гарантировать, что вывод содержимого большой модели соответствует спецификациям.
Что еще более важно, проблемы с данными являются источником безопасности модели. Ши Линь, директор Института облачных вычислений и больших данных Китайской академии информационных и коммуникационных технологий, однажды поделился на встрече академического обмена: меры безопасности, в том числе: «Мы проведем некоторую очистку обучающих данных, отфильтруем входной и выходной контент, а также примем меры по предотвращению и контролю безопасности, такие как мониторинг и идентификация».
Это требует, чтобы защитная платформа действовала в источнике данных для решения таких проблем, как токсичные источники данных и неконтролируемые черные ящики глубины модели. Чжу Хуэйцзя, директор по контент-алгоритмам департамента Big Security Machine Intelligence компании Ant Group, сказал, что в настоящее время Tianjian пытается обеспечить безопасность модели посредством детоксикации данных, обучения выравниванию и исследования интерпретируемости.
Используйте магию, чтобы победить магию, ИИ для борьбы с ИИ
Характеристики контента в цифровом мире и мире человеческими глазами различны.
С наступлением эпохи больших моделей его мощные возможности также предоставили новые идеи для трансформации технологий защиты безопасности. «Использование возможностей ИИ для борьбы с ИИ» стало горячей темой.
Фактически, идеи состязательного нападения и защиты не являются исключительными для модели безопасности. Еще в последнее десятилетие перед лицом различных угроз безопасности в области искусственного интеллекта постепенно сформировалась концепция безопасности «атака, тестирование и защита – атака для содействия обороне – интеграция атак и защиты» и продолжаются исследования. моделирование различных сценариев атак.Слабости в моделях и системах используются для усиления защитных возможностей с алгоритмической и инженерной стороны.
Однако в прошлом защита безопасности в основном опиралась на модели алгоритмов машинного обучения, что требовало накопления большого объема профессиональных знаний о данных и сталкивалось с проблемами «слепых зон» знаний и несвоевременного холодного запуска небольших выборок. Используя технологию больших моделей, можно добиться более интеллектуального предотвращения и контроля безопасности.
Это отражается в нескольких аспектах. Во-первых, большие модели могут предоставить интеллектуальных «консультантов» по безопасности. Большие модели, предварительно обученные на основе объемных текстов, могут стать отличными «консультантами» и предложить соответствующие стратегии анализа и защиты. Например, с помощью простого описания на естественном языке можно быстро проанализировать ситуацию с безопасностью, внести предложения по контрмерам, а группе безопасности можно помочь в планировании решений. Это похоже на умного охранного «маленького помощника».
Судя по текущей ситуации в отрасли, по-прежнему отсутствует набор простых в использовании и стандартизированных инструментов оценки и правил оценки безопасности ИИ.
Это еще один аспект, который может быть дополнен защитой больших моделей. большие модели.цель.
Безопасность больших моделей требует как «быстрого», так и «медленного».Эти две логики не противоречат друг другу. Что касается защиты больших моделей, нам нужно быть «быстрыми» и иметь возможность быстро обнаруживать и уничтожать вирусы, чтобы гарантировать, что служба не содержит ядов. Это включает в себя несколько ключевых средств защиты, таких как «детоксикация данных», «защитные ограждения». и "Обнаружение рисков AIGC". С точки зрения безопасности и надежности больших моделей нам нужно быть "медленными" и обеспечивать управляемость и надежность всей системной среды на долгосрочной и систематической основе. Это включает в себя "оценку безопасности" , «деконструкция и управляемость», «Совместное управление человеческим обществом» и другие аспекты.
Если взять в качестве примера безопасность текста, то большие модели можно обучать на основе правил стандартов безопасности, знаний в области рисков и исторических образцов рисков, чтобы улучшить понимание моделью стандартов и содержания рисков, тем самым улучшая возможности обнаружения рисков. Он также использует возможности создания крупных моделей в сочетании с графами знаний по безопасности для построения образцов атак и непрерывной итеративной оптимизации модели обнаружения.
Эксперт по безопасности сказал: «По сравнению с ограниченными выборками, собранными вручную, огромные и разнообразные выборки, созданные большими моделями, сделают модель обнаружения безопасности «хорошо информированной» и быстрее адаптируются к новым методам угроз».
Эта технология также использовалась Ant для обнаружения контента AIGC. Чжу Хуэйцзя отметил: «Обнаружение глубокой подделки AIGC также принимает идею нападения, тестирования и защиты, а также использования атаки для усиления защиты. Оно генерируется с помощью разных методов, разных стилей и разных моделей генерации и устанавливает почти десятки миллионы данных о глубокой подделке для обучения модели. Быстро распознавайте, является ли контент созданным машиной или искусственно, тем самым достигая модели обнаружения с лучшим обобщением и надежностью».
В ответ на проблемы, вызванные AIGC во время его применения, некоторые ведущие компании мира начали строить планы.
OpenAI ранее заявляла, что рассматривает возможность добавления технологии цифровых водяных знаков в ChatGPT, чтобы уменьшить негативное воздействие злоупотреблений моделями; Google заявила на конференции разработчиков в этом году, что будет гарантировать, что каждое изображение компании, созданное ИИ, будет иметь встроенный водяной знак; в этом году В начале января Nvidia также выпустила программу под названием FakeCatcher, позволяющую выяснить, являются ли лица на видео фейковыми.
Оглядываясь назад на историю развития Интернета, можно сказать, что хаос и быстрое развитие часто являются «братьями-близнецами».Именно после того, как индустриализация сетевой безопасности достигла зрелости, Интернет действительно открыл применение сотни цветов.
Точно так же безопасность моделей — это не просто задача одного производителя систем безопасности, но только когда технология безопасности образует надежную ограду, технологии крупных моделей действительно могут «прилететь в дома обычных людей».
«Большие модели — это очень сложные проблемы. Сложность этики, данных, обучения и других областей беспрецедентна. Это новая область и предложение, доступное каждому. «Итяньцзян» Ant с точки зрения безопасности больших моделей. Мы провели некоторые исследования в этой области. Это также требует постоянных итераций и улучшений, а также совместных усилий всего общества», — наконец сказал Чжу Хуэйцзя.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Борьба с ИИ с помощью ИИ: «теория эволюции» безопасности больших моделей
Текст丨Лю Юци
Редактор|Ван Ису
Источник丨Разведка светового конуса
«Мы более опасны или безопаснее в эпоху Интернета?»
В 2016 году, когда Интернет развивался быстрыми темпами, эти крупные символы и две строки лозунгов часто появлялись в рекламе в лифтах: от вирусов и троянов до онлайн-мошенничества, мышление в области безопасности и создание технологий предотвращения безопасности шли против развития. науки и техники. Аналогичным образом, первые дни эры больших моделей также породили множество соображений безопасности.
Через десять лет после изобретения Интернета технология защиты Интернета и промышленная цепочка начали завершаться.Основываясь на опыте последних нескольких десятилетий, менее чем через полгода после рождения большой модели, вокруг модели безопасности и данных. безопасность, , дискуссии о безопасности контента были бесконечными.
На прошлой неделе на Шанхайской конференции Бунда, Пуцзянском инновационном форуме, Национальной неделе кибербезопасности и других мероприятиях представители промышленности, научных кругов и исследовательских сообществ сосредоточили внимание на проблемах безопасности данных (включая отравление данных, утечку информации, риски, связанные с авторским правом и т. д.). .) вызванные реализацией приложений большой модели, модель. Была проведена серия обсуждений по вопросам безопасности (уязвимости безопасности в самой модели, злонамеренная эксплуатация и т. д.), проблемам безопасности контента (генерируемый контент, содержащий конфиденциальную информацию, такую как нарушения, незаконность , порнография и т. д.), вопросы этики ИИ и т. д.
Как защитить большие модели?
Некоторые отечественные производители систем безопасности, такие как 360, Ant, Sangfor, Qi’anxin, Shanshi Technology и др., активно разрабатывают технологии безопасности крупных моделей.
Большим моделям нужны "врач" и "телохранитель"
Рождение большой модели как нового вида требует контроля безопасности в процессе обучения. Когда большая модель наконец выводится на рынок, она также нуждается в «проверке качества». После проверки качества она выходит на рынок и должна быть используется контролируемым образом.Это все.Это макроподход к решению задач безопасности.
Будь то общая крупная модель или крупная отраслевая модель для вертикальных месторождений, в настоящее время защита модели в основном разделена на три части:
Во-вторых, это проблема управляемости самой модели: необходимо проверить надежность, стабильность, устойчивость и т. д. Например, пользователи заранее построили целевые утверждения, чтобы побудить модель, а большие модели могут выдавать информацию с мошенничеством. , дискриминация и политика Тенденции и другой рискованный контент;
Третьим является вопрос безопасности применения больших моделей в реальных сценариях: во время фактического использования необходимо тщательно оценивать взаимодействие и приложения различных групп пользователей, особенно в таких областях, как финансы и медицина, которые предъявляют чрезвычайно высокие требования к правильность вывода модели.При неправильном использовании один камень легко может вызвать тысячи волн.
Многие инсайдеры отрасли сообщили Guangcone Intelligence: «Безопасность модели требует интегрированной системы технической защиты, и контроль только одного звена не может решить фундаментальную проблему».
Ссылаясь на путь развития интернет-безопасности, появилось множество компаний-разработчиков программного обеспечения для обнаружения и уничтожения вирусов. Как правило, обнаружение и локализация проблем часто является первым шагом.
Light Cone Intelligence узнала, что «Yitianjian» Ant включает в себя крупномасштабную платформу обнаружения безопасности «Yitianjian 2.0» и крупномасштабную платформу защиты от рисков «Tianjian», охватывающую всю цепочку от обнаружения до управления и защиты. Antjian 2.0 может выполнять многомерное сканирование безопасности больших моделей для проверки существующих угроз безопасности данных, точек риска контента и других проблем. Это эквивалентно тому, чтобы стоять с точки зрения «черной индустрии» и использовать интеллектуальные технологии атаки и конфронтации для автоматической генерации миллионов индуктивных вопросов, проведения индуктивных вопросов и ответов на большой генеративной модели и выявления слабых мест и лазеек в большой модели. .
С технической точки зрения Ицзянь использует новейшую технологию «состязательного интеллекта», используя интеллектуальную состязательную технологию для непрерывного «проецирования вопросов» на большие модели, наблюдения за ответами, генерируемыми моделью, и определения наличия рисков. Посредством непрерывных «пыток», подобно тому, как врач несколько раз спрашивает пациента о симптомах, платформа может опрашивать и анализировать состояние здоровья большой модели.
Основной технологической тенденцией стало повышение безопасности больших моделей путем создания состязательных образцов и разработки систем алгоритмов для обнаружения состязательных образцов. В отрасли такие гигантские компании, как OpenAI, Google, Microsoft и NVIDIA, применили контрразведывательные технологии в своих продуктах и услугах.
Например, согласно этой технической идее, система CleverHans, разработанная Университетом Торонто, представляет собой подобие «вора», специально созданного для проверки противоугонной системы. Она намеренно добавит небольшие помехи, чтобы попытаться обмануть систему безопасности ИИ. . В обычных обстоятельствах система ИИ может точно идентифицировать изображение «котенка», но системе CleverHan приходится слегка модифицировать несколько пикселей на изображении «котенка», чтобы создать у ИИ иллюзию, что это фотография щенка. Если систему ИИ обманули, это означает, что существует уязвимость безопасности.
Что еще более важно, проблемы с данными являются источником безопасности модели. Ши Линь, директор Института облачных вычислений и больших данных Китайской академии информационных и коммуникационных технологий, однажды поделился на встрече академического обмена: меры безопасности, в том числе: «Мы проведем некоторую очистку обучающих данных, отфильтруем входной и выходной контент, а также примем меры по предотвращению и контролю безопасности, такие как мониторинг и идентификация».
Это требует, чтобы защитная платформа действовала в источнике данных для решения таких проблем, как токсичные источники данных и неконтролируемые черные ящики глубины модели. Чжу Хуэйцзя, директор по контент-алгоритмам департамента Big Security Machine Intelligence компании Ant Group, сказал, что в настоящее время Tianjian пытается обеспечить безопасность модели посредством детоксикации данных, обучения выравниванию и исследования интерпретируемости.
Используйте магию, чтобы победить магию, ИИ для борьбы с ИИ
Характеристики контента в цифровом мире и мире человеческими глазами различны.
С наступлением эпохи больших моделей его мощные возможности также предоставили новые идеи для трансформации технологий защиты безопасности. «Использование возможностей ИИ для борьбы с ИИ» стало горячей темой.
Фактически, идеи состязательного нападения и защиты не являются исключительными для модели безопасности. Еще в последнее десятилетие перед лицом различных угроз безопасности в области искусственного интеллекта постепенно сформировалась концепция безопасности «атака, тестирование и защита – атака для содействия обороне – интеграция атак и защиты» и продолжаются исследования. моделирование различных сценариев атак.Слабости в моделях и системах используются для усиления защитных возможностей с алгоритмической и инженерной стороны.
Однако в прошлом защита безопасности в основном опиралась на модели алгоритмов машинного обучения, что требовало накопления большого объема профессиональных знаний о данных и сталкивалось с проблемами «слепых зон» знаний и несвоевременного холодного запуска небольших выборок. Используя технологию больших моделей, можно добиться более интеллектуального предотвращения и контроля безопасности.
Это отражается в нескольких аспектах. Во-первых, большие модели могут предоставить интеллектуальных «консультантов» по безопасности. Большие модели, предварительно обученные на основе объемных текстов, могут стать отличными «консультантами» и предложить соответствующие стратегии анализа и защиты. Например, с помощью простого описания на естественном языке можно быстро проанализировать ситуацию с безопасностью, внести предложения по контрмерам, а группе безопасности можно помочь в планировании решений. Это похоже на умного охранного «маленького помощника».
Судя по текущей ситуации в отрасли, по-прежнему отсутствует набор простых в использовании и стандартизированных инструментов оценки и правил оценки безопасности ИИ.
Это еще один аспект, который может быть дополнен защитой больших моделей. большие модели.цель.
Если взять в качестве примера безопасность текста, то большие модели можно обучать на основе правил стандартов безопасности, знаний в области рисков и исторических образцов рисков, чтобы улучшить понимание моделью стандартов и содержания рисков, тем самым улучшая возможности обнаружения рисков. Он также использует возможности создания крупных моделей в сочетании с графами знаний по безопасности для построения образцов атак и непрерывной итеративной оптимизации модели обнаружения.
Эксперт по безопасности сказал: «По сравнению с ограниченными выборками, собранными вручную, огромные и разнообразные выборки, созданные большими моделями, сделают модель обнаружения безопасности «хорошо информированной» и быстрее адаптируются к новым методам угроз».
Эта технология также использовалась Ant для обнаружения контента AIGC. Чжу Хуэйцзя отметил: «Обнаружение глубокой подделки AIGC также принимает идею нападения, тестирования и защиты, а также использования атаки для усиления защиты. Оно генерируется с помощью разных методов, разных стилей и разных моделей генерации и устанавливает почти десятки миллионы данных о глубокой подделке для обучения модели. Быстро распознавайте, является ли контент созданным машиной или искусственно, тем самым достигая модели обнаружения с лучшим обобщением и надежностью».
В ответ на проблемы, вызванные AIGC во время его применения, некоторые ведущие компании мира начали строить планы.
OpenAI ранее заявляла, что рассматривает возможность добавления технологии цифровых водяных знаков в ChatGPT, чтобы уменьшить негативное воздействие злоупотреблений моделями; Google заявила на конференции разработчиков в этом году, что будет гарантировать, что каждое изображение компании, созданное ИИ, будет иметь встроенный водяной знак; в этом году В начале января Nvidia также выпустила программу под названием FakeCatcher, позволяющую выяснить, являются ли лица на видео фейковыми.
Оглядываясь назад на историю развития Интернета, можно сказать, что хаос и быстрое развитие часто являются «братьями-близнецами».Именно после того, как индустриализация сетевой безопасности достигла зрелости, Интернет действительно открыл применение сотни цветов.
Точно так же безопасность моделей — это не просто задача одного производителя систем безопасности, но только когда технология безопасности образует надежную ограду, технологии крупных моделей действительно могут «прилететь в дома обычных людей».
«Большие модели — это очень сложные проблемы. Сложность этики, данных, обучения и других областей беспрецедентна. Это новая область и предложение, доступное каждому. «Итяньцзян» Ant с точки зрения безопасности больших моделей. Мы провели некоторые исследования в этой области. Это также требует постоянных итераций и улучшений, а также совместных усилий всего общества», — наконец сказал Чжу Хуэйцзя.