«Ми небезпечніші чи безпечніші в епоху Інтернету?»
У 2016 році, коли Інтернет розвивався швидкими темпами, ці великі символи та два рядки слоганів часто з’являлися в рекламі ліфтів. Від вірусів і троянів до онлайн-шахрайства, мислення про безпеку та створення технологій запобігання безпеці змагалися проти розвиток науки і техніки. Подібним чином, перші дні ери великих моделей також викликали багато міркувань безпеки.
Через десять років після винаходу Інтернету почали завершувати технологію захисту Інтернету та промисловий ланцюг. На основі досвіду останніх кількох десятиліть, менш ніж за півроку після народження великої моделі, навколо безпеки моделі та даних безпека, , безкінечні дискусії щодо безпеки вмісту.
Минулого тижня на конференції Shanghai Bund, форумі інновацій у Пуцзяні, Національному тижні кібербезпеки та інших заходах промисловість, наукові та дослідницькі спільноти зосередилися на питаннях безпеки даних (включно з отруєнням даних, витоком інформації, ризиками авторського права тощо). .) спричинені реалізацією великих модельних додатків, модель Було проведено ряд обговорень щодо питань безпеки (вразливості безпеки в самій моделі, зловмисне використання тощо), питань безпеки вмісту (генерований вміст, що містить конфіденційну інформацію, таку як порушення, незаконність , порнографія тощо), питання етики ШІ тощо.
Як захистити великі моделі?
Деякі вітчизняні виробники безпеки, такі як 360, Ant, Sangfor, Qi’anxin, Shanshi Technology тощо, активно розробляють технології безпеки великих моделей.
Великим моделям потрібен "лікар" і "охоронець"
Народження великої моделі як нового виду вимагає моніторингу безпеки під час процесу навчання. Коли велика модель нарешті представлена на ринку, вона також потребує «перевірки якості». Після перевірки якості вона виходить на ринок і потребує використовується в контрольований спосіб Це все Це макропідхід до вирішення проблем безпеки.
Незалежно від того, чи це загальна велика модель чи промислова велика модель для вертикальних полів, наразі захист безпеки моделі в основному поділяється на три частини:
По-перше, це проблема з даними на етапі навчання: якщо дані зібрані неналежним чином, упереджені або неправильно позначені, або дані отруєні, це може призвести до того, що велика модель створить помилкові результати, дискримінацію або інші негативні наслідки. дані також будуть вплинути під час процесу подачі заявки Зіткнувшись із ризиками, такими як витік даних і порушення конфіденційності;
По-друге, це проблема керованості самої моделі: необхідно перевірити надійність, стабільність, надійність і т. д. Наприклад, користувачі попередньо створили цільові твердження, щоб спонукати модель, а великі моделі можуть створювати інформацію за допомогою шахрайства. , дискримінація та політика Схильність та інший ризиковий вміст;
По-третє, це проблема безпеки застосування великих моделей у реальних сценаріях: під час фактичного використання взаємодії та програми різних груп користувачів потрібно ретельно оцінювати, особливо в таких сферах, як фінанси та медичне обслуговування, які мають надзвичайно високі вимоги до правильність виводу моделі Якщо використовувати його неправильно, один камінь може легко викликати тисячі хвиль.
Багато інсайдерів галузі сказали Guangcone Intelligence: «Безпека моделі вимагає інтегрованої системи технічного захисту, і контроль однієї ланки не може вирішити фундаментальну проблему».
З огляду на шлях розвитку Інтернет-безпеки, було створено багато компаній, які займаються розробкою програмного забезпечення для виявлення та знищення вірусів. Зазвичай першим кроком є виявлення та локалізація проблем.
Light Cone Intelligence дізнався, що «Yitianjian» Ant включає велику модель платформи виявлення безпеки «Yitianjian 2.0» і велику модель платформи захисту від ризиків «Tianjian», що охоплює весь ланцюжок від виявлення до керування та захисту. Antjian 2.0 може виконувати багатовимірне сканування безпеки на великих моделях, щоб перевірити наявні ризики безпеки даних, точки ризику вмісту та інші проблеми. Це еквівалентно тому, щоб стояти в перспективі «чорної індустрії» та використовувати інтелектуальну технологію атаки та конфронтації для автоматичного створення мільйонів індуктивних запитань, проведення індуктивних запитань і відповідей на великій генеративній моделі та виявлення слабких сторін і лазівок великої моделі. .
З технічної точки зору, Yijian використовує новітню технологію «змагальної розвідки», використовуючи інтелектуальну змагальну технологію для безперервного «проектування запитань» на великі моделі, спостереження за відповідями, створеними моделлю, і визначення наявності ризиків. Шляхом безперервних «тортур», як лікар, який кілька разів запитує пацієнта про симптоми, платформа може опитувати та аналізувати стан здоров’я великої моделі.
Основною технологічною тенденцією стало підвищення безпеки великих моделей шляхом генерації змагальних зразків і розробки систем алгоритмів для виявлення змагальних зразків. У галузі такі гігантські компанії, як OpenAI, Google, Microsoft і NVIDIA, застосували технології контррозвідки до своїх продуктів і послуг.
Наприклад, за цією технічною ідеєю система CleverHans, розроблена Університетом Торонто, схожа на «злодія», спеціально розробленого для тестування системи захисту від крадіжок.Вона навмисно додасть невелике втручання, щоб спробувати обдурити систему безпеки AI. . За звичайних обставин система штучного інтелекту може точно ідентифікувати зображення «кошеня», але система CleverHan має трохи змінити кілька пікселів на зображенні «кошеня», щоб дати штучному інтелекту ілюзію, що це зображення цуценя. Якщо систему штучного інтелекту обдурили, це означає, що існує вразливість безпеки.
Порівняно з виявленням та «діагностикою», «профілактика та лікування» також дуже важливі. Ant Tianjian схожий на розумний щит, який може запобігти проблемам ще до їх виникнення. Інтелектуально аналізуючи намір користувачів поставити запитання для захисту, Tianjian може перехопити певні зловмисні запитання, які намагаються спонукати модель створити конфіденційний вміст, гарантуючи, що зовнішні зловмисні індукції не можуть бути введені у велику модель. У той же час вторинна фільтрація реалізована на вихідному вмісті моделі, щоб автоматично ідентифікувати інформацію про ризики та втручатися, щоб переконатися, що вміст, виведений великою моделлю, відповідає специфікаціям.
Що ще важливіше, проблеми з даними є джерелом безпеки моделі. Ши Лінь, директор Інституту хмарних обчислень і великих даних Китайської академії інформаційно-комунікаційних технологій, одного разу поділився на зустрічі з академічним обміном: «Багато постачальників засобів безпеки зараз прийняли заходи безпеки, включно з тим, що ми проведемо певне очищення даних навчання, відфільтруємо вхідний і вихідний вміст, а також вживемо заходів запобігання та контролю безпеки, таких як моніторинг та ідентифікація».
Це вимагає, щоб захисна платформа діяла на джерелі даних для вирішення таких проблем, як токсичні джерела даних і неконтрольовані чорні ящики глибини моделі. Чжу Хуіцзя, директор з алгоритмів вмісту відділу розвідки Big Security Machine Group Ant Group, сказав, що Tianjian зараз намагається забезпечити безпеку моделі за допомогою детоксикації даних, навчання вирівнювання та дослідження інтерпретації.
Використовуйте магію, щоб перемогти магію, AI, щоб боротися з AI
Характеристики контенту в цифровому світі та світі очима людини відрізняються.
З приходом ери великих моделей його потужні можливості також надали нові ідеї для трансформації технології захисту безпеки. «Використання потужності штучного інтелекту для боротьби зі штучним інтелектом» стало гарячою темою.
Насправді ідеї змагальної атаки та захисту не є винятковими для моделі безпеки. Ще в останнє десятиліття, перед лицем різноманітних загроз безпеці, сфера штучного інтелекту поступово сформувала концепцію безпеки «атакуй, тестуй і захищай — атака для сприяння захисту — атака та інтеграція захисту», і продовжує досліджувати за допомогою симуляція різних сценаріїв атак Слабкі місця в моделях і системах використовуються для сприяння зміцненню захисних можливостей з боку алгоритму та інженерії.
Однак у минулому захист безпеки в основному покладався на моделі алгоритмів машинного навчання, які вимагали накопичення великої кількості професійних знань про дані, і стикалися з проблемами сліпих зон знань і несвоєчасного холодного запуску невеликих зразків. Використовуючи технологію великої моделі, можна досягти більш інтелектуального запобігання та контролю безпеки.
Це відображається в кількох аспектах. По-перше, великі моделі можуть надавати інтелектуальних «консультантів» з безпеки. Великі моделі, попередньо навчені на основі масивних текстів, можуть стати чудовими «консультантами» і запропонувати відповідний аналіз і стратегії захисту. Наприклад, за допомогою простого опису природною мовою можна швидко проаналізувати ситуацію з безпекою, внести пропозиції щодо контрзаходів і допомогти групі безпеки в плануванні рішень. Це схоже на розумного безпеки «маленького помічника».
Судячи з поточної ситуації в галузі, досі не вистачає набору простих у використанні та стандартизованих інструментів оцінки та правил оцінки безпеки ШІ.
Це ще один аспект, який можна доповнити у захисті великої моделі. Вона використовує технологію великої моделі для вивчення знань про ризики та стандартних правил для покращення когнітивного розуміння ризиків ШІ, щоб досягти надзвичайно швидкого захисту та швидкого холодного старту за допомогою великих моделей проти великі моделі.
Безпека великої моделі вимагає як "швидкого", так і "повільного". Ці дві логіки не суперечать один одному. З точки зору захисту безпеки великої моделі, ми повинні бути «швидкими» та мати можливість швидко виявляти та знищувати віруси, щоб гарантувати, що служба не шкідлива. Це включає кілька ключових засобів захисту, таких як «детоксикація даних», «захисні огорожі» і «Виявлення ризиків AIGC». З точки зору безпеки та надійності великих моделей, ми повинні бути «повільними» та забезпечувати керованість і надійність всього системного середовища довгостроковим і систематичним способом. Це включає «оцінку безпеки» , «деконструкція та керованість», «Спільне управління людським суспільством» та інші аспекти.
Взявши як приклад безпеку тексту, великі моделі можна навчити на основі стандартних правил безпеки, знань про область ризику та історичних зразків ризиків, щоб покращити розуміння моделлю стандартів ризику та вмісту, тим самим покращуючи можливості виявлення ризиків. Він також використовує широкі можливості створення моделей у поєднанні з графіками знань безпеки для побудови зразків атак і постійної ітераційної оптимізації моделі виявлення.
Експерт із безпеки сказав: «Порівняно з обмеженими зразками, зібраними вручну, масивні та різноманітні зразки, згенеровані великими моделями, зроблять модель виявлення безпеки «добре поінформованою» та швидше адаптуватимуться до нових методів загроз».
Ця технологія також була використана Ant для виявлення вмісту AIGC. Чжу Хуіцзя зазначив: «Глибоке виявлення підробок AIGC також приймає ідею атаки, тестування та захисту, а також використання атаки для сприяння захисту. Він генерує за допомогою різних методів, різних стилів і різних моделей генерації та встановлює майже десятки мільйони глибоких підроблених даних для навчання моделі. Швидко розрізняйте, згенерований машиною чи штучно згенерований вміст, таким чином створюючи модель виявлення з кращим узагальненням і надійністю».
У відповідь на проблеми, спричинені AIGC під час його застосування, деякі провідні компанії світу почали будувати плани.
Раніше OpenAI заявляв, що розглядає можливість додавання технології цифрових водяних знаків до ChatGPT, щоб зменшити негативний вплив зловживання моделлю; Google заявив на цьогорічній конференції розробників, що гарантуватиме, що кожне зображення компанії, створене ШІ, матиме вбудований водяний знак; цього року На початку січня Nvidia також випустила програмне забезпечення під назвою FakeCatcher, щоб з’ясувати, чи є обличчя на відео глибокими фейками.
Озираючись на історію розвитку Інтернету, хаос і швидкий розвиток часто є «братами-близнюками».Саме після того, як індустріалізація мережевої безпеки зріла, Інтернет справді започаткував застосування ста квітів.
Подібним чином безпека моделі є не просто завданням певного виробника безпеки, але лише коли техніка безпеки утворює надійну огорожу, техніка великих моделей дійсно може «влітати в домівки звичайних людей».
«Великі моделі — це дуже складні питання. Складність етики, даних, навчання та інших сфер є безпрецедентною. Це нова галузь і пропозиція для всіх. Ant's «Yitianjian» з точки зору безпеки великих моделей. Ми провели деякі дослідження щодо це, але є ще багато проблем, які потрібно дослідити та вирішити, наприклад, автентичність і точність відповідей. Це також потребує постійного повторення та вдосконалення та вимагає спільних зусиль усього суспільства", - нарешті сказав Чжу Хуіцзя.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Боротьба ШІ з ШІ, «теорія еволюції» безпеки великих моделей
Надіслати повідомлення丨Liu Yuqi
Редактор|Wang Yisu
Джерело丨Інтелект світлового конуса
«Ми небезпечніші чи безпечніші в епоху Інтернету?»
У 2016 році, коли Інтернет розвивався швидкими темпами, ці великі символи та два рядки слоганів часто з’являлися в рекламі ліфтів. Від вірусів і троянів до онлайн-шахрайства, мислення про безпеку та створення технологій запобігання безпеці змагалися проти розвиток науки і техніки. Подібним чином, перші дні ери великих моделей також викликали багато міркувань безпеки.
Через десять років після винаходу Інтернету почали завершувати технологію захисту Інтернету та промисловий ланцюг. На основі досвіду останніх кількох десятиліть, менш ніж за півроку після народження великої моделі, навколо безпеки моделі та даних безпека, , безкінечні дискусії щодо безпеки вмісту.
Минулого тижня на конференції Shanghai Bund, форумі інновацій у Пуцзяні, Національному тижні кібербезпеки та інших заходах промисловість, наукові та дослідницькі спільноти зосередилися на питаннях безпеки даних (включно з отруєнням даних, витоком інформації, ризиками авторського права тощо). .) спричинені реалізацією великих модельних додатків, модель Було проведено ряд обговорень щодо питань безпеки (вразливості безпеки в самій моделі, зловмисне використання тощо), питань безпеки вмісту (генерований вміст, що містить конфіденційну інформацію, таку як порушення, незаконність , порнографія тощо), питання етики ШІ тощо.
Як захистити великі моделі?
Деякі вітчизняні виробники безпеки, такі як 360, Ant, Sangfor, Qi’anxin, Shanshi Technology тощо, активно розробляють технології безпеки великих моделей.
Великим моделям потрібен "лікар" і "охоронець"
Народження великої моделі як нового виду вимагає моніторингу безпеки під час процесу навчання. Коли велика модель нарешті представлена на ринку, вона також потребує «перевірки якості». Після перевірки якості вона виходить на ринок і потребує використовується в контрольований спосіб Це все Це макропідхід до вирішення проблем безпеки.
Незалежно від того, чи це загальна велика модель чи промислова велика модель для вертикальних полів, наразі захист безпеки моделі в основному поділяється на три частини:
По-друге, це проблема керованості самої моделі: необхідно перевірити надійність, стабільність, надійність і т. д. Наприклад, користувачі попередньо створили цільові твердження, щоб спонукати модель, а великі моделі можуть створювати інформацію за допомогою шахрайства. , дискримінація та політика Схильність та інший ризиковий вміст;
По-третє, це проблема безпеки застосування великих моделей у реальних сценаріях: під час фактичного використання взаємодії та програми різних груп користувачів потрібно ретельно оцінювати, особливо в таких сферах, як фінанси та медичне обслуговування, які мають надзвичайно високі вимоги до правильність виводу моделі Якщо використовувати його неправильно, один камінь може легко викликати тисячі хвиль.
Багато інсайдерів галузі сказали Guangcone Intelligence: «Безпека моделі вимагає інтегрованої системи технічного захисту, і контроль однієї ланки не може вирішити фундаментальну проблему».
З огляду на шлях розвитку Інтернет-безпеки, було створено багато компаній, які займаються розробкою програмного забезпечення для виявлення та знищення вірусів. Зазвичай першим кроком є виявлення та локалізація проблем.
Light Cone Intelligence дізнався, що «Yitianjian» Ant включає велику модель платформи виявлення безпеки «Yitianjian 2.0» і велику модель платформи захисту від ризиків «Tianjian», що охоплює весь ланцюжок від виявлення до керування та захисту. Antjian 2.0 може виконувати багатовимірне сканування безпеки на великих моделях, щоб перевірити наявні ризики безпеки даних, точки ризику вмісту та інші проблеми. Це еквівалентно тому, щоб стояти в перспективі «чорної індустрії» та використовувати інтелектуальну технологію атаки та конфронтації для автоматичного створення мільйонів індуктивних запитань, проведення індуктивних запитань і відповідей на великій генеративній моделі та виявлення слабких сторін і лазівок великої моделі. .
З технічної точки зору, Yijian використовує новітню технологію «змагальної розвідки», використовуючи інтелектуальну змагальну технологію для безперервного «проектування запитань» на великі моделі, спостереження за відповідями, створеними моделлю, і визначення наявності ризиків. Шляхом безперервних «тортур», як лікар, який кілька разів запитує пацієнта про симптоми, платформа може опитувати та аналізувати стан здоров’я великої моделі.
Основною технологічною тенденцією стало підвищення безпеки великих моделей шляхом генерації змагальних зразків і розробки систем алгоритмів для виявлення змагальних зразків. У галузі такі гігантські компанії, як OpenAI, Google, Microsoft і NVIDIA, застосували технології контррозвідки до своїх продуктів і послуг.
Наприклад, за цією технічною ідеєю система CleverHans, розроблена Університетом Торонто, схожа на «злодія», спеціально розробленого для тестування системи захисту від крадіжок.Вона навмисно додасть невелике втручання, щоб спробувати обдурити систему безпеки AI. . За звичайних обставин система штучного інтелекту може точно ідентифікувати зображення «кошеня», але система CleverHan має трохи змінити кілька пікселів на зображенні «кошеня», щоб дати штучному інтелекту ілюзію, що це зображення цуценя. Якщо систему штучного інтелекту обдурили, це означає, що існує вразливість безпеки.
Що ще важливіше, проблеми з даними є джерелом безпеки моделі. Ши Лінь, директор Інституту хмарних обчислень і великих даних Китайської академії інформаційно-комунікаційних технологій, одного разу поділився на зустрічі з академічним обміном: «Багато постачальників засобів безпеки зараз прийняли заходи безпеки, включно з тим, що ми проведемо певне очищення даних навчання, відфільтруємо вхідний і вихідний вміст, а також вживемо заходів запобігання та контролю безпеки, таких як моніторинг та ідентифікація».
Це вимагає, щоб захисна платформа діяла на джерелі даних для вирішення таких проблем, як токсичні джерела даних і неконтрольовані чорні ящики глибини моделі. Чжу Хуіцзя, директор з алгоритмів вмісту відділу розвідки Big Security Machine Group Ant Group, сказав, що Tianjian зараз намагається забезпечити безпеку моделі за допомогою детоксикації даних, навчання вирівнювання та дослідження інтерпретації.
Використовуйте магію, щоб перемогти магію, AI, щоб боротися з AI
Характеристики контенту в цифровому світі та світі очима людини відрізняються.
З приходом ери великих моделей його потужні можливості також надали нові ідеї для трансформації технології захисту безпеки. «Використання потужності штучного інтелекту для боротьби зі штучним інтелектом» стало гарячою темою.
Насправді ідеї змагальної атаки та захисту не є винятковими для моделі безпеки. Ще в останнє десятиліття, перед лицем різноманітних загроз безпеці, сфера штучного інтелекту поступово сформувала концепцію безпеки «атакуй, тестуй і захищай — атака для сприяння захисту — атака та інтеграція захисту», і продовжує досліджувати за допомогою симуляція різних сценаріїв атак Слабкі місця в моделях і системах використовуються для сприяння зміцненню захисних можливостей з боку алгоритму та інженерії.
Однак у минулому захист безпеки в основному покладався на моделі алгоритмів машинного навчання, які вимагали накопичення великої кількості професійних знань про дані, і стикалися з проблемами сліпих зон знань і несвоєчасного холодного запуску невеликих зразків. Використовуючи технологію великої моделі, можна досягти більш інтелектуального запобігання та контролю безпеки.
Це відображається в кількох аспектах. По-перше, великі моделі можуть надавати інтелектуальних «консультантів» з безпеки. Великі моделі, попередньо навчені на основі масивних текстів, можуть стати чудовими «консультантами» і запропонувати відповідний аналіз і стратегії захисту. Наприклад, за допомогою простого опису природною мовою можна швидко проаналізувати ситуацію з безпекою, внести пропозиції щодо контрзаходів і допомогти групі безпеки в плануванні рішень. Це схоже на розумного безпеки «маленького помічника».
Судячи з поточної ситуації в галузі, досі не вистачає набору простих у використанні та стандартизованих інструментів оцінки та правил оцінки безпеки ШІ.
Це ще один аспект, який можна доповнити у захисті великої моделі. Вона використовує технологію великої моделі для вивчення знань про ризики та стандартних правил для покращення когнітивного розуміння ризиків ШІ, щоб досягти надзвичайно швидкого захисту та швидкого холодного старту за допомогою великих моделей проти великі моделі.
Взявши як приклад безпеку тексту, великі моделі можна навчити на основі стандартних правил безпеки, знань про область ризику та історичних зразків ризиків, щоб покращити розуміння моделлю стандартів ризику та вмісту, тим самим покращуючи можливості виявлення ризиків. Він також використовує широкі можливості створення моделей у поєднанні з графіками знань безпеки для побудови зразків атак і постійної ітераційної оптимізації моделі виявлення.
Експерт із безпеки сказав: «Порівняно з обмеженими зразками, зібраними вручну, масивні та різноманітні зразки, згенеровані великими моделями, зроблять модель виявлення безпеки «добре поінформованою» та швидше адаптуватимуться до нових методів загроз».
Ця технологія також була використана Ant для виявлення вмісту AIGC. Чжу Хуіцзя зазначив: «Глибоке виявлення підробок AIGC також приймає ідею атаки, тестування та захисту, а також використання атаки для сприяння захисту. Він генерує за допомогою різних методів, різних стилів і різних моделей генерації та встановлює майже десятки мільйони глибоких підроблених даних для навчання моделі. Швидко розрізняйте, згенерований машиною чи штучно згенерований вміст, таким чином створюючи модель виявлення з кращим узагальненням і надійністю».
У відповідь на проблеми, спричинені AIGC під час його застосування, деякі провідні компанії світу почали будувати плани.
Раніше OpenAI заявляв, що розглядає можливість додавання технології цифрових водяних знаків до ChatGPT, щоб зменшити негативний вплив зловживання моделлю; Google заявив на цьогорічній конференції розробників, що гарантуватиме, що кожне зображення компанії, створене ШІ, матиме вбудований водяний знак; цього року На початку січня Nvidia також випустила програмне забезпечення під назвою FakeCatcher, щоб з’ясувати, чи є обличчя на відео глибокими фейками.
Озираючись на історію розвитку Інтернету, хаос і швидкий розвиток часто є «братами-близнюками».Саме після того, як індустріалізація мережевої безпеки зріла, Інтернет справді започаткував застосування ста квітів.
Подібним чином безпека моделі є не просто завданням певного виробника безпеки, але лише коли техніка безпеки утворює надійну огорожу, техніка великих моделей дійсно може «влітати в домівки звичайних людей».
«Великі моделі — це дуже складні питання. Складність етики, даних, навчання та інших сфер є безпрецедентною. Це нова галузь і пропозиція для всіх. Ant's «Yitianjian» з точки зору безпеки великих моделей. Ми провели деякі дослідження щодо це, але є ще багато проблем, які потрібно дослідити та вирішити, наприклад, автентичність і точність відповідей. Це також потребує постійного повторення та вдосконалення та вимагає спільних зусиль усього суспільства", - нарешті сказав Чжу Хуіцзя.