Цього року широкомасштабні інструменти штучного інтелекту, такі як GPT і AI painting, дуже популярні, і багато людей також хочуть слідувати за хвилею підприємництва ШІ, і пов’язані підприємницькі проекти з’являються нескінченно. Високоякісні дані мають вирішальне значення для навчання великих моделей штучного інтелекту. Лише з достатньою кількістю даних можна навчити розумні та потужні інструменти штучного інтелекту. Інтернет у моїй країні процвітає вже більше 20 років, але чи все ще бракує даних? Ні, юрист Манків нещодавно отримав запити від користувачів мережі щодо використання сканерів для сканування даних Zhihu. Чи не було б чудово бути роботом Zhihu GPT? Зачекайте хвилинку, пов’язані з цим юридичні ризики не можна ігнорувати.
0****1Повзуни - це палка з двома кінцями
Технологія Crawler — це технологія, яка автоматично отримує дані з Інтернету за допомогою програмування. Його назва яскраво та яскраво демонструє його принцип роботи: імітувати процес перегляду веб-сторінок людиною у веб-браузері, а також збирати та отримувати дані.
Веб-сканери широко використовуються в пошукових системах, зборі даних, фільтрації реклами, аналізі великих даних та інших сферах. Як потужна програма збору інформації, вона може значно підвищити ефективність роботи, особливо для збору та впорядкування масивних даних.
Однак якщо технологія використовується неналежним чином, вона також спричинить «катастрофу хробака», що призведе до перевантаження мережі, збоїв, паралічу сервера та навіть ризиків безпеки даних. Знайома нам «мережа референтних документів» не захищена:
Малюнок: у 2019 році Верховний народний суд видав «Відповідь на пропозиції щодо створення веб-сайту «China Judgment Documents Network»
0****2Ризик використання сканерної технології
Краулер, як технічний засіб отримання даних, не заборонений законом. Проте від способу використання та мети використання залежить, чи будуть протиправні дії та наслідки.
1. Неправильне використання
Використовуючи технологію сканера, можна здійснити велику кількість відвідувань веб-сайту за короткий проміжок часу, а сторінки та дані часто скануються. Це може призвести до різкого збільшення пропускної здатності та навантаження на сервер веб-сайту, що вплине на нормальну роботу веб-сайту та навіть призведе до простою або повільної відповіді, заважаючи нормальній роботі відвідуваного веб-сайту, а в серйозних випадках – може становити злочин.
Ян уповноважив Чжана, співробітника компанії, розробити програмне забезпечення кредитної системи, а функцію «веб-сканера» в програмному забезпеченні можна було пов’язати з веб-сайтом дозволу на проживання в Шеньчжені. У травні 2018 року програмне забезпечення запитувало велику кількість відвідувань системи дозволів на проживання в Шеньчжені протягом двох годин поспіль, через що система дозволів на проживання в Шеньчжені не працювала нормально, що значно вплинуло на щоденну роботу відділу управління населенням Шеньчженьської громадськості. Бюро безпеки, яке використовує систему ВНЖ. Обидва вони складали злочин у саботажі комп’ютерних інформаційних систем. [(2019) Гуандун 0305 Сінчу № 193]
2. Неналежне призначення
Спосіб використання сканованої інформації та даних має більший якісний вплив на поведінку сканера, ніж те, як вони використовуються. **
Незаконне використання сканованих даних та інформації в основному включає:
**(1) Викрадення особистої інформації: **Використання технології сканера для зловмисного захоплення особистої інформації на веб-сайтах може призвести до порушення конфіденційності та особистої інформації інших людей, що може становити серйозний злочин у вигляді порушення прав на особисту інформацію громадян.
**(2) Неналежна поведінка в комерційній конкуренції: **Використовуйте технологію сканера, щоб отримати комерційні секрети конкурентів, інформацію про ціни, дані користувачів тощо, а також «перемістити» на інші платформи після інтеграції даних і отримати їх таким зручним способом Велика кількість цінних даних та інформації для пошуку нечесної конкурентної переваги.
У справі «Куміке проти Челая щодо недобросовісної конкуренції» суд постановив, що без дозволу кредитора використання технології веб-сканера для входу у фоновий режим сервера кредитора незаконно отримало та використало шину реального часу боржника. інформаційні дані безкоштовно Поведінка фактично є поведінкою "отримання чогось за безцінь" та "канібалізації людей та ожиріння", і вона має незаконне захоплення нематеріальних прав та інтересів інших людей, знищуючи конкурентні переваги інших людей на ринку , і є недобросовісною конкуренцією.
**(3) Порушення прав інтелектуальної власності: **Сканування захищеного авторським правом вмісту з подальшим його використанням для несанкціонованого публічного розповсюдження чи комерційних цілей є порушенням прав інтелектуальної власності.
0****3Ризик «годування» даних сканера великим моделям
Завдяки попередньому аналізу ми бачимо, що ризик використання сканерної технології в основному полягає в методі сканування та сканованому вмісті.**Чи то для контролю частоти та вмісту сканування, сканування загальнодоступного вмісту та його використання для навчання роботів це нічого не ризикує?
По-перше, ще у 2018 році офіційний обліковий запис Zhihu опублікував «Оголошення про оновлення захисту прав і інтересів користувачів Zhihu», у якому зазначалося: **Zhihu приймає систему білого списку для використання вмісту Zhihu третіми сторонами, і третім особам потрібно передати заявку через офіційні канали співпраці. **Якщо сканування порушує умови обслуговування Zhihu, Zhihu може заблокувати облікові записи, IP-адреси чи застосувати інші судові дії.
Витяг із «Специфікацій щодо використання облікових записів установ Zhihu» (пробна версія)
По-друге, вміст на Zhihu зазвичай оригінальний або авторизований користувачем, а авторські права належать самому користувачеві. Несанкціоноване сканування та використання цього вмісту може призвести до порушення авторських прав і авторства Zhihu.
Насправді, при навчанні великих моделей штучного інтелекту «викрадення даних» не є поодиноким випадком. Минулого місяця Bishen Composition публічно звинуватила Xueersi, колишнього партнера, у «крадіжці даних» за допомогою рептилій для навчання власних продуктів ШІ. Bishen Composition заявила, що вирішить суперечку через судові процедури, вимагаючи від «Xueersi» виплатити 1 юань компенсації, публічно вибачитися та видалити проскановані дані.
0****4Підсумок
Під час буму стартапів зі штучним інтелектом дані стають все більш важливими. Зіткнувшись із спокусою технології ботів, слід визнати, що хоча технологія ботів сама по собі не заборонена, її неналежне використання може призвести до юридичних проблем, особливо щодо особистої інформації, конфіденційності, авторського права та недобросовісної конкуренції.
У «Тимчасових заходах щодо управління службами генеративного штучного інтелекту» чітко зазначено, що під час навчання діяльності з обробки даних слід використовувати дані та базові моделі з законними джерелами. У процесі відкриття бізнесу боси повинні забезпечити законність і моральність збору даних. Якщо ви хочете використовувати скановані дані для навчання великих моделей ШІ, ви повинні заздалегідь отримати дозвіл від джерела даних і дотримуватися правил відповідної платформи.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Чи законно AIGC використовувати технологію сканера для створення Zhihu версії робота GPT?
Цього року широкомасштабні інструменти штучного інтелекту, такі як GPT і AI painting, дуже популярні, і багато людей також хочуть слідувати за хвилею підприємництва ШІ, і пов’язані підприємницькі проекти з’являються нескінченно. Високоякісні дані мають вирішальне значення для навчання великих моделей штучного інтелекту. Лише з достатньою кількістю даних можна навчити розумні та потужні інструменти штучного інтелекту. Інтернет у моїй країні процвітає вже більше 20 років, але чи все ще бракує даних? Ні, юрист Манків нещодавно отримав запити від користувачів мережі щодо використання сканерів для сканування даних Zhihu. Чи не було б чудово бути роботом Zhihu GPT? Зачекайте хвилинку, пов’язані з цим юридичні ризики не можна ігнорувати.
0****1 Повзуни - це палка з двома кінцями
Технологія Crawler — це технологія, яка автоматично отримує дані з Інтернету за допомогою програмування. Його назва яскраво та яскраво демонструє його принцип роботи: імітувати процес перегляду веб-сторінок людиною у веб-браузері, а також збирати та отримувати дані.
Веб-сканери широко використовуються в пошукових системах, зборі даних, фільтрації реклами, аналізі великих даних та інших сферах. Як потужна програма збору інформації, вона може значно підвищити ефективність роботи, особливо для збору та впорядкування масивних даних.
Однак якщо технологія використовується неналежним чином, вона також спричинить «катастрофу хробака», що призведе до перевантаження мережі, збоїв, паралічу сервера та навіть ризиків безпеки даних. Знайома нам «мережа референтних документів» не захищена:
Малюнок: у 2019 році Верховний народний суд видав «Відповідь на пропозиції щодо створення веб-сайту «China Judgment Documents Network»
0****2 Ризик використання сканерної технології
Краулер, як технічний засіб отримання даних, не заборонений законом. Проте від способу використання та мети використання залежить, чи будуть протиправні дії та наслідки.
1. Неправильне використання
Використовуючи технологію сканера, можна здійснити велику кількість відвідувань веб-сайту за короткий проміжок часу, а сторінки та дані часто скануються. Це може призвести до різкого збільшення пропускної здатності та навантаження на сервер веб-сайту, що вплине на нормальну роботу веб-сайту та навіть призведе до простою або повільної відповіді, заважаючи нормальній роботі відвідуваного веб-сайту, а в серйозних випадках – може становити злочин.
Ян уповноважив Чжана, співробітника компанії, розробити програмне забезпечення кредитної системи, а функцію «веб-сканера» в програмному забезпеченні можна було пов’язати з веб-сайтом дозволу на проживання в Шеньчжені. У травні 2018 року програмне забезпечення запитувало велику кількість відвідувань системи дозволів на проживання в Шеньчжені протягом двох годин поспіль, через що система дозволів на проживання в Шеньчжені не працювала нормально, що значно вплинуло на щоденну роботу відділу управління населенням Шеньчженьської громадськості. Бюро безпеки, яке використовує систему ВНЖ. Обидва вони складали злочин у саботажі комп’ютерних інформаційних систем. [(2019) Гуандун 0305 Сінчу № 193]
2. Неналежне призначення
Спосіб використання сканованої інформації та даних має більший якісний вплив на поведінку сканера, ніж те, як вони використовуються. **
Незаконне використання сканованих даних та інформації в основному включає:
**(1) Викрадення особистої інформації: **Використання технології сканера для зловмисного захоплення особистої інформації на веб-сайтах може призвести до порушення конфіденційності та особистої інформації інших людей, що може становити серйозний злочин у вигляді порушення прав на особисту інформацію громадян.
**(2) Неналежна поведінка в комерційній конкуренції: **Використовуйте технологію сканера, щоб отримати комерційні секрети конкурентів, інформацію про ціни, дані користувачів тощо, а також «перемістити» на інші платформи після інтеграції даних і отримати їх таким зручним способом Велика кількість цінних даних та інформації для пошуку нечесної конкурентної переваги.
У справі «Куміке проти Челая щодо недобросовісної конкуренції» суд постановив, що без дозволу кредитора використання технології веб-сканера для входу у фоновий режим сервера кредитора незаконно отримало та використало шину реального часу боржника. інформаційні дані безкоштовно Поведінка фактично є поведінкою "отримання чогось за безцінь" та "канібалізації людей та ожиріння", і вона має незаконне захоплення нематеріальних прав та інтересів інших людей, знищуючи конкурентні переваги інших людей на ринку , і є недобросовісною конкуренцією.
**(3) Порушення прав інтелектуальної власності: **Сканування захищеного авторським правом вмісту з подальшим його використанням для несанкціонованого публічного розповсюдження чи комерційних цілей є порушенням прав інтелектуальної власності.
0****3 Ризик «годування» даних сканера великим моделям
Завдяки попередньому аналізу ми бачимо, що ризик використання сканерної технології в основному полягає в методі сканування та сканованому вмісті.**Чи то для контролю частоти та вмісту сканування, сканування загальнодоступного вмісту та його використання для навчання роботів це нічого не ризикує?
По-перше, ще у 2018 році офіційний обліковий запис Zhihu опублікував «Оголошення про оновлення захисту прав і інтересів користувачів Zhihu», у якому зазначалося: **Zhihu приймає систему білого списку для використання вмісту Zhihu третіми сторонами, і третім особам потрібно передати заявку через офіційні канали співпраці. **Якщо сканування порушує умови обслуговування Zhihu, Zhihu може заблокувати облікові записи, IP-адреси чи застосувати інші судові дії.
Витяг із «Специфікацій щодо використання облікових записів установ Zhihu» (пробна версія)
По-друге, вміст на Zhihu зазвичай оригінальний або авторизований користувачем, а авторські права належать самому користувачеві. Несанкціоноване сканування та використання цього вмісту може призвести до порушення авторських прав і авторства Zhihu.
Насправді, при навчанні великих моделей штучного інтелекту «викрадення даних» не є поодиноким випадком. Минулого місяця Bishen Composition публічно звинуватила Xueersi, колишнього партнера, у «крадіжці даних» за допомогою рептилій для навчання власних продуктів ШІ. Bishen Composition заявила, що вирішить суперечку через судові процедури, вимагаючи від «Xueersi» виплатити 1 юань компенсації, публічно вибачитися та видалити проскановані дані.
0****4 Підсумок
Під час буму стартапів зі штучним інтелектом дані стають все більш важливими. Зіткнувшись із спокусою технології ботів, слід визнати, що хоча технологія ботів сама по собі не заборонена, її неналежне використання може призвести до юридичних проблем, особливо щодо особистої інформації, конфіденційності, авторського права та недобросовісної конкуренції.
У «Тимчасових заходах щодо управління службами генеративного штучного інтелекту» чітко зазначено, що під час навчання діяльності з обробки даних слід використовувати дані та базові моделі з законними джерелами. У процесі відкриття бізнесу боси повинні забезпечити законність і моральність збору даних. Якщо ви хочете використовувати скановані дані для навчання великих моделей ШІ, ви повинні заздалегідь отримати дозвіл від джерела даних і дотримуватися правил відповідної платформи.