Законно ли для AIGC использовать гусеничные технологии для создания версии робота Zhihu GPT?

В этом году инструменты крупномасштабных моделей искусственного интеллекта, такие как GPT и рисование ИИ, популярны, и многие люди также хотят следовать за волной предпринимательства ИИ, и связанные с ними предпринимательские проекты появляются бесконечно. Высококачественные данные имеют решающее значение для обучения больших моделей ИИ. Только при наличии достаточного количества данных можно обучать интеллектуальные и мощные инструменты ИИ. Интернет в моей стране процветает уже более 20 лет, но до сих пор не хватает данных? Нет, юрист Мэнкью недавно получил запросы от пользователей сети об использовании поисковых роботов для сканирования данных Zhihu. Разве не было бы здорово быть роботом GPT Zhihu? Подождите минутку, связанные с этим юридические риски нельзя игнорировать.

0****1 Ползуны — палка о двух концах

Технология Crawler — это технология, которая автоматически получает данные из Интернета посредством программирования. Его название ярко и ярко показывает принцип его работы: имитировать процесс просмотра человеком веб-страниц в веб-браузере, а также собирать и захватывать данные.

Поисковые роботы широко используются в поисковых системах, сборе данных, фильтрации рекламы, анализе больших данных и других областях. Как мощная программа сбора информации, она может значительно повысить эффективность работы, особенно при сборе и организации больших объемов данных.

Однако, если технология используется ненадлежащим образом, она также вызовет «червячную катастрофу», что приведет к перегрузке сети, сбоям, параличу сервера и даже угрозам безопасности данных. Знакомая нам «сеть референтных документов» не застрахована:

Рисунок: В 2019 году Верховный народный суд опубликовал «Ответ на предложения по созданию веб-сайта «Китайской сети судебных документов»».

0****2 Риск использования технологии сканирования

Краулеры, как техническое средство получения данных, законом не запрещены. Однако способ использования и цель использования определяют, будут ли противоправные действия и последствия.

1. Использование не по назначению

Используя технологию сканирования, можно совершить большое количество посещений веб-сайта за короткий период времени, а страницы и данные часто сканируются. Это может привести к резкому увеличению пропускной способности и нагрузки на сервер веб-сайта, что повлияет на нормальную работу веб-сайта и даже вызовет простои или замедление отклика, мешающие нормальной работе посещаемого веб-сайта, а в тяжелых случаях может составлять преступление.

Ян уполномочил Чжана, сотрудника компании, разработать программное обеспечение кредитной системы, и функция «веб-сканера» в программном обеспечении может быть связана с веб-сайтом вида на жительство в Шэньчжэне. В мае 2018 года программа запросила большое количество посещений системы выдачи разрешений на проживание в Шэньчжэне в течение двух часов подряд, что привело к сбою в нормальной работе системы выдачи разрешений на жительство в Шэньчжэне, что сильно повлияло на повседневную работу отдела управления населением Бюро общественной безопасности Шэньчжэня, которое использует систему вида на жительство. Оба преступления представляли собой саботаж компьютерных информационных систем. [(2019) Гуандун 0305 Синчу № 193]

2. Использование не по назначению

Способ использования просканированной информации и данных оказывает большее качественное влияние на поведение поискового робота, чем то, как они используются. **

Незаконное использование просканированных данных и информации в основном включает:

**(1) Кража личной информации: ** Использование технологии сканирования для злонамеренного сбора личной информации на веб-сайтах может привести к нарушению конфиденциальности и личной информации других людей, что может представлять собой серьезное преступление в виде нарушения личных данных граждан.

**(2) Ненадлежащее поведение в условиях коммерческой конкуренции: **Использовать технологию сканирования для получения коммерческой тайны конкурентов, информации о ценах, пользовательских данных и т. д., а также «переходить» на другие платформы после интеграции данных и получать их таким удобным способом. Большой объем ценных данных и информации для получения несправедливого конкурентного преимущества.

В деле «Спор о недобросовестной конкуренции Кумике против Челаи» суд постановил, что без разрешения кредитора использование технологии веб-краулера для входа в фон сервера кредитора было незаконно получено и использовало шину реального времени кредитора. информационные данные бесплатно. Поведение на самом деле является своего рода поведением «получения чего-то ни за что» и «каннибализации людей и наживания», и оно представляет собой незаконное присвоение чужих нематериальных имущественных прав и интересов, разрушая рыночные конкурентные преимущества других людей. , и представляет собой недобросовестную конкуренцию.

**(3) Нарушение прав интеллектуальной собственности: **Сканирование контента, защищенного авторским правом, и его последующее использование для несанкционированного публичного распространения или в коммерческих целях является актом нарушения прав интеллектуальной собственности.

0****3 Риск того, что данные краулера «загрузят» большие модели

Из предыдущего анализа мы видим, что риск использования технологии сканирования в основном заключается в методе сканирования и просматриваемом контенте.** Будь то контроль частоты и содержания сканирования, сканирование общедоступного контента и его использование для обучения роботов. ничего Рискнуть?

Прежде всего, еще в 2018 году официальный аккаунт Zhihu опубликовал «Объявление об обновлении защиты прав и интересов пользователей Zhihu», в котором упоминалось: ** Zhihu принимает систему белого списка для использования контента Zhihu третьими лицами, и третьим сторонам необходимо передать заявку по официальным каналам сотрудничества. **Если поведение при сканировании нарушает условия обслуживания Zhihu, Zhihu может применить блокировку аккаунта, IP-адресов или другие юридические действия.

Выдержка из «Спецификаций использования институциональных счетов Zhihu» (пробная версия)

Во-вторых, контент на Zhihu обычно является оригинальным или авторизованным пользователем, а авторские права принадлежат самому пользователю. Несанкционированное сканирование и использование этого содержимого может привести к нарушению авторских прав и авторских прав Zhihu.

На самом деле при обучении ИИ больших моделей «кража данных» не является единичным случаем. В прошлом месяце Bishen Composition публично обвинила Xueersi, бывшего партнера, в «краже данных» через рептилий для обучения собственных продуктов искусственного интеллекта. Bishen Composition заявила, что решит спор в судебном порядке, потребовав от Xueersi выплаты компенсации в размере 1 юаня, публичного извинения и удаления просканированных данных.

0****4 Сводка

В буме стартапов ИИ данные становятся все более важными. Столкнувшись с соблазном технологии ботов, следует признать, что, хотя сама технология ботов не запрещена, ее ненадлежащее использование может привести к юридическим проблемам, особенно в отношении личной информации, конфиденциальности, авторского права и недобросовестной конкуренции.

В «Временных мерах по управлению генеративными службами искусственного интеллекта» четко указано, что при обучении деятельности по обработке данных следует использовать данные и базовые модели с легальными источниками. В процессе открытия бизнеса начальство должно обеспечить законность и нравственность сбора данных. Если вы хотите использовать просканированные данные для обучения больших моделей ИИ, вы должны заранее получить разрешение от источника данных и соблюдать правила соответствующей платформы.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить