Est-il légal pour AIGC d'utiliser la technologie des chenilles pour construire une version Zhihu du robot GPT ?

Question

#Cette année, les outils de modélisation à grande échelle de l'intelligence artificielle tels que GPT et la peinture IA sont en vogue, et de nombreuses personnes souhaitent également suivre la vague de l'entrepreneuriat IA, et des projets entrepreneuriaux connexes émergent à l'infini. Des données de haute qualité sont cruciales pour la formation de grands modèles d'IA. Ce n'est qu'avec suffisamment de données que des outils d'IA intelligents et puissants peuvent être formés. l'Internet de mon pays est en plein essor depuis plus de 20 ans, mais y a-t-il encore un manque de données ? Non, l'avocat Mankiw a récemment reçu des demandes d'internautes sur l'utilisation de robots d'exploration pour explorer les données de Zhihu. Ne serait-il pas formidable d'être un robot Zhihu GPT ? Attendez une minute, les risques juridiques encourus ne peuvent être ignorés.**0****1** **Les robots d'exploration sont une épée à double tranchant**La technologie Crawler est une technologie qui obtient automatiquement des données à partir d'Internet par programmation. Son nom montre de manière vivante et éclatante son principe de fonctionnement : simuler le processus de navigation humaine sur le Web dans un navigateur Web, et collecter et saisir des données.Les robots d'exploration Web sont largement utilisés dans les moteurs de recherche, la collecte de données, le filtrage publicitaire, l'analyse de mégadonnées et d'autres domaines. En tant que puissant programme de collecte d'informations, il peut améliorer considérablement l'efficacité du travail, en particulier pour la collecte et l'organisation de données massives.Cependant, une fois que la technologie est utilisée de manière inappropriée, elle provoquera également une «catastrophe du ver», entraînant une congestion du réseau, des pannes, une paralysie du serveur et même des risques pour la sécurité des données. Le "réseau documentaire de référence" que nous connaissons n'est pas à l'abri :![](https://img-cdn.gateio.im/resized-social/moments-40baef27dd-8549ab9f80-dd1a6f-1c6801)Figure : En 2019, la Cour populaire suprême a publié la "Réponse aux suggestions sur la construction du site Web "China Judgment Documents Network""**0****2** **Risque lié à l'utilisation de la technologie crawler**Les crawlers, en tant que moyens techniques d'obtention de données, ne sont pas interdits par la loi. Cependant, le mode d'utilisation et le but de l'utilisation déterminent s'il y aura des actes illégaux et des conséquences.## **1. Mauvaise utilisation**Grâce à la technologie des robots d'exploration, un grand nombre de visites sur le site Web peuvent être effectuées en peu de temps, et les pages et les données sont fréquemment explorées. Cela peut entraîner une forte augmentation de la bande passante et de la charge du serveur du site Web, affectant ainsi le fonctionnement normal du site Web, et même provoquant des temps d'arrêt ou une réponse lente, interférant avec le fonctionnement normal du site Web visité, et dans les cas graves, il peut constituer un crime.Yang a autorisé Zhang, un employé de l'entreprise, à développer un logiciel de système de crédit, et la fonction « web crawler » du logiciel pourrait être liée au site Web du permis de séjour de Shenzhen. En mai 2018, le logiciel a interrogé un grand nombre de visites dans le système de permis de séjour de Shenzhen pendant deux heures consécutives, ce qui a empêché le système de permis de séjour de Shenzhen de fonctionner normalement, ce qui a considérablement affecté le fonctionnement quotidien du bureau de gestion de la population du Shenzhen Public Bureau de la sécurité, qui utilise le système du permis de séjour. . Les deux constituaient le crime de sabotage des systèmes d'information informatiques. [(2019) Guangdong 0305 Xingchu n° 193]## **2. Usage inapproprié**La manière dont les informations et les données analysées sont utilisées a un impact qualitatif plus important sur le comportement des robots que la manière dont elles sont utilisées. **L'utilisation illégale de données et d'informations explorées comprend principalement :**(1) Vol d'informations personnelles : ** L'utilisation de la technologie des robots d'exploration pour capturer de manière malveillante des informations personnelles sur des sites Web peut impliquer une violation de la vie privée et des informations personnelles d'autres personnes, ce qui peut constituer un crime de violation des informations personnelles des citoyens.![](https://img-cdn.gateio.im/resized-social/moments-40baef27dd-49612d5321-dd1a6f-1c6801)**(2) Comportement inapproprié dans la concurrence commerciale : **Utiliser la technologie des robots d'indexation pour obtenir les secrets commerciaux des concurrents, les informations sur les prix, les données des utilisateurs, etc., et "passer" à d'autres plates-formes après l'intégration des données, et les obtenir de cette manière pratique Une grande quantité de données et d'informations précieuses pour rechercher un avantage concurrentiel déloyal.Dans l'affaire "Kumike v. Chelai Concurrence déloyale", le tribunal a jugé que, sans l'autorisation du créancier, l'utilisation de la technologie des robots d'indexation pour accéder à l'arrière-plan du serveur du créancier a obtenu et utilisé illégalement le bus en temps réel du créancier. données d'information gratuites. Le comportement est en fait une sorte de comportement consistant à "obtenir quelque chose pour rien" et à "cannibaliser les gens et grossir", et il a une occupation illégale des droits et intérêts de propriété incorporelle d'autres personnes, détruisant les avantages concurrentiels des autres sur le marché , et constitue une concurrence déloyale.**(3) Violation des droits de propriété intellectuelle : **Crawler du contenu protégé par des droits d'auteur, puis l'utiliser à des fins de diffusion publique non autorisée ou à des fins commerciales constitue un acte de violation des droits de propriété intellectuelle.![](https://img-cdn.gateio.im/resized-social/moments-40baef27dd-87ec3bdf70-dd1a6f-1c6801)![](https://img-cdn.gateio.im/resized-social/moments-40baef27dd-742b26a49d-dd1a6f-1c6801)**0****3** **Le risque que les données du crawler "alimentent" les grands modèles**A travers l'analyse précédente, nous pouvons voir que le risque d'utiliser la technologie crawler réside principalement dans la méthode de crawling et le contenu crawlé. n'est-ce rien risquer?Tout d'abord, dès 2018, le compte officiel de Zhihu a publié "l'annonce sur la mise à niveau de la protection des droits et des intérêts des utilisateurs de Zhihu", qui mentionnait : **Zhihu adopte un système de liste blanche pour l'utilisation du contenu de Zhihu par des tiers, et les tiers doivent faire passer la demande par les canaux de coopération officiels. ** Si le comportement d'exploration enfreint les conditions d'utilisation de Zhihu, Zhihu peut prendre des interdictions de compte, des adresses IP ou d'autres actions en justice.![](https://img-cdn.gateio.im/resized-social/moments-40baef27dd-6f1f01305c-dd1a6f-1c6801)![](https://img-cdn.gateio.im/resized-social/moments-40baef27dd-4698e73760-dd1a6f-1c6801)Extrait des "Spécifications pour l'utilisation des comptes institutionnels Zhihu" (essai)Deuxièmement, le contenu de Zhihu est généralement original ou autorisé par l'utilisateur, et le droit d'auteur appartient à l'utilisateur lui-même. L'exploration et l'utilisation non autorisées de ces contenus peuvent impliquer une violation du droit d'auteur et de la paternité de Zhihu.![](https://img-cdn.gateio.im/resized-social/moments-40baef27dd-d510d17fc1-dd1a6f-1c6801)En fait, dans la formation de grands modèles d'IA, le "vol de données" n'est pas un cas isolé. Le mois dernier, Bishen Composition a publiquement accusé Xueersi, un ancien partenaire, de "voler des données" via des reptiles pour former ses propres produits d'IA. Bishen Composition a déclaré qu'il résoudrait le différend par le biais de procédures judiciaires, obligeant "Xueersi" à payer 1 yuan en compensation, à présenter des excuses publiques et à supprimer les données explorées.![](https://img-cdn.gateio.im/resized-social/moments-40baef27dd-5569296d60-dd1a6f-1c6801)**0****4** **Résumé**Dans le boom des startups de l'IA, les données deviennent de plus en plus importantes. Face à l'attrait de la technologie des bots, il convient de reconnaître que même si la technologie des bots elle-même n'est pas interdite, son utilisation inappropriée peut entraîner des problèmes juridiques, en particulier en ce qui concerne les informations personnelles, la confidentialité, le droit d'auteur et la concurrence déloyale.Les "Mesures provisoires pour la gestion des services d'intelligence artificielle générative" mentionnaient clairement que lors de la formation des activités de traitement des données, des données et des modèles de base avec des sources légales devraient être utilisés. Dans le processus de démarrage d'une entreprise, les patrons doivent s'assurer de la légalité et de la moralité de la collecte de données. Si vous souhaitez utiliser des données analysées pour former de grands modèles d'IA, vous devez obtenir l'autorisation préalable de la source de données et respecter les réglementations de la plate-forme concernée.