今年は、GPTやAIペインティングなどの人工知能の大規模モデルツールが注目されており、多くの人がAI起業の波に乗りたいと考えており、関連する起業プロジェクトが後を絶たない。大規模な AI モデルのトレーニングには高品質のデータが不可欠であり、十分なデータがなければインテリジェントで強力な AI ツールをトレーニングできません。私の国のインターネットは 20 年以上にわたって発展してきましたが、依然としてデータが不足していますか?いいえ、マンキュー弁護士は最近、Zhihu データをクロールするためにクローラーを使用することについてネチズンから問い合わせを受けました。Zhihu GPT ロボットになれたら素晴らしいと思いませんか?ちょっと待ってください。それに伴う法的リスクは無視できません。
0****1クローラーは諸刃の剣です
クローラー技術とは、プログラミングによってインターネット上からデータを自動取得する技術です。その名前は、人間が Web ブラウザで Web を閲覧するプロセスをシミュレートし、データを収集して取得するという動作原理を鮮明かつ鮮明に示しています。
Web クローラーは、検索エンジン、データ収集、広告フィルタリング、ビッグデータ分析などの分野で広く使用されています。強力な情報収集プログラムとして、特に膨大なデータの収集・整理において作業効率を大幅に向上させることができます。
クローラー テクノロジーを使用すると、短期間に Web サイトに大量のアクセスが行われる可能性があり、ページとデータが頻繁にクロールされます。これにより、Web サイトの帯域幅とサーバー負荷が急激に増加し、Web サイトの通常の動作に影響を及ぼし、ダウンタイムや応答の低下を引き起こして、訪問した Web サイトの通常の動作が妨げられる可能性があり、深刻な場合には、犯罪となる可能性があります。
「生成型人工知能サービスの管理に関する暫定措置」では、データ処理活動をトレーニングする際には、法的ソースを持つデータと基本モデルを使用する必要があると明確に記載されています。ビジネスを始める過程で、上司はデータ収集の合法性と道徳性を確保する必要があります。クロールされたデータを使用して AI の大規模モデルをトレーニングする場合は、事前にデータ ソースから承認を取得し、関連するプラットフォームの規制に従う必要があります。
AIGC がクローラー テクノロジーを使用して Zhihu バージョンの GPT ロボットを構築することは合法ですか?
今年は、GPTやAIペインティングなどの人工知能の大規模モデルツールが注目されており、多くの人がAI起業の波に乗りたいと考えており、関連する起業プロジェクトが後を絶たない。大規模な AI モデルのトレーニングには高品質のデータが不可欠であり、十分なデータがなければインテリジェントで強力な AI ツールをトレーニングできません。私の国のインターネットは 20 年以上にわたって発展してきましたが、依然としてデータが不足していますか?いいえ、マンキュー弁護士は最近、Zhihu データをクロールするためにクローラーを使用することについてネチズンから問い合わせを受けました。Zhihu GPT ロボットになれたら素晴らしいと思いませんか?ちょっと待ってください。それに伴う法的リスクは無視できません。
0****1 クローラーは諸刃の剣です
クローラー技術とは、プログラミングによってインターネット上からデータを自動取得する技術です。その名前は、人間が Web ブラウザで Web を閲覧するプロセスをシミュレートし、データを収集して取得するという動作原理を鮮明かつ鮮明に示しています。
Web クローラーは、検索エンジン、データ収集、広告フィルタリング、ビッグデータ分析などの分野で広く使用されています。強力な情報収集プログラムとして、特に膨大なデータの収集・整理において作業効率を大幅に向上させることができます。
しかし、このテクノロジーが不適切に使用されると、ネットワークの輻輳、クラッシュ、サーバーの麻痺、さらにはデータ セキュリティのリスクにつながる「ワーム災害」も引き起こします。私たちがよく知っている「査読者文書ネットワーク」も影響を受けません。
図:2019年、最高人民法院は「『中国判決文書ネットワーク』ウェブサイト構築に関する提案に対する回答」を発表
0****2 クローラ技術を使用するリスク
クローラーは、データを取得する技術的手段として、法律で禁止されていません。ただし、違法行為となるかどうかは使用方法や使用目的によって異なります。
1. 不適切な使用
クローラー テクノロジーを使用すると、短期間に Web サイトに大量のアクセスが行われる可能性があり、ページとデータが頻繁にクロールされます。これにより、Web サイトの帯域幅とサーバー負荷が急激に増加し、Web サイトの通常の動作に影響を及ぼし、ダウンタイムや応答の低下を引き起こして、訪問した Web サイトの通常の動作が妨げられる可能性があり、深刻な場合には、犯罪となる可能性があります。
楊氏は同社の従業員である張氏に信用システム・ソフトウェアの開発を許可しており、ソフトウェア内の「ウェブ・クローラー」機能は深セン居留許可のウェブサイトにリンクされる可能性がある。 2018年5月、ソフトウェアは連続2時間にわたって深セン居留許可システムへの大量のアクセスを照会し、その結果深セン居留許可システムが正常に動作しなくなり、深セン人口管理局の日常業務に大きな影響を与えた。居留許可制度を採用している深セン市公安局。どちらもコンピュータ情報システムを妨害する犯罪を構成しました。 [(2019)広東省 0305 興中第 193 号]
2. 不正な利用目的
クロールされた情報とデータがどのように使用されるかは、その使用方法よりもクローラーの動作に定性的な影響を与えます。 **
クロールされたデータと情報の違法使用には主に次のようなものがあります。
**(1) 個人情報の窃取: **クローラー技術を使用して Web サイト上の個人情報を悪意を持って取得することは、他人のプライバシーおよび個人情報の侵害を伴う可能性があり、国民の個人情報の侵害という重大な犯罪となる可能性があります。
**(2) ビジネス競争における不正行為:**クローラ技術を利用して競合他社の営業秘密、価格情報、ユーザーデータ等を取得し、データ統合後に他のプラットフォームに「移動」し、都合の良い方法で取得する行為不当な競争上の優位性を求めるための大量の貴重なデータと情報。
「クミケ対チェライの不正競争紛争」の場合、裁判所は、債権者の許可なく、ウェブクローラー技術を使用して債権者のサーバーのバックグラウンドに侵入し、債権者のリアルタイムバスを違法に取得して使用したと判示した。その行為は、実際には「タダで何かを手に入れる」「人を共食いして太らせる」行為の一種であり、他人の無形財産権・利益を不法占拠し、他人の市場競争上の優位性を破壊するものです。 、不正競争にあたります。
**(3) 知的財産権の侵害: **著作権で保護されたコンテンツをクロールし、それを許可なく公衆送信または商業目的で使用することは、知的財産権の侵害行為です。
0****3 クローラ データが大規模モデルに「フィード」されるリスク
これまでの分析により、クローラー テクノロジーを使用するリスクは主にクロール方法とクロールされるコンテンツにあることがわかりました。**クローラーの頻度と内容の制御、パブリック コンテンツのクロール、ロボットのトレーニングへの使用のいずれであるか何もありません リスクはありますか?
まず、2018 年の初めに、Zhihu 公式アカウントは「Zhihu ユーザーの権利と利益の保護のアップグレードに関するお知らせ」をリリースしました。その中で次のように述べられていました。 ** Zhihu は、第三者による Zhihu コンテンツの使用に対してホワイトリスト システムを採用しています。第三者は公式の協力ルートを通じて申請を行う必要があります。 **クローリング行為が Zhihu の利用規約に違反した場合、Zhihu はアカウントの禁止、IP アドレス、またはその他の法的措置を講じる場合があります。
「Zhihu機関アカウント利用仕様書(試行版)」より抜粋
第二に、Zhihu のコンテンツは通常、オリジナルまたはユーザーによって許可されたものであり、著作権はユーザー自身に属します。これらのコンテンツを不正にクロールおよび使用すると、Zhihu の著作権および著作権の侵害につながる可能性があります。
実際、AI の大規模モデルのトレーニングでは、「データの盗難」は特別なケースではありません。 Bishen Compositionは先月、元パートナーのXueersiが自社のAI製品を訓練するために爬虫類を介して「データを盗んだ」として公に非難した。 Bishen Compositionは、この紛争を司法手続きを通じて解決し、「Xueersi」に賠償金1元の支払い、公的謝罪、クロールされたデータの削除を要求すると述べた。
0****4 概要
AIスタートアップブームにおいて、データの重要性はますます高まっています。ボット テクノロジーの誘惑に直面した場合、ボット テクノロジー自体は禁止されていませんが、その不適切な使用は、特に個人情報、プライバシー、著作権、不正競争に関連して、法的問題につながる可能性があることを認識する必要があります。
「生成型人工知能サービスの管理に関する暫定措置」では、データ処理活動をトレーニングする際には、法的ソースを持つデータと基本モデルを使用する必要があると明確に記載されています。ビジネスを始める過程で、上司はデータ収集の合法性と道徳性を確保する必要があります。クロールされたデータを使用して AI の大規模モデルをトレーニングする場合は、事前にデータ ソースから承認を取得し、関連するプラットフォームの規制に従う必要があります。