هذا العام ، أصبحت أدوات النماذج واسعة النطاق للذكاء الاصطناعي ، مثل GPT و AI Painting ، مثيرة للاهتمام ، ويريد الكثير من الناس أيضًا متابعة موجة ريادة الأعمال بالذكاء الاصطناعي ، وظهور المشاريع الريادية ذات الصلة إلى ما لا نهاية. تعد البيانات عالية الجودة أمرًا ضروريًا لتدريب نماذج الذكاء الاصطناعي الكبيرة ، ولا يمكن تدريب أدوات الذكاء الاصطناعي القوية والذكاء إلا مع بيانات كافية. ازدهر الإنترنت في بلدي منذ أكثر من 20 عامًا ، ولكن هل لا يزال هناك نقص في البيانات؟ لا ، تلقى المحامي مانكيو مؤخرًا استفسارات من مستخدمي الإنترنت حول استخدام برامج الزحف للزحف إلى بيانات Zhihu. ألن يكون من الرائع أن تكون روبوت Zhihu GPT؟ انتظر لحظة ، لا يمكن تجاهل المخاطر القانونية التي تنطوي عليها.
** 0 **** 1 ** ** الزواحف سيف ذو حدين **
تقنية الزاحف هي تقنية تحصل تلقائيًا على البيانات من الإنترنت من خلال البرمجة. يُظهر اسمها بوضوح ووضوح مبدأ عملها: محاكاة عملية تصفح الإنسان للويب في متصفح الويب ، وجمع البيانات والاستيلاء عليها.
تُستخدم برامج زحف الويب على نطاق واسع في محركات البحث وجمع البيانات وتصفية الإعلانات وتحليل البيانات الضخمة وغيرها من المجالات. كبرنامج قوي لجمع المعلومات ، يمكنه تحسين كفاءة العمل بشكل كبير ، خاصة بالنسبة لجمع وترتيب البيانات الضخمة.
ومع ذلك ، بمجرد استخدام التكنولوجيا بشكل غير صحيح ، فإنها ستتسبب أيضًا في "كارثة دودة" ، مما يؤدي إلى ازدحام الشبكة وتعطلها وشلل الخادم وحتى مخاطر أمن البيانات. "شبكة وثائق الحكام" التي نعرفها ليست محصنة:
الشكل: في عام 2019 ، أصدرت محكمة الشعب العليا "الرد على الاقتراحات المتعلقة بإنشاء موقع ويب" شبكة وثائق الأحكام الصينية "
** 0 **** 2 ** ** خطر استخدام تقنية الزاحف **
الزواحف ، كوسيلة تقنية للحصول على البيانات ، لا يحظرها القانون. ومع ذلك ، فإن طريقة الاستخدام والغرض من الاستخدام يحددان ما إذا كانت ستكون هناك أعمال وعواقب غير قانونية.
** 1. الاستخدام غير السليم **
باستخدام تقنية الزاحف ، يمكن إجراء عدد كبير من الزيارات إلى موقع الويب في فترة زمنية قصيرة ، ويتم الزحف إلى الصفحات والبيانات بشكل متكرر. قد يؤدي ذلك إلى زيادة حادة في عرض النطاق الترددي وتحميل الخادم للموقع ، مما يؤثر على التشغيل العادي للموقع ، وحتى التسبب في توقف أو بطء الاستجابة ، والتداخل مع التشغيل العادي للموقع الذي تمت زيارته ، وفي الحالات الشديدة ، قد يشكل جريمة.
سمح يانغ لـ Zhang ، وهو موظف في الشركة ، بتطوير برنامج نظام ائتمان ، ويمكن ربط وظيفة "متتبع ارتباطات الويب" في البرنامج بموقع تصريح الإقامة في Shenzhen. في مايو 2018 ، استفسر البرنامج عن عدد كبير من الزيارات لنظام تصاريح الإقامة في Shenzhen لمدة ساعتين متتاليتين ، مما أدى إلى فشل نظام تصاريح الإقامة في Shenzhen في العمل بشكل طبيعي ، مما أثر بشكل كبير على التشغيل اليومي لمكتب إدارة السكان في مكتب الأمن العام في Shenzhen ، والذي يستخدم نظام تصريح الإقامة. كلاهما يشكل جريمة تخريب نظم المعلومات الحاسوبية. [(2019) Guangdong 0305 Xingchu No. 193]
** 2. غرض غير لائق للاستخدام **
إن كيفية استخدام المعلومات والبيانات التي يتم الزحف إليها لها تأثير نوعي أكبر على سلوك الزاحف من كيفية استخدامها. **
يتضمن الاستخدام غير القانوني للبيانات والمعلومات التي تم الزحف إليها بشكل أساسي ما يلي:
** (1) سرقة المعلومات الشخصية: ** قد يتضمن استخدام تقنية الزاحف لالتقاط المعلومات الشخصية على مواقع الويب بشكل ضار انتهاكًا لخصوصية الأشخاص الآخرين والمعلومات الشخصية ، مما قد يشكل جريمة انتهاك المعلومات الشخصية للمواطنين.
** (2) السلوك غير اللائق في المنافسة التجارية: ** استخدم تقنية الزاحف للحصول على الأسرار التجارية للمنافسين ، ومعلومات التسعير ، وبيانات المستخدم ، وما إلى ذلك ، و "الانتقال" إلى منصات أخرى بعد تكامل البيانات ، والحصول عليها بهذه الطريقة المريحة كمية كبيرة من البيانات والمعلومات القيمة للبحث عن ميزة تنافسية غير عادلة.
في قضية "نزاع المنافسة غير العادلة Kumike v. Chelai غير العادلة" ، قضت المحكمة أنه بدون إذن من الملتزم به ، تم الحصول على استخدام تكنولوجيا متتبع ارتباطات الويب للدخول إلى خلفية خادم المدعى عليه بطريقة غير مشروعة واستخدام الحافلة في الوقت الفعلي التابعة للمتعهد عليه بيانات المعلومات مجانًا. السلوك هو في الواقع نوع من السلوك "الحصول على شيء مقابل لا شيء" و "أكل الناس وزيادة السمنة" ، وله احتلال غير قانوني لحقوق ومصالح الآخرين غير الملموسة ، مما يؤدي إلى تدمير المزايا التنافسية في السوق للآخرين ، وتشكل منافسة غير عادلة.
** (3) التعدي على حقوق الملكية الفكرية: ** يعد الزحف إلى محتوى محمي بحقوق الطبع والنشر ثم استخدامه للنشر العام غير المصرح به أو لأغراض تجارية بمثابة انتهاك لحقوق الملكية الفكرية.
من خلال التحليل السابق ، يمكننا أن نرى أن مخاطر استخدام تقنية الزاحف تكمن أساسًا في طريقة الزحف والمحتوى الذي تم الزحف إليه. ** سواء كان ذلك للتحكم في تكرار ومحتوى الزحف ، والزحف إلى المحتوى العام ، واستخدامه لتدريب الروبوتات لا شيء المخاطرة به؟
بادئ ذي بدء ، في وقت مبكر من عام 2018 ، أصدر حساب Zhihu الرسمي "إعلان حول ترقية حقوق المستخدم وحماية المصالح Zhihu" ، والذي ذكر: ** تتبنى Zhihu نظام القائمة البيضاء لاستخدام محتوى Zhihu من قبل أطراف ثالثة ، و تحتاج الأطراف الثالثة إلى تمرير التطبيق من خلال قنوات التعاون الرسمية. ** إذا كان سلوك الزحف ينتهك شروط خدمة Zhihu ، فقد يتخذ Zhihu حظر حساب أو عناوين IP أو إجراءات قانونية أخرى.
مقتبس من "مواصفات استخدام حسابات Zhihu المؤسسية" (نسخة تجريبية)
ثانيًا ، عادةً ما يكون المحتوى الموجود على Zhihu أصليًا أو مصرحًا به من قبل المستخدم ، وحقوق النشر ملك للمستخدم نفسه. قد يتضمن الزحف غير المصرح به واستخدام هذه المحتويات انتهاكًا لحقوق الطبع والنشر والتأليف الخاصة بـ Zhihu.
في الواقع ، تدريب نماذج كبيرة للذكاء الاصطناعي ، "سرقة البيانات" ليست حالة منعزلة. في الشهر الماضي ، اتهمت Bishen Composition علنًا Xueersi ، الشريك السابق ، بـ "سرقة البيانات" من خلال الزواحف لتدريب منتجات الذكاء الاصطناعي الخاصة بها. ذكرت Bishen Composition أنها ستحل النزاع من خلال الإجراءات القضائية ، مطالبة "Xueersi" بدفع 1 يوان كتعويض ، والاعتذار علنًا ، وحذف البيانات التي تم الزحف إليها.
** 0 **** 4 ** ** ملخص **
في ازدهار الشركات الناشئة للذكاء الاصطناعي ، أصبحت البيانات ذات أهمية متزايدة. عند مواجهة إغراء تقنية الروبوت ، يجب الاعتراف بأنه على الرغم من أن تقنية الروبوت نفسها غير محظورة ، إلا أن استخدامها غير المناسب قد يؤدي إلى مشكلات قانونية ، لا سيما فيما يتعلق بالمعلومات الشخصية والخصوصية وحقوق النشر والمنافسة غير العادلة.
ذكرت "التدابير المؤقتة لإدارة خدمات الذكاء الاصطناعي التوليدية" بوضوح أنه عند تدريب أنشطة معالجة البيانات ، يجب استخدام البيانات والنماذج الأساسية ذات المصادر القانونية. في عملية بدء عمل تجاري ، يجب على الرؤساء ضمان شرعية وأخلاق جمع البيانات. إذا كنت ترغب في استخدام البيانات التي تم الزحف إليها لتدريب النماذج الكبيرة للذكاء الاصطناعي ، فيجب عليك الحصول على إذن من مصدر البيانات مقدمًا والالتزام بلوائح النظام الأساسي ذي الصلة.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
هل من القانوني أن تستخدم AIGC تقنية الزاحف لبناء نسخة Zhihu من روبوت GPT؟
هذا العام ، أصبحت أدوات النماذج واسعة النطاق للذكاء الاصطناعي ، مثل GPT و AI Painting ، مثيرة للاهتمام ، ويريد الكثير من الناس أيضًا متابعة موجة ريادة الأعمال بالذكاء الاصطناعي ، وظهور المشاريع الريادية ذات الصلة إلى ما لا نهاية. تعد البيانات عالية الجودة أمرًا ضروريًا لتدريب نماذج الذكاء الاصطناعي الكبيرة ، ولا يمكن تدريب أدوات الذكاء الاصطناعي القوية والذكاء إلا مع بيانات كافية. ازدهر الإنترنت في بلدي منذ أكثر من 20 عامًا ، ولكن هل لا يزال هناك نقص في البيانات؟ لا ، تلقى المحامي مانكيو مؤخرًا استفسارات من مستخدمي الإنترنت حول استخدام برامج الزحف للزحف إلى بيانات Zhihu. ألن يكون من الرائع أن تكون روبوت Zhihu GPT؟ انتظر لحظة ، لا يمكن تجاهل المخاطر القانونية التي تنطوي عليها.
** 0 **** 1 ** ** الزواحف سيف ذو حدين **
تقنية الزاحف هي تقنية تحصل تلقائيًا على البيانات من الإنترنت من خلال البرمجة. يُظهر اسمها بوضوح ووضوح مبدأ عملها: محاكاة عملية تصفح الإنسان للويب في متصفح الويب ، وجمع البيانات والاستيلاء عليها.
تُستخدم برامج زحف الويب على نطاق واسع في محركات البحث وجمع البيانات وتصفية الإعلانات وتحليل البيانات الضخمة وغيرها من المجالات. كبرنامج قوي لجمع المعلومات ، يمكنه تحسين كفاءة العمل بشكل كبير ، خاصة بالنسبة لجمع وترتيب البيانات الضخمة.
ومع ذلك ، بمجرد استخدام التكنولوجيا بشكل غير صحيح ، فإنها ستتسبب أيضًا في "كارثة دودة" ، مما يؤدي إلى ازدحام الشبكة وتعطلها وشلل الخادم وحتى مخاطر أمن البيانات. "شبكة وثائق الحكام" التي نعرفها ليست محصنة:
الشكل: في عام 2019 ، أصدرت محكمة الشعب العليا "الرد على الاقتراحات المتعلقة بإنشاء موقع ويب" شبكة وثائق الأحكام الصينية "
** 0 **** 2 ** ** خطر استخدام تقنية الزاحف **
الزواحف ، كوسيلة تقنية للحصول على البيانات ، لا يحظرها القانون. ومع ذلك ، فإن طريقة الاستخدام والغرض من الاستخدام يحددان ما إذا كانت ستكون هناك أعمال وعواقب غير قانونية.
** 1. الاستخدام غير السليم **
باستخدام تقنية الزاحف ، يمكن إجراء عدد كبير من الزيارات إلى موقع الويب في فترة زمنية قصيرة ، ويتم الزحف إلى الصفحات والبيانات بشكل متكرر. قد يؤدي ذلك إلى زيادة حادة في عرض النطاق الترددي وتحميل الخادم للموقع ، مما يؤثر على التشغيل العادي للموقع ، وحتى التسبب في توقف أو بطء الاستجابة ، والتداخل مع التشغيل العادي للموقع الذي تمت زيارته ، وفي الحالات الشديدة ، قد يشكل جريمة.
سمح يانغ لـ Zhang ، وهو موظف في الشركة ، بتطوير برنامج نظام ائتمان ، ويمكن ربط وظيفة "متتبع ارتباطات الويب" في البرنامج بموقع تصريح الإقامة في Shenzhen. في مايو 2018 ، استفسر البرنامج عن عدد كبير من الزيارات لنظام تصاريح الإقامة في Shenzhen لمدة ساعتين متتاليتين ، مما أدى إلى فشل نظام تصاريح الإقامة في Shenzhen في العمل بشكل طبيعي ، مما أثر بشكل كبير على التشغيل اليومي لمكتب إدارة السكان في مكتب الأمن العام في Shenzhen ، والذي يستخدم نظام تصريح الإقامة. كلاهما يشكل جريمة تخريب نظم المعلومات الحاسوبية. [(2019) Guangdong 0305 Xingchu No. 193]
** 2. غرض غير لائق للاستخدام **
إن كيفية استخدام المعلومات والبيانات التي يتم الزحف إليها لها تأثير نوعي أكبر على سلوك الزاحف من كيفية استخدامها. **
يتضمن الاستخدام غير القانوني للبيانات والمعلومات التي تم الزحف إليها بشكل أساسي ما يلي:
** (1) سرقة المعلومات الشخصية: ** قد يتضمن استخدام تقنية الزاحف لالتقاط المعلومات الشخصية على مواقع الويب بشكل ضار انتهاكًا لخصوصية الأشخاص الآخرين والمعلومات الشخصية ، مما قد يشكل جريمة انتهاك المعلومات الشخصية للمواطنين.
** (2) السلوك غير اللائق في المنافسة التجارية: ** استخدم تقنية الزاحف للحصول على الأسرار التجارية للمنافسين ، ومعلومات التسعير ، وبيانات المستخدم ، وما إلى ذلك ، و "الانتقال" إلى منصات أخرى بعد تكامل البيانات ، والحصول عليها بهذه الطريقة المريحة كمية كبيرة من البيانات والمعلومات القيمة للبحث عن ميزة تنافسية غير عادلة.
في قضية "نزاع المنافسة غير العادلة Kumike v. Chelai غير العادلة" ، قضت المحكمة أنه بدون إذن من الملتزم به ، تم الحصول على استخدام تكنولوجيا متتبع ارتباطات الويب للدخول إلى خلفية خادم المدعى عليه بطريقة غير مشروعة واستخدام الحافلة في الوقت الفعلي التابعة للمتعهد عليه بيانات المعلومات مجانًا. السلوك هو في الواقع نوع من السلوك "الحصول على شيء مقابل لا شيء" و "أكل الناس وزيادة السمنة" ، وله احتلال غير قانوني لحقوق ومصالح الآخرين غير الملموسة ، مما يؤدي إلى تدمير المزايا التنافسية في السوق للآخرين ، وتشكل منافسة غير عادلة.
** (3) التعدي على حقوق الملكية الفكرية: ** يعد الزحف إلى محتوى محمي بحقوق الطبع والنشر ثم استخدامه للنشر العام غير المصرح به أو لأغراض تجارية بمثابة انتهاك لحقوق الملكية الفكرية.
** 0 **** 3 ** ** خطر "تغذية" النماذج الكبيرة لبيانات الزاحف **
من خلال التحليل السابق ، يمكننا أن نرى أن مخاطر استخدام تقنية الزاحف تكمن أساسًا في طريقة الزحف والمحتوى الذي تم الزحف إليه. ** سواء كان ذلك للتحكم في تكرار ومحتوى الزحف ، والزحف إلى المحتوى العام ، واستخدامه لتدريب الروبوتات لا شيء المخاطرة به؟
بادئ ذي بدء ، في وقت مبكر من عام 2018 ، أصدر حساب Zhihu الرسمي "إعلان حول ترقية حقوق المستخدم وحماية المصالح Zhihu" ، والذي ذكر: ** تتبنى Zhihu نظام القائمة البيضاء لاستخدام محتوى Zhihu من قبل أطراف ثالثة ، و تحتاج الأطراف الثالثة إلى تمرير التطبيق من خلال قنوات التعاون الرسمية. ** إذا كان سلوك الزحف ينتهك شروط خدمة Zhihu ، فقد يتخذ Zhihu حظر حساب أو عناوين IP أو إجراءات قانونية أخرى.
مقتبس من "مواصفات استخدام حسابات Zhihu المؤسسية" (نسخة تجريبية)
ثانيًا ، عادةً ما يكون المحتوى الموجود على Zhihu أصليًا أو مصرحًا به من قبل المستخدم ، وحقوق النشر ملك للمستخدم نفسه. قد يتضمن الزحف غير المصرح به واستخدام هذه المحتويات انتهاكًا لحقوق الطبع والنشر والتأليف الخاصة بـ Zhihu.
في الواقع ، تدريب نماذج كبيرة للذكاء الاصطناعي ، "سرقة البيانات" ليست حالة منعزلة. في الشهر الماضي ، اتهمت Bishen Composition علنًا Xueersi ، الشريك السابق ، بـ "سرقة البيانات" من خلال الزواحف لتدريب منتجات الذكاء الاصطناعي الخاصة بها. ذكرت Bishen Composition أنها ستحل النزاع من خلال الإجراءات القضائية ، مطالبة "Xueersi" بدفع 1 يوان كتعويض ، والاعتذار علنًا ، وحذف البيانات التي تم الزحف إليها.
** 0 **** 4 ** ** ملخص **
في ازدهار الشركات الناشئة للذكاء الاصطناعي ، أصبحت البيانات ذات أهمية متزايدة. عند مواجهة إغراء تقنية الروبوت ، يجب الاعتراف بأنه على الرغم من أن تقنية الروبوت نفسها غير محظورة ، إلا أن استخدامها غير المناسب قد يؤدي إلى مشكلات قانونية ، لا سيما فيما يتعلق بالمعلومات الشخصية والخصوصية وحقوق النشر والمنافسة غير العادلة.
ذكرت "التدابير المؤقتة لإدارة خدمات الذكاء الاصطناعي التوليدية" بوضوح أنه عند تدريب أنشطة معالجة البيانات ، يجب استخدام البيانات والنماذج الأساسية ذات المصادر القانونية. في عملية بدء عمل تجاري ، يجب على الرؤساء ضمان شرعية وأخلاق جمع البيانات. إذا كنت ترغب في استخدام البيانات التي تم الزحف إليها لتدريب النماذج الكبيرة للذكاء الاصطناعي ، فيجب عليك الحصول على إذن من مصدر البيانات مقدمًا والالتزام بلوائح النظام الأساسي ذي الصلة.