Tahun ini, alat model skala besar kecerdasan buatan seperti lukisan GPT dan AI sedang populer, dan banyak orang juga ingin mengikuti gelombang kewirausahaan AI, dan proyek wirausaha terkait muncul tanpa henti. Data berkualitas tinggi sangat penting untuk pelatihan model AI besar. Hanya dengan data yang cukup alat AI yang cerdas dan kuat dapat dilatih. Internet negara saya telah booming selama lebih dari 20 tahun, tetapi apakah masih ada kekurangan data? Tidak, Pengacara Mankiw baru-baru ini menerima pertanyaan dari netizen tentang penggunaan perayap untuk merayapi data Zhihu. Bukankah bagus menjadi robot Zhihu GPT? Tunggu dulu, risiko hukum yang terlibat tidak bisa diabaikan.
0****1Perayap adalah pedang bermata dua
Teknologi crawler adalah teknologi yang secara otomatis memperoleh data dari Internet melalui pemrograman. Namanya dengan jelas dan jelas menunjukkan prinsip kerjanya: untuk mensimulasikan proses penjelajahan manusia di web di browser web, dan untuk mengumpulkan dan mengambil data.
Perayap web banyak digunakan di mesin pencari, pengumpulan data, pemfilteran iklan, analisis data besar, dan bidang lainnya. Sebagai program pengumpulan informasi yang kuat, ini dapat meningkatkan efisiensi kerja secara signifikan, terutama untuk pengumpulan dan pengaturan data yang sangat besar.
Namun, begitu teknologi digunakan secara tidak benar, itu juga akan menyebabkan "bencana cacing", yang menyebabkan kemacetan jaringan, kerusakan, kelumpuhan server, dan bahkan risiko keamanan data. "Jaringan dokumen wasit" yang kita kenal tidak kebal:
Angka: Pada tahun 2019, Mahkamah Agung Rakyat mengeluarkan "Balasan atas Saran tentang Pembangunan Situs Web "Jaringan Dokumen Penghakiman Tiongkok""
0****2Risiko penggunaan teknologi perayap
Perayap, sebagai sarana teknis untuk memperoleh data, tidak dilarang oleh hukum. Namun, cara penggunaan dan tujuan penggunaan menentukan apakah akan ada tindakan dan konsekuensi ilegal.
1. Penggunaan yang tidak benar
Dengan menggunakan teknologi perayap, sejumlah besar kunjungan ke situs web dapat dilakukan dalam waktu singkat, dan halaman serta data sering dirayapi. Hal ini dapat menyebabkan peningkatan tajam dalam bandwidth dan beban server situs web, sehingga memengaruhi operasi normal situs web, dan bahkan menyebabkan waktu henti atau respons lambat, mengganggu operasi normal situs web yang dikunjungi, dan dapat dianggap sebagai kejahatan dalam kasus yang parah.
Yang memberi wewenang kepada Zhang, seorang karyawan perusahaan, untuk mengembangkan perangkat lunak sistem kredit, dan fungsi "perayap web" dalam perangkat lunak tersebut dapat ditautkan ke situs web izin tinggal Shenzhen. Pada bulan Mei 2018, perangkat lunak menanyakan sejumlah besar kunjungan ke sistem izin tinggal Shenzhen selama dua jam berturut-turut, menyebabkan sistem izin tinggal Shenzhen gagal beroperasi secara normal, yang sangat memengaruhi operasi harian kantor manajemen kependudukan Publik Shenzhen. Biro Keamanan, yang menggunakan sistem izin tinggal. . Keduanya merupakan kejahatan sabotase sistem informasi komputer. [(2019) Guangdong 0305 Xingchu No.193]
2. Tujuan penggunaan yang tidak benar
Cara informasi dan data yang dirayapi digunakan memiliki dampak kualitatif yang lebih besar pada perilaku perayap daripada cara penggunaannya. **
Penggunaan ilegal atas data dan informasi yang dirayapi terutama meliputi:
**(1) Mencuri informasi pribadi: **Menggunakan teknologi perayap untuk menangkap informasi pribadi di situs web dengan maksud jahat dapat melibatkan pelanggaran privasi dan informasi pribadi orang lain, yang dapat secara serius merupakan kejahatan pelanggaran informasi pribadi warga negara.
**(2) Perilaku tidak pantas dalam persaingan komersial: **Gunakan teknologi perayap untuk mendapatkan rahasia dagang pesaing, informasi harga, data pengguna, dll., dan "berpindah" ke platform lain setelah integrasi data, dan mendapatkannya dengan cara yang nyaman ini Sejumlah besar data dan informasi berharga untuk mencari keunggulan kompetitif yang tidak adil.
Dalam kasus "Perselisihan Persaingan Tidak Sehat Kumike v. Chelai", pengadilan memutuskan bahwa, tanpa izin dari obligee, penggunaan teknologi perayap web untuk memasuki latar belakang server obligee diperoleh secara ilegal dan menggunakan bus real-time milik obligee data informasi gratis. Perilaku tersebut sebenarnya adalah semacam perilaku "mendapatkan sesuatu tanpa hasil" dan "mengkanibalisasi orang dan menjadi gemuk", dan itu memiliki pendudukan ilegal atas hak dan kepentingan properti tak berwujud orang lain, menghancurkan keunggulan kompetitif pasar orang lain , dan merupakan persaingan tidak sehat.
**(3) Pelanggaran hak kekayaan intelektual: ** Merayap konten berhak cipta dan kemudian menggunakannya untuk penyebaran publik yang tidak sah atau tujuan komersial adalah tindakan pelanggaran hak kekayaan intelektual.
0****3Risiko data perayap "memberi makan" model besar
Melalui analisis sebelumnya, kita dapat melihat bahwa risiko penggunaan teknologi perayap terutama terletak pada metode perayapan dan konten yang dirayapi **Apakah itu untuk mengontrol frekuensi dan konten perayapan, perayapan konten publik, dan menggunakannya untuk melatih robot tidak ada Risiko itu?
Pertama-tama, sejak tahun 2018, akun resmi Zhihu merilis "Pengumuman tentang Peningkatan Perlindungan Hak Pengguna dan Kepentingan Zhihu", yang menyebutkan: **Zhihu mengadopsi sistem daftar putih untuk penggunaan konten Zhihu oleh pihak ketiga, dan pihak ketiga harus lulus Terapkan melalui saluran kerja sama resmi. **Jika perilaku perayapan melanggar persyaratan layanan Zhihu, Zhihu dapat melakukan pemblokiran akun, alamat IP, atau tindakan hukum lainnya.
Dikutip dari "Spesifikasi Penggunaan Akun Kelembagaan Zhihu" (Percobaan)
Kedua, konten di Zhihu biasanya asli atau disahkan oleh pengguna, dan hak cipta adalah milik pengguna itu sendiri. Perayapan yang tidak sah dan penggunaan konten ini mungkin melibatkan pelanggaran hak cipta dan kepenulisan Zhihu.
Faktanya, melatih model besar AI, "pencurian data" bukanlah kasus yang terisolasi. Bulan lalu, Komposisi Bishen secara terbuka menuduh Xueersi, mantan mitra, "mencuri data" melalui reptil untuk melatih produk AI-nya sendiri. Komposisi Bishen menyatakan akan menyelesaikan perselisihan melalui prosedur peradilan, mengharuskan "Xueersi" membayar kompensasi 1 yuan, membuat permintaan maaf publik, dan menghapus data yang dirayapi.
0****4Ringkasan
Dalam ledakan startup AI, data menjadi semakin penting. Ketika dihadapkan pada iming-iming teknologi bot, perlu disadari bahwa meskipun teknologi bot itu sendiri tidak dilarang, penggunaannya yang tidak tepat dapat menimbulkan masalah hukum, terutama terkait dengan informasi pribadi, privasi, hak cipta, dan persaingan tidak sehat.
"Langkah Sementara untuk Pengelolaan Layanan Kecerdasan Buatan Generatif" dengan jelas menyebutkan bahwa saat melatih aktivitas pemrosesan data, data dan model dasar dengan sumber legal harus digunakan. Dalam proses memulai bisnis, bos harus memastikan legalitas dan moralitas pendataan. Jika Anda ingin menggunakan data yang dirayapi untuk melatih model besar AI, Anda harus mendapatkan otorisasi dari sumber data terlebih dahulu dan mematuhi peraturan platform yang relevan.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Apakah legal bagi AIGC untuk menggunakan teknologi perayap untuk membuat robot GPT versi Zhihu?
Tahun ini, alat model skala besar kecerdasan buatan seperti lukisan GPT dan AI sedang populer, dan banyak orang juga ingin mengikuti gelombang kewirausahaan AI, dan proyek wirausaha terkait muncul tanpa henti. Data berkualitas tinggi sangat penting untuk pelatihan model AI besar. Hanya dengan data yang cukup alat AI yang cerdas dan kuat dapat dilatih. Internet negara saya telah booming selama lebih dari 20 tahun, tetapi apakah masih ada kekurangan data? Tidak, Pengacara Mankiw baru-baru ini menerima pertanyaan dari netizen tentang penggunaan perayap untuk merayapi data Zhihu. Bukankah bagus menjadi robot Zhihu GPT? Tunggu dulu, risiko hukum yang terlibat tidak bisa diabaikan.
0****1 Perayap adalah pedang bermata dua
Teknologi crawler adalah teknologi yang secara otomatis memperoleh data dari Internet melalui pemrograman. Namanya dengan jelas dan jelas menunjukkan prinsip kerjanya: untuk mensimulasikan proses penjelajahan manusia di web di browser web, dan untuk mengumpulkan dan mengambil data.
Perayap web banyak digunakan di mesin pencari, pengumpulan data, pemfilteran iklan, analisis data besar, dan bidang lainnya. Sebagai program pengumpulan informasi yang kuat, ini dapat meningkatkan efisiensi kerja secara signifikan, terutama untuk pengumpulan dan pengaturan data yang sangat besar.
Namun, begitu teknologi digunakan secara tidak benar, itu juga akan menyebabkan "bencana cacing", yang menyebabkan kemacetan jaringan, kerusakan, kelumpuhan server, dan bahkan risiko keamanan data. "Jaringan dokumen wasit" yang kita kenal tidak kebal:
Angka: Pada tahun 2019, Mahkamah Agung Rakyat mengeluarkan "Balasan atas Saran tentang Pembangunan Situs Web "Jaringan Dokumen Penghakiman Tiongkok""
0****2 Risiko penggunaan teknologi perayap
Perayap, sebagai sarana teknis untuk memperoleh data, tidak dilarang oleh hukum. Namun, cara penggunaan dan tujuan penggunaan menentukan apakah akan ada tindakan dan konsekuensi ilegal.
1. Penggunaan yang tidak benar
Dengan menggunakan teknologi perayap, sejumlah besar kunjungan ke situs web dapat dilakukan dalam waktu singkat, dan halaman serta data sering dirayapi. Hal ini dapat menyebabkan peningkatan tajam dalam bandwidth dan beban server situs web, sehingga memengaruhi operasi normal situs web, dan bahkan menyebabkan waktu henti atau respons lambat, mengganggu operasi normal situs web yang dikunjungi, dan dapat dianggap sebagai kejahatan dalam kasus yang parah.
Yang memberi wewenang kepada Zhang, seorang karyawan perusahaan, untuk mengembangkan perangkat lunak sistem kredit, dan fungsi "perayap web" dalam perangkat lunak tersebut dapat ditautkan ke situs web izin tinggal Shenzhen. Pada bulan Mei 2018, perangkat lunak menanyakan sejumlah besar kunjungan ke sistem izin tinggal Shenzhen selama dua jam berturut-turut, menyebabkan sistem izin tinggal Shenzhen gagal beroperasi secara normal, yang sangat memengaruhi operasi harian kantor manajemen kependudukan Publik Shenzhen. Biro Keamanan, yang menggunakan sistem izin tinggal. . Keduanya merupakan kejahatan sabotase sistem informasi komputer. [(2019) Guangdong 0305 Xingchu No.193]
2. Tujuan penggunaan yang tidak benar
Cara informasi dan data yang dirayapi digunakan memiliki dampak kualitatif yang lebih besar pada perilaku perayap daripada cara penggunaannya. **
Penggunaan ilegal atas data dan informasi yang dirayapi terutama meliputi:
**(1) Mencuri informasi pribadi: **Menggunakan teknologi perayap untuk menangkap informasi pribadi di situs web dengan maksud jahat dapat melibatkan pelanggaran privasi dan informasi pribadi orang lain, yang dapat secara serius merupakan kejahatan pelanggaran informasi pribadi warga negara.
**(2) Perilaku tidak pantas dalam persaingan komersial: **Gunakan teknologi perayap untuk mendapatkan rahasia dagang pesaing, informasi harga, data pengguna, dll., dan "berpindah" ke platform lain setelah integrasi data, dan mendapatkannya dengan cara yang nyaman ini Sejumlah besar data dan informasi berharga untuk mencari keunggulan kompetitif yang tidak adil.
Dalam kasus "Perselisihan Persaingan Tidak Sehat Kumike v. Chelai", pengadilan memutuskan bahwa, tanpa izin dari obligee, penggunaan teknologi perayap web untuk memasuki latar belakang server obligee diperoleh secara ilegal dan menggunakan bus real-time milik obligee data informasi gratis. Perilaku tersebut sebenarnya adalah semacam perilaku "mendapatkan sesuatu tanpa hasil" dan "mengkanibalisasi orang dan menjadi gemuk", dan itu memiliki pendudukan ilegal atas hak dan kepentingan properti tak berwujud orang lain, menghancurkan keunggulan kompetitif pasar orang lain , dan merupakan persaingan tidak sehat.
**(3) Pelanggaran hak kekayaan intelektual: ** Merayap konten berhak cipta dan kemudian menggunakannya untuk penyebaran publik yang tidak sah atau tujuan komersial adalah tindakan pelanggaran hak kekayaan intelektual.
0****3 Risiko data perayap "memberi makan" model besar
Melalui analisis sebelumnya, kita dapat melihat bahwa risiko penggunaan teknologi perayap terutama terletak pada metode perayapan dan konten yang dirayapi **Apakah itu untuk mengontrol frekuensi dan konten perayapan, perayapan konten publik, dan menggunakannya untuk melatih robot tidak ada Risiko itu?
Pertama-tama, sejak tahun 2018, akun resmi Zhihu merilis "Pengumuman tentang Peningkatan Perlindungan Hak Pengguna dan Kepentingan Zhihu", yang menyebutkan: **Zhihu mengadopsi sistem daftar putih untuk penggunaan konten Zhihu oleh pihak ketiga, dan pihak ketiga harus lulus Terapkan melalui saluran kerja sama resmi. **Jika perilaku perayapan melanggar persyaratan layanan Zhihu, Zhihu dapat melakukan pemblokiran akun, alamat IP, atau tindakan hukum lainnya.
Dikutip dari "Spesifikasi Penggunaan Akun Kelembagaan Zhihu" (Percobaan)
Kedua, konten di Zhihu biasanya asli atau disahkan oleh pengguna, dan hak cipta adalah milik pengguna itu sendiri. Perayapan yang tidak sah dan penggunaan konten ini mungkin melibatkan pelanggaran hak cipta dan kepenulisan Zhihu.
Faktanya, melatih model besar AI, "pencurian data" bukanlah kasus yang terisolasi. Bulan lalu, Komposisi Bishen secara terbuka menuduh Xueersi, mantan mitra, "mencuri data" melalui reptil untuk melatih produk AI-nya sendiri. Komposisi Bishen menyatakan akan menyelesaikan perselisihan melalui prosedur peradilan, mengharuskan "Xueersi" membayar kompensasi 1 yuan, membuat permintaan maaf publik, dan menghapus data yang dirayapi.
0****4 Ringkasan
Dalam ledakan startup AI, data menjadi semakin penting. Ketika dihadapkan pada iming-iming teknologi bot, perlu disadari bahwa meskipun teknologi bot itu sendiri tidak dilarang, penggunaannya yang tidak tepat dapat menimbulkan masalah hukum, terutama terkait dengan informasi pribadi, privasi, hak cipta, dan persaingan tidak sehat.
"Langkah Sementara untuk Pengelolaan Layanan Kecerdasan Buatan Generatif" dengan jelas menyebutkan bahwa saat melatih aktivitas pemrosesan data, data dan model dasar dengan sumber legal harus digunakan. Dalam proses memulai bisnis, bos harus memastikan legalitas dan moralitas pendataan. Jika Anda ingin menggunakan data yang dirayapi untuk melatih model besar AI, Anda harus mendapatkan otorisasi dari sumber data terlebih dahulu dan mematuhi peraturan platform yang relevan.