Năm nay, các công cụ mô hình quy mô lớn trí tuệ nhân tạo như GPT và vẽ tranh AI đang rất hot, và nhiều người cũng muốn đi theo làn sóng khởi nghiệp AI, và các dự án khởi nghiệp liên quan xuất hiện không ngừng. Dữ liệu chất lượng cao rất quan trọng đối với việc đào tạo các mô hình AI lớn. Chỉ khi có đủ dữ liệu, các công cụ AI thông minh và mạnh mẽ mới có thể được đào tạo. Internet của đất nước tôi đã bùng nổ hơn 20 năm, nhưng vẫn thiếu dữ liệu? Không, Luật sư Mankiw gần đây đã nhận được câu hỏi từ cư dân mạng về việc sử dụng trình thu thập thông tin để thu thập dữ liệu Zhihu, chẳng phải sẽ rất tuyệt nếu trở thành người máy Zhihu GPT sao? Đợi một chút, những rủi ro pháp lý liên quan không thể bỏ qua.
0****1Trình thu thập thông tin là con dao hai lưỡi
Công nghệ trình thu thập dữ liệu là công nghệ tự động lấy dữ liệu từ Internet thông qua lập trình. Cái tên của nó đã thể hiện rõ nét và sinh động nguyên lý hoạt động của nó: mô phỏng quá trình con người duyệt web trên trình duyệt web, đồng thời thu thập và lấy dữ liệu.
Trình thu thập dữ liệu web được sử dụng rộng rãi trong các công cụ tìm kiếm, thu thập dữ liệu, lọc quảng cáo, phân tích dữ liệu lớn và các lĩnh vực khác. Là một chương trình thu thập thông tin mạnh mẽ, nó có thể cải thiện đáng kể hiệu quả công việc, đặc biệt là đối với việc thu thập và sắp xếp dữ liệu lớn.
Tuy nhiên, một khi công nghệ được sử dụng không đúng cách, nó cũng sẽ gây ra “thảm họa sâu máy tính”, dẫn đến tắc nghẽn mạng, treo máy, tê liệt máy chủ và thậm chí là rủi ro bảo mật dữ liệu. "Mạng tài liệu trọng tài" mà chúng ta quen thuộc không tránh khỏi:
Hình: Năm 2019, Tòa án nhân dân tối cao đã ban hành “Trả lời góp ý xây dựng Trang thông tin điện tử “Mạng tài liệu phán quyết Trung Quốc””
0****2Rủi ro khi sử dụng công nghệ trình thu thập thông tin
Trình thu thập thông tin, như một phương tiện kỹ thuật để thu thập dữ liệu, không bị pháp luật cấm. Tuy nhiên, cách sử dụng và mục đích sử dụng quyết định liệu sẽ có hành vi và hậu quả trái pháp luật hay không.
1. Sử dụng không đúng cách
Sử dụng công nghệ trình thu thập thông tin, một số lượng lớn lượt truy cập vào trang web có thể được thực hiện trong một khoảng thời gian ngắn và các trang và dữ liệu thường xuyên được thu thập thông tin. Điều này có thể dẫn đến băng thông và tải máy chủ của trang web tăng mạnh, do đó ảnh hưởng đến hoạt động bình thường của trang web, thậm chí gây ra thời gian ngừng hoạt động hoặc phản hồi chậm, cản trở hoạt động bình thường của trang web được truy cập và trong trường hợp nghiêm trọng, nó có thể cấu thành tội phạm.
Yang ủy quyền cho Zhang, một nhân viên của công ty, phát triển phần mềm hệ thống tín dụng và chức năng "trình thu thập dữ liệu web" trong phần mềm có thể được liên kết với trang web giấy phép cư trú Thâm Quyến. Vào tháng 5 năm 2018, phần mềm đã truy vấn một số lượng lớn lượt truy cập vào hệ thống giấy phép cư trú Thâm Quyến trong hai giờ liên tục, khiến hệ thống giấy phép cư trú Thâm Quyến không hoạt động bình thường, điều này ảnh hưởng lớn đến hoạt động hàng ngày của văn phòng quản lý dân cư của Công cộng Thâm Quyến Cục An ninh, nơi sử dụng hệ thống giấy phép cư trú. . Cả hai đều cấu thành tội phá hoại hệ thống thông tin máy tính. [(2019) Quảng Đông 0305 Xingchu số 193]
2. Không đúng mục đích sử dụng
Cách thông tin và dữ liệu được thu thập thông tin được sử dụng có tác động định tính lớn hơn đối với hành vi của trình thu thập thông tin so với cách chúng được sử dụng. **
Việc sử dụng bất hợp pháp dữ liệu và thông tin được thu thập thông tin chủ yếu bao gồm:
**(1) Ăn cắp thông tin cá nhân: **Sử dụng công nghệ trình thu thập thông tin để thu thập thông tin cá nhân trên các trang web một cách ác ý có thể liên quan đến việc xâm phạm quyền riêng tư và thông tin cá nhân của người khác, điều này có thể cấu thành tội nghiêm trọng là xâm phạm thông tin cá nhân của công dân.
**(2) Hành vi không phù hợp trong cạnh tranh thương mại: **Sử dụng công nghệ trình thu thập thông tin để lấy bí mật thương mại, thông tin giá cả, dữ liệu người dùng, v.v. của đối thủ cạnh tranh và "di chuyển" sang các nền tảng khác sau khi tích hợp dữ liệu và lấy chúng theo cách thuận tiện này Một lượng lớn dữ liệu và thông tin có giá trị để tìm kiếm lợi thế cạnh tranh không lành mạnh.
Trong trường hợp "Tranh chấp cạnh tranh không lành mạnh Kumike v. Chelai", tòa án cho rằng, không có sự cho phép của bên có nghĩa vụ, việc sử dụng công nghệ trình thu thập dữ liệu web để vào nền máy chủ của bên có quyền đã lấy và sử dụng bất hợp pháp xe buýt thời gian thực của bên có quyền dữ liệu thông tin miễn phí. Hành vi này thực chất là một loại hành vi "được một cái gì đó không có gì" và "ăn thịt người để béo lên", và nó chiếm giữ bất hợp pháp quyền và lợi ích tài sản vô hình của người khác, phá hủy lợi thế cạnh tranh trên thị trường của người khác và cấu thành sự cạnh tranh không lành mạnh.
**(3) Vi phạm quyền sở hữu trí tuệ: **Thu thập nội dung có bản quyền và sau đó sử dụng nội dung đó để phổ biến công khai trái phép hoặc cho mục đích thương mại là hành vi xâm phạm quyền sở hữu trí tuệ.
0****3Nguy cơ dữ liệu của trình thu thập thông tin "cung cấp" các mô hình lớn
Qua phân tích trước, chúng ta có thể thấy rằng rủi ro khi sử dụng công nghệ thu thập thông tin chủ yếu nằm ở phương pháp thu thập thông tin và nội dung được thu thập thông tin. là không có gì Rủi ro nó?
Trước hết, vào đầu năm 2018, tài khoản chính thức của Zhihu đã phát hành "Thông báo về việc nâng cấp Bảo vệ quyền và lợi ích của người dùng Zhihu", trong đó đề cập: ** Zhihu áp dụng hệ thống danh sách trắng để bên thứ ba sử dụng nội dung Zhihu và các bên thứ ba cần thông qua Đăng ký thông qua các kênh hợp tác chính thức. **Nếu hành vi thu thập dữ liệu vi phạm điều khoản dịch vụ của Zhihu, Zhihu có thể thực hiện lệnh cấm tài khoản, địa chỉ IP hoặc các hành động pháp lý khác.
Trích từ "Thông số kỹ thuật cho việc sử dụng tài khoản tổ chức Zhihu" (Thử nghiệm)
Thứ hai, nội dung trên Zhihu thường là bản gốc hoặc được người dùng cho phép và bản quyền thuộc về chính người dùng. Việc thu thập dữ liệu trái phép và sử dụng những nội dung này có thể liên quan đến việc vi phạm bản quyền và quyền tác giả của Zhihu.
Trên thực tế, đào tạo AI mô hình lớn, "đánh cắp dữ liệu" không phải là trường hợp cá biệt. Tháng trước, Bishen Composition đã công khai cáo buộc Xueersi, một đối tác cũ, đã “đánh cắp dữ liệu” thông qua các loài bò sát để huấn luyện các sản phẩm AI của riêng mình. Bishen Composition tuyên bố rằng họ sẽ giải quyết tranh chấp thông qua các thủ tục tư pháp, yêu cầu "Xueersi" bồi thường 1 nhân dân tệ, xin lỗi công khai và xóa dữ liệu được thu thập.
0****4Tóm tắt
Trong thời kỳ bùng nổ startup AI, dữ liệu ngày càng trở nên quan trọng. Khi đối mặt với sự hấp dẫn của công nghệ bot, cần phải nhận ra rằng mặc dù bản thân công nghệ bot không bị cấm, nhưng việc sử dụng nó không phù hợp có thể dẫn đến các vấn đề pháp lý, đặc biệt là liên quan đến thông tin cá nhân, quyền riêng tư, bản quyền và cạnh tranh không lành mạnh.
"Các biện pháp tạm thời để quản lý các dịch vụ trí tuệ nhân tạo sáng tạo" đã đề cập rõ ràng rằng khi đào tạo các hoạt động xử lý dữ liệu, nên sử dụng dữ liệu và mô hình cơ bản có nguồn hợp pháp. Trong quá trình khởi nghiệp, các ông chủ phải đảm bảo tính hợp pháp và đạo đức của việc thu thập dữ liệu. Nếu bạn muốn sử dụng dữ liệu được thu thập thông tin để đào tạo các mô hình lớn AI, bạn phải xin phép trước từ nguồn dữ liệu và tuân thủ các quy định của nền tảng có liên quan.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Việc AIGC sử dụng công nghệ trình thu thập thông tin để xây dựng phiên bản Zhihu của rô-bốt GPT có hợp pháp không?
Năm nay, các công cụ mô hình quy mô lớn trí tuệ nhân tạo như GPT và vẽ tranh AI đang rất hot, và nhiều người cũng muốn đi theo làn sóng khởi nghiệp AI, và các dự án khởi nghiệp liên quan xuất hiện không ngừng. Dữ liệu chất lượng cao rất quan trọng đối với việc đào tạo các mô hình AI lớn. Chỉ khi có đủ dữ liệu, các công cụ AI thông minh và mạnh mẽ mới có thể được đào tạo. Internet của đất nước tôi đã bùng nổ hơn 20 năm, nhưng vẫn thiếu dữ liệu? Không, Luật sư Mankiw gần đây đã nhận được câu hỏi từ cư dân mạng về việc sử dụng trình thu thập thông tin để thu thập dữ liệu Zhihu, chẳng phải sẽ rất tuyệt nếu trở thành người máy Zhihu GPT sao? Đợi một chút, những rủi ro pháp lý liên quan không thể bỏ qua.
0****1 Trình thu thập thông tin là con dao hai lưỡi
Công nghệ trình thu thập dữ liệu là công nghệ tự động lấy dữ liệu từ Internet thông qua lập trình. Cái tên của nó đã thể hiện rõ nét và sinh động nguyên lý hoạt động của nó: mô phỏng quá trình con người duyệt web trên trình duyệt web, đồng thời thu thập và lấy dữ liệu.
Trình thu thập dữ liệu web được sử dụng rộng rãi trong các công cụ tìm kiếm, thu thập dữ liệu, lọc quảng cáo, phân tích dữ liệu lớn và các lĩnh vực khác. Là một chương trình thu thập thông tin mạnh mẽ, nó có thể cải thiện đáng kể hiệu quả công việc, đặc biệt là đối với việc thu thập và sắp xếp dữ liệu lớn.
Tuy nhiên, một khi công nghệ được sử dụng không đúng cách, nó cũng sẽ gây ra “thảm họa sâu máy tính”, dẫn đến tắc nghẽn mạng, treo máy, tê liệt máy chủ và thậm chí là rủi ro bảo mật dữ liệu. "Mạng tài liệu trọng tài" mà chúng ta quen thuộc không tránh khỏi:
Hình: Năm 2019, Tòa án nhân dân tối cao đã ban hành “Trả lời góp ý xây dựng Trang thông tin điện tử “Mạng tài liệu phán quyết Trung Quốc””
0****2 Rủi ro khi sử dụng công nghệ trình thu thập thông tin
Trình thu thập thông tin, như một phương tiện kỹ thuật để thu thập dữ liệu, không bị pháp luật cấm. Tuy nhiên, cách sử dụng và mục đích sử dụng quyết định liệu sẽ có hành vi và hậu quả trái pháp luật hay không.
1. Sử dụng không đúng cách
Sử dụng công nghệ trình thu thập thông tin, một số lượng lớn lượt truy cập vào trang web có thể được thực hiện trong một khoảng thời gian ngắn và các trang và dữ liệu thường xuyên được thu thập thông tin. Điều này có thể dẫn đến băng thông và tải máy chủ của trang web tăng mạnh, do đó ảnh hưởng đến hoạt động bình thường của trang web, thậm chí gây ra thời gian ngừng hoạt động hoặc phản hồi chậm, cản trở hoạt động bình thường của trang web được truy cập và trong trường hợp nghiêm trọng, nó có thể cấu thành tội phạm.
Yang ủy quyền cho Zhang, một nhân viên của công ty, phát triển phần mềm hệ thống tín dụng và chức năng "trình thu thập dữ liệu web" trong phần mềm có thể được liên kết với trang web giấy phép cư trú Thâm Quyến. Vào tháng 5 năm 2018, phần mềm đã truy vấn một số lượng lớn lượt truy cập vào hệ thống giấy phép cư trú Thâm Quyến trong hai giờ liên tục, khiến hệ thống giấy phép cư trú Thâm Quyến không hoạt động bình thường, điều này ảnh hưởng lớn đến hoạt động hàng ngày của văn phòng quản lý dân cư của Công cộng Thâm Quyến Cục An ninh, nơi sử dụng hệ thống giấy phép cư trú. . Cả hai đều cấu thành tội phá hoại hệ thống thông tin máy tính. [(2019) Quảng Đông 0305 Xingchu số 193]
2. Không đúng mục đích sử dụng
Cách thông tin và dữ liệu được thu thập thông tin được sử dụng có tác động định tính lớn hơn đối với hành vi của trình thu thập thông tin so với cách chúng được sử dụng. **
Việc sử dụng bất hợp pháp dữ liệu và thông tin được thu thập thông tin chủ yếu bao gồm:
**(1) Ăn cắp thông tin cá nhân: **Sử dụng công nghệ trình thu thập thông tin để thu thập thông tin cá nhân trên các trang web một cách ác ý có thể liên quan đến việc xâm phạm quyền riêng tư và thông tin cá nhân của người khác, điều này có thể cấu thành tội nghiêm trọng là xâm phạm thông tin cá nhân của công dân.
**(2) Hành vi không phù hợp trong cạnh tranh thương mại: **Sử dụng công nghệ trình thu thập thông tin để lấy bí mật thương mại, thông tin giá cả, dữ liệu người dùng, v.v. của đối thủ cạnh tranh và "di chuyển" sang các nền tảng khác sau khi tích hợp dữ liệu và lấy chúng theo cách thuận tiện này Một lượng lớn dữ liệu và thông tin có giá trị để tìm kiếm lợi thế cạnh tranh không lành mạnh.
Trong trường hợp "Tranh chấp cạnh tranh không lành mạnh Kumike v. Chelai", tòa án cho rằng, không có sự cho phép của bên có nghĩa vụ, việc sử dụng công nghệ trình thu thập dữ liệu web để vào nền máy chủ của bên có quyền đã lấy và sử dụng bất hợp pháp xe buýt thời gian thực của bên có quyền dữ liệu thông tin miễn phí. Hành vi này thực chất là một loại hành vi "được một cái gì đó không có gì" và "ăn thịt người để béo lên", và nó chiếm giữ bất hợp pháp quyền và lợi ích tài sản vô hình của người khác, phá hủy lợi thế cạnh tranh trên thị trường của người khác và cấu thành sự cạnh tranh không lành mạnh.
**(3) Vi phạm quyền sở hữu trí tuệ: **Thu thập nội dung có bản quyền và sau đó sử dụng nội dung đó để phổ biến công khai trái phép hoặc cho mục đích thương mại là hành vi xâm phạm quyền sở hữu trí tuệ.
0****3 Nguy cơ dữ liệu của trình thu thập thông tin "cung cấp" các mô hình lớn
Qua phân tích trước, chúng ta có thể thấy rằng rủi ro khi sử dụng công nghệ thu thập thông tin chủ yếu nằm ở phương pháp thu thập thông tin và nội dung được thu thập thông tin. là không có gì Rủi ro nó?
Trước hết, vào đầu năm 2018, tài khoản chính thức của Zhihu đã phát hành "Thông báo về việc nâng cấp Bảo vệ quyền và lợi ích của người dùng Zhihu", trong đó đề cập: ** Zhihu áp dụng hệ thống danh sách trắng để bên thứ ba sử dụng nội dung Zhihu và các bên thứ ba cần thông qua Đăng ký thông qua các kênh hợp tác chính thức. **Nếu hành vi thu thập dữ liệu vi phạm điều khoản dịch vụ của Zhihu, Zhihu có thể thực hiện lệnh cấm tài khoản, địa chỉ IP hoặc các hành động pháp lý khác.
Trích từ "Thông số kỹ thuật cho việc sử dụng tài khoản tổ chức Zhihu" (Thử nghiệm)
Thứ hai, nội dung trên Zhihu thường là bản gốc hoặc được người dùng cho phép và bản quyền thuộc về chính người dùng. Việc thu thập dữ liệu trái phép và sử dụng những nội dung này có thể liên quan đến việc vi phạm bản quyền và quyền tác giả của Zhihu.
Trên thực tế, đào tạo AI mô hình lớn, "đánh cắp dữ liệu" không phải là trường hợp cá biệt. Tháng trước, Bishen Composition đã công khai cáo buộc Xueersi, một đối tác cũ, đã “đánh cắp dữ liệu” thông qua các loài bò sát để huấn luyện các sản phẩm AI của riêng mình. Bishen Composition tuyên bố rằng họ sẽ giải quyết tranh chấp thông qua các thủ tục tư pháp, yêu cầu "Xueersi" bồi thường 1 nhân dân tệ, xin lỗi công khai và xóa dữ liệu được thu thập.
0****4 Tóm tắt
Trong thời kỳ bùng nổ startup AI, dữ liệu ngày càng trở nên quan trọng. Khi đối mặt với sự hấp dẫn của công nghệ bot, cần phải nhận ra rằng mặc dù bản thân công nghệ bot không bị cấm, nhưng việc sử dụng nó không phù hợp có thể dẫn đến các vấn đề pháp lý, đặc biệt là liên quan đến thông tin cá nhân, quyền riêng tư, bản quyền và cạnh tranh không lành mạnh.
"Các biện pháp tạm thời để quản lý các dịch vụ trí tuệ nhân tạo sáng tạo" đã đề cập rõ ràng rằng khi đào tạo các hoạt động xử lý dữ liệu, nên sử dụng dữ liệu và mô hình cơ bản có nguồn hợp pháp. Trong quá trình khởi nghiệp, các ông chủ phải đảm bảo tính hợp pháp và đạo đức của việc thu thập dữ liệu. Nếu bạn muốn sử dụng dữ liệu được thu thập thông tin để đào tạo các mô hình lớn AI, bạn phải xin phép trước từ nguồn dữ liệu và tuân thủ các quy định của nền tảng có liên quan.