“Chúng ta nguy hiểm hơn hay an toàn hơn trong thời đại Internet?”
Năm 2016, khi Internet đang phát triển với tốc độ chóng mặt, những nhân vật lớn và hai dòng khẩu hiệu này thường xuyên xuất hiện trong các quảng cáo thang máy, từ virus, Trojan đến lừa đảo trực tuyến, tư duy về bảo mật và thiết lập các công nghệ phòng chống an ninh đang chạy đua với nhau. sự phát triển của khoa học và công nghệ. Tương tự như vậy, những ngày đầu của kỷ nguyên mô hình lớn cũng làm nảy sinh nhiều vấn đề cần cân nhắc về an ninh.
Mười năm sau khi phát minh ra Internet, công nghệ bảo vệ Internet và chuỗi công nghiệp bắt đầu được hoàn thiện, dựa trên kinh nghiệm của vài thập kỷ qua, chưa đầy nửa năm sau khi mô hình lớn ra đời, xung quanh mô hình bảo mật và dữ liệu các cuộc thảo luận về bảo mật nội dung, bảo mật đã diễn ra vô tận.
Trong tuần qua, tại Hội nghị Bến Thượng Hải, Diễn đàn đổi mới Pujiang, Tuần lễ An ninh mạng quốc gia và các dịp khác, cộng đồng ngành, học viện và nghiên cứu đã tập trung vào các vấn đề bảo mật dữ liệu (bao gồm ngộ độc dữ liệu, rò rỉ thông tin, rủi ro bản quyền, v.v. .) do triển khai các ứng dụng mô hình lớn, mô hình. Một loạt các cuộc thảo luận đã được tổ chức về các vấn đề bảo mật (lỗ hổng bảo mật trong chính mô hình, khai thác độc hại, v.v.), các vấn đề bảo mật nội dung (nội dung được tạo ra có chứa thông tin nhạy cảm như vi phạm, bất hợp pháp , nội dung khiêu dâm, v.v.), vấn đề đạo đức AI, v.v.
Làm thế nào để bảo vệ các mô hình lớn?
Một số nhà sản xuất bảo mật trong nước như 360, Ant, Sangfor, Qi'anxin, Shanshi Technology, v.v., đang tích cực phát triển các công nghệ bảo mật mô hình lớn.
##Người mẫu cỡ lớn cần "bác sĩ" và "vệ sĩ"
Sự ra đời của một mô hình lớn như một loài mới đòi hỏi phải có sự giám sát an toàn trong quá trình huấn luyện, khi mô hình lớn cuối cùng được đưa ra thị trường, nó cũng cần được "kiểm tra chất lượng", sau khi kiểm tra chất lượng, nó sẽ được đưa vào thị trường và cần được được sử dụng theo cách có thể kiểm soát được. Đây là tất cả Đó là một cách tiếp cận vĩ mô để giải quyết các vấn đề bảo mật.
Cho dù đó là mô hình lớn nói chung hay mô hình lớn của ngành dành cho các lĩnh vực dọc, hiện tại, bảo vệ an ninh mô hình chủ yếu được chia thành ba phần:
Đầu tiên là vấn đề dữ liệu trong giai đoạn huấn luyện: nếu dữ liệu được thu thập không đúng cách, sai lệch hoặc dán nhãn sai hoặc dữ liệu bị nhiễm độc, nó có thể khiến mô hình lớn tạo ra kết quả sai, phân biệt đối xử hoặc các tác động tiêu cực khác. dữ liệu cũng sẽ bị ảnh hưởng trong quá trình đăng ký, đối mặt với các rủi ro như rò rỉ dữ liệu, lộ thông tin riêng tư;
Thứ hai là vấn đề về khả năng kiểm soát của chính mô hình: cần phải kiểm tra độ tin cậy, tính ổn định, độ bền, v.v. của mô hình.Ví dụ: người dùng trước đây đã xây dựng các tuyên bố có mục tiêu để tạo ra mô hình và các mô hình lớn có thể tạo ra thông tin gian lận , phân biệt đối xử và chính trị. Xu hướng và nội dung rủi ro khác;
Thứ ba là vấn đề bảo mật khi ứng dụng mô hình lớn trong các tình huống thực tế: Trong quá trình sử dụng thực tế, sự tương tác, ứng dụng của các nhóm người dùng khác nhau cần được đánh giá cẩn thận, đặc biệt trong các lĩnh vực như tài chính, y tế, vốn có yêu cầu cực kỳ cao về Nếu sử dụng không đúng cách, một viên đá có thể dễ dàng gây ra hàng nghìn đợt sóng.
Nhiều người trong ngành nói với Quangcone Intelligence: "An toàn của mô hình đòi hỏi một hệ thống bảo vệ kỹ thuật tích hợp và việc chỉ kiểm soát một liên kết không thể giải quyết được vấn đề cơ bản."
Nhắc đến con đường phát triển của bảo mật Internet, nhiều công ty phần mềm “phát hiện và diệt virus” đã ra đời, nói chung việc phát hiện và định vị vấn đề thường là bước đầu tiên.
Light Cone Intelligence biết được rằng “Yitianjian” của Ant bao gồm nền tảng phát hiện bảo mật mô hình lớn “Yitianjian 2.0” và nền tảng phòng chống rủi ro mô hình lớn “Tianjian”, bao gồm toàn bộ chuỗi từ phát hiện, quản trị đến phòng thủ. Antjian 2.0 có thể thực hiện quét bảo mật đa chiều trên các mô hình lớn để kiểm tra các rủi ro bảo mật dữ liệu hiện có, các điểm rủi ro nội dung và các vấn đề khác. Nó tương đương với việc đứng dưới góc độ “ngành công nghiệp đen” và sử dụng công nghệ tấn công và đối đầu thông minh để tự động tạo ra hàng triệu câu hỏi quy nạp, tiến hành các câu hỏi và câu trả lời quy nạp trên mô hình sinh sản lớn, đồng thời tìm ra điểm yếu, sơ hở của mô hình lớn .
Từ góc độ kỹ thuật, Yijian áp dụng lộ trình công nghệ "trí thông minh đối thủ" mới nhất, sử dụng công nghệ đối thủ thông minh để liên tục "đặt câu hỏi" cho các mô hình lớn, quan sát các câu trả lời do mô hình tạo ra và xác định xem có rủi ro hay không. Thông qua việc "tra tấn" liên tục, giống như việc bác sĩ hỏi nhiều lần về các triệu chứng của bệnh nhân, nền tảng có thể thẩm vấn và phân tích tình trạng sức khỏe của mô hình lớn.
Nó đã trở thành xu hướng công nghệ chủ đạo nhằm cải thiện tính bảo mật của các mô hình lớn bằng cách tạo ra các mẫu đối nghịch và phát triển hệ thống thuật toán để phát hiện các mẫu đối nghịch. Trong ngành, các công ty khổng lồ như OpenAI, Google, Microsoft và NVIDIA đã áp dụng công nghệ phản gián vào các sản phẩm và dịch vụ của họ.
Ví dụ, theo ý tưởng kỹ thuật này, hệ thống CleverHans do Đại học Toronto phát triển giống như một "kẻ trộm" được thiết kế đặc biệt để thử nghiệm hệ thống chống trộm, nó sẽ cố tình thêm một số can thiệp nhỏ để cố gắng đánh lừa hệ thống an ninh AI. . Trong trường hợp bình thường, hệ thống AI có thể xác định chính xác hình ảnh của một "mèo con", nhưng hệ thống CleverHan phải sửa đổi một chút một vài pixel trên hình ảnh của một "mèo con" để tạo cho AI ảo tưởng rằng đó là hình ảnh của một con chó con. Nếu hệ thống AI bị đánh lừa thì có nghĩa là có lỗ hổng bảo mật.
So với việc phát hiện và “chẩn đoán” thì “phòng ngừa và điều trị” cũng rất quan trọng. Ant Tianjian giống như một tấm khiên thông minh có thể ngăn chặn các vấn đề trước khi chúng xảy ra. Bằng cách phân tích một cách thông minh ý định đặt câu hỏi để phòng vệ của người dùng, Tianjian có thể chặn một số câu hỏi độc hại cố gắng khiến mô hình tạo ra nội dung nhạy cảm, đảm bảo rằng cảm ứng độc hại bên ngoài không thể được đưa vào mô hình lớn. Đồng thời, quá trình lọc thứ cấp được triển khai trên nội dung đầu ra của mô hình để tự động xác định thông tin rủi ro và can thiệp nhằm đảm bảo nội dung đầu ra của mô hình lớn tuân thủ các thông số kỹ thuật.
Quan trọng hơn, vấn đề dữ liệu chính là nguồn gốc của bảo mật mô hình.Shi Lin, giám đốc Viện Điện toán đám mây và Dữ liệu lớn của Học viện Công nghệ Thông tin và Truyền thông Trung Quốc, từng chia sẻ tại một cuộc họp trao đổi học thuật: “Nhiều nhà cung cấp bảo mật hiện đã áp dụng các biện pháp bảo mật, bao gồm Chúng tôi sẽ thực hiện một số thao tác làm sạch dữ liệu đào tạo, lọc nội dung đầu vào và đầu ra, đồng thời thực hiện các biện pháp kiểm soát và phòng ngừa bảo mật như giám sát và nhận dạng.”
Điều này đòi hỏi nền tảng phòng thủ phải hành động ngay tại nguồn dữ liệu để giải quyết các vấn đề như nguồn dữ liệu độc hại và hộp đen độ sâu mô hình không thể kiểm soát được. Zhu Huijia, giám đốc thuật toán nội dung của Bộ phận thông minh máy bảo mật lớn của Ant Group, cho biết Tianjian hiện đang cố gắng đảm bảo an ninh cho mô hình thông qua việc giải độc dữ liệu, đào tạo căn chỉnh và nghiên cứu khả năng diễn giải.
Dùng phép thuật để đánh bại phép thuật, AI để chống lại AI
Đặc điểm nội dung trong thế giới số và thế giới dưới mắt con người là khác nhau.
Với sự ra đời của kỷ nguyên mô hình lớn, khả năng mạnh mẽ của nó cũng mang đến những ý tưởng mới cho việc chuyển đổi công nghệ bảo vệ an ninh. “Sử dụng sức mạnh của AI để chống lại AI” đã trở thành một chủ đề nóng.
Trên thực tế, các ý tưởng tấn công và phòng thủ đối nghịch không chỉ dành riêng cho mô hình bảo mật. Ngay từ thập kỷ trước, trước nhiều mối đe dọa an ninh khác nhau, lĩnh vực trí tuệ nhân tạo đã dần hình thành khái niệm bảo mật “tấn công, kiểm tra và phòng thủ - tấn công để thúc đẩy phòng thủ - tấn công và tích hợp phòng thủ”, và tiếp tục khám phá bằng cách Các điểm yếu trong mô hình và hệ thống được sử dụng để thúc đẩy việc tăng cường khả năng phòng thủ về mặt thuật toán và kỹ thuật.
Tuy nhiên, trước đây, việc bảo vệ an ninh chủ yếu dựa vào các mô hình thuật toán học máy, đòi hỏi phải tích lũy một lượng lớn kiến thức dữ liệu chuyên nghiệp, đồng thời phải đối mặt với các vấn đề về điểm mù kiến thức và khởi động nguội không kịp thời của các mẫu nhỏ. Sử dụng công nghệ mô hình lớn, có thể đạt được khả năng kiểm soát và ngăn chặn an ninh thông minh hơn.
Điều này được phản ánh ở một số khía cạnh. Đầu tiên, các mô hình lớn có thể cung cấp các “nhà tư vấn” bảo mật thông minh. Các mô hình lớn được đào tạo trước dựa trên các văn bản lớn có thể trở thành “nhà tư vấn” xuất sắc và đề xuất các chiến lược phân tích và phòng thủ phù hợp. Ví dụ: thông qua mô tả ngôn ngữ tự nhiên đơn giản, tình hình bảo mật có thể được phân tích nhanh chóng, có thể đưa ra đề xuất về các biện pháp đối phó và đội ngũ bảo mật có thể được hỗ trợ trong việc lập kế hoạch giải pháp. Điều này tương tự như một "trợ lý nhỏ" bảo mật thông minh.
Đánh giá từ tình hình hiện tại trong ngành, vẫn còn thiếu một bộ công cụ và quy tắc đánh giá được tiêu chuẩn hóa và dễ sử dụng về cách đánh giá mức độ an toàn của AI.
Đây cũng là một khía cạnh khác có thể được bổ sung trong phòng thủ mô hình lớn, nó sử dụng công nghệ mô hình lớn để tìm hiểu kiến thức về rủi ro và các quy tắc tiêu chuẩn nhằm cải thiện nhận thức của AI về rủi ro, nhằm đạt được khả năng phòng thủ cực nhanh và khởi động nguội nhanh chóng bằng cách sử dụng các mô hình lớn chống lại. mô hình lớn.mục tiêu của.
Bảo mật mô hình lớn yêu cầu cả "nhanh" và "chậm", hai logic này không mâu thuẫn nhau. Về mặt bảo vệ an ninh mô hình lớn, chúng ta cần phải “nhanh” và có thể nhanh chóng phát hiện và tiêu diệt vi-rút để đảm bảo rằng dịch vụ không có chất độc, bao gồm một số biện pháp phòng vệ chính như “giải độc dữ liệu”, “lan can an toàn” và "Phát hiện rủi ro AIGC". Về mặt bảo mật và độ tin cậy của các mô hình lớn, chúng ta cần phải "chậm" và đảm bảo khả năng kiểm soát và độ tin cậy của toàn bộ môi trường hệ thống một cách lâu dài và có hệ thống, bao gồm cả "đánh giá bảo mật" , "giải cấu trúc và khả năng kiểm soát", "Đồng quản lý xã hội loài người" và các khía cạnh khác.
Lấy bảo mật văn bản làm ví dụ, các mô hình lớn có thể được đào tạo dựa trên các quy tắc tiêu chuẩn bảo mật, kiến thức về miền rủi ro và các mẫu rủi ro lịch sử để nâng cao hiểu biết của mô hình về các tiêu chuẩn và nội dung rủi ro, từ đó cải thiện khả năng phát hiện rủi ro. Nó cũng sử dụng khả năng tạo mô hình lớn kết hợp với biểu đồ kiến thức bảo mật để xây dựng các mẫu tấn công và liên tục tối ưu hóa mô hình phát hiện.
Một chuyên gia bảo mật cho biết: “So với các mẫu hạn chế được thu thập thủ công, số lượng mẫu khổng lồ và đa dạng do các mô hình lớn tạo ra sẽ giúp mô hình phát hiện bảo mật ‘có đầy đủ thông tin’ và thích ứng với các phương thức đe dọa mới nhanh hơn”.
Công nghệ này cũng đã được Ant sử dụng để phát hiện nội dung AIGC. Zhu Huijia đã đề cập: "Tính năng phát hiện giả mạo sâu của AIGC cũng áp dụng ý tưởng tấn công, thử nghiệm và phòng thủ, đồng thời sử dụng tấn công để thúc đẩy phòng thủ. Nó tạo ra thông qua các phương pháp khác nhau, phong cách khác nhau và mô hình thế hệ khác nhau, đồng thời thiết lập gần hàng chục hàng triệu dữ liệu giả mạo sâu để đào tạo mô hình. Nhanh chóng phân biệt xem nội dung được tạo bằng máy hay được tạo nhân tạo, từ đó đạt được mô hình phát hiện có tính tổng quát và mạnh mẽ hơn.”
Để đối phó với những vấn đề do AIGC gây ra trong quá trình áp dụng, một số công ty hàng đầu trên thế giới đã bắt đầu lên kế hoạch.
OpenAI trước đây đã tuyên bố rằng họ đang xem xét bổ sung công nghệ hình mờ kỹ thuật số vào ChatGPT để giảm tác động tiêu cực của việc lạm dụng mô hình; Google tuyên bố tại hội nghị nhà phát triển năm nay rằng họ sẽ đảm bảo rằng mọi hình ảnh do AI tạo ra của công ty đều có hình mờ được nhúng; năm nay Đầu tháng 1, Nvidia cũng tung ra phần mềm có tên FakeCatcher để tìm hiểu xem các khuôn mặt trong video có phải là deepfake hay không.
Nhìn lại lịch sử phát triển của Internet, sự hỗn loạn và phát triển chóng mặt thường là “anh em song sinh”, sau khi công nghiệp hóa an ninh mạng trưởng thành, Internet mới thực sự mở ra ứng dụng trăm hoa.
Tương tự, bảo mật mô hình không chỉ là nhiệm vụ của một nhà sản xuất bảo mật mà chỉ khi công nghệ bảo mật tạo thành một hàng rào đáng tin cậy thì công nghệ mô hình lớn mới thực sự “bay vào nhà người dân bình thường”.
"Các mô hình lớn là những vấn đề rất phức tạp. Sự phức tạp về đạo đức, dữ liệu, đào tạo và các lĩnh vực khác là chưa từng có. Đây là một lĩnh vực mới và là một đề xuất trước mọi người. 'Yitianjian' của Ant từ góc độ bảo mật mô hình lớn. Chúng tôi đã thực hiện một số khám phá về Nó, nhưng vẫn còn nhiều vấn đề cần nghiên cứu và giải quyết, chẳng hạn như tính xác thực và chính xác của các câu trả lời. Nó cũng cần được lặp đi lặp lại và cải tiến liên tục, đồng thời cần sự nỗ lực chung của toàn xã hội. " Zhu Huijia cuối cùng cũng nói.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Đấu tranh với AI bằng AI, “lý thuyết tiến hóa” của bảo mật mô hình lớn
Tin nhắn丨Liu Yuqi
Biên tập viên|Wang Yisu
Nguồn丨Light Cone Intelligence
“Chúng ta nguy hiểm hơn hay an toàn hơn trong thời đại Internet?”
Năm 2016, khi Internet đang phát triển với tốc độ chóng mặt, những nhân vật lớn và hai dòng khẩu hiệu này thường xuyên xuất hiện trong các quảng cáo thang máy, từ virus, Trojan đến lừa đảo trực tuyến, tư duy về bảo mật và thiết lập các công nghệ phòng chống an ninh đang chạy đua với nhau. sự phát triển của khoa học và công nghệ. Tương tự như vậy, những ngày đầu của kỷ nguyên mô hình lớn cũng làm nảy sinh nhiều vấn đề cần cân nhắc về an ninh.
Mười năm sau khi phát minh ra Internet, công nghệ bảo vệ Internet và chuỗi công nghiệp bắt đầu được hoàn thiện, dựa trên kinh nghiệm của vài thập kỷ qua, chưa đầy nửa năm sau khi mô hình lớn ra đời, xung quanh mô hình bảo mật và dữ liệu các cuộc thảo luận về bảo mật nội dung, bảo mật đã diễn ra vô tận.
Trong tuần qua, tại Hội nghị Bến Thượng Hải, Diễn đàn đổi mới Pujiang, Tuần lễ An ninh mạng quốc gia và các dịp khác, cộng đồng ngành, học viện và nghiên cứu đã tập trung vào các vấn đề bảo mật dữ liệu (bao gồm ngộ độc dữ liệu, rò rỉ thông tin, rủi ro bản quyền, v.v. .) do triển khai các ứng dụng mô hình lớn, mô hình. Một loạt các cuộc thảo luận đã được tổ chức về các vấn đề bảo mật (lỗ hổng bảo mật trong chính mô hình, khai thác độc hại, v.v.), các vấn đề bảo mật nội dung (nội dung được tạo ra có chứa thông tin nhạy cảm như vi phạm, bất hợp pháp , nội dung khiêu dâm, v.v.), vấn đề đạo đức AI, v.v.
Làm thế nào để bảo vệ các mô hình lớn?
Một số nhà sản xuất bảo mật trong nước như 360, Ant, Sangfor, Qi'anxin, Shanshi Technology, v.v., đang tích cực phát triển các công nghệ bảo mật mô hình lớn.
##Người mẫu cỡ lớn cần "bác sĩ" và "vệ sĩ"
Sự ra đời của một mô hình lớn như một loài mới đòi hỏi phải có sự giám sát an toàn trong quá trình huấn luyện, khi mô hình lớn cuối cùng được đưa ra thị trường, nó cũng cần được "kiểm tra chất lượng", sau khi kiểm tra chất lượng, nó sẽ được đưa vào thị trường và cần được được sử dụng theo cách có thể kiểm soát được. Đây là tất cả Đó là một cách tiếp cận vĩ mô để giải quyết các vấn đề bảo mật.
Cho dù đó là mô hình lớn nói chung hay mô hình lớn của ngành dành cho các lĩnh vực dọc, hiện tại, bảo vệ an ninh mô hình chủ yếu được chia thành ba phần:
Thứ hai là vấn đề về khả năng kiểm soát của chính mô hình: cần phải kiểm tra độ tin cậy, tính ổn định, độ bền, v.v. của mô hình.Ví dụ: người dùng trước đây đã xây dựng các tuyên bố có mục tiêu để tạo ra mô hình và các mô hình lớn có thể tạo ra thông tin gian lận , phân biệt đối xử và chính trị. Xu hướng và nội dung rủi ro khác;
Thứ ba là vấn đề bảo mật khi ứng dụng mô hình lớn trong các tình huống thực tế: Trong quá trình sử dụng thực tế, sự tương tác, ứng dụng của các nhóm người dùng khác nhau cần được đánh giá cẩn thận, đặc biệt trong các lĩnh vực như tài chính, y tế, vốn có yêu cầu cực kỳ cao về Nếu sử dụng không đúng cách, một viên đá có thể dễ dàng gây ra hàng nghìn đợt sóng.
Nhiều người trong ngành nói với Quangcone Intelligence: "An toàn của mô hình đòi hỏi một hệ thống bảo vệ kỹ thuật tích hợp và việc chỉ kiểm soát một liên kết không thể giải quyết được vấn đề cơ bản."
Nhắc đến con đường phát triển của bảo mật Internet, nhiều công ty phần mềm “phát hiện và diệt virus” đã ra đời, nói chung việc phát hiện và định vị vấn đề thường là bước đầu tiên.
Light Cone Intelligence biết được rằng “Yitianjian” của Ant bao gồm nền tảng phát hiện bảo mật mô hình lớn “Yitianjian 2.0” và nền tảng phòng chống rủi ro mô hình lớn “Tianjian”, bao gồm toàn bộ chuỗi từ phát hiện, quản trị đến phòng thủ. Antjian 2.0 có thể thực hiện quét bảo mật đa chiều trên các mô hình lớn để kiểm tra các rủi ro bảo mật dữ liệu hiện có, các điểm rủi ro nội dung và các vấn đề khác. Nó tương đương với việc đứng dưới góc độ “ngành công nghiệp đen” và sử dụng công nghệ tấn công và đối đầu thông minh để tự động tạo ra hàng triệu câu hỏi quy nạp, tiến hành các câu hỏi và câu trả lời quy nạp trên mô hình sinh sản lớn, đồng thời tìm ra điểm yếu, sơ hở của mô hình lớn .
Từ góc độ kỹ thuật, Yijian áp dụng lộ trình công nghệ "trí thông minh đối thủ" mới nhất, sử dụng công nghệ đối thủ thông minh để liên tục "đặt câu hỏi" cho các mô hình lớn, quan sát các câu trả lời do mô hình tạo ra và xác định xem có rủi ro hay không. Thông qua việc "tra tấn" liên tục, giống như việc bác sĩ hỏi nhiều lần về các triệu chứng của bệnh nhân, nền tảng có thể thẩm vấn và phân tích tình trạng sức khỏe của mô hình lớn.
Nó đã trở thành xu hướng công nghệ chủ đạo nhằm cải thiện tính bảo mật của các mô hình lớn bằng cách tạo ra các mẫu đối nghịch và phát triển hệ thống thuật toán để phát hiện các mẫu đối nghịch. Trong ngành, các công ty khổng lồ như OpenAI, Google, Microsoft và NVIDIA đã áp dụng công nghệ phản gián vào các sản phẩm và dịch vụ của họ.
Ví dụ, theo ý tưởng kỹ thuật này, hệ thống CleverHans do Đại học Toronto phát triển giống như một "kẻ trộm" được thiết kế đặc biệt để thử nghiệm hệ thống chống trộm, nó sẽ cố tình thêm một số can thiệp nhỏ để cố gắng đánh lừa hệ thống an ninh AI. . Trong trường hợp bình thường, hệ thống AI có thể xác định chính xác hình ảnh của một "mèo con", nhưng hệ thống CleverHan phải sửa đổi một chút một vài pixel trên hình ảnh của một "mèo con" để tạo cho AI ảo tưởng rằng đó là hình ảnh của một con chó con. Nếu hệ thống AI bị đánh lừa thì có nghĩa là có lỗ hổng bảo mật.
Quan trọng hơn, vấn đề dữ liệu chính là nguồn gốc của bảo mật mô hình.Shi Lin, giám đốc Viện Điện toán đám mây và Dữ liệu lớn của Học viện Công nghệ Thông tin và Truyền thông Trung Quốc, từng chia sẻ tại một cuộc họp trao đổi học thuật: “Nhiều nhà cung cấp bảo mật hiện đã áp dụng các biện pháp bảo mật, bao gồm Chúng tôi sẽ thực hiện một số thao tác làm sạch dữ liệu đào tạo, lọc nội dung đầu vào và đầu ra, đồng thời thực hiện các biện pháp kiểm soát và phòng ngừa bảo mật như giám sát và nhận dạng.”
Điều này đòi hỏi nền tảng phòng thủ phải hành động ngay tại nguồn dữ liệu để giải quyết các vấn đề như nguồn dữ liệu độc hại và hộp đen độ sâu mô hình không thể kiểm soát được. Zhu Huijia, giám đốc thuật toán nội dung của Bộ phận thông minh máy bảo mật lớn của Ant Group, cho biết Tianjian hiện đang cố gắng đảm bảo an ninh cho mô hình thông qua việc giải độc dữ liệu, đào tạo căn chỉnh và nghiên cứu khả năng diễn giải.
Dùng phép thuật để đánh bại phép thuật, AI để chống lại AI
Đặc điểm nội dung trong thế giới số và thế giới dưới mắt con người là khác nhau.
Với sự ra đời của kỷ nguyên mô hình lớn, khả năng mạnh mẽ của nó cũng mang đến những ý tưởng mới cho việc chuyển đổi công nghệ bảo vệ an ninh. “Sử dụng sức mạnh của AI để chống lại AI” đã trở thành một chủ đề nóng.
Trên thực tế, các ý tưởng tấn công và phòng thủ đối nghịch không chỉ dành riêng cho mô hình bảo mật. Ngay từ thập kỷ trước, trước nhiều mối đe dọa an ninh khác nhau, lĩnh vực trí tuệ nhân tạo đã dần hình thành khái niệm bảo mật “tấn công, kiểm tra và phòng thủ - tấn công để thúc đẩy phòng thủ - tấn công và tích hợp phòng thủ”, và tiếp tục khám phá bằng cách Các điểm yếu trong mô hình và hệ thống được sử dụng để thúc đẩy việc tăng cường khả năng phòng thủ về mặt thuật toán và kỹ thuật.
Tuy nhiên, trước đây, việc bảo vệ an ninh chủ yếu dựa vào các mô hình thuật toán học máy, đòi hỏi phải tích lũy một lượng lớn kiến thức dữ liệu chuyên nghiệp, đồng thời phải đối mặt với các vấn đề về điểm mù kiến thức và khởi động nguội không kịp thời của các mẫu nhỏ. Sử dụng công nghệ mô hình lớn, có thể đạt được khả năng kiểm soát và ngăn chặn an ninh thông minh hơn.
Điều này được phản ánh ở một số khía cạnh. Đầu tiên, các mô hình lớn có thể cung cấp các “nhà tư vấn” bảo mật thông minh. Các mô hình lớn được đào tạo trước dựa trên các văn bản lớn có thể trở thành “nhà tư vấn” xuất sắc và đề xuất các chiến lược phân tích và phòng thủ phù hợp. Ví dụ: thông qua mô tả ngôn ngữ tự nhiên đơn giản, tình hình bảo mật có thể được phân tích nhanh chóng, có thể đưa ra đề xuất về các biện pháp đối phó và đội ngũ bảo mật có thể được hỗ trợ trong việc lập kế hoạch giải pháp. Điều này tương tự như một "trợ lý nhỏ" bảo mật thông minh.
Đánh giá từ tình hình hiện tại trong ngành, vẫn còn thiếu một bộ công cụ và quy tắc đánh giá được tiêu chuẩn hóa và dễ sử dụng về cách đánh giá mức độ an toàn của AI.
Đây cũng là một khía cạnh khác có thể được bổ sung trong phòng thủ mô hình lớn, nó sử dụng công nghệ mô hình lớn để tìm hiểu kiến thức về rủi ro và các quy tắc tiêu chuẩn nhằm cải thiện nhận thức của AI về rủi ro, nhằm đạt được khả năng phòng thủ cực nhanh và khởi động nguội nhanh chóng bằng cách sử dụng các mô hình lớn chống lại. mô hình lớn.mục tiêu của.
Lấy bảo mật văn bản làm ví dụ, các mô hình lớn có thể được đào tạo dựa trên các quy tắc tiêu chuẩn bảo mật, kiến thức về miền rủi ro và các mẫu rủi ro lịch sử để nâng cao hiểu biết của mô hình về các tiêu chuẩn và nội dung rủi ro, từ đó cải thiện khả năng phát hiện rủi ro. Nó cũng sử dụng khả năng tạo mô hình lớn kết hợp với biểu đồ kiến thức bảo mật để xây dựng các mẫu tấn công và liên tục tối ưu hóa mô hình phát hiện.
Một chuyên gia bảo mật cho biết: “So với các mẫu hạn chế được thu thập thủ công, số lượng mẫu khổng lồ và đa dạng do các mô hình lớn tạo ra sẽ giúp mô hình phát hiện bảo mật ‘có đầy đủ thông tin’ và thích ứng với các phương thức đe dọa mới nhanh hơn”.
Công nghệ này cũng đã được Ant sử dụng để phát hiện nội dung AIGC. Zhu Huijia đã đề cập: "Tính năng phát hiện giả mạo sâu của AIGC cũng áp dụng ý tưởng tấn công, thử nghiệm và phòng thủ, đồng thời sử dụng tấn công để thúc đẩy phòng thủ. Nó tạo ra thông qua các phương pháp khác nhau, phong cách khác nhau và mô hình thế hệ khác nhau, đồng thời thiết lập gần hàng chục hàng triệu dữ liệu giả mạo sâu để đào tạo mô hình. Nhanh chóng phân biệt xem nội dung được tạo bằng máy hay được tạo nhân tạo, từ đó đạt được mô hình phát hiện có tính tổng quát và mạnh mẽ hơn.”
Để đối phó với những vấn đề do AIGC gây ra trong quá trình áp dụng, một số công ty hàng đầu trên thế giới đã bắt đầu lên kế hoạch.
OpenAI trước đây đã tuyên bố rằng họ đang xem xét bổ sung công nghệ hình mờ kỹ thuật số vào ChatGPT để giảm tác động tiêu cực của việc lạm dụng mô hình; Google tuyên bố tại hội nghị nhà phát triển năm nay rằng họ sẽ đảm bảo rằng mọi hình ảnh do AI tạo ra của công ty đều có hình mờ được nhúng; năm nay Đầu tháng 1, Nvidia cũng tung ra phần mềm có tên FakeCatcher để tìm hiểu xem các khuôn mặt trong video có phải là deepfake hay không.
Nhìn lại lịch sử phát triển của Internet, sự hỗn loạn và phát triển chóng mặt thường là “anh em song sinh”, sau khi công nghiệp hóa an ninh mạng trưởng thành, Internet mới thực sự mở ra ứng dụng trăm hoa.
Tương tự, bảo mật mô hình không chỉ là nhiệm vụ của một nhà sản xuất bảo mật mà chỉ khi công nghệ bảo mật tạo thành một hàng rào đáng tin cậy thì công nghệ mô hình lớn mới thực sự “bay vào nhà người dân bình thường”.
"Các mô hình lớn là những vấn đề rất phức tạp. Sự phức tạp về đạo đức, dữ liệu, đào tạo và các lĩnh vực khác là chưa từng có. Đây là một lĩnh vực mới và là một đề xuất trước mọi người. 'Yitianjian' của Ant từ góc độ bảo mật mô hình lớn. Chúng tôi đã thực hiện một số khám phá về Nó, nhưng vẫn còn nhiều vấn đề cần nghiên cứu và giải quyết, chẳng hạn như tính xác thực và chính xác của các câu trả lời. Nó cũng cần được lặp đi lặp lại và cải tiến liên tục, đồng thời cần sự nỗ lực chung của toàn xã hội. " Zhu Huijia cuối cùng cũng nói.