محاربة الذكاء الاصطناعي بالذكاء الاصطناعي، "نظرية التطور" لأمن النماذج الكبيرة

** نص 丨 ليو يوكي **

المحرر|وانغ ييسو

** المصدر 丨 ** ذكاء مخروط الضوء

"هل نحن أكثر خطورة أم أكثر أمانا في عصر الإنترنت؟"

في عام 2016، عندما كان الإنترنت يتطور بوتيرة سريعة، غالبًا ما ظهرت هذه الشخصيات الكبيرة وسطرين من الشعارات في إعلانات المصاعد. من الفيروسات وأحصنة طروادة إلى الاحتيال عبر الإنترنت، كان التفكير الأمني وإنشاء تقنيات الوقاية الأمنية يتسابق ضد تطور العلوم والتكنولوجيا. وبالمثل، أدت الأيام الأولى لعصر النماذج الكبيرة أيضًا إلى ظهور العديد من الاعتبارات الأمنية.

بعد مرور عشر سنوات على اختراع الإنترنت، بدأ اكتمال تكنولوجيا حماية الإنترنت والسلسلة الصناعية، واستنادا إلى تجربة العقود القليلة الماضية، في أقل من نصف عام بعد ميلاد النموذج الكبير، حول أمن النماذج والبيانات الأمان، والمناقشات المتعلقة بأمن المحتوى لا نهاية لها.

في الأسبوع الماضي، في مؤتمر شنغهاي بوند، ومنتدى بوجيانغ للابتكار، والأسبوع الوطني للأمن السيبراني وغيرها من المناسبات، ركزت الصناعة والأوساط الأكاديمية والمجتمعات البحثية على قضايا أمن البيانات (بما في ذلك تسميم البيانات، وتسرب المعلومات، ومخاطر حقوق النشر، وما إلى ذلك). .) بسبب تنفيذ تطبيقات النماذج الكبيرة، تم إجراء سلسلة من المناقشات حول المشكلات الأمنية (الثغرات الأمنية في النموذج نفسه، والاستغلال الضار، وما إلى ذلك)، وقضايا أمان المحتوى (المحتوى المُنشأ الذي يحتوي على معلومات حساسة مثل الانتهاكات، وعدم الشرعية والمواد الإباحية، وما إلى ذلك)، وقضايا أخلاقيات الذكاء الاصطناعي، وما إلى ذلك.

كيفية حماية النماذج الكبيرة؟

تعمل بعض الشركات المصنعة للأمن المحلي، مثل 360 وAnt وSangfor وQi’anxin وShanshi Technology وما إلى ذلك، على تطوير تقنيات الأمان ذات النماذج الكبيرة.

الموديلات الكبيرة تحتاج إلى "طبيب" و"حارس شخصي"

إن ولادة نموذج كبير كنوع جديد يتطلب مراقبة السلامة أثناء عملية التدريب، وعندما يتم طرح النموذج الكبير أخيرًا في السوق، فإنه يحتاج أيضًا إلى "فحص الجودة"، وبعد فحص الجودة، يدخل السوق ويحتاج إلى يتم استخدامه بطريقة يمكن التحكم فيها، وهذا كل ما في الأمر أنه نهج كلي لحل المشكلات الأمنية.

سواء كان نموذجًا كبيرًا عامًا أو نموذجًا صناعيًا كبيرًا للحقول الرأسية، حاليًا، تنقسم الحماية الأمنية النموذجية بشكل أساسي إلى ثلاثة أجزاء:

الأول هو مشكلة البيانات في مرحلة التدريب: إذا تم جمع البيانات بشكل غير صحيح، أو تم تحيزها أو تصنيفها بشكل خاطئ، أو تم تسميم البيانات، فقد يتسبب ذلك في إنتاج النموذج الكبير لمخرجات خاطئة أو تمييز أو آثار سلبية أخرى. وفي الوقت نفسه، ستتأثر البيانات أيضًا أثناء عملية تقديم الطلب، ومواجهة المخاطر مثل تسرب البيانات وتعرض الخصوصية؛

والثاني هو مشكلة إمكانية التحكم في النموذج نفسه: حيث يلزم اختبار موثوقية النموذج واستقراره ومتانته وما إلى ذلك. على سبيل المثال، قام المستخدمون في السابق ببناء بيانات مستهدفة لتحفيز النموذج، وقد تنتج النماذج الكبيرة معلومات عن طريق الاحتيال. والتمييز والسياسة.الاتجاه ومحتويات المخاطر الأخرى؛

والثالث هو المسألة الأمنية لتطبيق النماذج الكبيرة في السيناريوهات الفعلية: أثناء الاستخدام الفعلي، يجب تقييم التفاعلات والتطبيقات الخاصة بمجموعات المستخدمين المختلفة بعناية، خاصة في مجالات مثل التمويل والرعاية الطبية، والتي لها متطلبات عالية للغاية على صحة مخرجات النموذج: إذا تم استخدامه بشكل غير صحيح، يمكن لحجر واحد أن يسبب آلاف الموجات بسهولة.

صرح العديد من المطلعين على الصناعة لشركة Guangcone Intelligence: "تتطلب سلامة النماذج نظام حماية فني متكامل، ولا يمكن للتحكم في رابط واحد وحده أن يحل المشكلة الأساسية."

بالإشارة إلى مسار تطوير أمن الإنترنت، تم إنشاء العديد من شركات برمجيات "الكشف عن الفيروسات وقتلها"، وبشكل عام، غالبًا ما يكون اكتشاف المشكلات وتحديد موقعها هو الخطوة الأولى.

وعلمت شركة Light Cone Intelligence أن "Yitianjian" الخاص بشركة Ant يشتمل على منصة الكشف الأمني ذات النموذج الكبير "Yitianjian 2.0" ومنصة الدفاع عن المخاطر ذات النموذج الكبير "Tianjian"، التي تغطي السلسلة بأكملها من الكشف إلى الحوكمة إلى الدفاع. يمكن لـ Antjian 2.0 إجراء عمليات فحص أمنية متعددة الأبعاد على النماذج الكبيرة للتحقق من مخاطر أمان البيانات الحالية ونقاط خطر المحتوى وغيرها من المشكلات. وهو يعادل الوقوف بمنظور "الصناعة السوداء" واستخدام تقنية الهجوم والمواجهة الذكية لتوليد ملايين الأسئلة الاستقرائية تلقائيًا، وإجراء الأسئلة والأجوبة الاستقرائية على النموذج التوليدي الكبير، ومعرفة نقاط الضعف والثغرات في النموذج الكبير .

من منظور تقني، يتبنى Yijian أحدث مسار تكنولوجيا "الذكاء العدائي"، باستخدام تقنية الخصومة الذكية "لطرح الأسئلة" بشكل مستمر على النماذج الكبيرة، ومراقبة الإجابات التي يولدها النموذج، وتحديد ما إذا كانت هناك مخاطر. من خلال "التعذيب" المستمر، تمامًا مثل سؤال الطبيب عن أعراض المريض عدة مرات، يمكن للمنصة استجواب وتحليل الحالة الصحية للنموذج الكبير.

لقد أصبح الاتجاه التكنولوجي السائد هو تحسين أمان النماذج الكبيرة من خلال إنشاء عينات عدائية وتطوير أنظمة خوارزمية لاكتشاف العينات المتعارضة. وفي الصناعة، قامت شركات عملاقة مثل OpenAI، وGoogle، وMicrosoft، وNVIDIA بتطبيق تكنولوجيا مكافحة التجسس على منتجاتها وخدماتها.

على سبيل المثال، في ظل هذه الفكرة التقنية، فإن نظام CleverHans الذي طورته جامعة تورونتو يشبه "اللص" المصمم خصيصًا لاختبار نظام مكافحة السرقة، حيث سيتعمد إضافة بعض التداخلات الصغيرة لمحاولة خداع نظام أمان الذكاء الاصطناعي . في الظروف العادية، يمكن لنظام الذكاء الاصطناعي التعرف بدقة على صورة "القطة الصغيرة"، ولكن يتعين على نظام CleverHan تعديل بعض البكسلات قليلاً على صورة "القطة الصغيرة" لإعطاء الذكاء الاصطناعي الوهم بأن إنها صورة جرو. إذا تم خداع نظام الذكاء الاصطناعي، فهذا يعني وجود ثغرة أمنية.

بالمقارنة مع الكشف و"التشخيص"، فإن "الوقاية والعلاج" مهمان جدًا أيضًا. يشبه Ant Tianjian الدرع الذكي الذي يمكنه منع المشاكل قبل حدوثها. من خلال التحليل الذكي لنية المستخدمين لطرح أسئلة للدفاع، يمكن لـ Tianjian اعتراض بعض الأسئلة الضارة التي تحاول حث النموذج على إنشاء محتوى حساس، مما يضمن عدم إمكانية إدخال الحث الخبيث الخارجي في النموذج الكبير. وفي الوقت نفسه، يتم تنفيذ التصفية الثانوية على محتوى مخرجات النموذج لتحديد معلومات المخاطر تلقائيًا والتدخل للتأكد من أن محتوى مخرجات النموذج الكبير يتوافق مع المواصفات.

والأهم من ذلك، أن قضايا البيانات هي مصدر أمن النماذج. قال شي لين، مدير معهد الحوسبة السحابية والبيانات الضخمة التابع للأكاديمية الصينية لتكنولوجيا المعلومات والاتصالات، ذات مرة في اجتماع تبادل أكاديمي: "لقد اعتمد العديد من موردي الأمن الآن التدابير الأمنية، بما في ذلك سنقوم ببعض تنظيف بيانات التدريب، وتصفية محتوى المدخلات والمخرجات، وكذلك اتخاذ تدابير الوقاية والسيطرة الأمنية مثل المراقبة وتحديد الهوية.

يتطلب ذلك أن تعمل منصة الدفاع عند مصدر البيانات لمعالجة مشكلات مثل مصادر البيانات السامة والمربعات السوداء لعمق النموذج التي لا يمكن التحكم فيها. قال Zhu Huijia، مدير خوارزمية المحتوى في قسم استخبارات الآلات الأمنية الكبيرة في Ant Group، إن Tianjian تحاول حاليًا ضمان أمان النموذج من خلال إزالة السموم من البيانات، والتدريب على المحاذاة، وأبحاث قابلية التفسير.

استخدم السحر لهزيمة السحر، والذكاء الاصطناعي لمحاربة الذكاء الاصطناعي

تختلف خصائص المحتوى في العالم الرقمي والعالم بالعين البشرية.

ومع ظهور عصر النماذج الكبيرة، قدمت قدراتها القوية أيضًا أفكارًا جديدة لتحويل تكنولوجيا الحماية الأمنية. أصبح "استخدام قوة الذكاء الاصطناعي لمحاربة الذكاء الاصطناعي" موضوعًا ساخنًا.

في الواقع، لا تقتصر أفكار الهجوم والدفاع على نموذج الأمن. في وقت مبكر من العقد الماضي، وفي مواجهة التهديدات الأمنية المختلفة، شكل مجال الذكاء الاصطناعي تدريجيًا المفهوم الأمني المتمثل في "الهجوم والاختبار والدفاع - الهجوم لتعزيز الدفاع - الهجوم والتكامل الدفاعي".من خلال محاكاة سيناريوهات الهجوم المختلفة ، نواصل استكشاف نقاط الضعف في النماذج والأنظمة المستخدمة لتعزيز تعزيز القدرات الدفاعية في الجانب الخوارزمي والهندسي.

ومع ذلك، في الماضي، كانت الحماية الأمنية تعتمد بشكل أساسي على نماذج خوارزمية التعلم الآلي، الأمر الذي يتطلب تراكم كمية كبيرة من المعرفة المهنية بالبيانات، وواجهت مشاكل النقاط العمياء للمعرفة والبدء البارد غير المناسب للعينات الصغيرة. باستخدام تكنولوجيا النماذج الكبيرة، يمكن تحقيق المزيد من الوقاية والسيطرة الأمنية الذكية.

وينعكس هذا في عدة جوانب. أولاً، يمكن للنماذج الكبيرة أن توفر "استشاريين" أمنيين أذكياء. يمكن للنماذج الكبيرة التي تم تدريبها مسبقًا استنادًا إلى النصوص الضخمة أن تصبح "استشاريين" ممتازين وتقترح استراتيجيات التحليل والدفاع المناسبة. على سبيل المثال، من خلال الوصف البسيط باللغة الطبيعية، يمكن تحليل الوضع الأمني بسرعة، ويمكن تقديم اقتراحات للتدابير المضادة، ويمكن مساعدة فريق الأمان في تخطيط الحلول. وهذا مشابه لـ "المساعد الصغير" للأمان الذكي.

انطلاقًا من الوضع الحالي في الصناعة، لا يزال هناك نقص في مجموعة من أدوات وقواعد التقييم سهلة الاستخدام والموحدة لكيفية تقييم سلامة الذكاء الاصطناعي.

وهذا أيضًا جانب آخر يمكن استكماله في الدفاع عن النماذج الكبيرة، فهو يستخدم تقنية النماذج الكبيرة لتعلم معرفة المخاطر والقواعد القياسية لتحسين الفهم المعرفي للذكاء الاصطناعي للمخاطر، وذلك لتحقيق دفاع سريع للغاية وبداية باردة سريعة باستخدام نماذج كبيرة ضد نماذج كبيرة.الهدف من.

يتطلب أمان النماذج الكبيرة كلا المنطقين "السريع" و"البطيء"، وهذان المنطقان ليسا متعارضين. فيما يتعلق بالدفاع الأمني النموذجي الكبير، نحتاج إلى أن نكون "سريعين" وأن نكون قادرين على اكتشاف الفيروسات وقتلها بسرعة للتأكد من أن الخدمة خالية من السموم. يتضمن ذلك العديد من الدفاعات الرئيسية مثل "إزالة السموم من البيانات"، و"حواجز الحماية الآمنة" "و" اكتشاف مخاطر AIGC ". فيما يتعلق بأمان وموثوقية النماذج الكبيرة، نحتاج إلى أن نكون "بطيئين" ونضمن إمكانية التحكم والموثوقية في بيئة النظام بأكملها بطريقة منهجية وطويلة المدى. وهذا يشمل "التقييم الأمني". و"التفكيك والسيطرة" و"الحكم المشترك للمجتمع البشري" وجوانب أخرى.

وبأخذ أمان النص كمثال، يمكن تدريب النماذج الكبيرة بناءً على قواعد معايير الأمان ومعرفة مجال المخاطر وعينات المخاطر التاريخية لتحسين فهم النموذج لمعايير المخاطر والمحتوى، وبالتالي تحسين قدرات اكتشاف المخاطر. كما أنه يستخدم إمكانات كبيرة لإنشاء النماذج جنبًا إلى جنب مع الرسوم البيانية للمعرفة الأمنية لإنشاء عينات الهجوم وتحسين نموذج الكشف بشكل متكرر بشكل مستمر.

وقال أحد الخبراء الأمنيين: "مقارنة بالعينات المحدودة التي تم جمعها يدويًا، فإن العينات الضخمة والمتنوعة التي تم إنشاؤها بواسطة النماذج الكبيرة ستجعل نموذج الكشف الأمني "مستنيرًا جيدًا" ويتكيف مع أساليب التهديد الجديدة بشكل أسرع".

تم استخدام هذه التقنية أيضًا بواسطة Ant في الكشف عن محتوى AIGC. ذكر Zhu Huijia: "يعتمد اكتشاف التزوير العميق لـ AIGC أيضًا فكرة الهجوم والاختبار والدفاع، واستخدام الهجوم لتعزيز الدفاع. إنه يولد من خلال أساليب مختلفة وأنماط مختلفة ونماذج أجيال مختلفة، وينشئ ما يقرب من عشرات من "الملايين من بيانات التزوير العميقة لتدريب النموذج. التمييز بسرعة ما إذا كان المحتوى تم إنشاؤه آليًا أو تم إنشاؤه بشكل مصطنع، وبالتالي تحقيق نموذج كشف يتمتع بتعميم وقوة أفضل. "

استجابة للمشاكل التي سببتها AIGC أثناء تطبيقها، بدأت بعض الشركات الرائدة في العالم في وضع الخطط.

ذكرت OpenAI سابقًا أنها تدرس إضافة تقنية العلامة المائية الرقمية إلى ChatGPT لتقليل التأثير السلبي لإساءة استخدام النموذج؛ وذكرت Google في مؤتمر المطورين لهذا العام أنها ستضمن أن كل صورة تم إنشاؤها بواسطة الذكاء الاصطناعي للشركة تحتوي على علامة مائية مدمجة؛ هذا العام وفي أوائل شهر يناير، أصدرت Nvidia أيضًا برنامجًا يسمى FakeCatcher لمعرفة ما إذا كانت الوجوه الموجودة في الفيديو مزيفة أم لا.

إذا نظرنا إلى تاريخ تطور الإنترنت، فغالبًا ما تكون الفوضى والتطور السريع "أخوين توأمان"، وبعد نضوج تصنيع أمن الشبكات، بدأت الإنترنت حقًا في تطبيق مائة زهرة.

وبالمثل، فإن نموذج الأمان ليس مجرد مهمة شركة تصنيع أمنية واحدة، ولكن فقط عندما تشكل تكنولوجيا الأمان سياجًا موثوقًا به، يمكن لتكنولوجيا النماذج الكبيرة حقًا أن "تطير إلى منازل الأشخاص العاديين".

"النماذج الكبيرة هي قضايا معقدة للغاية. إن تعقيد الأخلاقيات والبيانات والتدريب والمجالات الأخرى غير مسبوق. إنه مجال جديد واقتراح أمام الجميع. "Yitianjian" من Ant من منظور أمان النماذج الكبيرة لقد قمنا ببعض الاستكشافات حول قال Zhu Huijia أخيرًا: "هذا هو الحل، ولكن لا تزال هناك العديد من المشكلات التي يتعين البحث عنها وحلها، مثل صحة الإجابات ودقتها. كما أنها تحتاج إلى التكرار والتحسين المستمر، وتتطلب الجهود المشتركة للمجتمع بأكمله. "

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت