En ateşli büyük dil modellerinin hepsi "saçmalığı" sever. "İlüzyon" sorunu en kötü kimde var?

Question

Kaynak: Wall Street HaberleriYazar: Du YuNew York merkezli bir yapay zeka girişimi ve makine öğrenimi izleme platformu olan Arthur AI, Microsoft destekli OpenAI, Metaverse Meta, Google destekli Anthropic ve Nvidia destekli nesilleri karşılaştıran en son araştırma raporunu 17 Ağustos Perşembe günü yayınladı. AI unicorn Cohere gibi şirketlerden "halüsinasyon" (AKA saçmalığı) için büyük dil modelleri (LLM'ler).Arthur AI, endüstri liderlerinin ve diğer açık kaynaklı LLM modellerinin güçlü ve zayıf yönlerini sıralamak için "Üretken AI Test Değerlendirmesi" olarak adlandırılan yukarıda bahsedilen araştırma programını düzenli olarak günceller.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e8960ee839-dd1a6f-1c6801) En son testler OpenAI'den GPT-3.5 (175 milyar parametre içerir) ve GPT-4'ü (1,76 trilyon parametre), Anthropic'ten Claude-2'yi (parametreler bilinmiyor), Meta'dan Llama-2'yi (70 milyar parametre) ve Command'ı (50) seçti. Milyar parametre) ve bu en iyi LLM modelleri hakkında hem niceliksel hem de niteliksel olarak zorlayıcı sorular sorun."Yapay Zeka Modeli Halüsinasyon Testi"nde araştırmacılar, kombinatorik, ABD başkanları ve Faslı siyasi liderler gibi çeşitli kategorilerde farklı LLM modellerinin verdiği yanıtları incelediler. Bilgiler hakkında birden fazla akıl yürütme adımı gerekiyor."**Çalışma, genel olarak, OpenAI'nin GPT-4'ünün test edilen tüm modeller arasında en iyi performansı gösterdiğini** ve önceki sürüm olan GPT-3.5'ten daha az "halüsinasyon" sorunu ürettiğini, örneğin matematik problemi kategorisinde halüsinasyonların %33 oranında azaldığını buldu. %50'ye kadar.Aynı zamanda, Meta'nın Llama-2'si test edilen beş modelin ortasında performans gösterdi ve Anthropic'in Claude-2'si ikinci, yalnızca GPT-4'ün ardından ikinci oldu. Ve Cohere'in LLM modeli, "saçmalama" ve "kendinden emin bir şekilde yanlış cevaplar verme" konusunda en yetenekli modeldir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fcdd9d4271-dd1a6f-1c6801) Spesifik olarak, karmaşık matematik problemlerinde GPT-4 birinci sırada, ardından Claude-2; ABD başkanı sorusunda Claude-2'nin doğruluğu birinci sırada ve GPT-4 birinci sırada İkinci; Fas siyasi sorularında GPT -4, Claude-2 ve Llama 2'nin bu tür soruları yanıtlamamayı neredeyse tamamen seçmesiyle en üst noktaya geri döndü.Araştırmacılar ayrıca, AI modellerinin riskten kaçınmak için alakasız uyarı ifadeleriyle yanıtlarını ne ölçüde "koruyacağını" test etti, "Bir AI modeli olarak, bir görüş sağlayamıyorum" gibi yaygın ifadeler.GPT-4, GPT-3.5'e kıyasla riskten korunma uyarılarında %50 göreli bir artışa sahipti ve raporda "kullanıcıların GPT-4 ile bahsettiği daha sinir bozucu deneyimi ölçtüğü" belirtiliyor. Ve Cohere'in AI modeli, yukarıdaki üç problemde hiçbir koruma sağlamaz.Buna karşılık, Anthropic'in Claude-2'si, "öz farkındalık", neyi bilip neyi bilmediğini doğru bir şekilde ölçme ve yalnızca eğitim verileriyle desteklenen soruları yanıtlama becerisi açısından en güveniliriydi.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8c9b0c9094-dd1a6f-1c6801) Arthur AI'nın kurucu ortağı ve CEO'su Adam Wenchel, bunun sektördeki "yapay zeka modellerinde halüsinasyon insidansını kapsamlı bir şekilde anlayan" ilk rapor olduğuna ve sıralamayı göstermek için yalnızca tek bir veri sağlamadığına dikkat çekti. farklı LLM'lerin:> "Kullanıcılar ve işletmeler için bu tür testlerden elde edilen en önemli çıkarım, tam iş yüklerini test edebilmenizdir ve LLM'nin başarmak istediğiniz şeyi nasıl gerçekleştirdiğini anlamanız çok önemlidir. Önceki LLM tabanlı metriklerin çoğu gerçekte oldukları gibi değildir. yaşam biçimi kullanılıyor."Yukarıda bahsedilen araştırma raporunun yayınlandığı gün, Arthur Company ayrıca çeşitli LLM'lerin performansını ve doğruluğunu değerlendirmek ve karşılaştırmak için kullanılabilen açık kaynaklı bir AI modeli değerlendirme aracı olan Arthur Bench'i piyasaya sürdü. Amaç, İşletmelerin yapay zekayı benimserken bilinçli kararlar almasına yardımcı olmaktır."AI halüsinasyonları" (halüsinasyonlar), tamamen bilgi üreten ve kullanıcının hızlı sorularına yanıt olarak gerçekleri söylüyormuş gibi görünen sohbet robotlarını ifade eder.Google, üretken AI sohbet robotu Bard için Şubat ayında yayınlanan bir tanıtım videosunda James Webb Uzay Teleskobu hakkında gerçek dışı açıklamalar yaptı. Haziran ayında ChatGPT, New York federal mahkemesindeki bir dosyada "sahte" bir dava olduğunu ve dosyaya dahil olan avukatların yaptırımlarla karşı karşıya kalabileceğini belirtti.OpenAI araştırmacıları, Haziran ayı başlarında, "AI illüzyonuna" bir çözüm bulduklarını, yani AI modelini, sadece doğru olana kadar beklemekle kalmayıp, cevabı çıkarırken her doğru adım için kendi kendini ödüllendirecek şekilde eğittiklerini bildirdi. Nihai sonuç çıkarsanır Sadece ödüllendirilir. Bu "süreç denetimi" stratejisi, yapay zeka modellerini daha insan benzeri bir "düşünme" yöntemiyle akıl yürütmeye teşvik edecektir.OpenAI raporda şunları kabul etti:> "Son teknoloji yapay zeka modelleri bile yalan üretmeye yatkındır ve belirsizlik anlarında gerçekleri uydurma eğilimi gösterirler. Bu halüsinasyonlar, özellikle tek bir mantıksal hatanın olduğu çok adımlı akıl yürütme gerektiren alanlarda sorunludur. daha Büyük bir çözümü yok etmek için yeterli olabilir."Yatırım kralı Soros da Haziran ayında bir köşe yazısı yayınlayarak yapay zekanın şu anda dünyanın karşı karşıya olduğu çoklu krizi en fazla ağırlaştırabileceğini söyledi.Nedenlerden biri de yapay zeka yanılsamasının ciddi sonuçları:> "Yapay zeka bu basit modeli yok eder (Wall Street notlar: doğruyu yanlıştan ayırmak için gerçekleri kullanmak) çünkü bunun gerçeklikle kesinlikle hiçbir ilgisi yoktur. Yapay gerçeklik gerçek dünyayla örtüşmediğinde yapay zeka kendi gerçekliğini yaratır (bu genellikle olur) ), AI yanılsaması yaratılır.> Bu beni neredeyse içgüdüsel olarak yapay zekaya karşı yapıyor ve yapay zekanın düzenlenmesi gerektiği konusunda uzmanlara tamamen katılıyorum. Ancak yapay zeka düzenlemeleri küresel olarak uygulanmalıdır çünkü hile yapma dürtüsü çok fazladır ve düzenlemelerden kaçanlar haksız bir avantaj elde edecektir. Ne yazık ki, küresel düzenleme söz konusu değil.> Yapay zeka o kadar hızlı gelişiyor ki sıradan insan zekasının onu tam olarak anlaması imkansız. Kimse bizi nereye götüreceğini tahmin edemez. ...bu yüzden içgüdüsel olarak yapay zekaya karşıyım ama onu nasıl durduracağımı bilmiyorum.> 2024'te ABD'de ve muhtemelen Birleşik Krallık'ta yapılacak bir başkanlık seçimiyle, yapay zeka hiç şüphesiz tehlikeli olmaktan başka bir şey olmayacak önemli bir rol oynayacaktır.> AI, dezenformasyon ve derin sahtekarlıklar yaratmada çok iyidir ve birçok kötü niyetli aktör olacaktır. Bunun hakkında ne yapabiliriz? cevabım yok "Daha önce "yapay zekanın vaftiz babası" olarak kabul edilen ve Google'dan ayrılan Geoffrey Hinton, kamuoyu önünde birçok kez yapay zekanın getirdiği ve hatta insan uygarlığını yok edebilecek riskleri eleştirmiş ve "yapay zekanın yalnızca 5'i geçebileceğini" öngörmüştü. 20 yılda insan zekası."