Görsel kaynağı: Unbounded AI tarafından oluşturuldu
AI daha iyi olacaksa, daha az kaynakla daha fazlasını yapması gerekecek.
Amerika Birleşik Devletleri'ndeki popüler sohbet robotlarını yönlendiren temel güç olan OpenAI'nin GPT'si (Generative Pre-trained Transformer) gibi "Büyük Dil Modelleri"nden (LLM'ler) bahsetmişken, isim her şeyi söylüyor. Bu tür modern AI sistemleri, biyolojik beyinlerin işleyişini geniş bir şekilde taklit eden geniş yapay sinir ağları tarafından desteklenmektedir. 2020'de piyasaya sürülen GPT-3, nöronlar arasındaki simüle edilmiş bağlantıların adı olan 175 milyar "parametre" ile büyük bir dil modeli canavarıdır. GPT-3, tahmini 4,6 milyon dolardan fazla bir maliyetle, yapay zekadan anlayan binlerce GPU kullanılarak birkaç hafta içinde trilyonlarca metin kelimesini işleyerek eğitilir.
Bununla birlikte, modern AI araştırmasındaki fikir birliği şudur: "daha büyük daha iyidir ve daha büyük daha iyidir". Bu nedenle, modelin ölçek büyüme hızı hızlı bir gelişme içinde olmuştur. Mart ayında piyasaya sürülen GPT-4'ün yaklaşık 1 trilyon parametreye sahip olduğu tahmin ediliyor; bu, önceki nesle göre neredeyse altı kat artış. OpenAI CEO'su Sam Altman, geliştirmenin 100 milyon dolardan fazlaya mal olduğunu tahmin ediyor. Ve endüstri bir bütün olarak aynı eğilimi gösteriyor. Araştırma şirketi Epoch AI, 2022'de en iyi modelleri eğitmek için gereken bilgi işlem gücünün her altı ila on ayda bir ikiye katlanacağını tahmin ediyor (aşağıdaki tabloya bakın).
AI modeli parametrelerinin sürekli artan boyutu bazı problemler doğurur. Epoch AI'nin tahminleri doğruysa ve eğitim maliyetleri her on ayda bir ikiye katlanıyorsa, eğitim maliyetleri 2026'ya kadar bir milyar doları geçebilir -- ve bu yalnızca önce verilerin tükenmediğini varsayar. Ekim 2022'de yapılan bir analiz, eğitim için kullanılan yüksek kaliteli metnin aynı süre içinde tükenebileceğini öngördü. Ayrıca, model eğitimi tamamlandıktan sonra bile, büyük bir modeli çalıştırmanın gerçek maliyeti çok pahalı olabilir.
Bu yılın başlarında, Morgan Stanley, Google'ın aramalarının yarısının mevcut GPT tipi programlar tarafından yapılması halinde, bunun şirkete yılda fazladan 6 milyar dolara mal olabileceğini tahmin etti. Modelin boyutu büyüdükçe bu sayı muhtemelen artmaya devam edecektir.
Sonuç olarak, birçok kişinin AI modellerinin "büyük, daha iyi" olduğu şeklindeki görüşü artık geçerli değil. Yapay zeka modellerini geliştirmeye devam edeceklerse (bırakın o büyük yapay zeka hayallerini gerçekleştirmeyi), geliştiricilerin sınırlı kaynaklarla nasıl daha iyi performans elde edeceklerini bulması gerekiyor. Bay Altman'ın bu Nisan ayında büyük ölçekli AI tarihine baktığında söylediği gibi: "Sanırım bir çağın sonuna geldik."
Nicel Hesaplama
Bunun yerine araştırmacılar, yalnızca ölçek arayışına değil, modelin verimliliğinin nasıl artırılacağına odaklanmaya başladılar. Bunun bir yolu, parametre sayısını azaltarak ancak modeli eğitmek için daha fazla veri kullanarak bir değiş tokuş elde etmektir. 2022'de Google'ın DeepMind bölümü, Chinchilla adlı 70 milyar parametreli LLM'yi 1,4 trilyon kelimelik bir külliyat üzerinde eğitti. GPT-3'ün 175 milyarından daha az parametreye ve yalnızca 300 milyar kelimelik eğitim verisine sahip olmasına rağmen, bu model GPT-3'ten daha iyi performans gösterdi. Daha küçük bir LLM'yi daha fazla veriyle beslemek, eğitimin daha uzun süreceği anlamına gelir, ancak sonuç daha küçük, daha hızlı ve daha ucuz bir modeldir.
Diğer bir seçenek de kayan noktalı sayıların kesinliğini azaltmaktır. Modeldeki her sayıda kesinlik basamak sayısını azaltmak, yani yuvarlamak, donanım gereksinimlerini büyük ölçüde azaltabilir. Avusturya Bilim ve Teknoloji Enstitüsü'ndeki araştırmacılar Mart ayında, yuvarlamanın GPT-3 benzeri bir modelin bellek tüketimini büyük ölçüde azaltabileceğini ve modelin "ihmal edilebilir doğruluk kaybıyla" beş yerine tek bir üst düzey GPU'da çalışmasına izin verebileceğini gösterdi. " ".
Bazı kullanıcılar, yasal belgeler oluşturmak veya sahte haberleri tespit etmek gibi belirli görevlere odaklanmak için genel amaçlı bir LLM'de ince ayar yapar. Bu, ilk kez bir LLM eğitimi vermek kadar karmaşık olmasa da, yine de pahalı ve zaman alıcı olabilir. İnce Ayar Meta'nın (Facebook'un ana şirketi) açık kaynaklı 65 milyar parametreli LLaMA modeli, birden fazla GPU gerektirdi ve saatler ila günler sürdü.
Washington Üniversitesi'ndeki araştırmacılar, LLaMA'dan tek bir GPU'da ihmal edilebilir bir performans kaybıyla bir günde yeni bir Guanaco modeli oluşturmak için daha verimli bir yol keşfettiler. İşin püf noktası, Avusturyalı araştırmacılar tarafından kullanılana benzer bir yuvarlama tekniğidir. Ancak aynı zamanda, modelin mevcut parametrelerini sabitlemeyi ve ardından modele yeni, daha küçük bir parametre kümesi eklemeyi içeren Düşük Dereceli Uyarlama (LoRA) adlı bir teknik de kullandılar. İnce ayar, yalnızca bu yeni değişkenleri değiştirerek yapılır. Bu, akıllı telefon gibi nispeten zayıf bir bilgisayarın bile göreve hazır olduğu noktaya kadar işleri basitleştirir. LLM, mevcut dev veri merkezi yerine kullanıcının cihazında çalıştırılabilirse, daha fazla kişiselleştirme ve daha iyi gizlilik koruması sağlayabilir.
Bu arada, Google'daki bir ekip, daha küçük modellerle yaşayabilenler için yeni seçenekler sunuyor. Bu yaklaşım, büyük bir genel modelden belirli bilgileri çıkarmaya ve onu daha küçük ve özel bir modele dönüştürmeye odaklanır. Büyük model öğretmen, küçük model ise öğrenci rolündedir. Araştırmacılar, öğretmenlerin soruları yanıtlamasını ve akıl yürütmelerini göstermelerini sağladı. Öğretmen modelinden (büyük model) hem cevaplar hem de çıkarımlar, öğrenci modelini (küçük model) eğitmek için kullanılır. Ekip, belirli çıkarım görevlerinde 540 milyar parametreli (büyük model) öğretmen modelinden daha iyi performans göstermesi için yalnızca 7,7 milyar parametreli (küçük model) bir öğrenci modelini başarıyla eğitti.
Başka bir yaklaşım, modelin ne yaptığına odaklanmak yerine modelin oluşturulma şeklini değiştirmektir. Yapay zeka modellerinin çoğu Python dilinde geliştirilmiştir. Kullanımı kolay olacak şekilde tasarlanmıştır ve programcıyı programın çalışırken çipi nasıl çalıştırdığını düşünmek zorunda bırakmaz. Bu ayrıntıları gizlemenin bedeli, kodun daha yavaş çalışmasıdır. Bu uygulama ayrıntılarına daha fazla dikkat edilmesi büyük faydalar sağlayabilir. Açık kaynaklı yapay zeka şirketi Hugging Face'in baş bilim sorumlusu Thomas Wolf'un belirttiği gibi, bu "yapay zeka alanındaki mevcut araştırmaların önemli bir yönü".
optimize edilmiş kod
Örneğin, 2022'de Stanford Üniversitesi'ndeki araştırmacılar, büyük dil modellerinin (LLM'ler) sözcükler ve kavramlar arasındaki bağlantıları öğrenmesine olanak tanıyan "dikkat algoritmasının" geliştirilmiş bir sürümünü yayınladı. Fikir, üzerinde çalıştığı çipte neler olduğunu hesaba katmak için, özellikle de belirli bilgilerin ne zaman alınması veya saklanması gerektiğini takip etmek için kodu değiştirmektir. Algoritmaları, eski bir büyük dil modeli olan GPT-2'nin eğitim hızını üç katına çıkarmayı başardı ve ayrıca daha uzun sorguları işleme yeteneğini geliştirdi.
Daha temiz kod, daha iyi araçlarla da elde edilebilir. Bu yılın başlarında Meta, AI programlama çerçevesi PyTorch'un yeni bir sürümünü yayınladı. Programcıların gerçek çipler üzerindeki hesaplamaları nasıl organize edecekleri hakkında daha fazla düşünmelerini sağlayarak, tek bir kod satırı ekleyerek modellerin eğitilme hızını iki katına çıkarabilir. Eski Apple ve Google mühendisleri tarafından kurulan bir girişim olan Modular, geçtiğimiz ay Python tabanlı Mojo adlı yapay zeka odaklı yeni bir programlama dili yayınladı. Mojo, programcılara eskiden korumalı olan tüm ayrıntılar üzerinde kontrol sağlar ve bazı durumlarda Mojo kullanılarak yazılan kod, Python'da yazılan eşdeğer bir kod bloğundan binlerce kat daha hızlı çalışabilir.
Son seçenek, kodu çalıştıran çipi iyileştirmektir. Başlangıçta modern video oyunlarında bulunan karmaşık grafikleri işlemek için tasarlanmış olsalar da, GPU'lar yapay zeka modellerini çalıştırmada şaşırtıcı derecede iyidir. Meta'daki bir donanım araştırmacısı, GPU'ların "çıkarım" (yani, bir modelin eğitildikten sonra gerçek uygulaması) için mükemmel tasarlanmadığını söyledi. Sonuç olarak, bazı şirketler kendi daha özel donanımlarını tasarlıyor. Google zaten yapay zeka projelerinin çoğunu şirket içi "TPU" yongalarında yürütüyor. MTIA çipiyle Meta ve Inferentia çipiyle Amazon benzer bir şey deniyor.
Bazen sayıları yuvarlamak veya programlama dillerini değiştirmek gibi basit değişikliklerin büyük performans kazanımları sağlaması şaşırtıcı olabilir. Ancak bu, büyük dil modellerinin (LLM) hızlı gelişimini yansıtıyor. Uzun yıllar boyunca, büyük dil modelleri öncelikli olarak bir araştırma projesiydi ve odak noktası, tasarımlarının zarafetinden çok onları çalıştırıp geçerli sonuçlar üretmeye yönelikti. Ancak son zamanlarda ticari, kitlesel pazar ürünlerine dönüştürüldüler. Uzmanların çoğu iyileştirme için çok yer olduğu konusunda hemfikir. Stanford Üniversitesi'nde bir bilgisayar bilimcisi olan Chris Manning'in dediği gibi: "Şu anda kullanılan sinir mimarisinin (mevcut sinir ağı yapısına atıfta bulunarak) optimal olduğuna inanmak için hiçbir neden yok ve daha gelişmiş mimarilerin ortaya çıkacağı göz ardı edilmiyor. gelecekte."
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
AI modeli "büyük daha iyidir" bakış açısı artık işe yaramıyor
Yazar |The Economist Çevirmen |
Sorumlu editör | Xia Meng
İlan | CSDN (ID: CSDNnews)
AI daha iyi olacaksa, daha az kaynakla daha fazlasını yapması gerekecek.
Amerika Birleşik Devletleri'ndeki popüler sohbet robotlarını yönlendiren temel güç olan OpenAI'nin GPT'si (Generative Pre-trained Transformer) gibi "Büyük Dil Modelleri"nden (LLM'ler) bahsetmişken, isim her şeyi söylüyor. Bu tür modern AI sistemleri, biyolojik beyinlerin işleyişini geniş bir şekilde taklit eden geniş yapay sinir ağları tarafından desteklenmektedir. 2020'de piyasaya sürülen GPT-3, nöronlar arasındaki simüle edilmiş bağlantıların adı olan 175 milyar "parametre" ile büyük bir dil modeli canavarıdır. GPT-3, tahmini 4,6 milyon dolardan fazla bir maliyetle, yapay zekadan anlayan binlerce GPU kullanılarak birkaç hafta içinde trilyonlarca metin kelimesini işleyerek eğitilir.
Bununla birlikte, modern AI araştırmasındaki fikir birliği şudur: "daha büyük daha iyidir ve daha büyük daha iyidir". Bu nedenle, modelin ölçek büyüme hızı hızlı bir gelişme içinde olmuştur. Mart ayında piyasaya sürülen GPT-4'ün yaklaşık 1 trilyon parametreye sahip olduğu tahmin ediliyor; bu, önceki nesle göre neredeyse altı kat artış. OpenAI CEO'su Sam Altman, geliştirmenin 100 milyon dolardan fazlaya mal olduğunu tahmin ediyor. Ve endüstri bir bütün olarak aynı eğilimi gösteriyor. Araştırma şirketi Epoch AI, 2022'de en iyi modelleri eğitmek için gereken bilgi işlem gücünün her altı ila on ayda bir ikiye katlanacağını tahmin ediyor (aşağıdaki tabloya bakın).
Bu yılın başlarında, Morgan Stanley, Google'ın aramalarının yarısının mevcut GPT tipi programlar tarafından yapılması halinde, bunun şirkete yılda fazladan 6 milyar dolara mal olabileceğini tahmin etti. Modelin boyutu büyüdükçe bu sayı muhtemelen artmaya devam edecektir.
Sonuç olarak, birçok kişinin AI modellerinin "büyük, daha iyi" olduğu şeklindeki görüşü artık geçerli değil. Yapay zeka modellerini geliştirmeye devam edeceklerse (bırakın o büyük yapay zeka hayallerini gerçekleştirmeyi), geliştiricilerin sınırlı kaynaklarla nasıl daha iyi performans elde edeceklerini bulması gerekiyor. Bay Altman'ın bu Nisan ayında büyük ölçekli AI tarihine baktığında söylediği gibi: "Sanırım bir çağın sonuna geldik."
Nicel Hesaplama
Bunun yerine araştırmacılar, yalnızca ölçek arayışına değil, modelin verimliliğinin nasıl artırılacağına odaklanmaya başladılar. Bunun bir yolu, parametre sayısını azaltarak ancak modeli eğitmek için daha fazla veri kullanarak bir değiş tokuş elde etmektir. 2022'de Google'ın DeepMind bölümü, Chinchilla adlı 70 milyar parametreli LLM'yi 1,4 trilyon kelimelik bir külliyat üzerinde eğitti. GPT-3'ün 175 milyarından daha az parametreye ve yalnızca 300 milyar kelimelik eğitim verisine sahip olmasına rağmen, bu model GPT-3'ten daha iyi performans gösterdi. Daha küçük bir LLM'yi daha fazla veriyle beslemek, eğitimin daha uzun süreceği anlamına gelir, ancak sonuç daha küçük, daha hızlı ve daha ucuz bir modeldir.
Diğer bir seçenek de kayan noktalı sayıların kesinliğini azaltmaktır. Modeldeki her sayıda kesinlik basamak sayısını azaltmak, yani yuvarlamak, donanım gereksinimlerini büyük ölçüde azaltabilir. Avusturya Bilim ve Teknoloji Enstitüsü'ndeki araştırmacılar Mart ayında, yuvarlamanın GPT-3 benzeri bir modelin bellek tüketimini büyük ölçüde azaltabileceğini ve modelin "ihmal edilebilir doğruluk kaybıyla" beş yerine tek bir üst düzey GPU'da çalışmasına izin verebileceğini gösterdi. " ".
Bazı kullanıcılar, yasal belgeler oluşturmak veya sahte haberleri tespit etmek gibi belirli görevlere odaklanmak için genel amaçlı bir LLM'de ince ayar yapar. Bu, ilk kez bir LLM eğitimi vermek kadar karmaşık olmasa da, yine de pahalı ve zaman alıcı olabilir. İnce Ayar Meta'nın (Facebook'un ana şirketi) açık kaynaklı 65 milyar parametreli LLaMA modeli, birden fazla GPU gerektirdi ve saatler ila günler sürdü.
Washington Üniversitesi'ndeki araştırmacılar, LLaMA'dan tek bir GPU'da ihmal edilebilir bir performans kaybıyla bir günde yeni bir Guanaco modeli oluşturmak için daha verimli bir yol keşfettiler. İşin püf noktası, Avusturyalı araştırmacılar tarafından kullanılana benzer bir yuvarlama tekniğidir. Ancak aynı zamanda, modelin mevcut parametrelerini sabitlemeyi ve ardından modele yeni, daha küçük bir parametre kümesi eklemeyi içeren Düşük Dereceli Uyarlama (LoRA) adlı bir teknik de kullandılar. İnce ayar, yalnızca bu yeni değişkenleri değiştirerek yapılır. Bu, akıllı telefon gibi nispeten zayıf bir bilgisayarın bile göreve hazır olduğu noktaya kadar işleri basitleştirir. LLM, mevcut dev veri merkezi yerine kullanıcının cihazında çalıştırılabilirse, daha fazla kişiselleştirme ve daha iyi gizlilik koruması sağlayabilir.
Bu arada, Google'daki bir ekip, daha küçük modellerle yaşayabilenler için yeni seçenekler sunuyor. Bu yaklaşım, büyük bir genel modelden belirli bilgileri çıkarmaya ve onu daha küçük ve özel bir modele dönüştürmeye odaklanır. Büyük model öğretmen, küçük model ise öğrenci rolündedir. Araştırmacılar, öğretmenlerin soruları yanıtlamasını ve akıl yürütmelerini göstermelerini sağladı. Öğretmen modelinden (büyük model) hem cevaplar hem de çıkarımlar, öğrenci modelini (küçük model) eğitmek için kullanılır. Ekip, belirli çıkarım görevlerinde 540 milyar parametreli (büyük model) öğretmen modelinden daha iyi performans göstermesi için yalnızca 7,7 milyar parametreli (küçük model) bir öğrenci modelini başarıyla eğitti.
Başka bir yaklaşım, modelin ne yaptığına odaklanmak yerine modelin oluşturulma şeklini değiştirmektir. Yapay zeka modellerinin çoğu Python dilinde geliştirilmiştir. Kullanımı kolay olacak şekilde tasarlanmıştır ve programcıyı programın çalışırken çipi nasıl çalıştırdığını düşünmek zorunda bırakmaz. Bu ayrıntıları gizlemenin bedeli, kodun daha yavaş çalışmasıdır. Bu uygulama ayrıntılarına daha fazla dikkat edilmesi büyük faydalar sağlayabilir. Açık kaynaklı yapay zeka şirketi Hugging Face'in baş bilim sorumlusu Thomas Wolf'un belirttiği gibi, bu "yapay zeka alanındaki mevcut araştırmaların önemli bir yönü".
optimize edilmiş kod
Örneğin, 2022'de Stanford Üniversitesi'ndeki araştırmacılar, büyük dil modellerinin (LLM'ler) sözcükler ve kavramlar arasındaki bağlantıları öğrenmesine olanak tanıyan "dikkat algoritmasının" geliştirilmiş bir sürümünü yayınladı. Fikir, üzerinde çalıştığı çipte neler olduğunu hesaba katmak için, özellikle de belirli bilgilerin ne zaman alınması veya saklanması gerektiğini takip etmek için kodu değiştirmektir. Algoritmaları, eski bir büyük dil modeli olan GPT-2'nin eğitim hızını üç katına çıkarmayı başardı ve ayrıca daha uzun sorguları işleme yeteneğini geliştirdi.
Daha temiz kod, daha iyi araçlarla da elde edilebilir. Bu yılın başlarında Meta, AI programlama çerçevesi PyTorch'un yeni bir sürümünü yayınladı. Programcıların gerçek çipler üzerindeki hesaplamaları nasıl organize edecekleri hakkında daha fazla düşünmelerini sağlayarak, tek bir kod satırı ekleyerek modellerin eğitilme hızını iki katına çıkarabilir. Eski Apple ve Google mühendisleri tarafından kurulan bir girişim olan Modular, geçtiğimiz ay Python tabanlı Mojo adlı yapay zeka odaklı yeni bir programlama dili yayınladı. Mojo, programcılara eskiden korumalı olan tüm ayrıntılar üzerinde kontrol sağlar ve bazı durumlarda Mojo kullanılarak yazılan kod, Python'da yazılan eşdeğer bir kod bloğundan binlerce kat daha hızlı çalışabilir.
Son seçenek, kodu çalıştıran çipi iyileştirmektir. Başlangıçta modern video oyunlarında bulunan karmaşık grafikleri işlemek için tasarlanmış olsalar da, GPU'lar yapay zeka modellerini çalıştırmada şaşırtıcı derecede iyidir. Meta'daki bir donanım araştırmacısı, GPU'ların "çıkarım" (yani, bir modelin eğitildikten sonra gerçek uygulaması) için mükemmel tasarlanmadığını söyledi. Sonuç olarak, bazı şirketler kendi daha özel donanımlarını tasarlıyor. Google zaten yapay zeka projelerinin çoğunu şirket içi "TPU" yongalarında yürütüyor. MTIA çipiyle Meta ve Inferentia çipiyle Amazon benzer bir şey deniyor.
Bazen sayıları yuvarlamak veya programlama dillerini değiştirmek gibi basit değişikliklerin büyük performans kazanımları sağlaması şaşırtıcı olabilir. Ancak bu, büyük dil modellerinin (LLM) hızlı gelişimini yansıtıyor. Uzun yıllar boyunca, büyük dil modelleri öncelikli olarak bir araştırma projesiydi ve odak noktası, tasarımlarının zarafetinden çok onları çalıştırıp geçerli sonuçlar üretmeye yönelikti. Ancak son zamanlarda ticari, kitlesel pazar ürünlerine dönüştürüldüler. Uzmanların çoğu iyileştirme için çok yer olduğu konusunda hemfikir. Stanford Üniversitesi'nde bir bilgisayar bilimcisi olan Chris Manning'in dediği gibi: "Şu anda kullanılan sinir mimarisinin (mevcut sinir ağı yapısına atıfta bulunarak) optimal olduğuna inanmak için hiçbir neden yok ve daha gelişmiş mimarilerin ortaya çıkacağı göz ardı edilmiyor. gelecekte."