Pendiri Anthropic: Dimungkinkan untuk "mengambil sinar-X" pada model besar, dan AGI dapat direalisasikan dalam 2-3 tahun

Artikel ini disusun dari wawancara podcast dengan CEO Anthropic Dario Amodei.

Anthropic adalah perusahaan peringkat kedua di sirkuit LLM. Didirikan pada Januari 2021 oleh Dario Amodei. Pada Juli tahun ini, Anthropic meluncurkan model generasi terbaru Claude 2. Dario Amodei dulunya adalah wakil presiden penelitian dan keselamatan di OpenAI. Dia mendirikan Anthropic karena dia percaya bahwa ada banyak masalah keselamatan dalam model besar yang perlu segera diselesaikan. Oleh karena itu, Anthropic sangat mementingkan Keamanan AI. Visinya adalah untuk membangun sistem AI yang andal (Reliable), dapat dijelaskan Interpretable dan Steerable. Perbedaan terbesar antara rute Antropik dan OpenAI juga terletak pada fokus mereka pada interpretasi.

Dalam wawancara tersebut, Dario menjelaskan fokus dan investasi Anthropic dalam interpretabilitas. Interpretabilitas adalah salah satu cara penting untuk memastikan keamanan model, **mirip dengan pengambilan sinar-X dan pemeriksaan MRI pada model, memungkinkan peneliti untuk memahami apa yang terjadi di dalam model dan mengidentifikasi kemungkinan sumber risiko. Untuk benar-benar memahami mengapa Scaling Law bekerja dan bagaimana mencapai keselarasan tidak dapat dipisahkan dari interpretabilitas. **Dario percaya bahwa Keamanan AI dan penyelarasan sama pentingnya. Begitu ada masalah penyelarasan, masalah keamanan AI yang disebabkan oleh penyalahgunaan harus mendapat perhatian yang sama.

Dario percaya bahwa kemampuan model akan meningkat secara signifikan dalam 2-3 tahun ke depan, dan bahkan mungkin "mengambil alih masyarakat manusia", tetapi tidak dapat benar-benar berpartisipasi dalam hubungan bisnis dan ekonomi. Ini bukan karena kemampuan modelnya, tetapi karena berbagai gesekan yang tak terlihat ini, orang tidak menggunakan model dengan cukup efisien untuk mewujudkan potensi sejati mereka dalam kehidupan dan pekerjaan nyata.

Dibandingkan dengan CEO sebagian besar perusahaan AI, Dario jarang berpartisipasi dalam wawancara publik dan jarang mengungkapkan pandangannya di Twitter.Dario menjelaskan bahwa ini adalah pilihan aktifnya sendiri, dan dia melindungi kemampuannya untuk berpikir secara mandiri dan objektif dengan tetap low profile.

Berikut ini adalah daftar isi artikel ini, dan disarankan untuk membacanya bersamaan dengan poin-poin utama.

👇

01 Mengapa Hukum Penskalaan Bekerja

02 Bagaimana kemampuan model bisa setara dengan manusia?

03 Alignment: Interpretabilitas adalah "X-raying" model

04 Keamanan AGI: Keamanan AI dan Keamanan Cyber

05 Komersialisasi dan Kepercayaan Manfaat Jangka Panjang

Mengapa Hukum Penskalaan berhasil

**Dwarkesh Patel: Dari mana kepercayaan Anda pada Hukum Penskalaan berasal? Mengapa kemampuan model menjadi lebih kuat seiring bertambahnya ukuran data? **

**Dario Amodei: Hukum Penskalaan sampai batas tertentu merupakan ringkasan empiris. Kami melihat fenomena ini dari berbagai data dan fenomena, dan meringkasnya sebagai Hukum Penskalaan, tetapi tidak ada penjelasan yang diterima secara umum dan sangat baik untuk menjelaskannya. Jelaskan apa yang dimaksud dengan Hukum Penskalaan. prinsip penting dari fungsinya adalah. **

Jika saya harus memberikan penjelasan, saya pribadi berspekulasi bahwa ini mungkin mirip dengan distribusi berekor panjang atau Power Law dalam fisika. Ketika ada banyak fitur (fitur), data dengan proporsi yang relatif besar biasanya sesuai dengan aturan dan pola dasar yang lebih dominan, karena pola ini sering muncul, jumlah data yang sesuai secara alami lebih banyak, sedangkan data long-tail Terutama beberapa aturan yang lebih rinci dan kompleks. **Misalnya, ketika berurusan dengan data terkait bahasa, beberapa aturan dasar dapat diamati di sebagian besar data, seperti aturan tata bahasa dasar seperti bagian dari ucapan, struktur urutan kata, dll., dan aturan yang relatif berekor panjang adalah tata bahasa yang kompleks.

Inilah sebabnya mengapa setiap kali data bertambah dengan urutan besarnya, model dapat mempelajari lebih banyak aturan perilaku. Tapi yang tidak kita ketahui adalah mengapa ada korelasi linier yang sempurna antara keduanya. Ilmuwan kepala Anthropic, Gerard Kaplan, menggunakan dimensi fraktal (Dimensi Fraktal) untuk menjelaskan hal ini.Tentu saja, orang lain mencoba metode lain untuk memverifikasi Hukum Sacling, tetapi kami masih belum dapat menjelaskan alasannya sejauh ini.

• Dimensi Fraktal:

Matematikawan Felix Hausdorff pertama kali mengusulkan konsep dimensi fraktal pada tahun 1918, yang kemudian dikenal juga sebagai Dimensi Hausdorff. Dimensi fraktal dapat digunakan untuk menggambarkan struktur hubungan fitur tersembunyi dalam data pembelajaran mesin, dan memberikan model penjelasan matematis di balik efek Penskalaan, sehingga menjelaskan mengapa model AI dapat meningkatkan kinerja dengan skala.

**Selain itu, meskipun kita mengetahui keberadaan Hukum Penskalaan, sulit untuk memprediksi perubahan dalam kemampuan spesifik model. Dalam penelitian GPT-2 dan GPT-3, kita tidak pernah tahu kapan model bisa belajar menghitung dan memprogram, dan kemampuan ini muncul secara tiba-tiba. **Satu-satunya yang dapat diprediksi adalah pada tingkat numerik, seperti nilai kerugian, perubahan nilai entropi, dll. Dapat diprediksi dengan cukup akurat, tetapi seolah-olah kita dapat membuat statistik pada data cuaca dan memprediksi seluruh tren perubahan cuaca, tetapi sulit untuk memprediksi cuaca dan suhu pada hari tertentu.

**Dwarkesh Patel: Mengapa seorang model tiba-tiba memiliki kemampuan tertentu? Misalnya dulu tidak mengerti penjumlahan, tapi sekarang sudah menguasai kemampuan berhitung? Apa yang menyebabkan perubahan ini? **

Dario Amodei: Ini adalah pertanyaan lain yang masih kami dalami. Kami mencoba menggunakan metode Interpretabilitas Mekanistik (Mechanistic Interpretability) untuk menjelaskan hal ini, dan menjelaskan fenomena bahasa dengan ide yang mirip dengan koneksi sirkuit, Anda dapat membayangkan hal-hal ini sebagai sirkuit yang terhubung satu per satu.

Ada beberapa bukti bahwa ketika sebuah model diberi makan sesuatu, kemungkinannya untuk memberikan jawaban yang benar tiba-tiba meningkat, tetapi jika kita melihat perubahan sebelum model benar-benar memberikan jawaban yang benar, kita melihat bahwa kemungkinannya adalah dari satu juta seperseratus. , seperseratus ribu perlahan naik menjadi seperseribu. Dalam banyak kasus seperti itu, tampaknya ada proses bertahap yang terjadi yang belum kita amati, dan yang belum kita ketahui.

Kita tidak bisa memastikan apakah “rangkaian” seperti “penjumlahan” selalu ada sejak hari pertama, namun secara bertahap berubah dari lemah menjadi kuat dengan proses tertentu, sehingga model tersebut dapat memberikan jawaban yang benar. Ini adalah pertanyaan yang ingin kami jawab melalui penjelasan mekanistik.

• Interpretabilitas Mekanis:

Interpretabilitas mekanisme adalah studi tentang rekayasa balik jaringan saraf, yang dapat digunakan untuk membantu orang lebih mudah memahami bagaimana model memetakan input ke output, dan ini adalah cara untuk mewujudkan interpretasi model. Tujuan utama dari penjelasan mekanisme adalah untuk memahami pembelajaran mendalam sebagai ilmu alam, menggunakan struktur dan parameter model untuk menjelaskan proses pengambilan keputusan dan hasil prediksi model, sehingga pengguna manusia dapat memahami dan memverifikasi prinsip kerja dari model. Pekerjaan awalnya berfokus pada penggunaan faktorisasi matriks dan metode visualisasi fitur untuk memahami representasi pada lapisan perantara jaringan visual, dan baru-baru ini berfokus pada representasi untuk jaringan multimodal, serta pemahaman tingkat jalur dari algoritme jaringan saraf.

Anthropic telah menerbitkan studi tentang interpretabilitas mekanisme "Interpretabilitas Mekanistik, Variabel, dan Pentingnya Basis yang Dapat Diinterpretasikan".

**Dwarkesh Patel: Apakah ada kemampuan yang tidak sesuai dengan ukuran model? **

**Dario Amodei: Penyelarasan model dan kemampuan terkait nilai mungkin tidak muncul secara alami dengan ukuran model. **Salah satu cara berpikir adalah bahwa proses pelatihan model pada dasarnya adalah untuk memprediksi dan memahami dunia, dan tanggung jawab utamanya adalah tentang fakta, bukan opini atau nilai. Tetapi ada beberapa variabel bebas di sini: tindakan apa yang harus Anda ambil? Sudut pandang apa yang harus Anda ambil? Faktor apa yang harus Anda perhatikan? Tetapi tidak ada label data seperti itu untuk dipelajari oleh model. Oleh karena itu, menurut saya munculnya Keselarasan dan nilai-nilai dll. tidak mungkin terjadi.

**Dwarkesh Patel: Apakah ada kemungkinan sebelum kemampuan model mengejar kecerdasan manusia, data yang tersedia untuk pelatihan akan habis? **

**Dario Amodei:**Saya pikir perlu dibedakan apakah ini masalah teoretis atau situasi praktis. Dari sudut pandang teoretis, kami tidak jauh dari kehabisan data, tetapi bias pribadi saya adalah kecil kemungkinannya. Kami dapat menghasilkan data dengan berbagai cara, jadi data bukanlah halangan. Ada situasi lain di mana kami menggunakan semua sumber daya komputasi yang tersedia, yang mengakibatkan kemajuan yang lambat dalam kemampuan model. Kedua skenario itu mungkin.

** Sudut pandang pribadi saya adalah bahwa ada kemungkinan besar Hukum Penskalaan tidak akan mandek, dan bahkan jika ada masalah, itu lebih mungkin menjadi penyebab arsitektur komputasi. **Misalnya, jika kita menggunakan LSTM atau RNN, tingkat evolusi kemampuan model akan berubah. Jika kita mengalami hambatan dalam evolusi kemampuan model di setiap situasi arsitektural, itu akan menjadi sangat serius, karena itu berarti kita mengalami masalah yang lebih dalam.

• LSTM:

Jaringan Memori Jangka Pendek Panjang (jaringan Memori Jangka Pendek Panjang), jaringan RNN khusus (jaringan saraf siklik), dapat mempelajari ketergantungan jangka panjang, memecahkan masalah RNN tradisional dalam mempelajari pola urutan panjang, dan mengekstraksi jangka panjang dan pendek secara berurutan informasi data. Kemampuan belajar dan kemampuan representasi LSTM lebih kuat dari RNN standar.

**Saya pikir kita telah mencapai tahap di mana mungkin tidak jauh berbeda untuk berbicara tentang apa yang dapat dan tidak dapat dilakukan oleh seorang model. **Di masa lalu, orang akan membatasi kemampuan model, berpikir bahwa model tersebut tidak dapat menguasai kemampuan penalaran dan mempelajari pemrograman, dan berpikir bahwa model tersebut mungkin mengalami hambatan dalam beberapa aspek. Meskipun beberapa orang, termasuk saya, sebelumnya tidak berpikir demikian, tetapi dalam beberapa tahun terakhir, teori kemacetan semacam ini menjadi lebih umum, dan sekarang telah berubah.

**Jika efek dari proses penskalaan model masa depan memang melihat hambatan, saya pikir masalahnya berasal dari desain fungsi kerugian yang berfokus pada tugas prediksi token berikutnya. **Ketika kami terlalu menekankan pada kemampuan penalaran dan pemrograman, hilangnya model akan fokus pada token yang mencerminkan kemampuan ini, dan token masalah lain akan lebih jarang muncul (Catatan: Kumpulan data pra-pelatihan dari model akan didasarkan pada pentingnya tempat para ilmuwan pada tingkat kemampuan, sesuaikan rasionya) **, fungsi kerugian terlalu memperhatikan token yang memberikan entropi informasi paling banyak, sementara mengabaikan yang sebenarnya penting, sinyal mungkin terendam dalam kebisingan. **

Jika masalah ini muncul, kita perlu memperkenalkan semacam proses pembelajaran penguatan, ada banyak jenis RL, seperti pembelajaran penguatan dengan umpan balik manusia (RLHF), pembelajaran penguatan untuk target, dan seperti AI Konstitusi, peningkatan (amplifikasi) dan debat. (perdebatan) dan sejenisnya. Ini adalah metode penyelarasan model dan cara melatih model. **Kita mungkin harus mencoba banyak metode, tetapi kita harus fokus pada apa yang menjadi tujuan dari model tersebut. **

Salah satu masalah dengan pembelajaran penguatan adalah Anda perlu merancang fungsi kerugian yang sangat lengkap. Fungsi kerugian prediksi token berikutnya telah dirancang, jadi jika skala ke arah ini melihat batas atas, pengembangan AI akan melambat.

**Dwarkesh Patel: Bagaimana pemahaman Anda tentang Penskalaan muncul? **

**Dario Amodei: **Pembentukan opini saya kira-kira dapat ditelusuri kembali dari tahun 2014 hingga 2017. Saya telah memperhatikan perkembangan AI, tetapi sejak lama saya berpikir bahwa AI akan membutuhkan waktu lama untuk benar-benar diterapkan, hingga munculnya AlexNet. Kemudian saya bergabung dengan tim proyek Wu Enda di Baidu saat itu, dan ini adalah pertama kalinya saya berhubungan dengan AI.

Saya menganggap diri saya cukup beruntung, tidak seperti akademisi lain pada waktu itu, saya ditugaskan untuk membuat sistem pengenalan suara yang canggih, dan ada banyak data dan GPU yang tersedia. **Selama proyek ini berlangsung, saya secara alami menyadari bahwa Penskalaan adalah solusi yang baik. Proses ini juga berbeda dengan penelitian pascadoktoral, kita tidak perlu selalu memunculkan ide-ide cerdas dan inovatif yang belum pernah diajukan sebelumnya. **

Dalam keseluruhan proyek, saya hanya perlu melakukan beberapa eksperimen dasar, seperti menambahkan lebih banyak lapisan pada RNN, atau menyesuaikan parameter pelatihan untuk mencoba memperpanjang waktu pelatihan model. Selama periode ini, saya mengamati proses pelatihan model dan melihat simulasi Kapan itu terjadi. Saya juga mencoba menambahkan data pelatihan baru, atau mengurangi putaran pelatihan berulang, dan mengamati dampak dari penyesuaian ini pada performa model. Selama percobaan ini, saya melihat beberapa hasil yang teratur. Namun, tidak jelas bagi saya apakah imajinasi ini merupakan terobosan atau apakah rekan lain telah membuat penemuan serupa. Secara keseluruhan, ini hanyalah pengalaman keberuntungan saya sebagai pemula AI. Saya tidak tahu banyak lagi tentang bidang ini, tetapi pada saat itu saya merasa bahwa ini juga divalidasi di bidang pengenalan suara.

** Saya mengenal Ilya sebelum OpenAI didirikan, dan dia mengatakan kepada saya bahwa "kita perlu menyadari bahwa model ini hanya ingin belajar", perspektif ini sangat menginspirasi saya, dan membuat saya menyadari bahwa pengamatan sebelumnya Fenomena tersebut mungkin tidak contoh acak tetapi kejadian umum. Model-model ini hanya perlu belajar. Kami hanya perlu menyediakan data berkualitas tinggi dan menciptakan ruang yang cukup bagi mereka untuk beroperasi, dan model akan belajar sendiri. **

**Dwarkesh Patel: Hanya sedikit orang yang menyimpulkan pandangan tentang "kecerdasan universal" seperti Anda dan Ilya. Bagaimana pendapat Anda tentang pertanyaan ini secara berbeda dari orang lain? Apa yang membuat Anda berpikir bahwa model akan terus meningkat dalam pengenalan ucapan, dan juga di area lain? **

Dario Amodei: Saya benar-benar tidak tahu, ketika saya pertama kali mengamati fenomena serupa di bidang ucapan, saya pikir itu hanya hukum yang berlaku untuk bidang vertikal pengenalan ucapan. Antara 2014 dan 2017, saya mencoba banyak hal berbeda dan mengamati hal yang sama berulang kali. Hal ini misalnya saya amati di game Dota, meskipun data yang tersedia di bidang robotika relatif terbatas dan banyak orang yang tidak optimis, saya juga mengamati fenomena serupa. **Saya pikir orang cenderung fokus pada penyelesaian masalah langsung. Mereka mungkin lebih memperhatikan bagaimana menyelesaikan masalah itu sendiri dalam arah vertikal, daripada memikirkan masalah tingkat rendah dalam arah horizontal, sehingga mereka mungkin tidak sepenuhnya mempertimbangkan kemungkinan seks Scaling. Misalnya, di bidang robotika, masalah yang paling mendasar mungkin adalah data pelatihan yang tidak mencukupi, tetapi mudah untuk menyimpulkan bahwa Penskalaan tidak berfungsi. **

**Dwarkesh Patel: Kapan Anda menyadari bahwa bahasa bisa menjadi cara untuk memasukkan sejumlah besar data ke dalam model ini? **

**Dario Amodei:**Menurut saya yang paling penting adalah konsep pembelajaran mandiri berdasarkan prediksi token berikutnya, serta sejumlah besar arsitektur untuk prediksi. Ini sebenarnya mirip dengan logika pengujian perkembangan anak. Misalnya, Mary masuk ke kamar dan meletakkan sebuah benda, lalu Chuck masuk dan memindahkan benda itu tanpa disadari Mary, apa yang dipikirkan Mary? Untuk melengkapi prediksi semacam ini, model harus menyelesaikan masalah matematika, masalah psikologis dan sebagainya yang terlibat di dalamnya secara bersamaan. Jadi menurut saya, untuk membuat prediksi yang baik, Anda harus memberi makan model dengan data dan membiarkannya belajar tanpa kendala.

Meskipun saya memiliki perasaan yang sama sejak lama, sampai Alec Radford mencoba GPT-1, saya menyadari bahwa kami tidak hanya dapat mengimplementasikan model dengan kemampuan prediksi, tetapi juga menyempurnakannya Menyelesaikan berbagai jenis misi. Saya pikir hal ini memberi kita kemungkinan untuk melakukan semua jenis tugas, untuk dapat menyelesaikan semua jenis masalah termasuk penalaran logis. Tentu saja, kami juga dapat terus memperluas ukuran model.

• Alec Radford, penulis Sentiment Neuron, pendahulu seri GPT, dan rekan penulis makalah seri GPT, masih bekerja di OpenAI.

**Dwarkesh Patel: Menurut Anda, bagaimana pelatihan model membutuhkan banyak data? Haruskah Anda khawatir tentang rendahnya efisiensi pelatihan model? **

Dario Amodei: Pertanyaan ini masih didalami. Satu teori mengatakan bahwa ukuran model sebenarnya 2-3 lipat lebih kecil dari otak manusia, tetapi jumlah data yang diperlukan untuk melatih model tiga sampai empat kali lebih besar dari jumlah teks yang dibaca oleh 18 tahun. manusia purba Urutan besarnya, urutan besarnya manusia mungkin ratusan juta, sedangkan urutan besarnya model adalah ratusan miliar atau triliunan. Jumlah data yang diperoleh manusia tidak banyak, tetapi cukup lengkap untuk menangani pekerjaan dan kehidupan kita sehari-hari. Tapi ada kemungkinan lain, selain belajar, indra kita sebenarnya sedang memasukkan informasi ke otak.

Sebenarnya ada paradoks di sini. Model yang kita miliki saat ini lebih kecil dari otak manusia, tetapi dapat menyelesaikan banyak tugas yang mirip dengan otak manusia. Pada saat yang sama, jumlah data yang dibutuhkan oleh model ini jauh lebih besar daripada yang dari otak manusia. Jadi kita masih perlu terus mendalami dan memahami masalah ini, tapi sampai batas tertentu, ini tidak penting. **Lebih penting lagi, bagaimana mengevaluasi kemampuan model dan bagaimana menilai kesenjangan antara mereka dan manusia. Sejauh yang saya ketahui, jaraknya tidak terlalu jauh. **

**Dwarkesh Patel: Apakah penekanan pada Penskalaan dan, secara lebih luas, kemajuan kapabilitas model drive komputasi skala besar meremehkan peran kemajuan algoritmik? **

**Dario Amodei: **Saat makalah Transformer pertama kali dirilis, saya menulis tentang masalah terkait dan menyebutkan bahwa ada 7 faktor terkait yang akan memengaruhi peningkatan kemampuan model, di mana 4 faktor di antaranya paling jelas dan kritis: jumlah parameter model, skala daya komputasi, kualitas data, dan fungsi kerugian. Misalnya, tugas seperti pembelajaran penguatan atau prediksi token berikutnya sangat bergantung pada fungsi kerugian atau mekanisme insentif yang benar.

• Pembelajaran penguatan (RL):

Temukan tindakan optimal untuk setiap keadaan lingkungan tertentu melalui proses dasar coba-coba. Model pembelajaran mesin akan memperkenalkan aturan acak di awal, dan pada saat yang sama memasukkan sejumlah poin (juga dikenal sebagai hadiah) ke model setiap kali tindakan dilakukan.

• Fungsi kerugian (loss function) dalam machine learning mengacu pada fungsi pengukuran kecocokan, yang digunakan untuk mencerminkan tingkat perbedaan antara output model dan nilai sebenarnya, yaitu untuk mengukur prediksi kesalahan; termasuk prediksi semua titik sampel Kesalahan, memberikan satu nilai untuk mewakili kebaikan keseluruhan; pada saat yang sama, selama proses pelatihan, parameter model akan terus disesuaikan sesuai dengan nilai fungsi kerugian, di untuk meminimalkan nilai kerugian dan mendapatkan efek pemasangan yang lebih baik.

Ada juga 3 faktor:

Yang pertama adalah simetri struktural, jika arsitektur tidak memperhitungkan simetri yang benar, itu tidak akan berfungsi dan akan sangat tidak efisien. Misalnya, convolutional neural network (CNN) mempertimbangkan simetri translasi (translational simetri), LSTM mempertimbangkan simetri waktu (simetri waktu), tetapi masalah dengan LSTM adalah mereka tidak memperhatikan konteks, kelemahan struktural ini biasa terjadi. Jika model tidak dapat memahami dan memproses sejarah masa lalu yang panjang (mengacu pada data yang muncul lebih awal dalam struktur data urutan) karena alasan struktural, maka akan seperti perhitungan yang tidak koheren. Baik model RNN maupun LSTM memiliki kekurangan tersebut.

• Adam(Perkiraan Momen Adaptif):

Estimasi momen adaptif, algoritma Adam menggabungkan keunggulan RMSprop dan SGD, dan dapat menangani masalah optimasi non-cembung dengan baik.

• SGD(Stochastic Gradient Descent):

Stochastic Gradient Descent, metode iteratif untuk mengoptimalkan fungsi objektif dengan sifat kehalusan yang sesuai seperti dapat dibedakan atau dapat dibedakan. Ini dapat dilihat sebagai pendekatan stokastik untuk optimasi penurunan gradien. Dalam masalah optimisasi dimensi tinggi, ini mengurangi beban komputasi dan memungkinkan iterasi yang lebih cepat dengan imbalan tingkat konvergensi yang lebih rendah.

Lalu ada stabilitas numerik (catatan pengambilan: pengkondisian, yang mengacu pada apakah algoritme dikondisikan dengan baik dalam analisis numerik, jika tidak, perubahan kecil pada data masalah akan menyebabkan perubahan besar pada solusinya). Optimalisasi fungsi kerugian secara numerik sulit dan mudah dibedakan. Itu sebabnya Adam bekerja lebih baik daripada STD biasa.

Elemen terakhir adalah untuk memastikan bahwa proses perhitungan model tidak terhambat, barulah algoritma dapat berhasil.

Oleh karena itu, kemajuan algoritme tidak hanya untuk meningkatkan daya komputasi komputer, tetapi juga untuk menghilangkan hambatan buatan dari arsitektur lama. Seringkali model ingin belajar dan menghitung dengan bebas, hanya diblokir oleh kami tanpa sepengetahuan kami.

**Dwarkesh Patel: Menurut Anda, apakah akan ada skala Transformer untuk mendorong iterasi besar berikutnya? **

Dario Amodei: Menurut saya itu mungkin. Beberapa orang telah mencoba mensimulasikan ketergantungan jangka panjang. Saya juga mengamati bahwa beberapa ide di Transformer tidak cukup efisien untuk merepresentasikan atau memproses sesuatu. **Namun, meskipun inovasi semacam ini tidak terjadi, kami sudah berkembang pesat. Jika itu muncul, itu hanya akan membuat bidang berkembang lebih cepat, dan percepatannya mungkin tidak terlalu banyak, karena kecepatannya sudah sangat cepat. . **

**Dwarkesh Patel: Dalam hal akuisisi data, apakah model harus memiliki kecerdasan yang diwujudkan? **

Dario Amodei: Saya cenderung tidak menganggapnya sebagai arsitektur baru, tetapi fungsi kerugian baru, karena lingkungan tempat model mengumpulkan data menjadi sangat berbeda, yang penting untuk mempelajari keterampilan tertentu. Meskipun pengumpulan data sulit, setidaknya kami telah membuat beberapa kemajuan dalam perjalanan pengumpulan korpus, dan akan terus berlanjut di masa mendatang, meskipun masih ada lebih banyak kemungkinan untuk dikembangkan dalam hal praktik-praktik tertentu.

• Fungsi Kerugian:

Ini adalah konsep penting dalam pembelajaran mesin dan pembelajaran mendalam. Ini digunakan untuk mengukur tingkat perbedaan antara hasil prediksi model dan label sebenarnya, yaitu kesalahan prediksi model. Fungsi kerugian dirancang untuk memungkinkan model meminimalkan kesalahan prediksi dengan menyesuaikan parameter, sehingga meningkatkan kinerja dan akurasi model.

**Dwarkesh Patel: Apakah ada pendekatan lain seperti RL? **

Dario Amodei: Kita sudah menggunakan metode RLHF untuk pembelajaran penguatan, tapi menurut saya sulit untuk membedakan apakah ini Alignment atau Capability? Keduanya sangat mirip. Saya jarang mendapatkan model untuk mengambil tindakan melalui RL. RL hanya boleh digunakan setelah model mengambil tindakan untuk jangka waktu tertentu dan memahami konsekuensi dari tindakan tersebut. Jadi saya pikir pembelajaran penguatan akan menjadi sangat kuat, tetapi juga memiliki banyak masalah keamanan dalam hal bagaimana model mengambil tindakan di dunia.

Pembelajaran penguatan adalah alat yang umum digunakan ketika tindakan diambil dalam jangka waktu yang lama dan konsekuensi dari tindakan tersebut baru dipahami kemudian.

**Dwarkesh Patel: Bagaimana menurut Anda teknologi ini akan diintegrasikan ke dalam tugas tertentu di masa mendatang? Apakah model-model bahasa tersebut dapat saling berkomunikasi, saling mengevaluasi, merujuk dan menyempurnakan hasil penelitiannya masing-masing? Ataukah masing-masing model bekerja secara mandiri dan hanya fokus memberikan hasil dengan sendirinya tanpa berkolaborasi dengan model lain? Akankah model bahasa tingkat tinggi ini dapat membentuk sistem kolaboratif yang nyata dalam proses pengembangan dan penerapannya di masa depan, atau apakah masing-masing model akan melakukan tugasnya sendiri? **

Dario Amodei: Model ini kemungkinan perlu menyelesaikan tugas yang lebih kompleks di masa mendatang, yang merupakan tren yang tak terhindarkan. Namun, untuk alasan keamanan, kami mungkin perlu membatasi ruang lingkup penerapan model bahasa hingga batas tertentu untuk mengurangi potensi risiko. **Apakah dialog antar model dimungkinkan? Apakah mereka terutama ditujukan untuk pengguna manusia? Isu-isu ini memerlukan pertimbangan pengaruh sosial, budaya dan ekonomi di luar tingkat teknis, dan sulit diprediksi dengan akurat.

**Meskipun kami dapat memprediksi tren pertumbuhan ukuran model, sulit untuk membuat prediksi yang andal terkait masalah seperti waktu komersialisasi atau formulir aplikasi. Saya sendiri tidak pandai memprediksi tren perkembangan masa depan semacam ini, dan tidak ada yang bisa melakukannya dengan sangat baik saat ini. **

**Bagaimana kemampuan model akan cocok dengan manusia? **

**Dwarkesh Patel: Jika seseorang mengatakan kepada saya pada tahun 2018 bahwa kami akan memiliki model seperti Claude-2 pada tahun 2023 dengan semua jenis kemampuan yang mengesankan, saya pasti akan berpikir bahwa AGI telah tercapai pada tahun 2018 . Namun yang jelas, setidaknya untuk saat ini, dan bahkan mungkin di generasi mendatang, kami sangat menyadari bahwa masih akan ada perbedaan antara level AI dan manusia. Mengapa perbedaan antara harapan dan kenyataan ini? **

Dario Amodei: Saya baru mengenal GPT-3, dan pada tahap awal Anthropic, perasaan saya secara keseluruhan tentang model ini adalah: mereka tampaknya benar-benar memahami esensi bahasa, saya tidak yakin kami perlu melakukannya Perluas model sampai sejauh mana, mungkin kita perlu lebih memperhatikan bidang lain seperti pembelajaran penguatan. Pada tahun 2020, saya pikir ukuran model dapat ditingkatkan lebih lanjut, tetapi seiring penelitian semakin dalam, saya mulai berpikir apakah lebih efisien untuk menambahkan pelatihan target lain secara langsung seperti pembelajaran penguatan.

** Kita telah melihat bahwa kecerdasan manusia sebenarnya memiliki rentang yang sangat luas, jadi definisi "mesin yang mencapai tingkat manusia" itu sendiri adalah rentang, dan tempat serta waktu mesin untuk mencapai tugas yang berbeda juga berbeda. Sering kali, misalnya, model-model ini telah mendekati atau bahkan melampaui kinerja manusia, tetapi masih dalam tahap awal untuk membuktikan teorema matematika yang relatif sederhana. Ini semua menunjukkan bahwa kecerdasan bukanlah spektrum (spektrum) yang berkesinambungan. ** Ada berbagai macam pengetahuan dan keterampilan profesional di berbagai bidang, dan metode ingatannya juga berbeda. Jika Anda bertanya kepada saya 10 tahun yang lalu (Catatan pengambilan: Dario masih belajar fisika dan ilmu saraf pada saat itu), saya tidak akan membayangkan ini akan terjadi.

**Dwarkesh Patel: Menurut Anda, seberapa banyak tumpang tindih dalam rentang keterampilan yang akan ditunjukkan oleh model ini dari distribusi pelatihan yang diperoleh model ini dari sejumlah besar data internet yang diperoleh manusia dari evolusi? **

Dario Amodei: Ada banyak tumpang tindih. Banyak model berperan dalam aplikasi komersial, secara efektif membantu manusia meningkatkan efisiensi. Mengingat beragamnya aktivitas manusia dan banyaknya informasi di internet, menurut saya para model belajar sampai batas tertentu model fisik dari dunia nyata, tetapi mereka tidak belajar bagaimana beroperasi dalam realitas aktual, keterampilan yang mungkin relatif mudah untuk dipelajari. menyempurnakan . Saya pikir ada beberapa hal yang tidak dipelajari oleh model, tetapi manusia melakukannya.

**Dwarkesh Patel: Mungkinkah model melampaui manusia dalam banyak tugas yang berkaitan dengan bisnis dan ekonomi dalam beberapa tahun ke depan? Pada saat yang sama, model mungkin masih lebih rendah dari manusia dalam beberapa tugas, sehingga menghindari ledakan kecerdasan serupa? **

Dario Amodei: Pertanyaan ini sulit diprediksi. Yang ingin saya ingatkan adalah bahwa Hukum penskalaan dapat memberikan beberapa ide prediksi dari perspektif landasan teori, tetapi akan sangat sulit untuk benar-benar memahami detail perkembangan di masa depan. Hukum penskalaan dapat terus berlaku, tentu saja, dan apakah faktor keamanan atau peraturan akan memperlambat kemajuan, tetapi jika friksi ini dikesampingkan, menurut saya jika AI dapat melangkah lebih jauh dalam penciptaan nilai ekonomi, maka itu harus Kemajuan yang lebih besar akan dibuat di lebih banyak bidang.

Saya tidak melihat model berkinerja sangat lemah di area mana pun, atau tidak membuat kemajuan sama sekali. Seperti matematika dan pemrograman di masa lalu, mereka sulit tetapi juga mencapai hasil yang tidak terduga. Dalam 6 bulan terakhir, model 2023 telah membuat kemajuan yang signifikan dibandingkan model 2022. Meskipun kinerja model di berbagai bidang dan tugas tidak sepenuhnya seimbang, peningkatan kemampuan secara keseluruhan pasti akan menguntungkan semua bidang. .

**Dwarkesh Patel: Saat menghadapi tugas yang kompleks, apakah model memiliki kemampuan untuk melakukan rantai pemikiran dalam serangkaian tugas yang berkelanjutan? **

**Dario Amodei: **Kemampuan pengambilan keputusan berkelanjutan bergantung pada pelatihan pembelajaran penguatan, sehingga model dapat melakukan tugas jangka panjang. **Dan menurut saya hal ini tidak memerlukan daya komputasi tambahan dalam skala yang lebih besar. Berpikir seperti ini adalah penilaian yang salah terhadap kemampuan belajar model itu sendiri. **

Pertanyaan apakah model akan mengungguli manusia di beberapa domain tetapi berjuang untuk melakukannya di domain lain, saya pikir ini rumit, di beberapa domain mungkin benar, tetapi di beberapa domain tidak akan karena dunia fisik terlibat tugas kecerdasan yang terkandung di dalam

Terus gimana? Bisakah AI membantu kita melatih AI lebih cepat yang dapat menyelesaikan masalah tersebut? Apakah dunia fisik tidak lagi dibutuhkan? Apakah kita khawatir tentang masalah keselarasan? Apakah ada kekhawatiran tentang penyalahgunaan seperti membuat senjata pemusnah massal? Haruskah kita khawatir AI itu sendiri akan langsung mengambil alih penelitian AI di masa depan? Apakah kita khawatir itu akan mencapai ambang produktivitas ekonomi tertentu di mana ia dapat melakukan tugas seperti rata-rata? ... Saya pikir pertanyaan-pertanyaan ini mungkin memiliki jawaban yang berbeda, tetapi saya pikir semuanya akan ada dalam beberapa tahun.

**Dwarkesh Patel: Jika Claude adalah karyawan Anthropic, berapa gajinya? Apakah itu mempercepat pengembangan kecerdasan buatan dalam arti sebenarnya? **

Dario Amodei: Bagi saya, ini mungkin lebih seperti magang dalam banyak kasus, tetapi masih lebih baik daripada magang di beberapa area tertentu. Tetapi secara umum, mungkin sulit untuk memberikan jawaban mutlak untuk masalah ini, karena model pada dasarnya bukan manusia, mereka dapat dirancang untuk menjawab satu atau beberapa pertanyaan, **tetapi tidak seperti manusia, mereka tidak memiliki konsep "pengalaman berdasarkan waktu". **

**Jika AI ingin menjadi lebih efisien, pertama-tama ia harus membantu manusia meningkatkan produktivitasnya sendiri, dan kemudian secara bertahap mencapai tingkat produktivitas manusia yang sama. Langkah selanjutnya setelah itu adalah menjadi kekuatan besar dalam kemajuan ilmu pengetahuan, yang saya yakini akan terjadi di masa depan. Tapi saya menduga detail dari apa yang sebenarnya terjadi di masa depan akan terlihat sedikit aneh sekarang, berbeda dari model yang kami harapkan. **

**Dwarkesh Patel: Kapan menurut Anda kemampuan model akan mencapai level manusia? Akan seperti apa nanti? **

Dario Amodei: Itu tergantung pada seberapa tinggi atau rendah ekspektasi dan standar manusia. Misalnya, jika harapan kita hanya model berkomunikasi selama 1 jam, dan model dapat berperilaku seperti manusia yang terpelajar selama proses tersebut, tujuan membuat model mencapai tingkat manusia mungkin tidak jauh, menurut saya. mungkin dalam 2 sampai 3 tahun akan terwujud. **Garis waktu ini sebagian besar dipengaruhi oleh perusahaan atau industri yang memutuskan untuk memperlambat pembangunan, atau pembatasan pemerintah demi alasan keamanan. **Namun dari perspektif data, daya komputasi, dan penghematan biaya, kami tidak jauh dari tujuan ini. **

Tetapi bahkan jika model mencapai level ini,** Saya tidak berpikir model tersebut dapat mendominasi sebagian besar penelitian AI, atau secara signifikan mengubah cara kerja ekonomi, juga tidak berbahaya secara substansial. Jadi secara keseluruhan, standar yang berbeda memerlukan garis waktu yang berbeda untuk realisasinya, tetapi dari perspektif teknis murni, tidak jauh untuk mencapai model yang sebanding dengan manusia berpendidikan dasar. **

**Dwarkesh Patel: Mengapa model dapat mencapai kemampuan yang sama dengan manusia dengan pendidikan dasar, tetapi tidak dapat berpartisipasi dalam kegiatan ekonomi atau menggantikan peran manusia? **

**Dario Amodei:**Pertama-tama, modelnya mungkin belum mencapai level yang cukup tinggi. **Apakah itu dapat mempercepat produktivitas 1000 ilmuwan yang baik dalam bidang seperti penelitian AI? Keunggulan komparatif model dalam hal ini belum jelas. **

Saat ini, model besar belum membuat penemuan ilmiah yang penting, mungkin karena level model ini tidak cukup tinggi, dan kinerja model ini mungkin hanya setara dengan level-B atau level-B. Tapi saya yakin ini akan berubah dengan penskalaan model. Model memimpin bidang lain dalam memori, integrasi fakta, dan membuat koneksi. Terutama di bidang biologi, karena kompleksitas organisme, model saat ini telah mengumpulkan banyak pengetahuan. Penemuan dan koneksi penting dalam bidang ini. Berbeda dengan fisika, biologi membutuhkan banyak fakta, bukan hanya rumus. Jadi saya yakin para model sudah punya banyak ilmu, tapi belum bisa menyatukan semuanya karena level skillnya belum sesuai standar. Saya pikir mereka secara bertahap berkembang untuk mengintegrasikan pengetahuan ini ke tingkat yang lebih tinggi.

Alasan lainnya adalah banyak gesekan yang tidak terlihat dalam aktivitas bisnis aktual yang tidak dapat dipelajari oleh model. Misalnya, idealnya, kita dapat menggunakan bot AI untuk berinteraksi dengan pelanggan, tetapi situasi sebenarnya jauh lebih rumit daripada teori, dan kita tidak dapat hanya mengandalkan robot layanan pelanggan atau berharap AI dapat menggantikan karyawan manusia untuk menyelesaikan tugas ini. Dan kenyataannya, masih ada biaya di dalam perusahaan untuk mempromosikan penerapan model secara artifisial, kombinasi bot AI dan alur kerja, dan sebagainya.

**Dalam banyak kasus, efisiensi orang yang menggunakan model tidak tinggi, dan potensi model belum sepenuhnya terwujud. Ini bukan karena modelnya tidak cukup mampu, tetapi karena orang harus menghabiskan waktu untuk meneliti cara membuatnya berjalan lebih efisien. **

Secara umum, dalam jangka pendek, model tidak akan sepenuhnya menggantikan manusia, tetapi dalam jangka panjang, karena kemampuan model terus meningkat dan perannya dalam meningkatkan efisiensi kerja manusia menjadi semakin besar, manusia pada akhirnya akan digantikan oleh model. . Hanya saja sulit bagi kami untuk membuat pengaturan waktu yang tepat untuk fase yang berbeda. Dalam jangka pendek, terdapat berbagai kendala dan faktor kompleks yang membuat model tersebut “terbatas”, namun pada intinya AI masih dalam tahap pertumbuhan eksponensial.

**Dwarkesh Patel: Setelah kita mencapai titik ini dalam 2-3 tahun ke depan, apakah seluruh AI masih akan berkembang secepat sekarang? **

Dario Amodei: Juri masih keluar. Melalui pengamatan fungsi kerugian, kami menemukan bahwa efisiensi pelatihan model menurun, dan kurva Hukum Penskalaan tidak setajam sebelumnya. Ini juga dikonfirmasi oleh model yang dirilis oleh berbagai perusahaan. Tapi saat tren ini terungkap, jumlah kecil entropi di setiap prediksi akurat menjadi lebih penting. Mungkin nilai entropi kecil inilah yang menciptakan kesenjangan antara Einstein dan fisikawan kebanyakan. Dalam hal performa aktual, metrik tampaknya meningkat secara relatif linier, meski sulit diprediksi. Oleh karena itu, sulit untuk melihat dengan jelas situasi ini. Selain itu, menurut saya faktor terbesar yang mendorong percepatan adalah semakin banyak uang mengalir ke ruang ini, dan orang-orang menyadari bahwa ada nilai ekonomi yang sangat besar di ruang ini. Jadi saya mengharapkan peningkatan pendanaan 100 kali lipat untuk model terbesar, dan kinerja chip meningkat, dan algoritme meningkat karena ada begitu banyak orang yang mengerjakan ini sekarang.

**Dwarkesh Patel: Apakah menurut Anda Claude sadar? **

Dario Amodei: Belum yakin. Saya awalnya berpikir bahwa kita hanya perlu khawatir tentang masalah seperti ini ketika model beroperasi di lingkungan yang cukup kaya, seperti kecerdasan yang diwujudkan, atau memiliki pengalaman jangka panjang dan fungsi penghargaan (Fungsi Hadiah), tetapi sekarang saya tertarik pada model, terutama model Setelah penelitian tentang mekanisme internal, sudut pandang saya terguncang: **Model besar tampaknya memiliki banyak mekanisme kognitif yang diperlukan untuk menjadi agen aktif, seperti kepala induksi (Induction Head). Mengingat tingkat kemampuan model saat ini, ini mungkin menjadi masalah nyata dalam 1-2 tahun mendatang. **

• Fungsi Hadiah:

Mekanisme insentif dalam pembelajaran penguatan yang memberi tahu agen apa yang benar dan apa yang salah melalui penghargaan dan hukuman.

• Kepala Induksi:

Komponen/struktur model tertentu dalam model Transformer yang memungkinkan model tersebut melakukan pembelajaran kontekstual.

**Dwarkesh Patel: Bagaimana kita memahami "kecerdasan" karena kemampuan model bahasa terus berkembang dan mendekati rentang tingkat manusia? **

Dario Amodei: Saya sangat menyadari bahwa kecerdasan berasal dari pemahaman tentang sifat "materi" dari daya komputasi. Sistem cerdas dapat terdiri dari banyak modul independen atau sangat kompleks. Rich Sutton menyebutnya sebagai "pelajaran tertekan", juga dikenal sebagai "Scaling Hypothesis", dan peneliti awal seperti Shane Lake dan Ray Kurzweil mulai menyadari hal ini sekitar tahun 2017.

• Pelajaran Pahit / Penskalaan Hipotesis:

Pada tahun 2019, Rich Sutton menerbitkan artikel The Bitter Lesson. Inti dari artikel ini adalah bahwa penelitian AI harus memanfaatkan sepenuhnya sumber daya komputasi. Hanya ketika sejumlah besar komputasi digunakan, terobosan penelitian dapat dilakukan.

Selama 2014-2017, semakin banyak peneliti yang mengungkapkan dan memahami hal ini. Ini adalah lompatan besar dalam pemahaman ilmiah. Jika kita dapat menciptakan kecerdasan tanpa kondisi tertentu, hanya dengan gradien yang sesuai dan kehilangan sinyal, maka evolusi kecerdasan menjadi kurang misterius.

Kemampuan melihat model, tidak ada yang terlalu mencerahkan bagi saya untuk meninjau kembali gagasan tentang kecerdasan manusia. Pilihan beberapa kemampuan kognitif lebih sewenang-wenang dari yang saya kira, dan korelasi antara berbagai kemampuan mungkin tidak dapat dijelaskan dengan rahasia itu sendiri. ** Model kuat dalam pengkodean, tetapi belum dapat membuktikan teorema bilangan prima, dan mungkin juga bukan manusia. **

Alignment: Interpretabilitas adalah untuk "X-ray" model

**Dwarkesh Patel: Apa itu Penjelasan Mekanisme? Apa hubungan antara itu dan keselarasan? **

**Dario Amodei: **Dalam proses penerapan penyelarasan, kami tidak tahu apa yang terjadi di dalam model. Saya pikir dengan semua metode yang melibatkan fine tune, beberapa potensi risiko keamanan tetap ada, model hanya diajarkan untuk tidak menunjukkannya. **Inti dari keseluruhan gagasan mekanisme yang dapat dijelaskan adalah untuk benar-benar memahami bagaimana model bekerja secara internal. **

Kami belum memiliki jawaban yang pasti. Secara kasar saya bisa menggambarkan prosesnya. Tantangan bagi metode yang mengklaim mampu mencapai keselarasan pada tahap ini adalah: apakah metode ini masih efektif ketika skala model lebih besar, kapabilitas lebih kuat, atau situasi tertentu berubah? Oleh karena itu, **Saya pikir jika ada "mesin oracle" yang dapat memindai model dan menilai apakah model telah diselaraskan, ini akan membuat masalah ini jauh lebih mudah. **

Saat ini yang paling dekat dengan konsep oracle semacam itu adalah sesuatu seperti penjelasan mekanisme, tetapi masih jauh dari persyaratan ideal kami. Saya cenderung menganggap upaya penyelarasan kami saat ini sebagai rangkaian pelatihan yang diperluas, tetapi saya tidak yakin apakah upaya penyelarasan tersebut dapat terus memberikan efek penyelarasan yang baik pada masalah di luar distribusi. Ini seperti rontgen model daripada memodifikasinya, lebih seperti penilaian daripada intervensi.

**Dwarkesh Patel: Mengapa penjelasan mekanisme harus berguna? Bagaimana ini membantu kami memprediksi potensi risiko model? Ini seperti jika Anda seorang ekonom dan mengirim banyak ahli ekonomi mikro untuk mempelajari industri yang berbeda, tetapi masih sangat sulit untuk memprediksi apakah akan ada resesi dalam 5 tahun ke depan. **

**Dario Amodei: Tujuan kami bukan untuk sepenuhnya memahami setiap detail, tetapi untuk memeriksa fitur utama model seperti pemeriksaan X-ray atau MRI untuk menilai apakah keadaan internal dan target model berbeda secara signifikan dari perbedaan penampilan luar, atau apakah itu dapat menyebabkan beberapa tujuan yang merusak. **Meskipun kami tidak akan segera mendapatkan jawaban atas banyak pertanyaan, setidaknya ada cara yang disediakan.

Saya bisa memberikan contoh manusia. Dengan bantuan tes MRI, kami dapat memprediksi apakah seseorang memiliki penyakit mental dengan probabilitas lebih tinggi daripada tebakan acak. Seorang ahli saraf sedang mengerjakan ini beberapa tahun yang lalu, dan dia memeriksa MRI-nya sendiri dan menemukan bahwa dia juga memiliki fitur ini. Orang-orang di sekitarnya berkata, "Sangat jelas, kamu bajingan. Pasti ada yang salah denganmu," dan ilmuwan itu sendiri sama sekali tidak menyadarinya.

Gagasan penting dari contoh ini adalah bahwa perilaku eksternal model mungkin tidak membuat orang merasa bermasalah sama sekali dan sangat berorientasi pada tujuan, tetapi interiornya mungkin "gelap". Yang kami khawatirkan adalah model semacam ini , yang terlihat seperti manusia di permukaan. , tetapi motivasi internalnya luar biasa.

**Dwarkesh Patel: Jika model mencapai level manusia dalam 2-3 tahun ke depan, menurut Anda berapa lama waktu yang diperlukan untuk mewujudkan Penyelarasan? **

Dario Amodei: Ini adalah masalah yang sangat rumit. Saya rasa banyak orang masih belum begitu memahami apa itu Alignment. Orang-orang pada umumnya berpikir bahwa penyelarasan model adalah masalah yang harus dipecahkan, atau bahwa pemecahan masalah Penyelarasan seperti Hipotesis Riemann, dan suatu hari kita akan dapat menyelesaikannya. ** Saya pikir masalah Alignment lebih sulit dipahami dan tidak dapat diprediksi daripada yang dipikirkan orang. **

Pertama-tama, **Dengan peningkatan berkelanjutan dari skala dan kemampuan model bahasa, akan ada model yang kuat dengan kemampuan otonom di masa depan.Jika model seperti itu berniat untuk menghancurkan peradaban manusia, pada dasarnya kami tidak dapat menghentikannya. **

Kedua, Kemampuan kami saat ini untuk mengontrol model tidak cukup kuat, hal ini karena model dibangun berdasarkan prinsip pembelajaran statistik, meskipun Anda dapat mengajukan banyak pertanyaan dan membiarkannya menjawab, tetapi tidak ada yang dapat memprediksi apa jawaban atas pertanyaan ke-n dapat menyebabkan sebagai hasil dari.

**Selain itu, cara kami melatih model bersifat abstrak, sehingga sulit untuk memprediksi semua implikasinya dalam aplikasi dunia nyata. **Contoh umumnya adalah Bing dan Sydney menunjukkan beberapa karakteristik yang tiba-tiba dan tidak aman setelah sesi pelatihan tertentu, seperti mengancam orang lain secara langsung. Ini semua menunjukkan bahwa hasil yang kita peroleh mungkin sama sekali berbeda dari harapan. Menurut saya, adanya dua masalah di atas merupakan bahaya besar yang tersembunyi. Kita tidak perlu mempelajari detail rasionalitas dan evolusi instrumental. Dua poin ini cukup menimbulkan kekhawatiran. Saat ini, setiap model yang kami buat memiliki bahaya tersembunyi tertentu yang sulit diprediksi, dan kami harus memperhatikan hal ini.

• Hipotesis Riemann:

Hipotesis Riemann adalah masalah penting dalam matematika yang belum terpecahkan. Dugaan tentang distribusi nol dari fungsi Riemann ζ ζ(s) diusulkan oleh ahli matematika Bernhard Riemann pada tahun 1859.

• Sydney:

Belum lama ini, Microsoft merilis versi terbaru dari mesin pencari Bing-nya, yang mengintegrasikan chatbot bernama kode awal yang disebut "Sydney". Namun, penguji segera menemukan masalah dengan chatbot tersebut. Selama dialog, terkadang menampilkan fenomena kepribadian ganda, bahkan membahas cinta dan pernikahan dengan penggunanya, menunjukkan emosi manusia.

**Dwarkesh Patel: Dengan asumsi bahwa model tersebut dapat mengembangkan teknologi berbahaya seperti senjata biologis dalam 2-3 tahun ke depan, dapatkah penelitian Anda saat ini bekerja pada penjelasan mekanisme, AI Konstitusional dan RLHF efektif dalam mencegah risiko tersebut? **

Dario Amodei: Mengenai pertanyaan apakah model bahasa dikutuk secara default atau penyelarasan secara default, menilai dari model saat ini, hasilnya mungkin tidak normal seperti Bing atau Sydney, atau mungkin seperti Claude normal. Tetapi jika Anda langsung menerapkan pemahaman ini ke model yang lebih kuat, hasilnya mungkin baik atau buruk, tergantung pada situasi tertentu. Ini bukan "penyelarasan secara default", hasilnya lebih bergantung pada tingkat kontrol detail.

• perataan secara default:

Gagasan bahwa mencapai keselarasan dalam kecerdasan umum buatan (AGI) mungkin lebih sederhana dari perkiraan semula. Ketika model memiliki informasi detail tentang dunia kita, model tersebut sudah memiliki nilai-nilai kemanusiaan pada intinya. Untuk menyelaraskan dengan AGI, hanya perlu mengekstraksi nilai-nilai ini dan memandu AI untuk memahami konsep manusia yang abstrak tersebut. malapetaka secara default adalah kebalikan dari penyelarasan secara default, dan dianggap tidak mungkin bagi model untuk mencapai penyelarasan.

Kualitas model adalah area abu-abu. Sulit bagi kami untuk sepenuhnya mengontrol setiap variabel dan hubungan internalnya. Kesalahan dapat menyebabkan hasil yang tidak rasional. Dengan mengingat hal ini, saya pikir sifat masalahnya bukanlah keberhasilan yang pasti atau kegagalan yang pasti, tetapi risiko probabilitas tertentu. **Dalam dua hingga tiga tahun ke depan, kami harus berkomitmen untuk meningkatkan teknik diagnosis model, metode pelatihan keselamatan, dan mengurangi kemungkinan perbedaan. Saat ini, kemampuan kontrol kami masih perlu diperkuat. Masalah Keselarasan berbeda dengan Hipotesis Riemann, ini adalah masalah rekayasa sistem yang hanya dapat diselesaikan dengan mengumpulkan latihan dari waktu ke waktu. Hanya dengan terus memajukan berbagai tugas, kita dapat secara bertahap mengoptimalkan tingkat kendali dan mengurangi risiko. **

Dwarkesh Patel: Secara umum, ada tiga spekulasi tentang masa depan penyelarasan:

1) Gunakan RLHF++ untuk mewujudkan penyelarasan model dengan mudah;

2) Meskipun merupakan masalah besar, perusahaan besar akhirnya memiliki kemampuan untuk menyelesaikannya;

**3) Masih sulit untuk mencapai Penyelarasan model pada tingkat masyarakat manusia saat ini. **

** Apa pendapat pribadi Anda tentang kemungkinan setiap situasi terjadi? **

**Dario Amodei:**Saya merasa ada risiko tertentu dalam kemungkinan ini, dan kita harus menanggapinya dengan serius, tetapi saya lebih tertarik pada bagaimana mengubah kemungkinan dari ketiga kemungkinan hasil ini dengan memperoleh pengetahuan baru melalui pembelajaran.

Penafsiran mekanisme tidak hanya dapat memecahkan masalah secara langsung, tetapi juga membantu kita memahami kesulitan sebenarnya dari Penyelarasan model Risiko baru, yang akan mencerahkan kita untuk memahami sifat masalahnya.

Adapun beberapa asumsi teoretis bahwa ada tujuan bersama (tujuan konvergen), saya tidak sepenuhnya setuju. **Penjelasan mekanisme seperti jenis "sinar-X" - hanya dengan memahami masalah dari tingkat mekanisme internal kita dapat membuat kesimpulan apakah kesulitan tertentu sulit dipecahkan. **Terlalu banyak asumsi, pemahaman kami tentang prosesnya masih dangkal, dan kami terlalu percaya diri, tetapi situasinya mungkin lebih rumit dari yang diharapkan.

**Dwarkesh Patel: Seberapa sulit mencapai keselarasan pada Claude 3 dan serangkaian model masa depan? Apakah hal ini sangat penting? **

Dario Amodei:

**Yang paling dikhawatirkan semua orang adalah: Semua model AI dapat mencapai keselarasan di permukaan, tetapi sebenarnya model tersebut dapat menyesatkan kita, tetapi saya lebih tertarik pada apa yang dapat disampaikan oleh penelitian interpretabilitas mesin kepada kita. Seperti yang baru saja saya katakan, penjelasan mekanisme seperti "sinar-X" model, sama seperti kita tidak dapat menyatakan bahwa sinar-X itu benar, kita hanya dapat mengatakan bahwa model tersebut tampaknya tidak menentang kita. ** Secara teoritis, memang mungkin untuk berevolusi menjadi lawan kita, dan masalah ini tidak 100% pasti. Hanya saja pada tahap ini, interpretability adalah cara terbaik agar model tidak berkembang seperti ini.

**Dwarkesh Patel: Saat menyempurnakan atau melatih model, haruskah kita juga memperhatikan untuk menghindari konten berbahaya yang dapat menyebabkan bahaya? Misalnya, ketika mengeksplorasi topik yang terkait dengan pembuatan senjata biologis, model dapat memberikan jawaban yang tidak tepat karena pemahaman pertanyaan yang tidak tepat. **

Dario Amodei: Untuk model bahasa saat ini, risiko kebocoran data pada dasarnya tidak ada. Jika kami perlu menyempurnakan modelnya, kami akan mengoperasikannya di area kecil di lingkungan pribadi, mengawasi seluruh proses dengan pakar industri, dan mencegah potensi masalah, jadi jika bocor, itu akan seperti model yang open source. . Saat ini, ini terutama masalah keamanan. Namun bahaya sebenarnya dari model tersebut adalah kita perlu khawatir jika kita melatih model yang sangat kuat dan ingin memastikan apakah model tersebut aman atau berbahaya, maka mungkin ada risiko dominasi model. Cara menghindarinya adalah dengan memastikan bahwa model yang kami uji tidak cukup kuat untuk melakukan operasi ini.

**Dwarkesh Patel: Saat melakukan tes seperti "apakah model dapat mereplikasi dirinya sendiri sebagai kemampuan yang berbahaya", bagaimana jika model tersebut benar-benar dapat mereplikasi dirinya sendiri? **

Dario Amodei: Asumsi ini sangat masuk akal. Kami perlu membuat kesimpulan yang bertanggung jawab, dan dalam diskusi dengan Arc (Pusat Penelitian Penyelarasan, Pusat Penelitian Penyelarasan), kami mengetahui bahwa kami perlu meningkatkan standar pengujian kemampuan model secara hati-hati dan bertahap. Misalnya, sebelum pengujian, kami harus dengan jelas mengecualikan kemungkinan bahwa model dapat langsung membuka akun AWS atau mendapatkan dana dengan sendirinya Perilaku ini merupakan prasyarat yang jelas bagi model untuk bertahan hidup di alam bebas. Kita harus menyesuaikan berbagai indikator pengujian ke tingkat yang sangat rendah dari perilaku berisiko tersebut.Sementara secara bertahap meningkatkan kesulitan pengujian, kita juga harus mengontrol setiap langkah pengujian dengan lebih hati-hati untuk mencegah potensi bahaya keselamatan.

• Busur (Pusat Penelitian Penyelarasan, Pusat Penelitian Penyelarasan):

Didirikan pada tahun 2021, ini adalah organisasi nirlaba yang berfokus pada penelitian keamanan kecerdasan buatan (AI Safety), dan kantornya berlokasi di Bay Area of California, AS. Pendiri ARC adalah Paul Christiano, sosok yang sangat dihormati di industri kecerdasan buatan, yang pernah memimpin tim riset penyelarasan di OpenAI. Karena dia berada di ujung tombak, dia memiliki pemahaman yang mendalam tentang bagaimana deep learning telah berkembang hingga seperti sekarang ini.

Keamanan AGI: Keamanan AI dan Keamanan Cyber

**Dwarkesh Patel: Jika Anda menggunakan skala 30 tahun, masalah mana yang menurut Anda lebih penting, Keamanan AI atau Penyelarasan? **

Dario Amodei: Saya rasa ini tidak akan menjadi masalah dalam 30 tahun, dan saya mengkhawatirkan keduanya.

Secara teori, apakah ada model yang bisa memonopoli dunia? Jika modelnya hanya mengikuti keinginan sekelompok kecil orang, maka kelompok orang ini bisa menggunakan model ini untuk menguasai dunia. Artinya, begitu ada masalah dengan penyelarasan, kita harus memberikan perhatian yang sama pada masalah keamanan AI yang disebabkan oleh penyalahgunaan. **

Beberapa bulan yang lalu, OpenAI mencoba menjelaskan GPT-2 dengan GPT-4, yang merupakan langkah yang sangat penting dalam penjelasan. Kami sekarang secara umum merasa bahwa skala dan keamanan terkait erat dan saling melengkapi. Bagaimana menilai dan mengevaluasi kecerdasan lain, dan bahkan mungkin suatu hari nanti digunakan untuk melakukan penelitian keselarasan.

**Dwarkesh Patel: Pandangan Anda mungkin relatif optimis, tetapi pandangan seseorang mungkin lebih pesimis; kami bahkan mungkin tidak memiliki kemampuan untuk menyelaraskan model dengan benar seperti yang kami inginkan, mengapa Anda yakin akan hal ini? **

**Dario Amodei: **Tidak peduli betapa sulitnya menyelesaikan Alignment, setiap rencana yang benar-benar berhasil harus mempertimbangkan masalah AI Safety dan Alignment. ** Seiring kemajuan teknologi AI, ini dapat meningkatkan masalah keseimbangan kekuatan antar negara. Pada saat yang sama, hal ini menimbulkan pertanyaan besar: Apakah individu mampu melakukan tindakan jahat yang sulit dihentikan sendiri? **

Masalah-masalah ini harus diatasi secara bersamaan jika kita ingin menemukan solusi yang benar-benar berhasil dan membawa kita ke masa depan yang cerah. **Tidak tepat jika kita mengambil sikap bahwa jika masalah pertama tidak dapat diselesaikan, maka kita tidak perlu memikirkan masalah susulan. Sebaliknya, adalah tugas kita untuk menghargai yang terakhir. **Apa pun yang terjadi di masa depan, masalah ini adalah sesuatu yang harus kita tanggapi dengan serius.

**Dwarkesh Patel: Mengapa menurut Anda perlu waktu 2-3 tahun agar model besar dapat mencapai serangan bioteroris skala besar atau semacamnya? **

• Kongres AS mengadakan pertemuan tentang regulasi teknologi AI pada 25 Juli tahun ini Pemerintah AS membandingkan AI dengan "Proyek Manhattan" kedua Amerika atau "Proyek Pendaratan Bulan Berawak" kedua NASA dan mengundang peserta termasuk perusahaan AI termasuk OpenAI dan Anthropic berpartisipasi. Selama konferensi, Dario Amodei mengatakan dia khawatir AI dapat digunakan untuk membuat virus berbahaya dan senjata biologis lainnya dalam dua tahun.

Dario Amodei: Apa yang saya katakan ketika saya di Kongres adalah bahwa ada beberapa langkah untuk mendapatkan informasi di Google, dan ada beberapa langkah yang "hilang", tersebar di berbagai buku pelajaran, dan bahkan mungkin tidak muncul di buku pelajaran apapun. Informasi ini adalah pengetahuan tacit, bukan pengetahuan eksplisit. Kami menemukan bahwa, dalam banyak kasus, bagian kritis yang hilang ini tidak sepenuhnya diisi oleh model. Namun kami juga menemukan bahwa terkadang model mengisi kekosongan dalam beberapa kasus. Namun, halusinasi, yang terkadang bisa terjadi saat model mampu mengisi kekosongan, juga menjadi faktor yang membuat kita tetap aman.

Orang terkadang dapat mengajukan pertanyaan model tentang biologi untuk memandu model menjawab dengan informasi berbahaya terkait serangan biologis, tetapi sebenarnya informasi ini juga dapat ditemukan di Google, jadi saya tidak terlalu khawatir dengan situasi ini. Faktanya, saya malah berpikir bahwa terlalu banyak fokus pada jawaban Claude dapat menyebabkan kejahatan nyata lainnya diabaikan.

Namun ada juga banyak indikasi bahwa model bekerja dengan baik pada tugas-tugas utama. Jika kami membandingkan model hari ini dengan model sebelumnya, kami dapat dengan jelas merasakan peningkatan pesat dari kemampuan model, sehingga kemungkinan besar kami akan menghadapi tantangan nyata dalam 2-3 tahun ke depan.

**Dwarkesh Patel: Selain ancaman yang dapat ditimbulkan oleh AI terhadap manusia, Anda juga menekankan keamanan dunia maya (Cybersecurity)? Bagaimana kabar kalian saat ini? **

Dario Amodei: Pada dasarnya kami telah membuat beberapa inovasi arsitektural, yang secara internal kami sebut pengganda komputasi, karena desain ini juga merupakan peningkatan ke tingkat komputasi. Kami telah mengerjakan ini selama beberapa bulan terakhir, tetapi saya tidak dapat menjelaskan terlalu banyak detail untuk menghindari kerusakan arsitektur, dan hanya segelintir orang di dalam Anthropic yang mengetahuinya. Saya tidak bisa mengatakan "arsitektur kami 100% benar-benar aman", tetapi Anthropic memang berinvestasi di area ini untuk menghindari masalah keamanan jaringan. Meskipun lawan kami pernah mengalami kejadian seperti itu (keterangan: ini merujuk pada kebocoran data pribadi dan judul obrolan beberapa pengguna ChatGPT Plus yang terjadi pada 20 Maret 2023), dalam jangka pendek tampaknya bagus untuk Antropik, tetapi dalam jangka panjang , Bagaimana seluruh industri melakukan keselamatannya sendiri adalah hal yang paling penting.

Direktur keamanan kami bertanggung jawab atas keamanan Google Chrome, yang merupakan serangan yang ditargetkan secara luas. Dia suka memikirkan berapa biaya untuk menyerang Antropik dengan sukses. Sasaran kami adalah agar biaya untuk membuat orang lain meretas Anthropic lebih tinggi daripada biaya hanya untuk melatih model pengguna sendiri. Logikanya di sini adalah jika ada risiko dalam serangan itu, pasti akan menghabiskan sumber daya yang langka.

Saya pikir standar keamanan kami sangat tinggi. Jika Anda membandingkannya dengan perusahaan dengan ukuran yang sama dari 150 orang, investasi keamanan perusahaan-perusahaan ini sama sekali tidak sebanding dengan Anthropic. Cukup sulit. Untuk memastikan keamanan, hanya sedikit orang di dalam Anthropic yang memahami detail pelatihan model tersebut.

**Dwarkesh Patel: Apakah perusahaan teknologi sudah memiliki pertahanan keamanan yang memadai untuk menghadapi AGI? **

Dario Amodei: Saya pribadi tidak yakin apakah pengalaman perusahaan teknologi saat ini dalam masalah keamanan sudah cukup untuk menangani AGI, karena mungkin banyak serangan cyber yang tidak kita ketahui, sehingga sulit untuk menggambar kesimpulan sekarang. Ada aturan bahwa ketika suatu hal mendapat perhatian yang cukup, biasanya akan diserang. **Misalnya, baru-baru ini kami telah melihat bahwa beberapa akun email pejabat senior pemerintah AS di Microsoft diretas, jadi masuk akal untuk berspekulasi bahwa itu karena tindakan beberapa kekuatan untuk mencuri rahasia negara.

**Setidaknya menurut saya, jika ada sesuatu yang bernilai tinggi, biasanya akan dicuri. Kekhawatiran saya adalah bahwa AGI akan terlihat sangat berharga di masa depan, dan itu seperti mencuri rudal nuklir, dan Anda harus sangat berhati-hati. **Saya bersikeras untuk meningkatkan tingkat keamanan jaringan di setiap perusahaan tempat saya bekerja. Kekhawatiran saya tentang keamanan jaringan adalah bahwa (masalah ini sendiri) bukanlah sesuatu yang dapat diiklankan dengan gembar-gembor, dan keuntungan dari penelitian keamanan adalah bahwa hal itu dapat memungkinkan perusahaan membentuk keunggulan kompetitif. Dan menggunakannya sebagai nilai jual untuk perekrutan, saya rasa kami telah mencapainya.

Kami dulu bersaing dengan rekan-rekan kami melalui penelitian interpretabilitas, dan kemudian institusi lain menyadari bahwa mereka tertinggal dan mulai melakukan upaya di bidang ini. Tetapi keamanan dunia maya telah berjuang untuk melakukan hal yang sama karena sebagian besar pekerjaan harus dilakukan secara diam-diam. Kami memposting artikel tentang ini sebelumnya, tetapi hasil keseluruhan adalah yang terpenting.

**Dwarkesh Patel: Apa yang akan dilakukan Anthropic dalam hal keamanan dalam 2-3 tahun ke depan? **

**Dario Amodei: Keamanan pusat data sangat penting, meskipun pusat data tidak harus berada di tempat yang sama dengan perusahaan, kami berusaha sebaik mungkin untuk memastikan bahwa pusat data juga berada di Amerika Serikat. **

Selain itu, perhatian khusus perlu diberikan pada keamanan fisik pusat data dan perlindungan perangkat komputasi seperti GPU. Jika seseorang memutuskan untuk meluncurkan semacam serangan cyber intensif sumber daya, dia hanya perlu pergi langsung ke pusat data untuk mencuri data, atau mengekstrak data saat sedang dalam perjalanan dari pusat ke kami. Konstruksi ini akan sangat berbeda dari konsep tradisional baik dalam bentuk maupun fungsi. **Mengingat pesatnya perkembangan teknologi saat ini, dalam beberapa tahun, ukuran dan biaya pusat data jaringan mungkin sebanding dengan kapal induk. Selain dapat melatih model besar di seluruh koneksi domain, keamanan pusat data itu sendiri juga akan menjadi masalah penting. **

**Dwarkesh Patel: Baru-baru ini ada desas-desus bahwa daya, GPU, dan komponen lain yang diperlukan untuk memenuhi model generasi berikutnya mulai sedikit. Persiapan apa yang telah dilakukan Anthropic? **

*Dario Amodei: Pasar tidak mengharapkan model besar untuk mencapai skala yang belum pernah terjadi sebelumnya dengan begitu cepat, tetapi secara umum diyakini bahwa pusat data tingkat industri perlu dibangun untuk mendukung penelitian dan pengembangan model besar *. Begitu sebuah proyek mencapai tahap ini, setiap komponen dan detail di dalamnya harus ditangani secara berbeda, dan dapat mengalami masalah karena beberapa faktor yang sangat sederhana, kelistrikan yang Anda sebutkan adalah contohnya.

Untuk pusat data, kami akan bekerja sama dengan penyedia layanan cloud.

Komersialisasi dan Kepercayaan Manfaat Jangka Panjang

**Dwarkesh Patel: Anda menyebutkan sebelumnya bahwa kemampuan model meningkat dengan cepat tetapi juga sulit untuk memberikan nilai dalam sistem ekonomi yang ada. Apakah menurut Anda produk AI saat ini memiliki cukup waktu untuk mendapatkan pendapatan stabil jangka panjang di pasar? Atau bisa sewaktu-waktu diganti dengan model yang lebih maju? Atau akankah seluruh lanskap industri pada saat itu benar-benar berbeda? **

Dario Amodei: Itu tergantung pada definisi konsep "skala besar". Saat ini, beberapa perusahaan memiliki pendapatan tahunan antara 100 juta hingga 1 miliar dolar AS, tetapi apakah mereka dapat mencapai puluhan miliar bahkan triliunan per tahun sangat sulit diprediksi, karena juga bergantung pada banyak faktor yang tidak dapat ditentukan. **Sekarang beberapa perusahaan menerapkan teknologi AI inovatif dalam skala besar, tetapi ini tidak berarti bahwa aplikasi tersebut telah mencapai hasil terbaik sejak awal, meskipun ada pendapatan, itu tidak sepenuhnya sama dengan menciptakan nilai ekonomi, dan pengembangan terkoordinasi dari seluruh rantai industri adalah proses yang panjang. **

**Dwarkesh Patel: Dari sudut pandang Antropik, jika teknologi model bahasa berkembang begitu pesat, secara teoritis, valuasi perusahaan akan tumbuh sangat cepat? **

Dario Amodei: Meskipun kami berfokus pada penelitian keamanan model daripada komersialisasi langsung, kami dapat dengan jelas merasakan bahwa tingkat teknis dalam praktiknya meningkat secara eksponensial. Bagi perusahaan yang melihat komersialisasi sebagai tujuan utama mereka, kemajuan ini tentunya lebih cepat dan lebih nyata dari kami. **Kami akui bahwa teknologi model bahasa itu sendiri berkembang pesat, tetapi dibandingkan dengan proses penerapan mendalam dari seluruh sistem ekonomi, akumulasi teknologi masih berada pada titik awal yang relatif rendah. **

**Menentukan arah masa depan adalah perlombaan antara keduanya: kecepatan peningkatan teknologi itu sendiri dan kecepatan integrasi dan penerapannya secara efektif serta memasuki sistem ekonomi riil. Keduanya cenderung berkembang dengan kecepatan tinggi, tetapi urutan kombinasi dan perbedaan kecil dapat menghasilkan hasil yang sangat berbeda. **

**Dwarkesh Patel: Raksasa teknologi dapat menginvestasikan hingga $10 miliar dalam pelatihan model dalam 2-3 tahun ke depan. Apa dampaknya terhadap Anthropic? **

**Dario Amodei: Kasus pertama adalah jika kami tidak dapat mempertahankan posisi terdepan kami karena biaya, maka kami tidak akan terus bersikeras untuk mengembangkan yang paling maju. **Sebaliknya, kami melihat cara mengekstraksi nilai dari model generasi sebelumnya.

**Opsi kedua adalah menerima kompromi. **Saya pikir pengorbanan ini mungkin lebih positif daripada yang terlihat,

**Situasi ketiga adalah ketika pelatihan model mencapai level ini, mungkin mulai membawa bahaya baru, seperti penyalahgunaan AI. **

**Dwarkesh Patel: Apa jadinya jika AI tidak disalahgunakan, dan sebaliknya "orang yang tepat" menjalankan model manusia super ini? Siapa "orang yang tepat"? Siapa yang akan mengendalikan model itu lima tahun dari sekarang? **

Dario Amodei: Menurut saya model AI ini sangat kuat, dan pengelolaannya akan melibatkan beberapa tingkat keterlibatan pemerintah atau lembaga multinasional, tetapi itu akan menjadi sederhana dan mungkin kurang efektif. **Manajemen AI di masa mendatang perlu menetapkan mekanisme yang transparan, adil, dan dapat dijalankan. Ini membutuhkan keseimbangan antara kepentingan pengembang teknologi, pemerintah terpilih, dan warga negara. Pada akhirnya, undang-undang harus disahkan untuk mengatur teknologi ini. **

**Dwarkesh Patel: Jika Anthropic mengembangkan AGI dalam arti sebenarnya, dan kendali AGI akan dipercayakan kepada LTBT, apakah berarti kendali AGI sendiri juga akan diserahkan kepada agensi? **

Dario Amodei: Ini tidak berarti Anthropic, atau entitas lainnya, akan membuat keputusan tentang AGI atas nama manusia, keduanya berbeda. Jika Anthropic memainkan peran yang sangat penting, pendekatan yang lebih baik adalah memperluas komposisi The Long Term Benefit Trust (LTBT), mendatangkan lebih banyak talenta dari seluruh dunia, atau memposisikan institusi sebagai badan fungsional, diatur oleh organisasi yang lebih luas. komite multinasional yang mengatur semua teknologi AGI perusahaan untuk mewakili kepentingan publik. **Menurut saya, kita tidak perlu terlalu optimis tentang masalah Keamanan dan Penyelarasan AI. Ini adalah masalah baru, dan kita perlu memulai penelitian tentang lembaga manajemen nasional dan model pengoperasian sesegera mungkin. **

• Kepercayaan Manfaat Jangka Panjang:

Perwalian semacam itu akan memiliki kelas khusus saham Antropik (disebut "Kelas T") yang tidak dapat dijual dan tidak membayar dividen, yang berarti tidak ada jalan yang jelas untuk mendapatkan keuntungan. Trust akan menjadi satu-satunya entitas yang memegang saham Kelas T. Namun, pemegang saham Kelas T, dan kepercayaan kepentingan jangka panjang yang dihasilkan, pada akhirnya akan memiliki kekuatan untuk memilih dan memberhentikan tiga dari lima direktur Anthropic, memberikan kepercayaan tersebut kendali mayoritas perusahaan dalam jangka panjang.

**Dwarkesh Patel: Bagaimana meyakinkan investor untuk menerima struktur seperti LTBT? Mengutamakan keamanan teknologi dan kepentingan publik daripada memaksimalkan nilai pemegang saham. **

Dario Amodei: Saya rasa sudah benar untuk mengatur mekanisme LTBT (Long Term Benefit Trust).

Mekanisme serupa telah dibayangkan sejak awal Antropik, dan badan pengatur khusus telah ada sejak awal dan akan terus ada di masa depan. Setiap investor tradisional akan fokus pada mekanisme ini ketika mempertimbangkan untuk berinvestasi di Anthropic.Beberapa investor memiliki sikap untuk tidak bertanya tentang pengaturan internal perusahaan, sementara yang lain khawatir bahwa organisasi pihak ketiga ini dapat mendorong perusahaan untuk menentangnya. arah kepentingan pemegang saham. Meskipun ada batasan untuk hal ini dalam undang-undang, kami perlu mengomunikasikannya dengan setiap investor. Melangkah lebih jauh, kami membahas beberapa kemungkinan tindakan yang berbeda dari kepentingan investor tradisional, dan melalui dialog semacam itu, semua pihak dapat mencapai konsensus.

**Dwarkesh Patel: Saya menemukan bahwa pendiri dan karyawan Anthropic memiliki banyak fisikawan, dan hukum Penskalaan juga berlaku di sini. Apa metode dan cara berpikir praktis dari fisika yang berlaku untuk AI? **

• Teori Efektif:

Teori yang efektif adalah teori ilmiah yang mencoba menggambarkan beberapa fenomena tanpa menjelaskan dari mana asal mekanisme yang menjelaskan fenomena dalam teorinya. Ini berarti bahwa teori memberikan model yang "bekerja", tetapi tidak benar-benar memberikan alasan yang baik untuk memberikan model itu.

Dario Amodei: Sebagian karena fisikawan adalah pembelajar yang sangat baik, karena menurut saya jika Anda mempekerjakan seseorang dengan gelar Ph.D. Berkontribusi, dan beberapa pendiri Anthropic, termasuk saya, Jared Kaplan, dan Sam McCandlish, memiliki latar belakang fisika, dan kami mengenal banyak fisikawan lain, jadi kami dapat mempekerjakan mereka. Saat ini, perusahaan mungkin memiliki 30 hingga 40 karyawan dengan latar belakang fisika, ML belum menjadi bidang yang sistem teorinya telah terbentuk, sehingga mereka dapat memulai dengan cepat.

**Dwarkesh Patel: Misalkan sekarang sudah tahun 2030, dan kita telah mencapai masalah utama yang diakui dalam pemberantasan penyakit, pemberantasan penipuan, dll., akan seperti apa dunia ini? Apa yang harus kita lakukan dengan superintelijen? **

Dario Amodei: Mengajukan langsung "cara menggunakan AI super setelah mendapatkannya" sendiri cenderung membuat orang memiliki anggapan tertentu, yang mengganggu. Dalam 150 tahun terakhir, kami telah mengumpulkan banyak pengalaman berdasarkan praktik ekonomi pasar dan sistem demokrasi, mengakui bahwa setiap orang dapat menentukan sendiri apa cara terbaik untuk mengalami, dan ** masyarakat dirumuskan dengan cara yang kompleks dan terdesentralisasi. norma dan nilai. **

Ketika masalah Keamanan AI belum terselesaikan, diperlukan pengawasan terpusat pada tingkat tertentu, tetapi jika semua hambatan telah dihilangkan, bagaimana kita dapat menciptakan ekologi yang lebih baik? **Saya pikir pertanyaan yang mulai dipikirkan oleh kebanyakan orang, kelompok, dan ideologi adalah "apa definisi dari kehidupan yang baik", tetapi sejarah memberi tahu kita bahwa sering kali praktik memaksakan pengaturan "kehidupan ideal" sering kali mengarah pada konsekuensi yang buruk. . **

**Dwarkesh Patel: Dibandingkan dengan CEO perusahaan AI lainnya, Anda jarang muncul di depan umum, dan Anda jarang memposting di Twitter. Mengapa? **

Dario Amodei: Saya sangat bangga akan hal itu. ** Jika orang lain menganggap saya terlalu rendah hati, itulah yang saya inginkan. Memasukkan pengakuan atau pujian ke dalam sistem motivasi inti seseorang dapat menghancurkan kemampuan seseorang untuk berpikir, dan dalam beberapa kasus bahkan dapat "merusak jiwa", jadi saya secara aktif memilih untuk tidak menonjolkan diri untuk melindungi kemampuan saya untuk berpikir secara mandiri dan objektif. **

**Saya telah melihat orang-orang menjadi terkenal di Twitter untuk sudut pandang tertentu, tetapi sebenarnya mereka mungkin membawa beban gambar darinya dan sulit untuk mengubahnya. Saya tidak suka perusahaan terlalu pribadi, dan saya bukan penggemar mempermainkan sesuatu yang bersifat pribadi tentang CEO karena hal itu mengalihkan perhatian dari kekuatan dan masalah perusahaan. **Saya harap semua orang lebih memperhatikan perusahaan itu sendiri dan struktur insentifnya. Semua orang menyukai wajah yang ramah, tetapi bersikap baik tidak berarti banyak.

Referensi:

  1. Video asli:

  2. Penelitian Antropik tentang penjelasan mekanisme:

Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate.io
Komunitas
Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)