*Catatan Editor: Artikel ini sebagian besar didasarkan pada pidato David Aronchick pada Konferensi Filecoin Unleashed 2023 di Paris. David adalah CEO Expanso dan mantan kepala komputasi data di Protocol Labs, yang meluncurkan proyek Bacalhau. Artikel ini mewakili pendapat independen pembuat konten asli, dan izin telah diberikan untuk menerbitkan ulang. *
Menurut IDC, pada tahun 2025, jumlah data yang disimpan secara global akan melebihi 175 ZB. Ini adalah jumlah data yang sangat besar, setara dengan 175 triliun stik USB 1 GB. Sebagian besar data ini dihasilkan antara tahun 2020 dan 2025, dengan proyeksi CAGR sebesar 61%.
Dunia data yang berkembang pesat saat ini menghadirkan dua tantangan besar:
**Memindahkan data lambat dan mahal. **Jika Anda mencoba mengunduh data sebesar 175 ZB dengan bandwidth saat ini, dibutuhkan waktu sekitar 1,8 miliar tahun.
**Kepatuhan itu berat. **Ada ratusan peraturan terkait data di seluruh dunia, yang membuat kepatuhan lintas yurisdiksi hampir mustahil dilakukan.
Akibat gabungan dari pertumbuhan jaringan yang lesu dan kendala peraturan adalah hampir 68% data lembaga tidak digunakan. Oleh karena itu, sangat penting untuk memindahkan sumber daya komputasi ke lokasi penyimpanan data (secara luas disebut komputasi-over-data, yaitu, "komputasi data") daripada memindahkan data ke lokasi komputasi. Bacalhau dkk. Komputasi melalui Data (CoD) Platform sedang bekerja keras dalam hal ini.
Dalam bab-bab berikut kami akan memperkenalkan secara singkat:
Bagaimana organisasi menangani data saat ini.
Usulkan solusi alternatif berdasarkan "Komputasi Data".
Terakhir, buat hipotesis mengapa komputasi terdistribusi itu penting.
status quo
Saat ini, terdapat tiga cara utama yang digunakan organisasi untuk mengatasi tantangan pemrosesan data, namun tidak ada satupun yang ideal.
Gunakan sistem terpusat
Pendekatan yang paling umum adalah dengan menggunakan sistem terpusat untuk pemrosesan data skala besar. Kita sering melihat organisasi menggabungkan kerangka komputasi seperti Adobe Spark, Hadoop, Databricks, Kubernetes, Kafka, Ray, dll. untuk membentuk jaringan sistem cluster yang terhubung ke server API terpusat. Namun, sistem ini tidak dapat secara efektif mengatasi pelanggaran jaringan dan masalah peraturan lainnya seputar mobilitas data.
Hal ini antara lain mengakibatkan denda administratif dan denda miliaran dolar bagi organisasi karena pelanggaran data.
Bangun sendiri
Pendekatan lainnya adalah bagi pengembang untuk membangun sistem koordinasi khusus yang memiliki kesadaran dan kekuatan yang dibutuhkan oleh institusi. Pendekatan ini merupakan hal baru, namun sering kali berisiko gagal karena ketergantungan yang berlebihan pada sejumlah kecil orang untuk memelihara dan menjalankan sistem.
Tidak ada hubungannya
Anehnya, seringkali institusi tidak melakukan apa pun terhadap datanya. Misalnya, sebuah kota dapat mengumpulkan sejumlah besar data dari video pengawasan setiap hari, namun karena biayanya yang tinggi, data tersebut hanya dapat dilihat di mesin lokal dan tidak dapat diarsipkan atau diproses.
Bangun komputasi terdistribusi yang sebenarnya
Ada dua solusi utama untuk masalah pemrosesan data.
Solusi 1: Membangun platform komputasi data sumber terbuka
Solusi 1: Platform komputasi data sumber terbuka
Pengembang dapat menggunakan platform data terdistribusi sumber terbuka untuk komputasi alih-alih sistem koordinasi khusus yang disebutkan sebelumnya. Karena platform ini bersifat open source dan dapat diperluas, lembaga hanya perlu membangun komponen yang diperlukan. Pengaturan ini dapat memenuhi skenario aplikasi multi-cloud, multi-komputasi, non-pusat data, dan menavigasi lingkungan peraturan yang kompleks. Yang penting, akses ke komunitas open source tidak lagi bergantung pada satu atau lebih pengembang untuk pemeliharaan sistem, sehingga mengurangi kemungkinan kegagalan.
Solusi 2: Dibangun pada protokol data terdistribusi
Dengan bantuan proyek komputasi tingkat lanjut seperti Bacalhau dan Lilypad, pengembang dapat melangkah lebih jauh dan membangun sistem tidak hanya pada platform data sumber terbuka yang disebutkan dalam Solusi 1, namun juga pada protokol data yang benar-benar terdistribusi seperti jaringan Filecoin.
Solusi 2: Protokol Komputasi Data Terdistribusi
Ini berarti institusi dapat menggunakan protokol terdistribusi yang memahami cara mengoordinasikan dan menjelaskan masalah pengguna dengan cara yang lebih terperinci, sehingga membuka area komputasi yang dekat dengan tempat data dihasilkan dan disimpan. Transisi dari pusat data ke protokol terdistribusi idealnya dapat dilakukan hanya dengan sedikit perubahan berdasarkan pengalaman data scientist.
Terdistribusi berarti maksimalisasi seleksi
Dengan menerapkan protokol terdistribusi seperti jaringan Filecoin, visi kami adalah pengguna dapat mengakses ratusan (atau ribuan) mesin yang didistribusikan di berbagai wilayah di jaringan yang sama dan mengikuti aturan protokol yang sama seperti mesin lainnya. Hal ini pada dasarnya membuka banyak pilihan bagi data scientist, karena mereka dapat meminta jaringan untuk:
Pilih kumpulan data dari mana saja di dunia.
Ikuti struktur tata kelola apa pun, baik itu HIPAA, GDPR, atau FISMA.
Jalankan dengan harga termurah.
Juan Triangle | Menguraikan singkatan: FHE (Enkripsi Homomorfik Sepenuhnya), MPC (Komputasi Multi-Partai), TEE (Lingkungan Eksekusi Tepercaya), ZKP (Bukti Tanpa Pengetahuan)
Berbicara tentang konsep maksimalisasi pilihan, kita harus menyebutkan "segitiga Juan". Istilah ini diciptakan oleh Juan Benet, pendiri Protocol Labs, untuk menjelaskan mengapa kasus penggunaan yang berbeda (di masa depan) akan memiliki jaringan komputasi terdistribusi yang berbeda. ketika didukung.
Segitiga Juan mengusulkan bahwa jaringan komputasi sering kali memerlukan trade-off antara privasi, kemampuan verifikasi, dan kinerja, dan pendekatan tradisional "satu ukuran untuk semua" sulit diterapkan pada setiap kasus penggunaan. Sebaliknya, sifat modular dari protokol terdistribusi memungkinkan jaringan terdistribusi (atau subjaringan) yang berbeda untuk memenuhi kebutuhan pengguna yang berbeda—baik privasi, kemampuan verifikasi, atau kinerja. Pada akhirnya, kami mengoptimalkan berdasarkan apa yang kami anggap penting. Pada saat itu, akan ada banyak penyedia layanan pihak (ditunjukkan dalam kotak di dalam segitiga) untuk mengisi kesenjangan ini dan mewujudkan komputasi terdistribusi.
Singkatnya, pemrosesan data adalah masalah kompleks yang memerlukan solusi unik. Mengganti sistem terpusat tradisional dengan komputasi data sumber terbuka adalah langkah awal yang baik. Pada akhirnya, penerapan platform komputasi pada protokol terdistribusi seperti jaringan Filecoin dapat dengan bebas mengonfigurasi sumber daya komputasi sesuai dengan kebutuhan individu pengguna, yang merupakan hal penting di era data besar dan kecerdasan buatan.
Silakan ikuti Kelompok Kerja CoD untuk terus mengetahui perkembangan terkini dalam platform komputasi terdistribusi. Untuk pembaruan lebih lanjut tentang ekosistem Filecoin, silakan ikuti blog Filecoin Insights, dan ikuti kami di Twitter Filecoin Insights, Bacalhau, Lilypad, Expanso, dan COD WG.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Filecoin: Pandangan mendalam tentang pentingnya dan potensi komersial dari komputasi data terdistribusi
Sumber asli: Jaringan Filecoin
*Catatan Editor: Artikel ini sebagian besar didasarkan pada pidato David Aronchick pada Konferensi Filecoin Unleashed 2023 di Paris. David adalah CEO Expanso dan mantan kepala komputasi data di Protocol Labs, yang meluncurkan proyek Bacalhau. Artikel ini mewakili pendapat independen pembuat konten asli, dan izin telah diberikan untuk menerbitkan ulang. *
Menurut IDC, pada tahun 2025, jumlah data yang disimpan secara global akan melebihi 175 ZB. Ini adalah jumlah data yang sangat besar, setara dengan 175 triliun stik USB 1 GB. Sebagian besar data ini dihasilkan antara tahun 2020 dan 2025, dengan proyeksi CAGR sebesar 61%.
Dunia data yang berkembang pesat saat ini menghadirkan dua tantangan besar:
Akibat gabungan dari pertumbuhan jaringan yang lesu dan kendala peraturan adalah hampir 68% data lembaga tidak digunakan. Oleh karena itu, sangat penting untuk memindahkan sumber daya komputasi ke lokasi penyimpanan data (secara luas disebut komputasi-over-data, yaitu, "komputasi data") daripada memindahkan data ke lokasi komputasi. Bacalhau dkk. Komputasi melalui Data (CoD) Platform sedang bekerja keras dalam hal ini.
Dalam bab-bab berikut kami akan memperkenalkan secara singkat:
status quo
Saat ini, terdapat tiga cara utama yang digunakan organisasi untuk mengatasi tantangan pemrosesan data, namun tidak ada satupun yang ideal.
Gunakan sistem terpusat
Pendekatan yang paling umum adalah dengan menggunakan sistem terpusat untuk pemrosesan data skala besar. Kita sering melihat organisasi menggabungkan kerangka komputasi seperti Adobe Spark, Hadoop, Databricks, Kubernetes, Kafka, Ray, dll. untuk membentuk jaringan sistem cluster yang terhubung ke server API terpusat. Namun, sistem ini tidak dapat secara efektif mengatasi pelanggaran jaringan dan masalah peraturan lainnya seputar mobilitas data.
Hal ini antara lain mengakibatkan denda administratif dan denda miliaran dolar bagi organisasi karena pelanggaran data.
Bangun sendiri
Pendekatan lainnya adalah bagi pengembang untuk membangun sistem koordinasi khusus yang memiliki kesadaran dan kekuatan yang dibutuhkan oleh institusi. Pendekatan ini merupakan hal baru, namun sering kali berisiko gagal karena ketergantungan yang berlebihan pada sejumlah kecil orang untuk memelihara dan menjalankan sistem.
Tidak ada hubungannya
Anehnya, seringkali institusi tidak melakukan apa pun terhadap datanya. Misalnya, sebuah kota dapat mengumpulkan sejumlah besar data dari video pengawasan setiap hari, namun karena biayanya yang tinggi, data tersebut hanya dapat dilihat di mesin lokal dan tidak dapat diarsipkan atau diproses.
Bangun komputasi terdistribusi yang sebenarnya
Ada dua solusi utama untuk masalah pemrosesan data.
Solusi 1: Membangun platform komputasi data sumber terbuka
Solusi 1: Platform komputasi data sumber terbuka
Pengembang dapat menggunakan platform data terdistribusi sumber terbuka untuk komputasi alih-alih sistem koordinasi khusus yang disebutkan sebelumnya. Karena platform ini bersifat open source dan dapat diperluas, lembaga hanya perlu membangun komponen yang diperlukan. Pengaturan ini dapat memenuhi skenario aplikasi multi-cloud, multi-komputasi, non-pusat data, dan menavigasi lingkungan peraturan yang kompleks. Yang penting, akses ke komunitas open source tidak lagi bergantung pada satu atau lebih pengembang untuk pemeliharaan sistem, sehingga mengurangi kemungkinan kegagalan.
Solusi 2: Dibangun pada protokol data terdistribusi
Dengan bantuan proyek komputasi tingkat lanjut seperti Bacalhau dan Lilypad, pengembang dapat melangkah lebih jauh dan membangun sistem tidak hanya pada platform data sumber terbuka yang disebutkan dalam Solusi 1, namun juga pada protokol data yang benar-benar terdistribusi seperti jaringan Filecoin.
Solusi 2: Protokol Komputasi Data Terdistribusi
Ini berarti institusi dapat menggunakan protokol terdistribusi yang memahami cara mengoordinasikan dan menjelaskan masalah pengguna dengan cara yang lebih terperinci, sehingga membuka area komputasi yang dekat dengan tempat data dihasilkan dan disimpan. Transisi dari pusat data ke protokol terdistribusi idealnya dapat dilakukan hanya dengan sedikit perubahan berdasarkan pengalaman data scientist.
Terdistribusi berarti maksimalisasi seleksi
Dengan menerapkan protokol terdistribusi seperti jaringan Filecoin, visi kami adalah pengguna dapat mengakses ratusan (atau ribuan) mesin yang didistribusikan di berbagai wilayah di jaringan yang sama dan mengikuti aturan protokol yang sama seperti mesin lainnya. Hal ini pada dasarnya membuka banyak pilihan bagi data scientist, karena mereka dapat meminta jaringan untuk:
Juan Triangle | Menguraikan singkatan: FHE (Enkripsi Homomorfik Sepenuhnya), MPC (Komputasi Multi-Partai), TEE (Lingkungan Eksekusi Tepercaya), ZKP (Bukti Tanpa Pengetahuan)
Berbicara tentang konsep maksimalisasi pilihan, kita harus menyebutkan "segitiga Juan". Istilah ini diciptakan oleh Juan Benet, pendiri Protocol Labs, untuk menjelaskan mengapa kasus penggunaan yang berbeda (di masa depan) akan memiliki jaringan komputasi terdistribusi yang berbeda. ketika didukung.
Segitiga Juan mengusulkan bahwa jaringan komputasi sering kali memerlukan trade-off antara privasi, kemampuan verifikasi, dan kinerja, dan pendekatan tradisional "satu ukuran untuk semua" sulit diterapkan pada setiap kasus penggunaan. Sebaliknya, sifat modular dari protokol terdistribusi memungkinkan jaringan terdistribusi (atau subjaringan) yang berbeda untuk memenuhi kebutuhan pengguna yang berbeda—baik privasi, kemampuan verifikasi, atau kinerja. Pada akhirnya, kami mengoptimalkan berdasarkan apa yang kami anggap penting. Pada saat itu, akan ada banyak penyedia layanan pihak (ditunjukkan dalam kotak di dalam segitiga) untuk mengisi kesenjangan ini dan mewujudkan komputasi terdistribusi.
Singkatnya, pemrosesan data adalah masalah kompleks yang memerlukan solusi unik. Mengganti sistem terpusat tradisional dengan komputasi data sumber terbuka adalah langkah awal yang baik. Pada akhirnya, penerapan platform komputasi pada protokol terdistribusi seperti jaringan Filecoin dapat dengan bebas mengonfigurasi sumber daya komputasi sesuai dengan kebutuhan individu pengguna, yang merupakan hal penting di era data besar dan kecerdasan buatan.
Silakan ikuti Kelompok Kerja CoD untuk terus mengetahui perkembangan terkini dalam platform komputasi terdistribusi. Untuk pembaruan lebih lanjut tentang ekosistem Filecoin, silakan ikuti blog Filecoin Insights, dan ikuti kami di Twitter Filecoin Insights, Bacalhau, Lilypad, Expanso, dan COD WG.