*Nota del editor: este artículo se basa principalmente en el discurso de David Aronchick en la Conferencia Filecoin Unleashed 2023 en París. David es el CEO de Expanso y ex Jefe de Computación de Datos en Protocol Labs, el mismo laboratorio responsable del lanzamiento del proyecto Bacalhau. Este artículo representa las opiniones independientes del creador del contenido original y se ha concedido permiso para volver a publicarlo. *
Según IDC, para 2025, la cantidad de datos almacenados a nivel mundial superará los 175 ZB. Se trata de una enorme cantidad de datos, equivalente a 175 billones de unidades flash USB de 1 GB. La mayoría de estos datos se generan entre 2020 y 2025, con una tasa compuesta anual esperada del 61%.
Hoy en día, surgen dos desafíos importantes en la esfera de datos en rápido crecimiento:
**La transferencia de datos es lenta y costosa. **Si intentas descargar 175 ZB de datos con el ancho de banda actual, tardará unos 1.800 millones de años.
**Las tareas de cumplimiento son onerosas. **Existen cientos de regulaciones relacionadas con datos en todo el mundo, lo que hace que el cumplimiento entre jurisdicciones sea casi imposible.
El resultado combinado del crecimiento mediocre de la red y las limitaciones regulatorias es que casi el 68% de los datos de las agencias están inactivos. Debido a esto, es particularmente importante mover los recursos informáticos a la ubicación de almacenamiento de datos (lo que en términos generales se denomina computación sobre datos, es decir, "computación de datos") en lugar de mover datos a la ubicación informática. Bacalhau et al. Compute over Data (CoD) Las plataformas están trabajando en ello.
En los próximos capítulos, presentaremos brevemente:
Cómo las organizaciones manejan los datos hoy.
Proponer una solución alternativa basada en “Computación de Datos”.
Finalmente, formule una hipótesis sobre por qué la computación distribuida es importante.
status quo
Actualmente, existen tres formas principales en que las organizaciones abordan los desafíos del procesamiento de datos, ninguna de las cuales es ideal.
Usando un sistema centralizado
El enfoque más común es utilizar sistemas centralizados para el procesamiento de datos a gran escala. A menudo vemos organizaciones que combinan marcos informáticos como Adobe Spark, Hadoop, Databricks, Kubernetes, Kafka, Ray, etc. para formar una red de sistemas agrupados conectados a un servidor API centralizado. Sin embargo, estos sistemas no abordan eficazmente las violaciones de la red y otras cuestiones regulatorias relacionadas con la movilidad de datos.
Esto es en parte responsable de que las agencias incurran en miles de millones de dólares en multas y sanciones administrativas debido a violaciones de datos.
Constrúyelo tú mismo
Otro enfoque es que los desarrolladores creen sistemas de coordinación personalizados que tengan la conciencia y la solidez que las instituciones necesitan. Este enfoque es novedoso, pero a menudo corre el riesgo de fracasar debido a la dependencia excesiva de un pequeño número de personas para mantener y ejecutar el sistema.
Hacer nada
Sorprendentemente, la mayoría de las veces las instituciones no hacen nada con sus datos. Por ejemplo, una ciudad puede recopilar una gran cantidad de datos de videos de vigilancia todos los días, pero debido al alto costo, estos datos solo se pueden ver en la máquina local y no se pueden archivar ni procesar.
Construya una informática distribuida real
Hay dos soluciones principales a los puntos débiles del procesamiento de datos.
Solución 1: construida sobre una plataforma informática de datos de código abierto
Solución 1: plataforma informática de datos de código abierto
Los desarrolladores pueden utilizar una plataforma de datos distribuidos de código abierto para el cálculo en lugar del sistema de coordinación personalizado mencionado anteriormente. Debido a que la plataforma es de código abierto y extensible, las agencias solo necesitan crear los componentes que necesitan. Esta configuración puede cumplir con escenarios de aplicaciones de múltiples nubes, múltiples computadoras y sin centros de datos y navegar por entornos regulatorios complejos. Es importante destacar que el acceso a la comunidad de código abierto ya no depende de uno o más desarrolladores para el mantenimiento del sistema, lo que reduce la probabilidad de fallas.
Solución 2: construir sobre un protocolo de datos distribuidos
Con la ayuda de proyectos informáticos avanzados como Bacalhau y Lilypad, los desarrolladores pueden ir un paso más allá y construir sistemas no sólo en las plataformas de datos de código abierto mencionadas en la Solución 1, sino también en protocolos de datos verdaderamente distribuidos como la red Filecoin.
Solución 2: protocolo de computación de datos distribuidos
Esto significa que las instituciones pueden utilizar protocolos distribuidos que comprendan cómo coordinar y describir los problemas de los usuarios de una manera más detallada, desbloqueando áreas de la informática cercanas a donde se generan y almacenan los datos. Esta transformación de centros de datos a protocolos distribuidos se puede realizar idealmente con sólo cambios menores en la experiencia del científico de datos.
Distribuir significa maximizar las opciones
Al implementar un protocolo distribuido como la red Filecoin, nuestra visión es que los usuarios puedan acceder a cientos (o miles) de máquinas distribuidas en diferentes regiones en la misma red y seguir las mismas reglas de protocolo que otras máquinas. Básicamente, esto abre un océano de opciones para los científicos de datos, ya que pueden pedirle a la red que:
Seleccione un conjunto de datos de cualquier parte del mundo.
Siga cualquier estructura de gobierno, ya sea HIPAA, GDPR o FISMA.
Corre al precio más barato posible.
Triángulo de Juan | Acrónimos de decodificación: FHE (Cifrado totalmente homomórfico), MPC (Computación multipartita), TEE (Entorno de ejecución confiable), ZKP (Prueba de conocimiento cero)
Hablando del concepto de maximización de elecciones, tenemos que mencionar el "triángulo de Juan", que es un término con el que Juan Benet, fundador de Protocol Labs, explicó por qué diferentes casos de uso (en el futuro) tendrán diferentes redes informáticas distribuidas. soportado.
El Triángulo de Juan propone que las redes informáticas a menudo requieren compromisos entre privacidad, verificabilidad y rendimiento, y el enfoque tradicional de "talla única" es difícil de aplicar a todos los casos de uso. En cambio, la naturaleza modular de los protocolos distribuidos permite que diferentes redes distribuidas (o subredes) satisfagan diferentes necesidades de los usuarios, ya sea privacidad, verificabilidad o rendimiento. En última instancia, optimizamos en función de lo que creemos que es importante. Para entonces, habrá muchos proveedores de servicios (que se muestran como cuadros dentro del triángulo) que llenarán estos vacíos y harán realidad la computación distribuida.
En resumen, el procesamiento de datos es un problema complejo que requiere soluciones listas para usar. Reemplazar los sistemas centralizados tradicionales con computación de datos de código abierto es un buen primer paso. En última instancia, implementar una plataforma informática en un protocolo distribuido como la red Filecoin puede configurar libremente los recursos informáticos de acuerdo con las necesidades individuales de los usuarios, lo cual es crucial en la era del big data y la inteligencia artificial.
Siga al Grupo de Trabajo de CoD para conocer las últimas novedades sobre plataformas informáticas distribuidas. Para obtener más avances en el ecosistema de Filecoin, siga el blog de Filecoin Insights y síganos en Filecoin Insights Twitter, Bacalhau, Lilypad, Expanso y COD WG.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Filecoin: una mirada en profundidad a la importancia y el potencial comercial de la informática de datos distribuidos
Fuente original: Red Filecoin
*Nota del editor: este artículo se basa principalmente en el discurso de David Aronchick en la Conferencia Filecoin Unleashed 2023 en París. David es el CEO de Expanso y ex Jefe de Computación de Datos en Protocol Labs, el mismo laboratorio responsable del lanzamiento del proyecto Bacalhau. Este artículo representa las opiniones independientes del creador del contenido original y se ha concedido permiso para volver a publicarlo. *
Según IDC, para 2025, la cantidad de datos almacenados a nivel mundial superará los 175 ZB. Se trata de una enorme cantidad de datos, equivalente a 175 billones de unidades flash USB de 1 GB. La mayoría de estos datos se generan entre 2020 y 2025, con una tasa compuesta anual esperada del 61%.
Hoy en día, surgen dos desafíos importantes en la esfera de datos en rápido crecimiento:
El resultado combinado del crecimiento mediocre de la red y las limitaciones regulatorias es que casi el 68% de los datos de las agencias están inactivos. Debido a esto, es particularmente importante mover los recursos informáticos a la ubicación de almacenamiento de datos (lo que en términos generales se denomina computación sobre datos, es decir, "computación de datos") en lugar de mover datos a la ubicación informática. Bacalhau et al. Compute over Data (CoD) Las plataformas están trabajando en ello.
En los próximos capítulos, presentaremos brevemente:
status quo
Actualmente, existen tres formas principales en que las organizaciones abordan los desafíos del procesamiento de datos, ninguna de las cuales es ideal.
Usando un sistema centralizado
El enfoque más común es utilizar sistemas centralizados para el procesamiento de datos a gran escala. A menudo vemos organizaciones que combinan marcos informáticos como Adobe Spark, Hadoop, Databricks, Kubernetes, Kafka, Ray, etc. para formar una red de sistemas agrupados conectados a un servidor API centralizado. Sin embargo, estos sistemas no abordan eficazmente las violaciones de la red y otras cuestiones regulatorias relacionadas con la movilidad de datos.
Esto es en parte responsable de que las agencias incurran en miles de millones de dólares en multas y sanciones administrativas debido a violaciones de datos.
Constrúyelo tú mismo
Otro enfoque es que los desarrolladores creen sistemas de coordinación personalizados que tengan la conciencia y la solidez que las instituciones necesitan. Este enfoque es novedoso, pero a menudo corre el riesgo de fracasar debido a la dependencia excesiva de un pequeño número de personas para mantener y ejecutar el sistema.
Hacer nada
Sorprendentemente, la mayoría de las veces las instituciones no hacen nada con sus datos. Por ejemplo, una ciudad puede recopilar una gran cantidad de datos de videos de vigilancia todos los días, pero debido al alto costo, estos datos solo se pueden ver en la máquina local y no se pueden archivar ni procesar.
Construya una informática distribuida real
Hay dos soluciones principales a los puntos débiles del procesamiento de datos.
Solución 1: construida sobre una plataforma informática de datos de código abierto
Solución 1: plataforma informática de datos de código abierto
Los desarrolladores pueden utilizar una plataforma de datos distribuidos de código abierto para el cálculo en lugar del sistema de coordinación personalizado mencionado anteriormente. Debido a que la plataforma es de código abierto y extensible, las agencias solo necesitan crear los componentes que necesitan. Esta configuración puede cumplir con escenarios de aplicaciones de múltiples nubes, múltiples computadoras y sin centros de datos y navegar por entornos regulatorios complejos. Es importante destacar que el acceso a la comunidad de código abierto ya no depende de uno o más desarrolladores para el mantenimiento del sistema, lo que reduce la probabilidad de fallas.
Solución 2: construir sobre un protocolo de datos distribuidos
Con la ayuda de proyectos informáticos avanzados como Bacalhau y Lilypad, los desarrolladores pueden ir un paso más allá y construir sistemas no sólo en las plataformas de datos de código abierto mencionadas en la Solución 1, sino también en protocolos de datos verdaderamente distribuidos como la red Filecoin.
Solución 2: protocolo de computación de datos distribuidos
Esto significa que las instituciones pueden utilizar protocolos distribuidos que comprendan cómo coordinar y describir los problemas de los usuarios de una manera más detallada, desbloqueando áreas de la informática cercanas a donde se generan y almacenan los datos. Esta transformación de centros de datos a protocolos distribuidos se puede realizar idealmente con sólo cambios menores en la experiencia del científico de datos.
Distribuir significa maximizar las opciones
Al implementar un protocolo distribuido como la red Filecoin, nuestra visión es que los usuarios puedan acceder a cientos (o miles) de máquinas distribuidas en diferentes regiones en la misma red y seguir las mismas reglas de protocolo que otras máquinas. Básicamente, esto abre un océano de opciones para los científicos de datos, ya que pueden pedirle a la red que:
Triángulo de Juan | Acrónimos de decodificación: FHE (Cifrado totalmente homomórfico), MPC (Computación multipartita), TEE (Entorno de ejecución confiable), ZKP (Prueba de conocimiento cero)
Hablando del concepto de maximización de elecciones, tenemos que mencionar el "triángulo de Juan", que es un término con el que Juan Benet, fundador de Protocol Labs, explicó por qué diferentes casos de uso (en el futuro) tendrán diferentes redes informáticas distribuidas. soportado.
El Triángulo de Juan propone que las redes informáticas a menudo requieren compromisos entre privacidad, verificabilidad y rendimiento, y el enfoque tradicional de "talla única" es difícil de aplicar a todos los casos de uso. En cambio, la naturaleza modular de los protocolos distribuidos permite que diferentes redes distribuidas (o subredes) satisfagan diferentes necesidades de los usuarios, ya sea privacidad, verificabilidad o rendimiento. En última instancia, optimizamos en función de lo que creemos que es importante. Para entonces, habrá muchos proveedores de servicios (que se muestran como cuadros dentro del triángulo) que llenarán estos vacíos y harán realidad la computación distribuida.
En resumen, el procesamiento de datos es un problema complejo que requiere soluciones listas para usar. Reemplazar los sistemas centralizados tradicionales con computación de datos de código abierto es un buen primer paso. En última instancia, implementar una plataforma informática en un protocolo distribuido como la red Filecoin puede configurar libremente los recursos informáticos de acuerdo con las necesidades individuales de los usuarios, lo cual es crucial en la era del big data y la inteligencia artificial.
Siga al Grupo de Trabajo de CoD para conocer las últimas novedades sobre plataformas informáticas distribuidas. Para obtener más avances en el ecosistema de Filecoin, siga el blog de Filecoin Insights y síganos en Filecoin Insights Twitter, Bacalhau, Lilypad, Expanso y COD WG.