IA en Cripto

Intermedio9/19/2024, 2:23:31 AM
El lanzamiento de ChatGPT en noviembre de 2022 ha abierto los ojos de varios actores de la industria al gran modelo de lenguaje de la IA. Esta dinámica frenética ha permeado el espacio Cripto, y este artículo tiene como objetivo introducir el desarrollo de la IA, su estado actual y la industria que ha surgido de la combinación de IA+Cripto.

El lanzamiento de ChatGPT en noviembre de 2022 ha abierto los ojos de varios actores de la industria al gran modelo de lenguaje de IA. Esta dinámica frenética ha permeado el espacio Cripto, y este artículo tiene como objetivo presentar el desarrollo de la IA, su estado actual y la industria que ha surgido de la combinación de IA+Cripto.

El desarrollo de la IA y su estado actual

Tipos y Arquitecturas

El aprendizaje automático (ML) es una tecnología con capacidades de aprendizaje empírico, que aprende a discriminar animales, traducción de idiomas y otras tareas específicas mediante el aprendizaje de grandes conjuntos de datos. El aprendizaje automático pertenece a la forma más práctica de realizar inteligencia artificial en la actualidad, según si los datos aprendidos están etiquetados y las características se pueden dividir en aprendizaje supervisado y no supervisado.

Existen muchos tipos de modelos que pueden lograr el aprendizaje supervisado, incluidos los modelos basados en árboles, modelos gráficos y las redes neuronales que han surgido recientemente. Con el rápido desarrollo de la potencia de cálculo y los datos, el aprendizaje profundo se ha desarrollado aún más basado en la arquitectura de las redes neuronales. Las arquitecturas actuales de aprendizaje profundo comúnmente incluyen, pero no se limitan a, CNN, RNN y mecanismos de atención.

Clasificación de aprendizaje automático, fuente: Capital de HashKey

Las diferentes redes de aprendizaje profundo tienen la arquitectura básica de capa de entrada, capa oculta y capa de salida, la capa de entrada suele ser texto, video, audio y otros datos después de ser procesados ​​'tokenizar/incrustar'. La capa oculta tiene un diseño diferente (forma de modelo) dependiendo del conjunto de datos y el propósito de la tarea, como se muestra en la tabla.

Tipos de redes neuronales, Fuente: Organizado por HashKey Capital

Treinta años de desarrollo de redes neuronales

30 años de desarrollo de redes neuronales, fuente: organizado por HashKey Capital

La formación de redes neuronales se originó por primera vez a mediados de la década de 1980 cuando Jordan entrenó una red neuronal para aprender patrones secuenciales en su artículo de 1986Orden serial: Un enfoque de procesamiento distribuido paralelo. La pequeña red solo tenía unos pocos neuronas.

En la década de 1990, Jeffrey Ehrman expandió la red neuronal a una red de 50 neuronas con el descubrimiento de que la red agrupa espacialmente las palabras basadas en su significado. Por ejemplo, separó los sustantivos inanimados y animados, y dentro de estas dos categorías, los objetos animados se subdividieron en categorías humanas y no humanas, y lo inanimado se categorizó como rompible y comestible. Esto indica que la red tiene la capacidad de aprender explicaciones jerárquicas.

Además observó que las palabras pueden representarse como puntos en un espacio de alta dimensión, y luego una secuencia de palabras u oraciones puede ser vista como un camino. Este gran avance permite que los conjuntos de datos textuales sean digitalizados, vectorizados y procesados por computadoras.

Fuente: http://3b1b.co/neural-networks

En 2011, los investigadores de Confluence entrenaron redes más grandes que involucraban miles de neuronas y millones de conexiones, y se encontró un cuello de botella en el estudio en la capacidad de la red para mantener un contexto coherente en secuencias largas.

En 2017, OpenAI construyó sobre el trabajo de Kathy entrenando en 82 millones de reseñas de Amazon en las que se descubrieron neuronas emocionales. Tales neuronas categorizaron perfectamente las emociones del texto.

Fuente: Aprendiendo a generar reseñas y descubrir sentimientos

Con respecto a las limitaciones del tamaño del contexto, este documento 2017 Attention Is All You Need presenta una solución. El documento crea una red de capas dinámicas que adapta los pesos de conexión en función del contexto de la red. Funciona permitiendo que las palabras de la entrada vean, comparen otras palabras y encuentren las más relevantes. Cuanto más cerca estén estas palabras en concepto, más cerca estarán en el espacio y pueden tener pesos de conexión más altos. Sin embargo, el documento sólo se centró en el problema de la traducción.

Así que los investigadores de OpenAI probaron una arquitectura de transformador más potente y lanzaron GPT-3 en 2020, lo que atrajo la atención generalizada de las industrias de todo el mundo, esta vez con la red alcanzando 175 mil millones de parámetros, 96 capas y una ventana de contexto de 1,000 palabras.

¿Qué es una red neuronal?

Tomemos la siguiente imagen digital de 28x28 píxeles como ejemplo, las neuronas corresponden a cada píxel de la imagen de entrada de 28x28, sumando un total de 784 neuronas, los números en las neuronas son los valores de activación, que van desde 0–1.

imagen digital de 28x28 píxeles, Fuente: http://3b1b.co/neural-networks

Estos 784 neuronas forman la capa de entrada de la red. La capa final es la capa de salida, que contiene diez neuronas que representan los números del 0 al 9, nuevamente con valores de activación que van de 0 a 1. La capa intermedia es la capa oculta, donde el valor de activación de la capa anterior determina el valor de activación de la siguiente capa a medida que la red neuronal opera.

La profundidad del aprendizaje profundo radica en el hecho de que el modelo aprende muchas "capas" de transformaciones, cada una con una representación diferente. Como se muestra en la figura a continuación, por ejemplo, en 9, diferentes capas pueden reconocer diferentes características. Cuanto más cerca esté la capa de entrada del nivel más bajo de detalle de los datos, más cerca estará la capa de salida de los conceptos más específicos que se pueden utilizar para diferenciar.

Fuente: http://3b1b.co/neural-networks

A medida que el modelo se hace más grande, las capas ocultas en el medio involucran cientos de miles de millones de pesos por capa, y son estos pesos y sesgos los que realmente determinan lo que la red está haciendo realmente. El proceso de aprendizaje automático es el proceso de encontrar los parámetros correctos, que son ponderaciones y sesgos.

La arquitectura del transformador utilizada en GPT, un modelo de lenguaje grande, tiene una capa oculta intermedia que consta de 96 capas de módulos decodificadores, de los cuales GPT1, GPT2 y GPT3 tienen 12, 48 y 96 capas, respectivamente. El decodificador a su vez contiene componentes de red neuronal de atención y retroalimentación hacia adelante.

Enfoque de entrenamiento

El proceso de cálculo o aprendizaje implica definir una función de costo (o función de pérdida) que suma los cuadrados de las diferencias entre las predicciones de salida calculadas de la red y los valores reales, y cuando la suma es pequeña, el modelo funciona dentro de límites aceptables.

El entrenamiento comienza aleatorizando los parámetros de la red y finalizando los parámetros del modelo de la red al encontrar el parámetro que minimiza la función de coste. La forma de converger la función de coste es mediante el descenso del gradiente, mediante el cual se examina el grado de impacto de cada cambio de parámetro en el coste/pérdida, y luego se ajustan los parámetros de acuerdo con ese grado de impacto.

El proceso de cálculo del gradiente de parámetros introduce la propagación hacia atrás o la propagación hacia atrás, que atraviesa la red desde la capa de salida hasta la capa de entrada en orden inverso según la regla de la cadena. El algoritmo también requiere el almacenamiento de cualquier variable intermedia (derivadas parciales) necesaria para calcular el gradiente.

Factores de Desarrollo

Hay tres factores principales que afectan el rendimiento de los modelos de lenguaje grandes de IA durante su entrenamiento, a saber, el número de parámetros del modelo, el tamaño del conjunto de datos y la cantidad de computación.

Fuente: informe de OpenAI, Leyes de escala para modelos de lenguaje neural

Esto es coherente con el desarrollo de conjuntos de datos y computadoras (potencia de cálculo) en la realidad, pero también se puede ver en la tabla a continuación que la potencia de cálculo está creciendo más rápido que los datos disponibles, mientras que la memoria es la más lenta en desarrollarse.

El desarrollo del conjunto de datos, la memoria y la potencia de cómputo, Fuente: https://github.com/d2l-ai

Datos

Requisitos de datos

Ante un modelo grande, el sobreajuste tiende a ocurrir cuando los datos de entrenamiento son demasiado pequeños y, en general, la precisión del modelo más complejo mejora a medida que aumenta la cantidad de datos. En cuanto a los requisitos de datos necesarios para un modelo grande, se puede decidir en función de la regla de 10, que sugiere que la cantidad de datos debe ser 10 veces el parámetro, pero algunos algoritmos de aprendizaje profundo aplican 1:1.

Datos etiquetados

El aprendizaje supervisado requiere el uso de conjuntos de datos etiquetados + destacados para llegar a resultados válidos.

Fuente: Conjunto de datos de categorización de ropa Fashion-MNIST

Datos sintéticos

A pesar del rápido aumento de datos en la última década o dos y de los conjuntos de datos de código abierto actualmente disponibles, incluidos Kaggle, Azure, AWS, Google database, etc., cantidades limitadas, escasas y costosas de datos se están convirtiendo gradualmente en un cuello de botella para el desarrollo de la IA debido a problemas de privacidad, aumento de los parámetros del modelo y reproducibilidad de los datos. Se proponen diferentes soluciones de datos con el objetivo de aliviar este problema.

Las técnicas de aumento de datos pueden ser una solución efectiva al proporcionar datos insuficientes al modelo sin adquirir nuevas muestras, como escalar, rotar, reflejar, recortar, traducir, agregar ruido gaussiano, mezclar, etc.

Los datos sintéticos son otra opción. Los datos sintéticos son datos que pueden generarse artificialmente mediante simulación por computadora o algoritmos con o sin un conjunto de datos de referencia previo. En cuanto al desarrollo de herramientas para generar datos sintéticos, Ian J. Goodfellow inventó la Red Generativa Adversarial (GAN), que es una arquitectura de aprendizaje profundo.

Entrena dos redes neuronales para competir entre sí, lo que puede generar datos nuevos y más realistas a partir de un conjunto de datos de entrenamiento dado. La arquitectura admite la generación de imágenes, rellenar información faltante, generar datos de entrenamiento para otros modelos, generar modelos 3D basados en datos 2D, y más.

Todavía es temprano en el desarrollo del campo, con la mayoría de las empresas existentes que trabajan con datos sintéticos fundadas en 2021 o 2022, y algunas en 2023.

El estado de financiamiento para empresas de datos sintéticos. Fuente : https://frontline.vc/blog/synthetic-data/

Base de datos de vectores

El proceso de entrenamiento de IA implica una gran cantidad de operaciones matriciales, desde el anidamiento de palabras, la matriz transformadora QKV, hasta operaciones softmax, y así sucesivamente a través de las operaciones matriciales, también se llevan a cabo los parámetros completos del modelo en la matriz.

ejemplo de base de datos vectorial, Fuente : https://x.com/ProfTomYeh/status/1795076707386360227

Recursos de Hardware de Computadora

Los modelos grandes generan una gran demanda de hardware informático, que se clasifica principalmente en entrenamiento e inferencia.

Pre-entrenamiento, ajuste fino e inferencia

El preentrenamiento y el ajuste fino se pueden dividir aún más bajo el entrenamiento. Como se mencionó antes, construir un modelo de red primero requiere inicializar los parámetros de manera aleatoria, luego entrenar la red y ajustar continuamente los parámetros hasta que la pérdida de la red alcance un rango aceptable. La diferencia entre el preentrenamiento y el ajuste fino es que

El preentrenamiento comienza con cada capa de parámetros desde una inicialización aleatoria, mientras que algunas capas de ajuste fino pueden usar directamente los parámetros del modelo previamente entrenado como los parámetros de inicialización para esta tarea (congelando los parámetros de las capas anteriores) y actuando en un conjunto de datos específico.

Fuente: https://d2l.ai/chapter_computer-vision/fine-tuning.html

Tanto el preentrenamiento como el ajuste fino implican cambios en los parámetros del modelo, lo que finalmente resulta en una optimización del modelo o de los parámetros, mientras que la inferencia es el cálculo de la inferencia cargando un modelo después de que el usuario introduzca datos y, finalmente, obteniendo retroalimentación y resultados de salida.

El pre-entrenamiento, el ajuste fino y la inferencia se clasifican de mayor a menor en términos de sus requisitos informáticos. La siguiente tabla compara los requisitos de hardware de la computadora para el entrenamiento y la inferencia. Los requisitos de hardware de la computadora de ambos son significativamente diferentes en términos de potencia de cálculo, memoria y comunicación/ancho de banda debido a las diferencias en el proceso de cálculo y los requisitos de precisión, y al mismo tiempo existe un Trilema Imposible en la potencia de cálculo, memoria y comunicación/ancho de banda.

Las medidas estadísticas en esta tabla se basan en un solo modelo que procesa un solo token, un solo parámetro. \ FLOPs: operaciones de punto flotante por segundo, el número de cálculos de matrices. \
*DP, TP, PP: data parallel, tensor parallel, pipeline parallel.

Comparación de hardware de computadora entre entrenamiento e inferencia, Fuente: Organizado por HashKey Capital

El proceso de entrenamiento de una red neuronal requiere alternar entre la propagación hacia adelante y hacia atrás, utilizando el gradiente dado por la propagación hacia atrás para actualizar los parámetros del modelo. Por otro lado, la inferencia solo requiere propagación hacia adelante. Esta diferencia se convierte en un factor influyente que diferencia principalmente los requisitos de recursos de hardware de la computadora para entrenamiento e inferencia.

En cuanto a la potencia de cálculo, como se muestra en la tabla, hay una relación multiplicativa simple entre el número de parámetros del modelo y el consumo de potencia de cálculo, con el entrenamiento que requiere de 6 a 8 operaciones de punto flotante y la inferencia que requiere 2. Esto se debe a la retropropagación involucrada en el entrenamiento, que requiere el doble de potencia de cálculo que la propagación hacia adelante, y así el consumo de potencia de cálculo del entrenamiento es mucho mayor que el de la inferencia.

En cuanto a la memoria, la retropropagación utilizada para el entrenamiento reutiliza los valores intermedios almacenados en la propagación hacia adelante para evitar cálculos repetidos. Por lo tanto, el proceso de entrenamiento debe mantener los valores intermedios hasta que se complete la retropropagación. El consumo de memoria resultante durante el entrenamiento contiene principalmente parámetros del modelo, valores de activación intermedios generados durante la computación hacia adelante, gradientes generados por la computación de retropropagación hacia atrás y estados del optimizador. La etapa de inferencia no necesita retropropagación, ni necesita estados de optimizador y gradiente, etc., y su uso de memoria es mucho más pequeño que el del entrenamiento.

En cuanto a la comunicación/ancho de banda, para mejorar el rendimiento del entrenamiento de IA, el entrenamiento del modelo principal suele utilizar tres estrategias paralelas: paralelismo de datos, paralelismo de tensores y paralelismo de tuberías.

  • La paralelización de datos se refiere a la replicación de múltiples réplicas de modelos que se ejecutan en dispositivos diferentes, con cada réplica del modelo actuando en diferentes conjuntos de datos y sincronizando los datos de gradiente durante el ciclo de entrenamiento.
  • Por otro lado, el paralelismo de canal divide las capas ocultas intermedias y cada nodo de cálculo es responsable de varias de estas capas de transformadores. Este enfoque también se conoce como paralelismo entre capas.
  • Por otro lado, el paralelismo tensorial divide cada uno de estos módulos transformadores y también se conoce como paralelismo intra-capa.

Fuente: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/

Para estas tres estrategias, se proyecta que la frecuencia de comunicación de TP es la mayor, el volumen de comunicación es el más alto, y está relacionado con el número de tokens, el ancho del modelo y el número de capas. El volumen y la frecuencia de comunicación de PP es menor que la de TP, y está relacionado con el número de tokens y el ancho del modelo. El volumen y la frecuencia de comunicación de DP es el más pequeño y es independiente de los tokens de entrada.

Trilema imposible

El cuello de botella de los recursos de hardware de computadora en modelos grandes está principalmente limitado por la potencia de cálculo, ancho de banda/comunicación y memoria, y hay controles y equilibrios entre los tres, lo que resulta en el problema del Triángulo Imposible. Por ejemplo, debido a los cuellos de botella de comunicación, el rendimiento del clúster no puede mejorarse simplemente optimizando la potencia de una sola computadora.

Por lo tanto, aunque se utilizan arquitecturas paralelas para acelerar el rendimiento del clúster, la mayoría de las arquitecturas paralelas en realidad sacrifican la comunicación o el almacenamiento en favor de la potencia de cálculo.

Sacrificar la comunicación y el almacenamiento por la potencia informática:

En PP, si a cada capa de los transformadores se asigna una GPU, a pesar del aumento de la potencia computacional en unidades de tiempo, los requisitos de comunicación entre las capas también aumentan, lo que resulta en un mayor volumen de datos y latencia. Además, el requisito de almacenamiento de estado intermedio para la propagación hacia adelante aumenta extremadamente rápido.

Sacrificar la comunicación por la potencia de cálculo:

En TP, cada transformador se desmonta para la computación en paralelo. Dado que el transformador consta de dos componentes (cabeza de atención y red neuronal feed-forward), la tarea se puede dividir dentro de la capa para la cabeza de atención o la red neuronal feed-forward. Este enfoque de TP puede aliviar el problema de tener jerarquía de PP demasiado grande debido a que las GPU no pueden ajustar el modelo. Sin embargo, este enfoque todavía tiene una sobrecarga de comunicación seria.

Cripto+IA

En este documento, creemos que actualmente existen las siguientes categorías principales de IA en el campo de la cripto:

Fuente: Organizado por HashKey Capital

Como se mencionó anteriormente, los tres componentes más críticos en la IA son datos, modelos y potencia informática, que sirven como infraestructura para potenciar la IA cripto.

Su combinación en realidad forma una red informática, con una gran cantidad de middleware que aparece en el proceso de cálculo para ser eficiente y más acorde con el espíritu cripto. Aguas abajo están los Agentes basados en estos resultados verificables, que pueden servir a diferentes roles para diferentes audiencias de usuarios.

Otro diagrama de flujo se puede utilizar para expresar la ecología básica de la inteligencia artificial cripto de la siguiente manera:

Diagrama de flujo ecológico, fuente: organizado por HashKey Capital

Por supuesto, se necesitan mecanismos tokenómicos en el espacio cripto para incentivar la coordinación de la participación de diferentes jugadores.

Datos

Para conjuntos de datos, uno puede elegir entre fuentes de datos públicas o fuentes de datos privadas específicas propias.

Fuente de datos:

  • Grass es el proyecto que rastrea las fuentes de datos en la parte superior de Solana, el trasfondo se debe al hecho de que muchas empresas bloquean los rastreos de IP desde los centros de datos pero no bloquean a los usuarios residenciales, Grass actúa como un proveedor de servicios descentralizado que incentiva a los usuarios residenciales a contribuir con su ancho de banda a través de tokens.
  • Vana como DATA DAO también proporciona su propia solución, donde el creador crea diferentes data dao para diferentes fuentes de datos en la cadena y establece diferentes programas de incentivos para que los usuarios carguen sus datos. Hasta ahora, se han creado data dao para reddit (rDAO) donde más de 154,000 usuarios proporcionan sus datos personales a rDAO para el entrenamiento de IA.
  • Los datos relevantes se recopilan en forma de DePINs, que permiten a los usuarios conectar sus vehículos a la plataforma DIMO a través de un dispositivo hardware, por ejemplo. Información básica sobre ese vehículo y datos más avanzados sobre patrones de conducción, etc. se transmitirán de forma segura a la red DIMO, se almacenarán en cadena y se vincularán al ID de vehículo correspondiente (NFT). Otro ejemplo es el Hivemapper que recopila datos del mapa mientras el usuario está conduciendo.

Plataforma de Datos Sintéticos:

  • Dria es una plataforma de generación de datos sintéticos (OPStack L2) que incentiva a los usuarios a generar/comerciar datos sintéticos de forma descentralizada. Su almacenamiento de datos se guarda en Arweave a través de HollowDB. Cuando los usuarios inician una solicitud de generación de datos sintéticos, Dria aceptará la solicitud y dividirá la tarea en los nodos de cálculo en la red de datos sintéticos para ejecutarla, y después de la verificación de la red, los datos sintéticos finales se pueden comerciar en el mercado de conocimientos.

Otros:

Plataforma de servicios de etiquetado de datos, al asignar la tarea de orden de etiquetado a diferentes trabajadores, estos trabajadores pueden recibir el incentivo de tokens correspondiente después de completar la tarea, como Cripto, Public AI, y así sucesivamente. Sin embargo, el problema actual es que hay más personas etiquetando datos que datos, mientras que las empresas de IA tienen proveedores estables de etiquetado de datos para sus necesidades de datos etiquetados, debido a la existencia pegajosa de la cual hace que su voluntad de cambiar a plataformas descentralizadas sea débil. Estas plataformas sólo pueden obtener la asignación de la parte restante del pedido de los proveedores de etiquetado de datos.

Redes Informáticas

Redes de Computación Generalizadas

Redes de computación generalizadas, que se refieren a redes que agregan recursos como GPUs y CPUs para poder proporcionar servicios de computación generalizados, lo que significa ninguna distinción entre entrenamiento e inferencia.

  • Akash, un proyecto de 2020, sirve como un mercado para emparejar la oferta y la demanda computacionales, permitiendo a los proveedores de computación ofertar pedidos, con las coincidencias finales subidas a la blockchain como transacciones. Un validador separado es responsable de empaquetar bloques y realizar validaciones. Este proceso no implica cómo se asignan las tareas de IA, ni valida el proceso de computación y los resultados, sin distinguir entre entrenamiento e inferencia.
  • io.net, que hasta junio de 2022 desarrolló sistemas de trading cuantitativo de grado institucional principalmente para el mercado de valores de EE. UU. y los mercados de criptomonedas, descubrió Ray.io, una biblioteca de Python de código abierto para construir sistemas distribuidos de alto rendimiento, en el camino. io.net aprovecha Ray y bibliotecas especializadas para transmisión de datos, entrenamiento, ajuste fino, y se combina con Mesh VPNs (que simplifican el proceso de desarrollar e implementar modelos de IA a gran escala en vastas redes de GPUs) para proporcionar servicios informáticos.
  • Bittensor, como una plataforma abierta, permite a los usuarios crear subredes en su plataforma, cada una con sus propios incentivos únicos para motivar a otros usuarios a participar como mineros de subredes, validadores de subredes, mineros de subredes para ejecutar tareas específicas, y validadores para verificar las tareas de estos mineros.
  • Aethir es una infraestructura de computación en la nube que proporciona servicios de alta calidad para la inteligencia artificial y los juegos en la nube. Aethir se enfoca en la agregación de recursos de GPU de alta calidad, como el chip H100 de NVIDIA, de centros de datos, empresas de tecnología, compañías de telecomunicaciones, principales estudios de juegos y compañías de minería de criptomonedas. La red consta de 3 actores principales: Contenedor, Verificador e Indexador. Los Contenedores, incluido el Aethir Edge, son donde realmente se utilizan los recursos informáticos. El Verificador garantiza la integridad y el rendimiento del Contenedor. Si es necesario, el Indexador empareja a los usuarios finales con Contenedores apropiados en función de los requisitos de los usuarios finales.

Redes específicas de cómputo

Pre-entrenamiento

En el espacio Cripto, Gensyn, invertido por a16z, propone una red de computación de entrenamiento descentralizada.

El proceso es que después de que un usuario envía una tarea de requisito de entrenamiento, la plataforma la analiza, evalúa la potencia informática requerida y la divide en un número mínimo de trabajos de aprendizaje automático, momento en el que el validador agarra periódicamente la tarea analizada para generar umbrales para la comparación de las pruebas de aprendizaje aguas abajo.

Una vez que la tarea entra en la fase de entrenamiento, es ejecutada por el Solver, que periódicamente almacena los pesos del modelo e índices de respuesta del conjunto de datos de entrenamiento, así como genera las pruebas de aprendizaje, y el verificador también realiza el trabajo computacional volviendo a ejecutar algunas de las pruebas para realizar cálculos de distancia y verificar que coincidan con las pruebas. Los denunciantes realizan arbitraje basado en un programa de desafío puntual basado en gráficos para verificar si el trabajo de validación se realizó correctamente.

Ajuste fino

Ajustar fino es más fácil y menos costoso de implementar que pre-entrenar directamente un modelo grande, simplemente ajustando fino el modelo pre-entrenado con un conjunto de datos específico y adaptando el modelo a una tarea específica mientras se preserva el modelo original.

Hugging Face se puede acceder como un proveedor de recursos de modelo de lenguaje preentrenado a la plataforma distribuida, el usuario selecciona el modelo para ser ajustado según los requisitos de la tarea y luego utiliza las GPUs y otros recursos proporcionados por la red informática para el ajuste fino de la tarea, que necesita basarse en la complejidad de la tarea para determinar el tamaño del conjunto de datos, la complejidad del modelo, y para determinar además la necesidad de un nivel más alto de recursos como el A100.

Además de Gensyn, una plataforma que puede soportar el pre-entrenamiento, la mayoría de las plataformas informáticas también pueden soportar el ajuste fino.

Inferencia

En comparación con el entrenamiento (pre-entrenamiento y ajuste fino), que requiere la sintonización de los parámetros del modelo, el proceso computacional de inferencia implica solo propagación hacia adelante y requiere menos potencia de cálculo. La mayoría de las redes de computación descentralizadas actualmente se centran en servicios de inferencia.

  • La red Nosana es una plataforma para ejecutar cargas de trabajo de inferencia de IA que proporciona servicios informáticos dirigidos al proceso de inferencia para los modelos LLama 2 y Stable Diffusion.
  • Ritual.AI, la primera fase de la plataforma es Infernet que es un marco ligero. Con él, los desarrolladores de contratos inteligentes pueden solicitar servicios de inferencia desde fuera de la cadena y entregarlos a los contratos inteligentes en la cadena. La segunda fase es la capa de ejecución, Ritual Chain, que admite operaciones nativas de IA.

Capas/middleware adicionales

Cuando se realiza la inferencia, esta etapa ya es la etapa de uso del modelo, entonces el middleware se puede introducir en el momento adecuado:

  • Model Matching: Al hacer inferencias, generalmente es necesario determinar el modelo apropiado según los requisitos de la tarea.
  • API: Abstracta todos los modelos de código abierto de la API interfaz unificada, como Redpill

Contrato inteligente en cadena para recuperar los resultados de cálculos de IA fuera de la cadena:

  • El protocolo ORA proporciona resultados de inferencia verificados para contratos inteligentes, por ejemplo, el nodo opML recopila solicitudes opML enviadas desde la cadena, ejecutará la inferencia de IA y luego cargará los resultados a la cadena y esperará el período de desafío.

Otra capa de privacidad se puede agregar a la red informática, que incluye principalmente la privacidad de los datos y la privacidad del modelo, donde la privacidad de los datos es mucho más importante que la privacidad del modelo.

  • Actualmente, el protocolo Oasis utiliza Intel TDX y NVIDIA TEEs para proporcionar privacidad y verificabilidad para el entrenamiento de modelos de IA.

Verificación

La mayoría de las redes informáticas construyen diferentes sistemas de validación para asegurar que el sistema funcione con precisión, mientras que el enlace es una parte que aún no ha sido introducida en el campo tradicional de la IA.

ZKML

El papel principal de la prueba ZK son los siguientes 2 puntos:

  • Utilizado para demostrar la precisión del modelo sin revelar ningún parámetro
  • Demuestra que la computación se realizó correctamente y que el modelo + entradas coinciden con las salidas: Modulus labs, Giza

Modulus Labs ha demostrado que es posible crear pruebas para modelos de 18 millones de parámetros en 60-70 segundos utilizando el sistema de pruebas Plonky de Polygon. Para modelos pequeños, es posible utilizar ZKML en esta etapa, pero el costo sigue siendo significativo:

  • El tiempo de prueba de ZKML crece con el aumento de los parámetros.
  • Es muy caro en términos de consumo de memoria del probador. Worldcoin, por ejemplo, utiliza un modelo con 1.8M parámetros y 50 capas para distinguir entre 10 mil millones de iris, para los cuales se pueden generar pruebas de inferencia en solo unos minutos, pero el consumo de memoria dentro del probador es demasiado alto para cualquier hardware móvil.

Fuente: @ModulusLabs/capitulo-5-el-costo-de-la-inteligencia-da26dbf93307"">https://medium.com/@ModulusLabs/capitulo-5-el-costo-de-la-inteligencia-da26dbf93307

OPML

Dadas las limitaciones de ZKML descritas anteriormente, OPML es una alternativa. Aunque más débil que ZKML en cuanto a seguridad, su consumo de memoria y el tiempo de cálculo de prueba son significativamente mejores que los de ZKML. Según el informe de ORA, se muestra que para el mismo modelo de 7B-LLaMA (con un tamaño de modelo de aproximadamente 26GB) opML puede procesarse con 32GB de memoria, mientras que el consumo de memoria de los circuitos en zkML puede estar en el orden de terabytes o incluso petabytes.

TEEML

El Entorno de Ejecución Confiable proporciona seguridad a nivel de hardware y puede ser una alternativa a ZKML y OPML. La prueba de TEE se genera como resultado de la computación interna dentro de TEE y su costo computacional es mucho menor que el de la prueba zk. Además, el tamaño de la prueba de TEE suele ser una constante fija (longitud de la firma) y, por lo tanto, tiene la ventaja de una huella más pequeña y un menor costo de validación en cadena.

Además de la verificación, TEE tiene la ventaja de mantener aislados los datos sensibles, lo que garantiza que los procesos o cálculos externos no puedan acceder a los datos que contiene ni alterarlos.

Los proyectos que utilizan TEE incluyen:

  • Red de Aizel (proporcionando inferencia)
  • Red Phala (centrado en la creación de agentes de IA)
  • Protocolo Oasia (entrenamiento de modelo de IA)
  • Protocolo Marlin (Oyster puede implementar y validar modelos de ML)

Fuente: https://arxiv.org/pdf/2401.17555,Protocolo Marlin

Además, el protocolo ORA ha desarrollado opp/ai (Inteligencia Artificial Optimista Preservando la Privacidad en Blockchain) además de su propia validación ZKML y OPML, y no está incluido en la tabla de comparación anterior.

Capa de Agente

El agente tiene la capacidad de analizar la información entrante, evaluar las condiciones ambientales actuales y tomar decisiones. La composición del agente se muestra en la siguiente figura, en la que el LLM es el componente central, además, es necesario alimentar la señal adecuada al LLM, y a través de la memoria almacenar datos a corto plazo y datos históricos a largo plazo (datos externos).

Dado que las tareas complejas no pueden completarse de una vez, es necesario dividirlas en tareas más pequeñas mediante Plan, además de que el Agente también puede llamar a APIs externas para obtener información adicional, incluida la información actual, las capacidades de ejecución de código, el acceso a fuentes de información patentadas, y así sucesivamente.

Fuente: Una encuesta sobre agentes autónomos basados en modelos de lenguaje grandes

La capacidad de toma de decisiones de los Agentes no tuvo un avance cierto hasta la aparición del Gran Modelo de Lenguaje LLM en los últimos años. Un informe ha recopilado la cantidad de artículos publicados sobre Agentes desde 2021 hasta 2023, como se muestra en la figura a continuación, en realidad solo hay alrededor de una docena de artículos de investigación en 2021, pero hay cientos de artículos publicados sobre ellos en 2023. El documento categoriza a los Agentes en 7 categorías.

Fuente: Una encuesta sobre agentes autónomos basados en modelos de lenguaje grandes

En web3, los escenarios en los que existen Agentes todavía son limitados en comparación con el mundo web2, e incluyen actualmente compensación automatizada, construcción de componentes de código (escritura de contratos inteligentes, escritura de circuitos zk), control de riesgos en tiempo real, y ejecución de estrategias como arbitraje y agricultura de rendimiento.

Creación de agentes y plataformas de trading

  • Theoriq (ChainML) ha introducido el concepto de capa base de agentes, que permite a los desarrolladores anotar agentes en forma de NFT y crear sus propios agentes, así como crear un colectivo de agentes combinando agentes para cumplir requisitos complejos. Este proceso evalúa el desempeño y la vinculación de los diferentes agentes a través de pruebas de atribución y pruebas de colaboración.
  • Spectral Labs tiene dos productos principales, Spectral Syntax, una plataforma que permite a los usuarios crear Agentes en la cadena, y Spectral Nova, un servicio de inferencia que admite la solicitud de servicios de inferencia. Crear un Agente en Spectral Syntax utiliza el servicio de inferencia de Spectral Nova, y esa inferencia está asegurada por la prueba de ZK para asegurarse de que funcione. Al mismo tiempo, lanzarán Inferchain para permitir la comunicación de Agente a Agente.
  • Autonolas apoya la construcción de servicios que consisten en múltiples Agentes, lo que permite al Propietario del Servicio crear un servicio y registrar el servicio correspondiente en el registro de servicios para iniciar el flujo de trabajo, solicitar al desarrollador que proporcione los componentes del Agente, etc. Los desarrolladores pueden desarrollar el Agente, componentes y otro código almacenado fuera de la cadena, acuñar el NFT correspondiente en la cadena, hacer referencia al hash IPFS de metadatos, y luego hacer referencia al código subyacente al hacer referencia al hash IPFS. Los servicios suelen ser ejecutados por un conjunto de Operadores, cada uno ejecutando al menos una instancia del Agente. Además, Autonolas logra consenso dentro del servicio para sus agentes mediante un Dispositivo de Consenso que establece un acuerdo entre los agentes dentro del servicio.

Plataforma de Monitoreo de Agentes

  • AgentOpsAI es un socio de sentiente, que proporciona servicios de monitoreo de agentes (eventos de registro, llamadas, errores de agentes, etc.), actualmente una plataforma centralizada, sin token involucrado.

Flujo de trabajo

Basado en diferentes Agentes se pueden combinar/abstraer/crear una aplicación específica, al mismo tiempo, hay algunas plataformas de coordinación disponibles para que los usuarios elijan qué tipo de Agentes utilizar para construir un tipo específico de aplicación. Pero la mayoría de ellos están limitados al desarrollo de Agentes.

Aplicación

Desarrolladores del proyecto

Algunos desarrolladores utilizarán inteligencia artificial para ayudar a sus plataformas a ser más inteligentes, por ejemplo, en proyectos de seguridad, se utiliza el aprendizaje automático para distinguir las vulnerabilidades de ataque; los protocolos DeFi utilizan inteligencia artificial para construir herramientas de monitorización en tiempo real; y las plataformas de análisis de datos también utilizan inteligencia artificial para ayudar con la limpieza y el análisis de datos.

Usuario

Ventana de preguntas y respuestas/Análisis

  • Kaito.ai, los usuarios pueden usar Preguntas y respuestas para obtener información sobre el sentimiento de la comunidad, el precio y los movimientos del equipo central de un proyecto.
  • 0xScope, el uso subyacente de los grafos de conocimiento para integrar los datos en la cadena, es decir, las características del comportamiento del usuario, para proporcionar servicios de análisis de datos para los usuarios, lanzó la ventana de preguntas y respuestas de Scopechat a tiempo para esta ola de inteligencia artificial.

Tienda de aplicaciones de IA

  • Myshell propone una capa de consumidor y crea AI APP Store, que proporciona diferentes componentes de IA y tres modos de creación para facilitar a los usuarios la creación de diferentes aplicaciones de IA. Los widgets se dividen en componentes básicos y compuestos. Los componentes básicos permiten a los usuarios crear Prompt, Voice, Avatar y otros activos en aplicaciones de IA, mientras que los componentes compuestos permiten crear componentes personalizados utilizando una combinación de múltiples modelos/componentes básicos. Los modos de creación incluyen los modos clásico, de desarrollo y sin código para desarrolladores y usuarios con diferentes habilidades y necesidades.

Resumen

En este artículo, nos gustaría destacar los siguientes 3 puntos:

  • GPUAI

En criptografía, surgen una serie de redes informáticas que inevitablemente hacen que los usuarios sientan que la GPU es IA, pero como se analizó en la sección anterior, existe un trilema imposible de redes informáticas, es decir, potencia de cómputo, ancho de banda/comunicación y memoria, así como tres tipos de estrategias paralelas utilizadas en el entrenamiento de modelos, como el paralelo de datos, el paralelo tensorial, y paralelo a la canalización, todos apuntan a los controles y equilibrios que se imponen en la configuración del marco de la red informática.

  • Mismo modelo & misma dataMismo resultado

La razón detrás del hecho de que el mismo modelo y datos no necesariamente produzcan el mismo resultado es el uso de la computación de punto flotante. Esta diferencia en la computación también tiene un impacto en la construcción de la red informática.

  • Más Agentes de IA

Los agentes de IA solo han comenzado a mostrar más utilidad en los últimos años, y esperamos que aparezcan más agentes en el mercado. Pero la forma en que los agentes trabajan en criptomonedas o cómo encontrar los incentivos de tokens adecuados sigue siendo un desafío.

Declaración:

  1. Este artículo es una reproducción de[medio],el título original es “AI into Crypto”, los derechos de autor pertenecen al autor original[HashKey Capital ],如对转载有异议,请联系Equipo Gate LearnEl equipo procesará rápidamente según el procedimiento correspondiente.

  2. Descargo de responsabilidad: Las opiniones expresadas en este artículo representan únicamente el punto de vista personal del autor y no constituyen recomendaciones de inversión.

  3. Las otras versiones del artículo son traducidas por el equipo de Gate Learn, cuando no se mencionaGate.io的情况下不得复制、传播或抄袭经翻译文章。

IA en Cripto

Intermedio9/19/2024, 2:23:31 AM
El lanzamiento de ChatGPT en noviembre de 2022 ha abierto los ojos de varios actores de la industria al gran modelo de lenguaje de la IA. Esta dinámica frenética ha permeado el espacio Cripto, y este artículo tiene como objetivo introducir el desarrollo de la IA, su estado actual y la industria que ha surgido de la combinación de IA+Cripto.

El lanzamiento de ChatGPT en noviembre de 2022 ha abierto los ojos de varios actores de la industria al gran modelo de lenguaje de IA. Esta dinámica frenética ha permeado el espacio Cripto, y este artículo tiene como objetivo presentar el desarrollo de la IA, su estado actual y la industria que ha surgido de la combinación de IA+Cripto.

El desarrollo de la IA y su estado actual

Tipos y Arquitecturas

El aprendizaje automático (ML) es una tecnología con capacidades de aprendizaje empírico, que aprende a discriminar animales, traducción de idiomas y otras tareas específicas mediante el aprendizaje de grandes conjuntos de datos. El aprendizaje automático pertenece a la forma más práctica de realizar inteligencia artificial en la actualidad, según si los datos aprendidos están etiquetados y las características se pueden dividir en aprendizaje supervisado y no supervisado.

Existen muchos tipos de modelos que pueden lograr el aprendizaje supervisado, incluidos los modelos basados en árboles, modelos gráficos y las redes neuronales que han surgido recientemente. Con el rápido desarrollo de la potencia de cálculo y los datos, el aprendizaje profundo se ha desarrollado aún más basado en la arquitectura de las redes neuronales. Las arquitecturas actuales de aprendizaje profundo comúnmente incluyen, pero no se limitan a, CNN, RNN y mecanismos de atención.

Clasificación de aprendizaje automático, fuente: Capital de HashKey

Las diferentes redes de aprendizaje profundo tienen la arquitectura básica de capa de entrada, capa oculta y capa de salida, la capa de entrada suele ser texto, video, audio y otros datos después de ser procesados ​​'tokenizar/incrustar'. La capa oculta tiene un diseño diferente (forma de modelo) dependiendo del conjunto de datos y el propósito de la tarea, como se muestra en la tabla.

Tipos de redes neuronales, Fuente: Organizado por HashKey Capital

Treinta años de desarrollo de redes neuronales

30 años de desarrollo de redes neuronales, fuente: organizado por HashKey Capital

La formación de redes neuronales se originó por primera vez a mediados de la década de 1980 cuando Jordan entrenó una red neuronal para aprender patrones secuenciales en su artículo de 1986Orden serial: Un enfoque de procesamiento distribuido paralelo. La pequeña red solo tenía unos pocos neuronas.

En la década de 1990, Jeffrey Ehrman expandió la red neuronal a una red de 50 neuronas con el descubrimiento de que la red agrupa espacialmente las palabras basadas en su significado. Por ejemplo, separó los sustantivos inanimados y animados, y dentro de estas dos categorías, los objetos animados se subdividieron en categorías humanas y no humanas, y lo inanimado se categorizó como rompible y comestible. Esto indica que la red tiene la capacidad de aprender explicaciones jerárquicas.

Además observó que las palabras pueden representarse como puntos en un espacio de alta dimensión, y luego una secuencia de palabras u oraciones puede ser vista como un camino. Este gran avance permite que los conjuntos de datos textuales sean digitalizados, vectorizados y procesados por computadoras.

Fuente: http://3b1b.co/neural-networks

En 2011, los investigadores de Confluence entrenaron redes más grandes que involucraban miles de neuronas y millones de conexiones, y se encontró un cuello de botella en el estudio en la capacidad de la red para mantener un contexto coherente en secuencias largas.

En 2017, OpenAI construyó sobre el trabajo de Kathy entrenando en 82 millones de reseñas de Amazon en las que se descubrieron neuronas emocionales. Tales neuronas categorizaron perfectamente las emociones del texto.

Fuente: Aprendiendo a generar reseñas y descubrir sentimientos

Con respecto a las limitaciones del tamaño del contexto, este documento 2017 Attention Is All You Need presenta una solución. El documento crea una red de capas dinámicas que adapta los pesos de conexión en función del contexto de la red. Funciona permitiendo que las palabras de la entrada vean, comparen otras palabras y encuentren las más relevantes. Cuanto más cerca estén estas palabras en concepto, más cerca estarán en el espacio y pueden tener pesos de conexión más altos. Sin embargo, el documento sólo se centró en el problema de la traducción.

Así que los investigadores de OpenAI probaron una arquitectura de transformador más potente y lanzaron GPT-3 en 2020, lo que atrajo la atención generalizada de las industrias de todo el mundo, esta vez con la red alcanzando 175 mil millones de parámetros, 96 capas y una ventana de contexto de 1,000 palabras.

¿Qué es una red neuronal?

Tomemos la siguiente imagen digital de 28x28 píxeles como ejemplo, las neuronas corresponden a cada píxel de la imagen de entrada de 28x28, sumando un total de 784 neuronas, los números en las neuronas son los valores de activación, que van desde 0–1.

imagen digital de 28x28 píxeles, Fuente: http://3b1b.co/neural-networks

Estos 784 neuronas forman la capa de entrada de la red. La capa final es la capa de salida, que contiene diez neuronas que representan los números del 0 al 9, nuevamente con valores de activación que van de 0 a 1. La capa intermedia es la capa oculta, donde el valor de activación de la capa anterior determina el valor de activación de la siguiente capa a medida que la red neuronal opera.

La profundidad del aprendizaje profundo radica en el hecho de que el modelo aprende muchas "capas" de transformaciones, cada una con una representación diferente. Como se muestra en la figura a continuación, por ejemplo, en 9, diferentes capas pueden reconocer diferentes características. Cuanto más cerca esté la capa de entrada del nivel más bajo de detalle de los datos, más cerca estará la capa de salida de los conceptos más específicos que se pueden utilizar para diferenciar.

Fuente: http://3b1b.co/neural-networks

A medida que el modelo se hace más grande, las capas ocultas en el medio involucran cientos de miles de millones de pesos por capa, y son estos pesos y sesgos los que realmente determinan lo que la red está haciendo realmente. El proceso de aprendizaje automático es el proceso de encontrar los parámetros correctos, que son ponderaciones y sesgos.

La arquitectura del transformador utilizada en GPT, un modelo de lenguaje grande, tiene una capa oculta intermedia que consta de 96 capas de módulos decodificadores, de los cuales GPT1, GPT2 y GPT3 tienen 12, 48 y 96 capas, respectivamente. El decodificador a su vez contiene componentes de red neuronal de atención y retroalimentación hacia adelante.

Enfoque de entrenamiento

El proceso de cálculo o aprendizaje implica definir una función de costo (o función de pérdida) que suma los cuadrados de las diferencias entre las predicciones de salida calculadas de la red y los valores reales, y cuando la suma es pequeña, el modelo funciona dentro de límites aceptables.

El entrenamiento comienza aleatorizando los parámetros de la red y finalizando los parámetros del modelo de la red al encontrar el parámetro que minimiza la función de coste. La forma de converger la función de coste es mediante el descenso del gradiente, mediante el cual se examina el grado de impacto de cada cambio de parámetro en el coste/pérdida, y luego se ajustan los parámetros de acuerdo con ese grado de impacto.

El proceso de cálculo del gradiente de parámetros introduce la propagación hacia atrás o la propagación hacia atrás, que atraviesa la red desde la capa de salida hasta la capa de entrada en orden inverso según la regla de la cadena. El algoritmo también requiere el almacenamiento de cualquier variable intermedia (derivadas parciales) necesaria para calcular el gradiente.

Factores de Desarrollo

Hay tres factores principales que afectan el rendimiento de los modelos de lenguaje grandes de IA durante su entrenamiento, a saber, el número de parámetros del modelo, el tamaño del conjunto de datos y la cantidad de computación.

Fuente: informe de OpenAI, Leyes de escala para modelos de lenguaje neural

Esto es coherente con el desarrollo de conjuntos de datos y computadoras (potencia de cálculo) en la realidad, pero también se puede ver en la tabla a continuación que la potencia de cálculo está creciendo más rápido que los datos disponibles, mientras que la memoria es la más lenta en desarrollarse.

El desarrollo del conjunto de datos, la memoria y la potencia de cómputo, Fuente: https://github.com/d2l-ai

Datos

Requisitos de datos

Ante un modelo grande, el sobreajuste tiende a ocurrir cuando los datos de entrenamiento son demasiado pequeños y, en general, la precisión del modelo más complejo mejora a medida que aumenta la cantidad de datos. En cuanto a los requisitos de datos necesarios para un modelo grande, se puede decidir en función de la regla de 10, que sugiere que la cantidad de datos debe ser 10 veces el parámetro, pero algunos algoritmos de aprendizaje profundo aplican 1:1.

Datos etiquetados

El aprendizaje supervisado requiere el uso de conjuntos de datos etiquetados + destacados para llegar a resultados válidos.

Fuente: Conjunto de datos de categorización de ropa Fashion-MNIST

Datos sintéticos

A pesar del rápido aumento de datos en la última década o dos y de los conjuntos de datos de código abierto actualmente disponibles, incluidos Kaggle, Azure, AWS, Google database, etc., cantidades limitadas, escasas y costosas de datos se están convirtiendo gradualmente en un cuello de botella para el desarrollo de la IA debido a problemas de privacidad, aumento de los parámetros del modelo y reproducibilidad de los datos. Se proponen diferentes soluciones de datos con el objetivo de aliviar este problema.

Las técnicas de aumento de datos pueden ser una solución efectiva al proporcionar datos insuficientes al modelo sin adquirir nuevas muestras, como escalar, rotar, reflejar, recortar, traducir, agregar ruido gaussiano, mezclar, etc.

Los datos sintéticos son otra opción. Los datos sintéticos son datos que pueden generarse artificialmente mediante simulación por computadora o algoritmos con o sin un conjunto de datos de referencia previo. En cuanto al desarrollo de herramientas para generar datos sintéticos, Ian J. Goodfellow inventó la Red Generativa Adversarial (GAN), que es una arquitectura de aprendizaje profundo.

Entrena dos redes neuronales para competir entre sí, lo que puede generar datos nuevos y más realistas a partir de un conjunto de datos de entrenamiento dado. La arquitectura admite la generación de imágenes, rellenar información faltante, generar datos de entrenamiento para otros modelos, generar modelos 3D basados en datos 2D, y más.

Todavía es temprano en el desarrollo del campo, con la mayoría de las empresas existentes que trabajan con datos sintéticos fundadas en 2021 o 2022, y algunas en 2023.

El estado de financiamiento para empresas de datos sintéticos. Fuente : https://frontline.vc/blog/synthetic-data/

Base de datos de vectores

El proceso de entrenamiento de IA implica una gran cantidad de operaciones matriciales, desde el anidamiento de palabras, la matriz transformadora QKV, hasta operaciones softmax, y así sucesivamente a través de las operaciones matriciales, también se llevan a cabo los parámetros completos del modelo en la matriz.

ejemplo de base de datos vectorial, Fuente : https://x.com/ProfTomYeh/status/1795076707386360227

Recursos de Hardware de Computadora

Los modelos grandes generan una gran demanda de hardware informático, que se clasifica principalmente en entrenamiento e inferencia.

Pre-entrenamiento, ajuste fino e inferencia

El preentrenamiento y el ajuste fino se pueden dividir aún más bajo el entrenamiento. Como se mencionó antes, construir un modelo de red primero requiere inicializar los parámetros de manera aleatoria, luego entrenar la red y ajustar continuamente los parámetros hasta que la pérdida de la red alcance un rango aceptable. La diferencia entre el preentrenamiento y el ajuste fino es que

El preentrenamiento comienza con cada capa de parámetros desde una inicialización aleatoria, mientras que algunas capas de ajuste fino pueden usar directamente los parámetros del modelo previamente entrenado como los parámetros de inicialización para esta tarea (congelando los parámetros de las capas anteriores) y actuando en un conjunto de datos específico.

Fuente: https://d2l.ai/chapter_computer-vision/fine-tuning.html

Tanto el preentrenamiento como el ajuste fino implican cambios en los parámetros del modelo, lo que finalmente resulta en una optimización del modelo o de los parámetros, mientras que la inferencia es el cálculo de la inferencia cargando un modelo después de que el usuario introduzca datos y, finalmente, obteniendo retroalimentación y resultados de salida.

El pre-entrenamiento, el ajuste fino y la inferencia se clasifican de mayor a menor en términos de sus requisitos informáticos. La siguiente tabla compara los requisitos de hardware de la computadora para el entrenamiento y la inferencia. Los requisitos de hardware de la computadora de ambos son significativamente diferentes en términos de potencia de cálculo, memoria y comunicación/ancho de banda debido a las diferencias en el proceso de cálculo y los requisitos de precisión, y al mismo tiempo existe un Trilema Imposible en la potencia de cálculo, memoria y comunicación/ancho de banda.

Las medidas estadísticas en esta tabla se basan en un solo modelo que procesa un solo token, un solo parámetro. \ FLOPs: operaciones de punto flotante por segundo, el número de cálculos de matrices. \
*DP, TP, PP: data parallel, tensor parallel, pipeline parallel.

Comparación de hardware de computadora entre entrenamiento e inferencia, Fuente: Organizado por HashKey Capital

El proceso de entrenamiento de una red neuronal requiere alternar entre la propagación hacia adelante y hacia atrás, utilizando el gradiente dado por la propagación hacia atrás para actualizar los parámetros del modelo. Por otro lado, la inferencia solo requiere propagación hacia adelante. Esta diferencia se convierte en un factor influyente que diferencia principalmente los requisitos de recursos de hardware de la computadora para entrenamiento e inferencia.

En cuanto a la potencia de cálculo, como se muestra en la tabla, hay una relación multiplicativa simple entre el número de parámetros del modelo y el consumo de potencia de cálculo, con el entrenamiento que requiere de 6 a 8 operaciones de punto flotante y la inferencia que requiere 2. Esto se debe a la retropropagación involucrada en el entrenamiento, que requiere el doble de potencia de cálculo que la propagación hacia adelante, y así el consumo de potencia de cálculo del entrenamiento es mucho mayor que el de la inferencia.

En cuanto a la memoria, la retropropagación utilizada para el entrenamiento reutiliza los valores intermedios almacenados en la propagación hacia adelante para evitar cálculos repetidos. Por lo tanto, el proceso de entrenamiento debe mantener los valores intermedios hasta que se complete la retropropagación. El consumo de memoria resultante durante el entrenamiento contiene principalmente parámetros del modelo, valores de activación intermedios generados durante la computación hacia adelante, gradientes generados por la computación de retropropagación hacia atrás y estados del optimizador. La etapa de inferencia no necesita retropropagación, ni necesita estados de optimizador y gradiente, etc., y su uso de memoria es mucho más pequeño que el del entrenamiento.

En cuanto a la comunicación/ancho de banda, para mejorar el rendimiento del entrenamiento de IA, el entrenamiento del modelo principal suele utilizar tres estrategias paralelas: paralelismo de datos, paralelismo de tensores y paralelismo de tuberías.

  • La paralelización de datos se refiere a la replicación de múltiples réplicas de modelos que se ejecutan en dispositivos diferentes, con cada réplica del modelo actuando en diferentes conjuntos de datos y sincronizando los datos de gradiente durante el ciclo de entrenamiento.
  • Por otro lado, el paralelismo de canal divide las capas ocultas intermedias y cada nodo de cálculo es responsable de varias de estas capas de transformadores. Este enfoque también se conoce como paralelismo entre capas.
  • Por otro lado, el paralelismo tensorial divide cada uno de estos módulos transformadores y también se conoce como paralelismo intra-capa.

Fuente: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/

Para estas tres estrategias, se proyecta que la frecuencia de comunicación de TP es la mayor, el volumen de comunicación es el más alto, y está relacionado con el número de tokens, el ancho del modelo y el número de capas. El volumen y la frecuencia de comunicación de PP es menor que la de TP, y está relacionado con el número de tokens y el ancho del modelo. El volumen y la frecuencia de comunicación de DP es el más pequeño y es independiente de los tokens de entrada.

Trilema imposible

El cuello de botella de los recursos de hardware de computadora en modelos grandes está principalmente limitado por la potencia de cálculo, ancho de banda/comunicación y memoria, y hay controles y equilibrios entre los tres, lo que resulta en el problema del Triángulo Imposible. Por ejemplo, debido a los cuellos de botella de comunicación, el rendimiento del clúster no puede mejorarse simplemente optimizando la potencia de una sola computadora.

Por lo tanto, aunque se utilizan arquitecturas paralelas para acelerar el rendimiento del clúster, la mayoría de las arquitecturas paralelas en realidad sacrifican la comunicación o el almacenamiento en favor de la potencia de cálculo.

Sacrificar la comunicación y el almacenamiento por la potencia informática:

En PP, si a cada capa de los transformadores se asigna una GPU, a pesar del aumento de la potencia computacional en unidades de tiempo, los requisitos de comunicación entre las capas también aumentan, lo que resulta en un mayor volumen de datos y latencia. Además, el requisito de almacenamiento de estado intermedio para la propagación hacia adelante aumenta extremadamente rápido.

Sacrificar la comunicación por la potencia de cálculo:

En TP, cada transformador se desmonta para la computación en paralelo. Dado que el transformador consta de dos componentes (cabeza de atención y red neuronal feed-forward), la tarea se puede dividir dentro de la capa para la cabeza de atención o la red neuronal feed-forward. Este enfoque de TP puede aliviar el problema de tener jerarquía de PP demasiado grande debido a que las GPU no pueden ajustar el modelo. Sin embargo, este enfoque todavía tiene una sobrecarga de comunicación seria.

Cripto+IA

En este documento, creemos que actualmente existen las siguientes categorías principales de IA en el campo de la cripto:

Fuente: Organizado por HashKey Capital

Como se mencionó anteriormente, los tres componentes más críticos en la IA son datos, modelos y potencia informática, que sirven como infraestructura para potenciar la IA cripto.

Su combinación en realidad forma una red informática, con una gran cantidad de middleware que aparece en el proceso de cálculo para ser eficiente y más acorde con el espíritu cripto. Aguas abajo están los Agentes basados en estos resultados verificables, que pueden servir a diferentes roles para diferentes audiencias de usuarios.

Otro diagrama de flujo se puede utilizar para expresar la ecología básica de la inteligencia artificial cripto de la siguiente manera:

Diagrama de flujo ecológico, fuente: organizado por HashKey Capital

Por supuesto, se necesitan mecanismos tokenómicos en el espacio cripto para incentivar la coordinación de la participación de diferentes jugadores.

Datos

Para conjuntos de datos, uno puede elegir entre fuentes de datos públicas o fuentes de datos privadas específicas propias.

Fuente de datos:

  • Grass es el proyecto que rastrea las fuentes de datos en la parte superior de Solana, el trasfondo se debe al hecho de que muchas empresas bloquean los rastreos de IP desde los centros de datos pero no bloquean a los usuarios residenciales, Grass actúa como un proveedor de servicios descentralizado que incentiva a los usuarios residenciales a contribuir con su ancho de banda a través de tokens.
  • Vana como DATA DAO también proporciona su propia solución, donde el creador crea diferentes data dao para diferentes fuentes de datos en la cadena y establece diferentes programas de incentivos para que los usuarios carguen sus datos. Hasta ahora, se han creado data dao para reddit (rDAO) donde más de 154,000 usuarios proporcionan sus datos personales a rDAO para el entrenamiento de IA.
  • Los datos relevantes se recopilan en forma de DePINs, que permiten a los usuarios conectar sus vehículos a la plataforma DIMO a través de un dispositivo hardware, por ejemplo. Información básica sobre ese vehículo y datos más avanzados sobre patrones de conducción, etc. se transmitirán de forma segura a la red DIMO, se almacenarán en cadena y se vincularán al ID de vehículo correspondiente (NFT). Otro ejemplo es el Hivemapper que recopila datos del mapa mientras el usuario está conduciendo.

Plataforma de Datos Sintéticos:

  • Dria es una plataforma de generación de datos sintéticos (OPStack L2) que incentiva a los usuarios a generar/comerciar datos sintéticos de forma descentralizada. Su almacenamiento de datos se guarda en Arweave a través de HollowDB. Cuando los usuarios inician una solicitud de generación de datos sintéticos, Dria aceptará la solicitud y dividirá la tarea en los nodos de cálculo en la red de datos sintéticos para ejecutarla, y después de la verificación de la red, los datos sintéticos finales se pueden comerciar en el mercado de conocimientos.

Otros:

Plataforma de servicios de etiquetado de datos, al asignar la tarea de orden de etiquetado a diferentes trabajadores, estos trabajadores pueden recibir el incentivo de tokens correspondiente después de completar la tarea, como Cripto, Public AI, y así sucesivamente. Sin embargo, el problema actual es que hay más personas etiquetando datos que datos, mientras que las empresas de IA tienen proveedores estables de etiquetado de datos para sus necesidades de datos etiquetados, debido a la existencia pegajosa de la cual hace que su voluntad de cambiar a plataformas descentralizadas sea débil. Estas plataformas sólo pueden obtener la asignación de la parte restante del pedido de los proveedores de etiquetado de datos.

Redes Informáticas

Redes de Computación Generalizadas

Redes de computación generalizadas, que se refieren a redes que agregan recursos como GPUs y CPUs para poder proporcionar servicios de computación generalizados, lo que significa ninguna distinción entre entrenamiento e inferencia.

  • Akash, un proyecto de 2020, sirve como un mercado para emparejar la oferta y la demanda computacionales, permitiendo a los proveedores de computación ofertar pedidos, con las coincidencias finales subidas a la blockchain como transacciones. Un validador separado es responsable de empaquetar bloques y realizar validaciones. Este proceso no implica cómo se asignan las tareas de IA, ni valida el proceso de computación y los resultados, sin distinguir entre entrenamiento e inferencia.
  • io.net, que hasta junio de 2022 desarrolló sistemas de trading cuantitativo de grado institucional principalmente para el mercado de valores de EE. UU. y los mercados de criptomonedas, descubrió Ray.io, una biblioteca de Python de código abierto para construir sistemas distribuidos de alto rendimiento, en el camino. io.net aprovecha Ray y bibliotecas especializadas para transmisión de datos, entrenamiento, ajuste fino, y se combina con Mesh VPNs (que simplifican el proceso de desarrollar e implementar modelos de IA a gran escala en vastas redes de GPUs) para proporcionar servicios informáticos.
  • Bittensor, como una plataforma abierta, permite a los usuarios crear subredes en su plataforma, cada una con sus propios incentivos únicos para motivar a otros usuarios a participar como mineros de subredes, validadores de subredes, mineros de subredes para ejecutar tareas específicas, y validadores para verificar las tareas de estos mineros.
  • Aethir es una infraestructura de computación en la nube que proporciona servicios de alta calidad para la inteligencia artificial y los juegos en la nube. Aethir se enfoca en la agregación de recursos de GPU de alta calidad, como el chip H100 de NVIDIA, de centros de datos, empresas de tecnología, compañías de telecomunicaciones, principales estudios de juegos y compañías de minería de criptomonedas. La red consta de 3 actores principales: Contenedor, Verificador e Indexador. Los Contenedores, incluido el Aethir Edge, son donde realmente se utilizan los recursos informáticos. El Verificador garantiza la integridad y el rendimiento del Contenedor. Si es necesario, el Indexador empareja a los usuarios finales con Contenedores apropiados en función de los requisitos de los usuarios finales.

Redes específicas de cómputo

Pre-entrenamiento

En el espacio Cripto, Gensyn, invertido por a16z, propone una red de computación de entrenamiento descentralizada.

El proceso es que después de que un usuario envía una tarea de requisito de entrenamiento, la plataforma la analiza, evalúa la potencia informática requerida y la divide en un número mínimo de trabajos de aprendizaje automático, momento en el que el validador agarra periódicamente la tarea analizada para generar umbrales para la comparación de las pruebas de aprendizaje aguas abajo.

Una vez que la tarea entra en la fase de entrenamiento, es ejecutada por el Solver, que periódicamente almacena los pesos del modelo e índices de respuesta del conjunto de datos de entrenamiento, así como genera las pruebas de aprendizaje, y el verificador también realiza el trabajo computacional volviendo a ejecutar algunas de las pruebas para realizar cálculos de distancia y verificar que coincidan con las pruebas. Los denunciantes realizan arbitraje basado en un programa de desafío puntual basado en gráficos para verificar si el trabajo de validación se realizó correctamente.

Ajuste fino

Ajustar fino es más fácil y menos costoso de implementar que pre-entrenar directamente un modelo grande, simplemente ajustando fino el modelo pre-entrenado con un conjunto de datos específico y adaptando el modelo a una tarea específica mientras se preserva el modelo original.

Hugging Face se puede acceder como un proveedor de recursos de modelo de lenguaje preentrenado a la plataforma distribuida, el usuario selecciona el modelo para ser ajustado según los requisitos de la tarea y luego utiliza las GPUs y otros recursos proporcionados por la red informática para el ajuste fino de la tarea, que necesita basarse en la complejidad de la tarea para determinar el tamaño del conjunto de datos, la complejidad del modelo, y para determinar además la necesidad de un nivel más alto de recursos como el A100.

Además de Gensyn, una plataforma que puede soportar el pre-entrenamiento, la mayoría de las plataformas informáticas también pueden soportar el ajuste fino.

Inferencia

En comparación con el entrenamiento (pre-entrenamiento y ajuste fino), que requiere la sintonización de los parámetros del modelo, el proceso computacional de inferencia implica solo propagación hacia adelante y requiere menos potencia de cálculo. La mayoría de las redes de computación descentralizadas actualmente se centran en servicios de inferencia.

  • La red Nosana es una plataforma para ejecutar cargas de trabajo de inferencia de IA que proporciona servicios informáticos dirigidos al proceso de inferencia para los modelos LLama 2 y Stable Diffusion.
  • Ritual.AI, la primera fase de la plataforma es Infernet que es un marco ligero. Con él, los desarrolladores de contratos inteligentes pueden solicitar servicios de inferencia desde fuera de la cadena y entregarlos a los contratos inteligentes en la cadena. La segunda fase es la capa de ejecución, Ritual Chain, que admite operaciones nativas de IA.

Capas/middleware adicionales

Cuando se realiza la inferencia, esta etapa ya es la etapa de uso del modelo, entonces el middleware se puede introducir en el momento adecuado:

  • Model Matching: Al hacer inferencias, generalmente es necesario determinar el modelo apropiado según los requisitos de la tarea.
  • API: Abstracta todos los modelos de código abierto de la API interfaz unificada, como Redpill

Contrato inteligente en cadena para recuperar los resultados de cálculos de IA fuera de la cadena:

  • El protocolo ORA proporciona resultados de inferencia verificados para contratos inteligentes, por ejemplo, el nodo opML recopila solicitudes opML enviadas desde la cadena, ejecutará la inferencia de IA y luego cargará los resultados a la cadena y esperará el período de desafío.

Otra capa de privacidad se puede agregar a la red informática, que incluye principalmente la privacidad de los datos y la privacidad del modelo, donde la privacidad de los datos es mucho más importante que la privacidad del modelo.

  • Actualmente, el protocolo Oasis utiliza Intel TDX y NVIDIA TEEs para proporcionar privacidad y verificabilidad para el entrenamiento de modelos de IA.

Verificación

La mayoría de las redes informáticas construyen diferentes sistemas de validación para asegurar que el sistema funcione con precisión, mientras que el enlace es una parte que aún no ha sido introducida en el campo tradicional de la IA.

ZKML

El papel principal de la prueba ZK son los siguientes 2 puntos:

  • Utilizado para demostrar la precisión del modelo sin revelar ningún parámetro
  • Demuestra que la computación se realizó correctamente y que el modelo + entradas coinciden con las salidas: Modulus labs, Giza

Modulus Labs ha demostrado que es posible crear pruebas para modelos de 18 millones de parámetros en 60-70 segundos utilizando el sistema de pruebas Plonky de Polygon. Para modelos pequeños, es posible utilizar ZKML en esta etapa, pero el costo sigue siendo significativo:

  • El tiempo de prueba de ZKML crece con el aumento de los parámetros.
  • Es muy caro en términos de consumo de memoria del probador. Worldcoin, por ejemplo, utiliza un modelo con 1.8M parámetros y 50 capas para distinguir entre 10 mil millones de iris, para los cuales se pueden generar pruebas de inferencia en solo unos minutos, pero el consumo de memoria dentro del probador es demasiado alto para cualquier hardware móvil.

Fuente: @ModulusLabs/capitulo-5-el-costo-de-la-inteligencia-da26dbf93307"">https://medium.com/@ModulusLabs/capitulo-5-el-costo-de-la-inteligencia-da26dbf93307

OPML

Dadas las limitaciones de ZKML descritas anteriormente, OPML es una alternativa. Aunque más débil que ZKML en cuanto a seguridad, su consumo de memoria y el tiempo de cálculo de prueba son significativamente mejores que los de ZKML. Según el informe de ORA, se muestra que para el mismo modelo de 7B-LLaMA (con un tamaño de modelo de aproximadamente 26GB) opML puede procesarse con 32GB de memoria, mientras que el consumo de memoria de los circuitos en zkML puede estar en el orden de terabytes o incluso petabytes.

TEEML

El Entorno de Ejecución Confiable proporciona seguridad a nivel de hardware y puede ser una alternativa a ZKML y OPML. La prueba de TEE se genera como resultado de la computación interna dentro de TEE y su costo computacional es mucho menor que el de la prueba zk. Además, el tamaño de la prueba de TEE suele ser una constante fija (longitud de la firma) y, por lo tanto, tiene la ventaja de una huella más pequeña y un menor costo de validación en cadena.

Además de la verificación, TEE tiene la ventaja de mantener aislados los datos sensibles, lo que garantiza que los procesos o cálculos externos no puedan acceder a los datos que contiene ni alterarlos.

Los proyectos que utilizan TEE incluyen:

  • Red de Aizel (proporcionando inferencia)
  • Red Phala (centrado en la creación de agentes de IA)
  • Protocolo Oasia (entrenamiento de modelo de IA)
  • Protocolo Marlin (Oyster puede implementar y validar modelos de ML)

Fuente: https://arxiv.org/pdf/2401.17555,Protocolo Marlin

Además, el protocolo ORA ha desarrollado opp/ai (Inteligencia Artificial Optimista Preservando la Privacidad en Blockchain) además de su propia validación ZKML y OPML, y no está incluido en la tabla de comparación anterior.

Capa de Agente

El agente tiene la capacidad de analizar la información entrante, evaluar las condiciones ambientales actuales y tomar decisiones. La composición del agente se muestra en la siguiente figura, en la que el LLM es el componente central, además, es necesario alimentar la señal adecuada al LLM, y a través de la memoria almacenar datos a corto plazo y datos históricos a largo plazo (datos externos).

Dado que las tareas complejas no pueden completarse de una vez, es necesario dividirlas en tareas más pequeñas mediante Plan, además de que el Agente también puede llamar a APIs externas para obtener información adicional, incluida la información actual, las capacidades de ejecución de código, el acceso a fuentes de información patentadas, y así sucesivamente.

Fuente: Una encuesta sobre agentes autónomos basados en modelos de lenguaje grandes

La capacidad de toma de decisiones de los Agentes no tuvo un avance cierto hasta la aparición del Gran Modelo de Lenguaje LLM en los últimos años. Un informe ha recopilado la cantidad de artículos publicados sobre Agentes desde 2021 hasta 2023, como se muestra en la figura a continuación, en realidad solo hay alrededor de una docena de artículos de investigación en 2021, pero hay cientos de artículos publicados sobre ellos en 2023. El documento categoriza a los Agentes en 7 categorías.

Fuente: Una encuesta sobre agentes autónomos basados en modelos de lenguaje grandes

En web3, los escenarios en los que existen Agentes todavía son limitados en comparación con el mundo web2, e incluyen actualmente compensación automatizada, construcción de componentes de código (escritura de contratos inteligentes, escritura de circuitos zk), control de riesgos en tiempo real, y ejecución de estrategias como arbitraje y agricultura de rendimiento.

Creación de agentes y plataformas de trading

  • Theoriq (ChainML) ha introducido el concepto de capa base de agentes, que permite a los desarrolladores anotar agentes en forma de NFT y crear sus propios agentes, así como crear un colectivo de agentes combinando agentes para cumplir requisitos complejos. Este proceso evalúa el desempeño y la vinculación de los diferentes agentes a través de pruebas de atribución y pruebas de colaboración.
  • Spectral Labs tiene dos productos principales, Spectral Syntax, una plataforma que permite a los usuarios crear Agentes en la cadena, y Spectral Nova, un servicio de inferencia que admite la solicitud de servicios de inferencia. Crear un Agente en Spectral Syntax utiliza el servicio de inferencia de Spectral Nova, y esa inferencia está asegurada por la prueba de ZK para asegurarse de que funcione. Al mismo tiempo, lanzarán Inferchain para permitir la comunicación de Agente a Agente.
  • Autonolas apoya la construcción de servicios que consisten en múltiples Agentes, lo que permite al Propietario del Servicio crear un servicio y registrar el servicio correspondiente en el registro de servicios para iniciar el flujo de trabajo, solicitar al desarrollador que proporcione los componentes del Agente, etc. Los desarrolladores pueden desarrollar el Agente, componentes y otro código almacenado fuera de la cadena, acuñar el NFT correspondiente en la cadena, hacer referencia al hash IPFS de metadatos, y luego hacer referencia al código subyacente al hacer referencia al hash IPFS. Los servicios suelen ser ejecutados por un conjunto de Operadores, cada uno ejecutando al menos una instancia del Agente. Además, Autonolas logra consenso dentro del servicio para sus agentes mediante un Dispositivo de Consenso que establece un acuerdo entre los agentes dentro del servicio.

Plataforma de Monitoreo de Agentes

  • AgentOpsAI es un socio de sentiente, que proporciona servicios de monitoreo de agentes (eventos de registro, llamadas, errores de agentes, etc.), actualmente una plataforma centralizada, sin token involucrado.

Flujo de trabajo

Basado en diferentes Agentes se pueden combinar/abstraer/crear una aplicación específica, al mismo tiempo, hay algunas plataformas de coordinación disponibles para que los usuarios elijan qué tipo de Agentes utilizar para construir un tipo específico de aplicación. Pero la mayoría de ellos están limitados al desarrollo de Agentes.

Aplicación

Desarrolladores del proyecto

Algunos desarrolladores utilizarán inteligencia artificial para ayudar a sus plataformas a ser más inteligentes, por ejemplo, en proyectos de seguridad, se utiliza el aprendizaje automático para distinguir las vulnerabilidades de ataque; los protocolos DeFi utilizan inteligencia artificial para construir herramientas de monitorización en tiempo real; y las plataformas de análisis de datos también utilizan inteligencia artificial para ayudar con la limpieza y el análisis de datos.

Usuario

Ventana de preguntas y respuestas/Análisis

  • Kaito.ai, los usuarios pueden usar Preguntas y respuestas para obtener información sobre el sentimiento de la comunidad, el precio y los movimientos del equipo central de un proyecto.
  • 0xScope, el uso subyacente de los grafos de conocimiento para integrar los datos en la cadena, es decir, las características del comportamiento del usuario, para proporcionar servicios de análisis de datos para los usuarios, lanzó la ventana de preguntas y respuestas de Scopechat a tiempo para esta ola de inteligencia artificial.

Tienda de aplicaciones de IA

  • Myshell propone una capa de consumidor y crea AI APP Store, que proporciona diferentes componentes de IA y tres modos de creación para facilitar a los usuarios la creación de diferentes aplicaciones de IA. Los widgets se dividen en componentes básicos y compuestos. Los componentes básicos permiten a los usuarios crear Prompt, Voice, Avatar y otros activos en aplicaciones de IA, mientras que los componentes compuestos permiten crear componentes personalizados utilizando una combinación de múltiples modelos/componentes básicos. Los modos de creación incluyen los modos clásico, de desarrollo y sin código para desarrolladores y usuarios con diferentes habilidades y necesidades.

Resumen

En este artículo, nos gustaría destacar los siguientes 3 puntos:

  • GPUAI

En criptografía, surgen una serie de redes informáticas que inevitablemente hacen que los usuarios sientan que la GPU es IA, pero como se analizó en la sección anterior, existe un trilema imposible de redes informáticas, es decir, potencia de cómputo, ancho de banda/comunicación y memoria, así como tres tipos de estrategias paralelas utilizadas en el entrenamiento de modelos, como el paralelo de datos, el paralelo tensorial, y paralelo a la canalización, todos apuntan a los controles y equilibrios que se imponen en la configuración del marco de la red informática.

  • Mismo modelo & misma dataMismo resultado

La razón detrás del hecho de que el mismo modelo y datos no necesariamente produzcan el mismo resultado es el uso de la computación de punto flotante. Esta diferencia en la computación también tiene un impacto en la construcción de la red informática.

  • Más Agentes de IA

Los agentes de IA solo han comenzado a mostrar más utilidad en los últimos años, y esperamos que aparezcan más agentes en el mercado. Pero la forma en que los agentes trabajan en criptomonedas o cómo encontrar los incentivos de tokens adecuados sigue siendo un desafío.

Declaración:

  1. Este artículo es una reproducción de[medio],el título original es “AI into Crypto”, los derechos de autor pertenecen al autor original[HashKey Capital ],如对转载有异议,请联系Equipo Gate LearnEl equipo procesará rápidamente según el procedimiento correspondiente.

  2. Descargo de responsabilidad: Las opiniones expresadas en este artículo representan únicamente el punto de vista personal del autor y no constituyen recomendaciones de inversión.

  3. Las otras versiones del artículo son traducidas por el equipo de Gate Learn, cuando no se mencionaGate.io的情况下不得复制、传播或抄袭经翻译文章。

Comece agora
Registe-se e ganhe um cupão de
100 USD
!