¿Viene GPT-5? Qué cambios drásticos ocurrirán en la industria de la IA

Desde la llegada de chatGPT, la IA ha evolucionado rápidamente cada mes. Con tantos modelos e iteraciones rápidas, muchas personas no pueden evitar darse cuenta de que los humanos parecen estar realmente al borde de la puerta AGI.

Recientemente, un documento divulgado por la Oficina de Marcas y Patentes de los Estados Unidos (USPTO) muestra que OpenAI presentó una solicitud de marca para "GPT-5" el 18 de julio. y ha sido aceptado.

Captura de pantalla del archivo USPTO

Aunque en la primera mitad de este año, varios expertos y académicos de IA han emitido cartas abiertas en forma conjunta muchas veces, pidiendo a las personas que presten atención a los riesgos potenciales de la IA generativa, y OpenAI también anunció en ese momento que no tendría un plan. entrenar GPT-5 a corto plazo.

Sin embargo, la tentación de la ciencia y la tecnología finalmente ha permitido a los seres humanos romper los límites del tabú.

En la aplicación divulgada esta vez, OpenAI mencionó que el GPT-5 inédito tendrá muchas capacidades que GPT-4 no tiene, y casi todos los elementos se refieren a AGI.

Captura de pantalla del archivo USPTO

Entonces, ¿qué significa tal cambio para la IA y los humanos?

Hoy, este artículo intentará realizar un análisis simple de las posibles funciones, cambios e impacto de GPT-5 a partir de la información limitada divulgada en los documentos de aplicación de OpenAI.

01 El camino a AGI

En el documento divulgado esta vez, uno de los primeros cambios mencionados por OpenAI es la mejora de las funciones multimodales.

Específicamente, las funciones de GPT-5 incluyen traducir texto o voz de un idioma a otro, reconocimiento de voz, generar texto y voz, y más.

Aunque en el GPT-4 actual, los usuarios también pueden lograr la traducción entre diferentes idiomas, pero dado que la función de traducción se destaca aquí, debe haber sido reoptimizada.

¿Por qué OpenAI destaca tanto la capacidad de traducción de GPT-5?

Esto puede deberse a que uno de los requisitos previos para que GPT se vuelva universal es minimizar la brecha de costos de usar modelos grandes en diferentes idiomas.

Anteriormente, los resultados de la investigación de la Universidad de Oxford mostraron que, debido a los métodos de medición y facturación del costo del servidor adoptados por servicios como OpenAI, el costo de entrada y salida en inglés es mucho más bajo que el de otros idiomas.

Entre ellos, el costo del chino simplificado es aproximadamente el doble que el del inglés, el español es 1,5 veces mayor que el del inglés y el idioma shan en Myanmar es 15 veces mayor que el del inglés.

Debido a que los idiomas como el chino tienen estructuras diferentes y más complejas, requieren una tasa de lematización más alta.

Por ejemplo, según el tokenizador GPT3 de OpenAI, el token de "tu afecto" requiere solo dos tokens en inglés, pero ocho tokens en chino simplificado.

Esto significa que para idiomas distintos al inglés, es mucho más costoso usar y entrenar modelos.

Y una vez que se cruce el umbral de la "barrera del idioma", esta barrera universal frente a GPT sin duda se eliminará directamente.

Además, la función de reconocimiento de voz prominente en el documento parece ser solo un cambio discreto, pero hasta cierto punto, esta es otra pieza del pavimento de OpenAI de GPT-5 en el camino hacia AGI.

Como todos sabemos, en la dirección del desarrollo futuro de los modelos grandes, se ha convertido en una tendencia cada vez más evidente que los modelos se marginan y terminan.

Desde que Qualcomm lanzó un modelo grande con mil millones de parámetros que puede ejecutarse en teléfonos móviles en julio de este año, fabricantes como Honor y Apple también han anunciado que lanzarán sus propios teléfonos móviles "modelo grande".

A partir de los teléfonos móviles, los datos de IA en el futuro se procesarán cada vez más en el lado de la terminal, como cámaras, sensores y conducción autónoma.

En tal escenario de aplicación, el reconocimiento de voz es, sin duda, más conveniente y eficiente.

Por ejemplo, el modelo de lenguaje AI permite que el conductor controle el vehículo a través de la voz. Convierta los comandos de voz del conductor en comandos ejecutables, como iniciar, detener, acelerar, frenar y otras operaciones.

Los asistentes inteligentes que existen en el sistema de telefonía móvil como SIri también darán prioridad al control mediante comandos de voz.

Se puede ver que el reconocimiento de voz no es solo la guinda del pastel, sino una "configuración estándar" cuando GPT-5 ingresa al lado de la terminal.

Y a través del hundimiento de cada dispositivo terminal, GPT-5 también obtendrá estructuras de datos más marginadas y no lingüísticas.

Después de todo, desde el desarrollo del modelo grande, los datos de texto que se pueden absorber son casi los mismos. Si queremos dar un paso más en el camino hacia AGI, este tipo de datos "no de texto" es muy importante.

02 Modelo experto en desafíos

Además de las características anteriores, el documento presentado por OpenAI también menciona: "GPT-5 también puede tener la capacidad de aprender, analizar, clasificar y responder a los datos".

A juzgar por la tendencia actual de desarrollo de la inteligencia artificial, esto probablemente significa que GPT-5 tiene una capacidad de aprendizaje activo similar a la de un cuerpo inteligente.

Y esta capacidad hará que GPT-5 sea fundamentalmente diferente de los modelos anteriores que solo pueden aprender nuevos conocimientos de forma pasiva a través de los datos de alimentación humana.

Específicamente, la capacidad de aprendizaje activo significa que el modelo puede seleccionar, adquirir y procesar datos de forma independiente de acuerdo con sus propios objetivos y necesidades, en lugar de depender únicamente de los datos proporcionados por humanos.

Esto permite que el modelo utilice de manera más efectiva la información y el conocimiento en los datos, y se adapte de manera más flexible a diferentes entornos de datos y escenarios de tareas, en lugar de solo recibir y generar datos de forma pasiva.

Y tal capacidad es particularmente importante cuando GPT-5 se enfrenta a algunos campos verticales y relativamente desconocidos.

Algunos campos específicos, como la medicina, el derecho, las finanzas, etc., suelen tener sus propios términos, reglas y sistemas de conocimiento específicos, que pueden ser difíciles de entender y procesar para los modelos de lenguaje ordinario.

Si GPT-5 tiene la capacidad de aprendizaje activo, puede recopilar y actualizar automáticamente datos relevantes en estos campos de Internet, analizar y clasificar los conceptos básicos, los principios importantes y los últimos desarrollos en estos campos, y responder a problemas comunes en estos campos. , Casos típicos y aplicaciones prácticas.

De esta manera, GPT-5 puede dominar la experiencia en estos campos más rápido y completar las tareas correspondientes en estos campos con mayor precisión y eficiencia.

Y todas ellas son la clave del verdadero modelo general.

Porque si GPT siempre necesita estar conectado a un "modelo experto" específico para resolver tareas profesionales, entonces no se puede decir que sea verdaderamente "universal".

Porque esto conducirá a las diferencias de GPT y la dependencia de las capacidades de inteligencia de diferentes campos y escenarios, y también aumentará los costos de comunicación y coordinación entre GPT y el "modelo experto", y no puede garantizar que se puedan lograr servicios de alta calidad bajo cualquier circunstancias.

Previamente, el medio extranjero Semianalysis reveló los secretos de GPT-4 lanzados en marzo de este año, exponiendo que OpenAI usa un modelo experto mixto para construir GPT-4.

Según las noticias, GPT-4 utiliza 16 modelos expertos mixtos (mezcla de expertos), cada uno con 111 mil millones de parámetros, y cada ruta de paso hacia adelante pasa por dos modelos expertos.

Sin embargo, los modelos más expertos significan que es más difícil generalizar y lograr la convergencia.

Esto se debe a que cada modelo experto tiene sus propios parámetros y estrategias, que a menudo son difíciles de coordinar, lo que dificulta que GPT equilibre y "tenga en cuenta la situación general".

Después de tener la capacidad de aprendizaje activo, GPT-5 podrá usar capacidades de razonamiento y comprensión multimodal, así como mapas de conocimiento y bases de datos, para analizar y comprender los datos adquiridos y, a través de algoritmos de agrupamiento y clasificadores, vincular y resumir datos relacionados. .

De esta manera, GPT-5 puede usar de manera efectiva la información y el conocimiento en los datos de acuerdo con diferentes entornos de datos y escenarios de tareas.

03 reemplazar más trabajo

Como se mencionó anteriormente, después de superar la barrera del idioma e ingresar al lado de la terminal con una conveniente función de reconocimiento de voz, GPT-5 continuará absorbiendo conocimiento en diferentes escenarios, campos y modos a través de capacidades de aprendizaje activo continuo, y luego avanzará hacia El camino hacia AGI se mueve a gran velocidad.

Es previsible que cuando GPT-5 con una "universalidad" tan fuerte comience a extenderse a varios campos, a excepción de algunas industrias con barreras de datos (como la atención médica), los modelos grandes en la mayoría de los campos verticales se irán eclipsando gradualmente.

Porque en el análisis final, bastantes expertos o modelos verticales a gran escala son esencialmente los productos de algunas empresas con capacidad de cómputo y datos insuficientes, incapaces de escalar el "modelo general a gran escala" y tienen que conformarse con el siguiente mejor. (esto es especialmente obvio en China).

Si un modelo grande de propósito general puede ser competente en la mayoría de las industrias en virtud de su gran capacidad de aprendizaje, entonces, ¿quién estaría dispuesto a cambiar tediosamente entre diferentes modelos y asumir múltiples costos de capacitación y uso para diferentes modelos?

Desde este punto de vista, el modelo experto es paulatinamente reemplazado por el modelo general, lo cual es un proceso histórico inevitable para el ser humano en el camino hacia la AGI.

Otro fenómeno que acompaña a esto es que se reemplazan tareas más subdivididas y triviales.

Porque con un modelo general más poderoso, las personas encontrarán que, de hecho, el contenido de trabajo de muchos puestos se puede fusionar e integrar.

Los gerentes de producto y los analistas de datos son un posible ejemplo.

Por ejemplo, en un proyecto de desarrollo de un nuevo producto, GPT-5 puede buscar investigaciones de mercado relevantes, análisis de productos competitivos, retratos de usuarios y otros datos de Internet de acuerdo con un concepto o demanda de producto determinado, y descargarlos en su propia memoria.

Después de eso, analizará y comprenderá los datos adquiridos a través de sus propias capacidades de comprensión multimodal y razonamiento lógico, así como gráficos y bases de datos de conocimiento.

Después de obtener los datos correspondientes, clasificarlos y organizarlos, GPT-5 aprenderá las estrategias de marketing relevantes, los comentarios de los usuarios y otra información de los comentarios del sistema de diálogo a través de la capacidad de comprensión del idioma, y los comparará con los conceptos o necesidades del producto dado. y evaluado.

De esta manera, las dos posiciones de gerente de producto y analista de datos se "fusionan" de manera efectiva.

En el camino inconcluso hacia AGI, hay innumerables trabajos que se fusionan y reemplazan.

Por lo tanto, un GPT-5 más versátil no solo es una bendición para el progreso de la productividad, sino también el preludio de un gran terremoto en la industria.

En ese momento, muchas empresas que aún no tienen la capacidad de utilizar modelos a gran escala y carecen de barreras industriales se derrumbarán frágilmente como castillos de arena.

Y los individuos más comunes, frente a los puestos en constante sustitución, sentirán más profundamente la incertidumbre de los tiempos...

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)