Desmitificando a los "trabajadores migrantes de IA" detrás de ChatGPT: aburridos y repetitivos, pagados por pieza, salarios por hora tan bajos como $ 1
Resumen: Los anotadores de datos clasifican y etiquetan los datos, lo que permite que la inteligencia artificial aprenda al encontrar patrones en grandes cantidades de datos, y se consideran "trabajo fantasma" escondido detrás de la máquina. El trabajo de anotación es la base de la inteligencia artificial, ha formado toda una cadena de suministro y este tipo de trabajo seguirá existiendo durante mucho tiempo.
Enfocar
La inteligencia artificial aprende buscando patrones en grandes cantidades de datos, pero primero estos datos deben ser clasificados y etiquetados por humanos, y aparecen los anotadores de datos, considerados como "trabajadores fantasmas" escondidos detrás de las máquinas.
El trabajo de los anotadores es aburrido y tedioso. A menudo necesitan hacer un trabajo repetitivo y se les paga pieza por pieza. El salario promedio por hora es de entre 5 y 10 dólares estadounidenses (alrededor de 36 a 72 yuanes). A principios de este año, el salario por hora de algunos comentaristas se había reducido a $1 a $3 por hora (alrededor de 7 a 22 yuanes).
El trabajo de anotación sigue siendo la base de la inteligencia artificial y ha formado una cadena de suministro completa. Este tipo de trabajos han llegado para quedarse durante mucho tiempo.
El trabajo de anotación es diferente de los teléfonos inteligentes y la fabricación de automóviles en que se deforma fácilmente y es fluido, y a menudo fluye hacia lugares con costos operativos más bajos.
Unos meses después de graduarse de la Universidad de Nairobi, Joe, que ahora tiene 30 años, encontró trabajo como anotador, ayudando a procesar la información sin procesar utilizada para entrenar la inteligencia artificial, lo cual era aburrido y tedioso. La inteligencia artificial aprende encontrando patrones en grandes cantidades de datos, pero primero estos datos deben ser clasificados y etiquetados por humanos, por lo que se puede decir que los humanos son "trabajadores fantasmas" escondidos detrás de las máquinas.
Tome el trabajo de Joe, por ejemplo, donde está etiquetando videos para autos sin conductor, identificando autos, peatones, ciclistas y cualquier cosa a la que el conductor deba prestar atención, cuadro por cuadro, desde todos los ángulos de la cámara. Este es un trabajo difícil y repetitivo. Un video corto de unos pocos segundos toma ocho horas para anotar, por lo que a Joe le pagan alrededor de $10.
Luego, en 2019, apareció una oportunidad frente a él y Joe comenzó a capacitar a los reclutas para una nueva empresa que necesitaba desesperadamente anotadores, ganando cuatro veces más. Cada dos semanas, 50 nuevos empleados hacen fila para ingresar a un edificio de oficinas en Nairobi para comenzar su aprendizaje. La necesidad de anotadores parece interminable. Se les pedirá que clasifiquen la ropa que ven en una selfie en el espejo, determinen la habitación en la que se encuentran a través de los ojos de una aspiradora robótica y dibujen cajas alrededor de una motocicleta escaneada por lidar. Más de la mitad de los alumnos de Joe suelen abandonar los estudios antes de que finalice la formación. "Algunas personas no saben cómo permanecer en un lugar durante mucho tiempo", explicó suavemente. Además, admite, "el trabajo es aburrido".
Pero es un buen trabajo en un lugar donde escasean los trabajos, y Joe ha producido cientos de graduados. Después de la formación, los aprendices pueden volver a casa y trabajar solos en sus dormitorios y cocinas sin decirle a nadie lo que están haciendo. Ese no es el verdadero problema porque ni siquiera entienden lo que están haciendo.
Etiquetar objetos para autos sin conductor es fácil, pero clasificar fragmentos de diálogo distorsionados e identificar si el orador es un robot o un ser humano está lleno de desafíos. Cada objeto de reconocimiento es una pequeña parte de un proyecto más grande, por lo que es difícil saber exactamente para qué están entrenando a la IA. Los nombres de estos objetos tampoco proporcionan ninguna pista, Crab Generation, Whale Segment, Woodland Gyro y Pillbox Bratwurst son todos códigos de trabajo sin ningún orden lógico.
En cuanto a la empresa que los contrató, la mayoría de la gente solo la conoce como Remotasks, un sitio web que ofrece oportunidades laborales a cualquier persona que hable inglés con fluidez. Como la mayoría de los anotadores, Joe no sabía que Remotasks era una empresa de trabajo por contrato propiedad de Scale AI. Scale AI es un proveedor de datos multimillonario de Silicon Valley cuyos clientes incluyen la empresa de inteligencia artificial OpenAI y el ejército de EE. UU. Ni Remotasks ni Scale AI se mencionan entre sí en sus sitios web.
01 Ayudando a máquinas con habilidades humanas únicas
Gran parte de la reacción del público a los grandes modelos de lenguaje como ChatGPT de OpenAI se ha centrado en el trabajo que parecen estar preparados para automatizar. Pero incluso el sistema de inteligencia artificial más impresionante no puede prescindir de la ayuda de los humanos, quienes lo entrenan etiquetando los datos e intervienen cuando se confunden. Solo aquellas empresas que pueden permitirse comprar los datos pueden competir en la industria, y aquellas que obtienen los datos harán todo lo posible para mantenerlos en secreto. El resultado es que, a excepción de unas pocas personas, sabemos muy poco sobre la información que influye en el comportamiento de estos sistemas, y menos aún sobre las personas detrás del comportamiento que les da forma.
Para los estudiantes de Joe, es un trabajo desprovisto de toda apariencia de normalidad: se espera que cumplan con un horario estricto y no necesitan saber lo que están haciendo o para quién están trabajando. De hecho, rara vez se llaman a sí mismos trabajo, solo “tareas” rutinarias. Se llaman a sí mismos trabajadores de tareas.
El antropólogo David Graeber ha definido los llamados "trabajos de mierda": trabajos que no tienen significado ni propósito. Estos son trabajos que deberían estar automatizados, pero no lo están, por razones de burocracia, estado o inercia. El trabajo de entrenar inteligencia artificial es similar: los trabajos que las personas quieren automatizar, generalmente se consideran automatizados, pero aún requieren la participación de humanos. Estas tareas tienen propósitos especiales, pero los anotadores no son conscientes de ello.
El auge actual de la IA comenzó con este trabajo bastante tedioso y repetitivo. Ya en 2007, Fei-Fei Li, investigadora de inteligencia artificial y luego profesora en la Universidad de Princeton, sospechó que la clave para mejorar las redes neuronales para el reconocimiento de imágenes era entrenar con más datos, lo que requería millones de imágenes etiquetadas en lugar de decenas de miles. El problema es que a su equipo le habría llevado décadas y millones de dólares etiquetar tantas fotos.
Fei-Fei Li encontró miles de trabajadores en la plataforma de crowdsourcing de Amazon, Mechanical Turk, donde personas de todo el mundo realizan pequeñas tareas a bajo costo. El conjunto de datos etiquetados resultante, conocido como ImageNet, permitió un gran avance en el aprendizaje automático, revitalizando el campo y marcando el comienzo del progreso de la última década.
La anotación sigue siendo una parte esencial del desarrollo de la IA, pero los ingenieros a menudo sienten que es un requisito previo fugaz y engorroso para el trabajo de modelado más glamoroso. Podría recopilar la mayor cantidad de datos etiquetados de la manera más económica posible para entrenar su propio modelo y, si pudiera hacerlo, al menos en teoría, ya no necesitaría anotadores. Sin embargo, el trabajo de anotación nunca termina realmente. Los investigadores argumentan que los sistemas de aprendizaje automático son "frágiles" y propensos a fallar cuando encuentran cosas en los datos de entrenamiento que no están bien explicadas. Estos fallos se conocen como "casos extremos" y pueden tener graves consecuencias.
En 2018, un auto de prueba autónomo de la empresa de transporte compartido Uber mató a una mujer porque, a pesar de estar programado para evitar a ciclistas y peatones, no sabía qué hacer con los ciclistas que cruzaban la calle. A medida que más sistemas de IA brindan asesoramiento legal y asistencia médica, más casos extremos se encuentran, lo que requiere más humanos para resolverlos. Esto ha generado una industria global de personas como Joe que utilizan sus habilidades humanas únicas para ayudar a las máquinas.
En los últimos seis meses, el reportero de investigación de tecnología Josh Dzieza ha hablado con más de dos docenas de comentaristas de todo el mundo, muchos de los cuales están entrenando chatbots de última generación, pero también muchos están haciendo el trabajo físico mundano requerido para mantener la IA en funcionamiento. . Algunos han catalogado el contenido emocional de los videos de TikTok, las nuevas variaciones de spam y la publicidad en línea inapropiada. Otros buscan transacciones con tarjetas de crédito y descubren los tipos de compras asociadas con ellas, o buscan recomendaciones de comercio electrónico y deciden si realmente le va a gustar esa camisa después de comprar otra.
Los humanos están corrigiendo los errores de los chatbots de servicio al cliente, escuchando las solicitudes del asistente inteligente de Amazon, Alexa, y categorizando las emociones de las personas en las videollamadas. Etiquetan los alimentos para que los refrigeradores inteligentes no se confundan con los nuevos empaques, verifican las cámaras de seguridad automáticas antes de hacer sonar la alarma y ayudan a los tractores autónomos confundidos a identificar el maíz.
02 Los comentarios son un gran negocio, engendrando al "multimillonario hecho a sí mismo más joven"
"Es una cadena de suministro completa. La percepción general en la industria es que este trabajo no es una parte crítica del desarrollo de tecnología, no es una parte crítica de el desarrollo de la tecnología". Prosperará durante mucho tiempo. Toda la emoción se extiende en torno a la construcción de IA, y una vez que la construimos, las anotaciones ya no son necesarias, entonces, ¿por qué molestarse en pensar en ello? Pero el etiquetado de datos es la base de la IA, al igual que humanos Por mucho que la inteligencia sea la base de la IA, debemos verlos como trabajos reales en la economía de la IA que están aquí para quedarse durante mucho tiempo".
Los proveedores de datos detrás de nombres familiares como OpenAI, Google y Microsoft vienen en diferentes formas. También hay empresas privadas de subcontratación con oficinas similares a centros de atención telefónica, como CloudFactory en Kenia y Nepal, donde Joe realiza trabajos de anotación por $1,20 la hora antes de cambiarse a Remotasks.
También hay sitios de "trabajadores colectivos" como Mechanical Turk y Clickworker, donde cualquiera puede registrarse para completar tareas. En el medio están servicios como Scale AI. Cualquiera puede inscribirse, pero todos deben aprobar un examen de calificación, un curso de capacitación y ser monitoreados por su desempeño. Las anotaciones son un gran negocio. Scale AI, fundada en 2016 por Alexander Wang, que entonces tenía 19 años, estaba valorada en 7300 millones de dólares en 2021, lo que lo convirtió en uno de los multimillonarios hechos a sí mismos más jóvenes de Forbes.
Esta intrincada cadena de suministro es difícil de entender para los extraños. Las empresas que compran datos etiquetados exigen estricta confidencialidad, según fuentes de la industria. Las anotaciones a veces filtran información sobre el sistema de IA que se está desarrollando, y la adición de una gran cantidad de anotadores dificulta la prevención de fugas. A los anotadores siempre se les advierte que no le cuenten a nadie sobre su trabajo, ni siquiera a sus amigos y colegas. Lo que es más importante, la división extrema del trabajo asegura que no tengan suficiente información para hablar sobre sus trabajos, incluso si quisieran.
Ante esto, no hay forma de dar estimaciones detalladas del número de personas que trabajan en anotación, pero lo cierto es que son muchas y están creciendo rápidamente. Google Research publicó recientemente un documento que brinda estimaciones vagas del número de anotadores en "millones" y posiblemente "billones" en el futuro.
La automatización a menudo llega de formas inesperadas. Erik Duhaime, director ejecutivo de Centaur Labs, una empresa de anotación de datos médicos, recuerda que hace unos años, varios ingenieros destacados en aprendizaje automático predijeron que la inteligencia artificial reemplazaría a los radiólogos. Cuando eso no sucede, la sabiduría convencional recurre a los radiólogos que utilizan la IA como herramienta.
Ninguna de esas cosas sucedió, según Duheim. La inteligencia artificial es muy buena en tareas específicas, lo que provoca que el trabajo se desglose y se asigne a sistemas algorítmicos especializados y humanos igualmente especializados. Por ejemplo, dijo, un sistema de inteligencia artificial podría detectar el cáncer, pero solo en ciertos tipos de máquinas, en ciertos tipos de imágenes. Por lo tanto, necesita a alguien que lo ayude a verificar que la IA esté recibiendo el tipo correcto de datos, y tal vez a alguien más para verificar que esté funcionando antes de entregárselo a otra IA para escribir un informe y finalmente a un ser humano. "La IA no reemplazará los trabajos humanos, pero cambia la forma en que se organizan los trabajos", dijo Duheim.
Si piensa en la inteligencia artificial como una máquina pensante inteligente, puede estar ignorando a los humanos detrás de ella. Du Haimei cree que el impacto de la inteligencia artificial en el trabajo moderno es como la transición de los artesanos a la fabricación industrial: los procesos coherentes se dividen en pequeñas tareas, se organizan a lo largo de la línea de montaje, algunos pasos los completan las máquinas, otros los humanos, pero es diferente a las anteriores, la situación es bastante diferente.
Las preocupaciones sobre la interrupción de la IA a menudo se contrarrestan diciendo que la IA automatiza ciertas tareas, no trabajos completos. Estas tareas suelen ser tediosas y aburridas, lo que obliga a las personas a dedicarse a un trabajo humano más satisfactorio. Pero es igualmente posible que el surgimiento de la inteligencia artificial también se parezca a las tecnologías del pasado que ahorran trabajo, tal vez como el teléfono o la máquina de escribir, que eliminan la monotonía de pasar mensajes y escribir a mano, pero generan más información sobre comunicación, comercio y Tanto es así que se necesitaba una nueva oficina dotada de nuevos tipos de trabajadores, oficinistas, contables, mecanógrafos, etc., para gestionarlos. Es posible que no pierda su trabajo cuando AI se una a su trabajo, pero puede volverse más extraño, más aislado y más tedioso.
03 Simplificar la realidad compleja en algo legible por máquina
A principios de este año, la periodista Ziyeza se inscribió para trabajar en Remotasks. El proceso es simple. Solo necesita ingresar las especificaciones de la computadora, la velocidad de la red y la información básica de contacto para ingresar al "Centro de capacitación". Para obtener asignaciones pagas, Ziyeza primero tuvo que completar los cursos introductorios relevantes, pero no remunerados. El centro de formación presentó una serie de clases con nombres incomprensibles como Glue Swimsuits y Poster Hawaii. Zieza hizo clic en algo llamado GFD Chunking, que requiere que la ropa se etiquete en las fotos de las redes sociales.
Más allá de eso, hay instrucciones para tareas como tener que etiquetar artículos que son reales, que pueden usar humanos o que están destinados a ser usados por personas reales. Confiado en su capacidad para distinguir la ropa real que la gente real podía usar de la ropa falsa que la gente real no podía, Ziyeza se dispuso a probar. Sin embargo, inmediatamente recibió un golpe en la cabeza: la computadora mostró una imagen de revista de una mujer con falda. ¿Las fotos de ropa deben considerarse ropa real? No, pensó Ziyeza, porque la gente no puede usar fotos de ropa. ¡El resultado muestra un error! Porque a los ojos de la inteligencia artificial, las fotos de ropa real equivalen a ropa real.
La imagen que sigue es de una mujer tomándose una selfie en un espejo de cuerpo entero en un dormitorio con poca luz. La camisa y los pantalones cortos que lleva puestos son ropa real, ¿y el reflejo de la ropa es real? Ziyeza también dio una respuesta negativa, pero el sistema de inteligencia artificial cree que el reflejo de la ropa real también debería ser ropa real.
Después de una vergonzosa prueba y error, Ziyeza finalmente se puso a trabajar, solo para descubrir con horror que las instrucciones que había estado luchando por seguir se habían actualizado muchas veces y habían aumentado a 43 páginas, incluyendo No etiquete una maleta abierta llena de ropa; no etiquete zapatos pero etiquete aletas; etiquete calzas pero no medias; no etiquete toallas aunque alguien las esté usando; no etiquete ropa Etiquételo, pero no etiquete la armadura. etc......
Milagros Miceli, investigadora que trabaja con datos en el Instituto Weizenbaum en Alemania, dijo que había una confusión generalizada en la industria. En parte, esto es producto de la forma en que aprenden los sistemas de aprendizaje automático. Los humanos solo necesitan unos pocos ejemplos para comprender el concepto de "camisa", mientras que los programas de aprendizaje automático necesitan miles de ejemplos, y deben hacerlo con una consistencia perfecta y suficiente variedad (polos, camisas para usar al aire libre, camisas colgadas en un rack) para que el sistema pueda manejar la diversidad del mundo real. "Imagínese que necesitamos reducir la realidad compleja a algo que las máquinas torpes puedan leer", dijo Miselli.
Para las máquinas, el acto de simplificar la realidad introduce una enorme complejidad. Los escritores de instrucciones deben idear reglas que permitan a los humanos clasificar el mundo con perfecta consistencia. Para hacer esto, a menudo crean categorías que los humanos no usarían. Si se le pide a una persona que etiquete todas las camisetas en una foto, es posible que no etiquete las camisetas en el espejo porque sabe que son reflejos y no ropa real. Pero para una IA que no entiende el mundo real, son solo píxeles, los dos son exactamente iguales. Si algunas camisetas en el conjunto de datos están etiquetadas y otras camisetas reflejadas no lo están, entonces el modelo no funcionará. Entonces, el ingeniero volvió al proveedor con información actualizada y le pidió que etiquetara la camisa que se reflejaba en el espejo. Pronto tendrás otra guía de 43 páginas, todas en mayúsculas rojas.
El trabajo de un anotador suele ser dejar de lado la comprensión humana y seguir instrucciones muy, muy estrictamente. Como dijo un comentarista, piensa como un robot. Es un espacio mental extraño en el que haces todo lo posible para seguir reglas ridículas pero estrictas, como hacer un examen estándar mientras tomas alucinógenos. Los anotadores siempre tienen preguntas confusas como, ¿es esta una camisa roja con una raya blanca o es una camisa blanca con una raya roja? Si un cuenco de mimbre está lleno de manzanas, ¿es un "cuenco decorativo"? ¿De qué color es el estampado de leopardo? Todas las preguntas deben ser respondidas, y una suposición equivocada podría hacer que te baneen y comiences una misión completamente nueva y completamente diferente con sus propias reglas desconcertantes.
04 Paga por pieza, revisa la tarea cada tres horas
La mayoría de los trabajos en Remotasks se pagan pieza por pieza, con ganancias que van desde unos pocos centavos hasta unos pocos dólares por tarea. Debido a que las tareas pueden tardar segundos u horas en completarse, los salarios son difíciles de predecir. Cuando Remotasks llegó por primera vez a Kenia, los comentaristas dijeron que pagaba relativamente bien. Eso promedia alrededor de $ 5 a $ 10 por hora, según la tarea. Pero con el tiempo, la paga baja.
Anna Franko, vocera de Scale AI, dijo que los economistas de la compañía analizan los detalles del proyecto, las habilidades requeridas, el costo de vida regional y otros factores "para garantizar una compensación justa y competitiva". Los ex empleados de Scale AI también dijeron que la compensación se determina a través de un mecanismo similar a la inflación de precios, que se ajusta según la cantidad de anotadores disponibles y la velocidad a la que se necesitan los datos. Las estadísticas muestran que los anotadores de Remotasks en los Estados Unidos generalmente ganan entre $10 y $25 por hora, pero a los expertos en algunos campos de anotación profesional se les paga más. A principios de este año, el salario de los comentaristas de Kenia se había reducido a 1 a 3 dólares estadounidenses (alrededor de 7 a 22 yuanes) por hora.
La queja más común sobre el trabajo de teletaking es su variabilidad. Este tipo de trabajo es lo suficientemente estable como para ser un trabajo a tiempo completo a largo plazo, pero tiene demasiada imprevisibilidad como para confiar en él por completo. Los anotadores pasan horas leyendo instrucciones y completando capacitación pro bono solo para completar una docena de tareas antes de que finalice el proyecto. Es posible que no haya nuevas tareas durante unos días y luego, de la nada, aparezca una completamente diferente, posiblemente durante horas o semanas. Cualquier misión puede ser la última y nunca saben cuándo llegará la próxima.
Los ingenieros y los proveedores de datos dicen que este ciclo de auge y caída se debe al ritmo del desarrollo de la IA. El entrenamiento de un modelo grande requiere muchas anotaciones, seguidas de más actualizaciones iterativas, y los ingenieros quieren que todo esto suceda lo más rápido posible para poder cumplir con la fecha de lanzamiento prevista. Es posible que necesiten miles de anotadores en el transcurso de unos pocos meses, luego se reducen a unos cientos y, finalmente, solo a una docena de expertos de un tipo en particular. Este proceso se repite a veces en ciclos. “La pregunta es, ¿quién asume el costo de estas fluctuaciones?”, dijo Jindal de Partnership on AI.
Para tener éxito, los anotadores deben trabajar juntos. Víctor comenzó a trabajar para Remotasks cuando era estudiante universitario en Nairobi, y cuando le dijeron que tenía problemas con una tarea de control de tráfico, dijo que todos sabían que debían mantenerse alejados de esa tarea: demasiado complicado, mal pagado, no vale la pena. Como muchos comentaristas, Víctor usa un grupo no oficial de WhatsApp para correr la voz cuando surgen buenas asignaciones. Cuando se le ocurría una nueva idea, iniciaba una reunión improvisada de Google para mostrar a los demás cómo hacerlo. Cualquiera puede unirse y trabajar juntos por un tiempo, compartiendo consejos. "Hemos desarrollado una cultura de ayudarnos unos a otros porque sabemos que una persona no puede saber todos los trucos", dijo.
Los anotadores siempre deben estar alerta, ya que los trabajos aparecen y desaparecen sin previo aviso. Víctor descubrió que los artículos a menudo aparecían en medio de la noche, por lo que se acostumbró a levantarse cada tres horas más o menos para revisarlos. Cuando hay una tarea, siempre se mantendrá despierto. En un momento, pasó 36 horas sin dormir, marcando codos, rodillas y cabezas en fotos de multitudes, aunque no sabía por qué. En otra ocasión, se quedó despierto tanto tiempo que sus ojos estaban rojos e hinchados.
Los anotadores a menudo solo saben que están entrenando sistemas de inteligencia artificial para empresas en otros lugares, pero a veces el velo del anonimato se cae y hay demasiadas pistas para marcas o chatbots mencionados en las instrucciones. Un comentarista dijo: "Leí las instrucciones, busqué en Google y descubrí que estaba trabajando para un multimillonario de 25 años. Si hago multimillonario a alguien y gano unos pocos dólares, literalmente estoy desperdiciando mi vida".
Víctor, que se describe a sí mismo como un "creyente salvaje" en la inteligencia artificial, comenzó el trabajo de anotación porque quería ayudar a lograr un futuro totalmente automatizado. Pero a principios de este año, alguien publicó una historia de la revista Time en su grupo de WhatsApp sobre cómo a los empleados del proveedor Sama AI se les pagaba menos de $ 2 por hora para capacitar a ChatGPT para identificar contenido tóxico. “La gente está indignada de que estas empresas sean tan rentables y paguen tan poco”, dijo Víctor, quien no conocía la relación entre Remotasks y Scale AI hasta que se lo dijeron. Las instrucciones para una de las tareas en las que trabajó eran casi idénticas a las utilizadas por OpenAI, lo que significa que probablemente también estaba entrenando en ChatGPT, por alrededor de $3 por hora. "
Recuerdo que alguien publicó que seremos recordados en el futuro”, dijo. Cero uno respondió: “Nos trataron peor que a la infantería. No seremos recordados en ningún lugar en el futuro, lo recuerdo bien. Nadie reconocerá el trabajo que hacemos y el esfuerzo que ponemos. "
Identificar ropa y etiquetar conversaciones de servicio al cliente son solo algunos de los trabajos de anotación. Recientemente, lo más popular en el mercado son los entrenadores de chatbots. Debido a que requiere experiencia en un dominio específico o fluidez en el idioma, y los salarios tienden a ajustarse según la región, el trabajo tiende a pagar más. Ciertos tipos de anotaciones profesionales pueden generar hasta $50 o más por hora.
Cuando una mujer llamada Anna estaba buscando trabajo en Texas, se encontró con una lista de trabajos genérica en línea y presentó su solicitud. Después de aprobar un examen introductorio, fue conducida a una sala de Slack de 1500 personas donde estaban entrenando en un proyecto llamado Dolphin, que más tarde descubrió que era el chatbot Sparrow de Google DeepMind, uno de los muchos chatbots que compiten con ChatGPT one. El trabajo de Anna es conversar con Sparrow todo el día, y el salario por hora es de aproximadamente $14, más la bonificación por alta eficiencia en el trabajo, "esto es definitivamente mejor que trabajar en el supermercado local para ganar $10 por hora".
05 La IA responde a tres criterios: precisión, utilidad e inocuidad
Y Ana ama el trabajo. Ha hablado de ciencia ficción, paradojas matemáticas, adivinanzas infantiles y programas de televisión con Sparrow. A veces, las respuestas del chatbot la hacían reír a carcajadas. A veces, ella también se queda sin palabras. Anna dijo: "A veces, realmente no sé qué preguntar, así que tengo un pequeño cuaderno con dos páginas ya escritas. Busco en Google temas interesantes, así que creo que puedo hacer un buen trabajo. Hacer frente a siete horas, que no siempre es el caso".
Cada vez que Anna le pregunta a Sparrow, éste da dos respuestas y ella elige la mejor, creando lo que se llama "datos de retroalimentación humana". Cuando ChatGPT debutó a fines del año pasado, su estilo de conversación impresionantemente natural se atribuyó al hecho de que había sido entrenado en grandes cantidades de datos de Internet. Pero el lenguaje que utiliza ChatGPT y sus competidores se filtra a través de varias rondas de anotaciones humanas.
Un equipo de contratistas escribió ejemplos de cómo los ingenieros querían que se comportara el chatbot, haciendo preguntas y luego dando las respuestas correctas, describiendo programas de computadora y luego dando códigos funcionales, pidiendo consejos criminales y luego declinando cortésmente. Después de entrenar al modelo con estos ejemplos, se presentan más contratistas para impulsarlo y clasificar sus respuestas. Eso es lo que Ana le hizo a Sparrow.
Los criterios exactos que se les dijo a los evaluadores que usaran variaron, como la honestidad, la amabilidad o simplemente la preferencia personal. El punto es que están creando datos sobre el gusto humano, y una vez que hay suficientes datos, los ingenieros pueden entrenar un segundo modelo para imitar sus preferencias a escala, automatizando el proceso de clasificación y entrenando su IA para reconocer la forma de actuar del gusto humano. El resultado es un robot muy parecido a un humano que básicamente rechaza las solicitudes dañinas y explica su naturaleza de inteligencia artificial de una manera que parece ser consciente de sí mismo.
En otras palabras, ChatGPT parece humano porque fue entrenado por una IA que imita a los humanos y actúa como un humano.
La técnica se llama "aprendizaje de refuerzo a partir de la retroalimentación humana", o RLHF para abreviar, y es muy eficaz para detenerse a reflexionar sobre lo que la IA no está haciendo. Por ejemplo, cuando un anotador le enseña a un modelo a ser preciso, el modelo no aprende a comparar las respuestas con la lógica o las fuentes externas, ni siquiera con lo que es la precisión, como concepto. Aunque el modelo sigue siendo una máquina de predicción de texto que imita los patrones de escritura humana, su corpus de entrenamiento ahora se ha complementado con ejemplos personalizados y el modelo se ha ponderado para respaldarlos.
Esto puede hacer que el modelo extraiga patrones de partes de su mapa de idioma que están marcadas como precisas y produzca un texto que coincida con la verdad, pero también puede hacer que imite el estilo confiado y la jerga del texto preciso mientras escribe algo completamente incorrecto. . No hay garantía de que el texto marcado como exacto por los anotadores sea realmente exacto. Incluso si es preciso, no hay garantía de que el modelo haya aprendido el patrón correcto.
Esta dinámica hace que anotar chatbots no sea fácil. Tiene que ser riguroso y consistente, porque la retroalimentación descuidada, como marcar como preciso el material que suena correctamente, puede hacer que el modelo entrenado sea más convincente. OpenAI y DeepMind usaron RLHF en un proyecto conjunto anterior, en este caso, para entrenar una mano robótica virtual para agarrar un objeto, que resultó también entrenar a la mano robótica para posicionar y balancear el objeto entre el objeto y su evaluador. Eso forma en que sólo aparecerá a sus supervisores humanos.
Clasificar las respuestas de un modelo de lenguaje siempre es algo subjetivo porque se trata de un lenguaje. El texto de cualquier longitud puede contener múltiples elementos que pueden ser verdaderos, falsos o engañosos. Los investigadores de OpenAI se encontraron con este obstáculo en otro artículo anterior de RLHF. Para lograr que su modelo resuma el texto, los investigadores encontraron que solo el 60 por ciento de los resúmenes del modelo eran buenos. "A diferencia de muchas tareas en el aprendizaje automático, nuestras consultas no tienen una verdad clara", lamentan.
Cuando Ana califica las respuestas de Sparrow, debe observar su precisión, utilidad e inocuidad, al mismo tiempo que verifica que el modelo no esté dando consejos médicos o financieros, antropomorfizándose a sí mismo o violando otros criterios. Para que sean útiles como datos de entrenamiento, las respuestas del modelo deben ordenarse cuantitativamente: ¿es un robot que puede decirle cómo hacer una bomba "mejor" que un robot inofensivo que se niega a responder cualquier pregunta?
En un artículo de DeepMind, mientras los creadores de Sparrow se turnaban para anotar, cuatro investigadores debatieron si su bot hacía suposiciones sobre el género de los usuarios que acudían a él en busca de consejos emocionales. Según Geoffrey Irving, científico investigador de DeepMind, los investigadores de la compañía realizan sesiones de anotación semanales en las que ellos mismos revisan los datos y discuten casos ambiguos. Cuando un caso es particularmente complicado, consultan a expertos en ética o en la materia.
Anna a menudo se encontraba con que tenía que elegir entre dos malas opciones. "Incluso si ambas son respuestas terriblemente incorrectas, aún debe averiguar cuál es mejor y escribir el texto que explica por qué", dice. A veces, cuando ninguna de las respuestas es buena, se la anima a dar la respuesta ella misma. una mejor respuesta Ella hace esto aproximadamente la mitad del tiempo durante el entrenamiento.
06 Los comentarios requieren cada vez más habilidades y conocimientos específicos
Debido a que los datos de retroalimentación son difíciles de recopilar, el precio de venta es más alto. El tipo de datos básicos de preferencia que Ana recopila se vende por alrededor de $ 1 por pieza, según personas con conocimiento de la industria. Pero si desea capacitar a un modelo para realizar investigaciones legales, necesita a alguien con capacitación legal, lo que genera un aumento de los costos. Todos los involucrados no revelarán exactamente cuánto pagaron, pero en términos generales, un ejemplo escrito profesional puede costar unos cientos de dólares, mientras que una calificación experta puede costar $ 50 o más. Un ingeniero reveló que una vez pagó $300 por una muestra del diálogo de Socratic.
OpenAI, Microsoft, Meta y Anthropic no revelaron cuántas personas contribuyeron con anotaciones a sus modelos, cuánto les pagaron o en qué parte del mundo se ubicaron. A los anotadores que trabajan en Sparrow se les paga al menos el salario mínimo por hora, dependiendo de dónde se encuentren, dijo Owen, de la empresa hermana de Google, DeepMind. Ana "no sabe nada" sobre Remotasks, pero sabe más sobre Sparrow, sabiendo que es el asistente de inteligencia artificial de DeepMind, que sus creadores entrenaron usando RLHF.
Hasta hace poco, era relativamente fácil detectar malos resultados de los modelos de lenguaje, que parecían un galimatías. Pero a medida que los modelos mejoran, esto se vuelve más difícil, un problema conocido como "supervisión escalable". El uso de modelos de lenguaje moderno por parte de Google para el debut de su asistente de IA, Bard, demostró sin darse cuenta lo difícil que es detectar errores en los modelos de lenguaje moderno. Esta trayectoria significa que la anotación requiere cada vez más habilidades y experiencia específicas.
El año pasado, un chico llamado Lewis estaba trabajando en Mechanical Turk y, después de completar una tarea, recibió un mensaje invitándolo a unirse a una plataforma de la que nunca había oído hablar. Se llama Taskup.ai, y el sitio es bastante simple, solo un fondo azul marino con el texto "Pague sobre la marcha". Lewis decidió registrarse.
El trabajo paga mucho mejor que cualquier otro trabajo que haya tenido antes, generalmente alrededor de $30 por hora. Sin embargo, también es más desafiante, ya que requiere el diseño de escenarios complejos para engañar a los chatbots para que den consejos peligrosos, probar la capacidad del modelo para mantener su propia personalidad y entablar conversaciones detalladas sobre temas científicos que son altamente técnicos y requieren una investigación exhaustiva. Lewis encontró el trabajo "satisfactorio y emocionante". Mientras revisaba un modelo e intentaba codificarlo en Python, Lewis estaba aprendiendo. No puede trabajar más de 4 horas seguidas para no agotarse mentalmente y cometer un error, y quiere conservar el trabajo.
Lewis dijo: "Si hay algo que pueda cambiar, solo quiero saber más sobre lo que sucede en el otro extremo. Solo sabemos lo que necesitamos para hacer el trabajo, pero si sé más, tal vez pueda hacer el trabajo". .mayor logro, y tal vez considerarlo una carrera.”
El reportero de investigación tecnológica Ziyeza entrevistó a otras ocho personas, en su mayoría en los EE. UU., que tuvieron experiencias similares respondiendo encuestas o completando tareas en otras plataformas y luego fueron contratados por Taskup.ai o algunos sitios similares, como DataAnnotation.tech o Gethybrid.io. Su trabajo a menudo implica entrenar chatbots, aunque sus chatbots son de mayor calidad y tienen un propósito más especializado que otros sitios en los que han trabajado. Uno de ellos es una macro de hoja de cálculo de presentación, y el otro solo necesita tener una conversación y calificar las respuestas según los criterios que desee. A menudo le hace preguntas al chatbot que también surgen cuando conversa con su hija de 7 años, como "¿Cuál es el dinosaurio más grande?" y "Escribe una historia sobre un tigre".
Taskup.ai, DataAnnotation.tech y Gethybri.io parecen pertenecer a la misma empresa: Surge AI. Su director ejecutivo, Edwin Chen, no confirmó ni negó la conexión, pero estaba dispuesto a hablar sobre su empresa y cómo ve la evolución de las anotaciones.
“Siempre sentí que el campo del etiquetado era simplista”, dice Edwin, quien fundó Surge AI en 2020 después de trabajar en investigación de IA en Google, Facebook y Twitter, convencido de que las etiquetas de colaboración colectiva no eran suficientes. Edwin dijo: "Esperamos que la inteligencia artificial pueda contar chistes, escribir una buena copia de marketing o ayudarme cuando necesito terapia. Pero no todos pueden contar chistes o resolver problemas de programación de Python. Esta mentalidad de baja calidad y poca habilidad se transforma en algo más rico y captura las habilidades humanas, la creatividad y los valores que queremos que tengan los sistemas de IA".
07 Los sistemas de aprendizaje automático son demasiado extraños como para ser completamente confiables
El año pasado, Surge AI volvió a etiquetar un conjunto de datos de la clasificación de Google de las publicaciones de Reddit por sentimiento. Google eliminó el contexto de cada publicación y lo envió a los anotadores en India para que lo anotaran. Los empleados de Surge AI familiarizados con la cultura estadounidense de Internet descubrieron que el 30 % de las anotaciones estaban equivocadas. Publicaciones como "Diablos, mi hermano" se clasificaron como "Odio", mientras que "Cool McDonald's, mi favorito" se clasificó como "Favorito".
Edwin dijo que Surge AI examina las calificaciones de los anotadores, por ejemplo, si las personas que realizan tareas de escritura creativa tienen experiencia en escritura creativa, pero exactamente cómo encuentra al personal es un "secreto". Al igual que con Remotasks, los trabajadores generalmente deben completar un curso de capacitación, aunque a diferencia de Remotasks, se les puede pagar por realizar tareas durante la capacitación. Tener menos personal mejor capacitado que produzca datos de mayor calidad permite que Surge AI pague mejor que sus pares, pero se negó a dar más detalles y solo dijo que a los empleados se les paga a un "nivel justo y ético". Dichos anotadores ganan entre $15 y $30 por hora, pero representan una pequeña fracción de todos los anotadores, un grupo que ahora asciende a 100.000. Este secreto se deriva de una solicitud del cliente, explicó.
Los clientes de Surge AI incluyen OpenAI, Google, Microsoft, Meta y Anthropic. Surge AI se enfoca en comentarios y anotaciones de idioma, y después del lanzamiento de ChatGPT, recibió una avalancha de solicitudes, Edwin dijo: "Pensé que todos conocían el poder de RLHF, pero supongo que la gente simplemente no lo entendió en su corazón".
Estos nuevos modelos son tan impresionantes que han inspirado una nueva ola de predicciones de que la anotación está a punto de automatizarse. La presión financiera para hacerlo es alta dados los costos involucrados. Anthropic, Meta y otros han avanzado recientemente en el uso de inteligencia artificial para reducir la cantidad de anotaciones humanas necesarias para guiar los modelos, y otros desarrolladores han comenzado a usar GPT-4 para generar datos de entrenamiento.
Sin embargo, un artículo reciente encontró que los modelos entrenados en GPT-4 pueden estar aprendiendo a imitar el estilo autoritario de GPT con menos precisión. Hasta ahora, cuando las mejoras en la IA hicieron obsoleta una forma de etiquetado, aumentó la necesidad de otros tipos más complejos. El debate se hizo público a principios de este año cuando el CEO de Scale AI tuiteó que predijo que los laboratorios de IA pronto gastarían miles de millones de dólares en datos humanos, tal como estaban calculando lo mismo que arriba. El CEO de OpenAI, Sam Altman, respondió que a medida que avanza la inteligencia artificial, la necesidad de datos disminuirá.
Edwin duda de que la IA llegue a un punto en el que ya no se necesite la retroalimentación humana, pero ve que el etiquetado se vuelve cada vez más difícil a medida que mejoran los modelos. Al igual que muchos investigadores, cree que el camino a seguir implicará que los sistemas de IA ayuden a los humanos a supervisar otras IA. Surge AI se asoció recientemente con Anthropic en una prueba de concepto en la que anotadores humanos respondieron preguntas sobre un texto extenso con la ayuda de un asistente de IA poco confiable, la teoría es que los humanos deben sentir las debilidades de su asistente de IA y el razonamiento cooperativo para encontrar La respuesta correcta.
Otra posibilidad es que dos IA debatan entre sí, con un humano tomando el juicio final. El científico investigador de OpenAI, John Schulman, dijo en una charla reciente en Berkeley: "Todavía no hemos visto el potencial práctico real de este material, pero está empezando a ser necesario porque es difícil para los anotadores mantenerse al día".
Edwin dijo: "Creo que siempre necesitará un ser humano para monitorear lo que hace la IA solo porque es un extraterrestre. Los sistemas de aprendizaje automático son demasiado extraños para que se pueda confiar en ellos por completo. Lo más impresionante hoy en día. Algunos de nuestros modelos tienen debilidades que parecen muy extrañas para los humanos. Aunque GPT-4 puede generar texto complejo y convincente, no puede decir qué palabras son adjetivos".
08 ChatGPT ayuda mucho con el flujo de tareas
A medida que 2022 llegaba a su fin, Joe comenzó a escuchar de sus alumnos que sus listas de tareas a menudo estaban vacías. Luego recibió un correo electrónico informándole que el campo de entrenamiento en Kenia estaba cerrando. Continuó con sus asignaciones de capacitación en línea, pero comenzó a preocuparse por el futuro. "
Hay indicios de que este no será el caso por mucho tiempo ", dijo Joe. El trabajo de anotación está a punto de abandonar Kenia. De colegas que ha conocido en línea, ha escuchado que tales misiones se están enviando a Nepal, India y Filipinas. Joe dijo: "Las empresas se mueven de una región a otra. No tienen la infraestructura a nivel local, por lo que tienen la flexibilidad de mudarse a donde los costos operativos sean más beneficiosos para ellos. "
Una forma en que la industria de la IA se diferencia de los fabricantes de teléfonos celulares y automóviles es su fluidez. Este trabajo está en constante cambio, siendo automatizado y reemplazado por nuevas demandas de nuevos tipos de datos. Es una canalización, pero se puede reconfigurar constante y rápidamente, moviéndose dondequiera que estén disponibles las habilidades, el ancho de banda y la nómina adecuados.
Recientemente, los trabajos mejor pagados para tareas de anotación regresaron a los Estados Unidos. En mayo, Scale AI comenzó a enumerar trabajos de anotación en su sitio web, buscando personas con experiencia en casi todos los campos que se espera que la IA conquiste. Algunas de estas listas de entrenadores de IA que tienen entrenamiento físico, recursos humanos, finanzas, economía, ciencia de datos, programación, informática, química, biología, contabilidad, impuestos, nutrición, física, viajes, educación K-12, periodismo deportivo y autoconocimiento. -ayuda experta.
Puedes enseñar leyes a los robots y ganar $ 45 por hora; enseñarles poesía y ganar $ 25 por hora. El sitio también enumera el reclutamiento de personas con experiencia en seguridad, presumiblemente para ayudar a entrenar a la IA militar. Scale AI presentó recientemente un modelo de lenguaje de defensa llamado Donovan, que los ejecutivos de la compañía llamaron "municiones en la guerra de IA", y ganó un contrato para trabajar en el programa de vehículos de combate robóticos del Ejército.
Ana todavía está entrenando chatbots en Texas. Los colegas se convirtieron en comentaristas y moderadores de Slack, y ella no sabía por qué, pero le dio la esperanza de que el trabajo podría ser una carrera a largo plazo. Una cosa que no le preocupa es que los trabajos sean reemplazados por la automatización, dijo: "Quiero decir, los chatbots pueden hacer muchas cosas increíbles, pero también pueden hacer algunas cosas realmente extrañas".
Cuando Remotasks llegó por primera vez a Kenia, Joe pensó que la anotación podría ser una buena carrera. Estaba decidido a continuar con el trabajo incluso después de que se trasladara a otro lugar. Razonó que había miles de personas en Nairobi que sabían cómo hacer el trabajo. Después de todo, entrenó a mucha gente. Joe alquiló una oficina en la ciudad y comenzó a buscar contratos de subcontratación: un trabajo anotando planos para una empresa de construcción, otro anotando frutas dañadas por insectos para algún tipo de proyecto agrícola y otro para autos sin conductor. rutinas de etiquetado.
Pero Joe descubrió que su visión era difícil de lograr. Ahora solo tiene un empleado a tiempo completo, frente a los dos anteriores. “No hemos tenido un flujo constante de trabajo", dijo. No hubo nada que hacer durante semanas porque los clientes aún estaban recopilando datos. Cuando el cliente terminó de recopilar los datos, tuvo que traer contratistas a corto plazo para cumplir con los plazos: "Al cliente no le importaba si teníamos trabajo en curso. Mientras se hiciera el etiquetado del conjunto de datos, estaría bien".
Para no dejar que sus habilidades se desperdicien, otros ejecutantes de tareas deciden a dónde va la tarea y ellos van allí. Alquilan servidores proxy para disfrazar su ubicación y compran identificaciones falsas para pasar la seguridad y poder pretender estar trabajando en Singapur, los Países Bajos, Mississippi o donde sea que fluya la misión. Este es un negocio arriesgado. Scale AI se ha vuelto cada vez más agresivo en la suspensión de cuentas que ocultan sus ubicaciones, según varios actores de la misión. "
Nos hemos vuelto un poco más inteligentes estos días porque hemos notado que en otros países están pagando buenos salarios”, dijo Víctor. Gana el doble trabajando en Malasia que en Kenia, pero “hay que tener cuidado”.
Otro comentarista de Kenia dijo que decidió no seguir las reglas después de que su cuenta fuera bloqueada por razones misteriosas. Ahora, maneja múltiples cuentas en múltiples países, llevando a cabo misiones donde los ingresos son más altos. Gracias a ChatGPT, dice que trabaja rápido y tiene un puntaje de calidad alto. El bot, dice, es genial y le permite completar rápidamente tareas de $10 en minutos.
Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
Desmitificando a los "trabajadores migrantes de IA" detrás de ChatGPT: aburridos y repetitivos, pagados por pieza, salarios por hora tan bajos como $ 1
**Fuente:**Tecnología Tencent
Resumen: Los anotadores de datos clasifican y etiquetan los datos, lo que permite que la inteligencia artificial aprenda al encontrar patrones en grandes cantidades de datos, y se consideran "trabajo fantasma" escondido detrás de la máquina. El trabajo de anotación es la base de la inteligencia artificial, ha formado toda una cadena de suministro y este tipo de trabajo seguirá existiendo durante mucho tiempo.
Enfocar
La inteligencia artificial aprende buscando patrones en grandes cantidades de datos, pero primero estos datos deben ser clasificados y etiquetados por humanos, y aparecen los anotadores de datos, considerados como "trabajadores fantasmas" escondidos detrás de las máquinas.
El trabajo de los anotadores es aburrido y tedioso. A menudo necesitan hacer un trabajo repetitivo y se les paga pieza por pieza. El salario promedio por hora es de entre 5 y 10 dólares estadounidenses (alrededor de 36 a 72 yuanes). A principios de este año, el salario por hora de algunos comentaristas se había reducido a $1 a $3 por hora (alrededor de 7 a 22 yuanes).
El trabajo de anotación sigue siendo la base de la inteligencia artificial y ha formado una cadena de suministro completa. Este tipo de trabajos han llegado para quedarse durante mucho tiempo.
El trabajo de anotación es diferente de los teléfonos inteligentes y la fabricación de automóviles en que se deforma fácilmente y es fluido, y a menudo fluye hacia lugares con costos operativos más bajos.
Luego, en 2019, apareció una oportunidad frente a él y Joe comenzó a capacitar a los reclutas para una nueva empresa que necesitaba desesperadamente anotadores, ganando cuatro veces más. Cada dos semanas, 50 nuevos empleados hacen fila para ingresar a un edificio de oficinas en Nairobi para comenzar su aprendizaje. La necesidad de anotadores parece interminable. Se les pedirá que clasifiquen la ropa que ven en una selfie en el espejo, determinen la habitación en la que se encuentran a través de los ojos de una aspiradora robótica y dibujen cajas alrededor de una motocicleta escaneada por lidar. Más de la mitad de los alumnos de Joe suelen abandonar los estudios antes de que finalice la formación. "Algunas personas no saben cómo permanecer en un lugar durante mucho tiempo", explicó suavemente. Además, admite, "el trabajo es aburrido".
Pero es un buen trabajo en un lugar donde escasean los trabajos, y Joe ha producido cientos de graduados. Después de la formación, los aprendices pueden volver a casa y trabajar solos en sus dormitorios y cocinas sin decirle a nadie lo que están haciendo. Ese no es el verdadero problema porque ni siquiera entienden lo que están haciendo.
Etiquetar objetos para autos sin conductor es fácil, pero clasificar fragmentos de diálogo distorsionados e identificar si el orador es un robot o un ser humano está lleno de desafíos. Cada objeto de reconocimiento es una pequeña parte de un proyecto más grande, por lo que es difícil saber exactamente para qué están entrenando a la IA. Los nombres de estos objetos tampoco proporcionan ninguna pista, Crab Generation, Whale Segment, Woodland Gyro y Pillbox Bratwurst son todos códigos de trabajo sin ningún orden lógico.
En cuanto a la empresa que los contrató, la mayoría de la gente solo la conoce como Remotasks, un sitio web que ofrece oportunidades laborales a cualquier persona que hable inglés con fluidez. Como la mayoría de los anotadores, Joe no sabía que Remotasks era una empresa de trabajo por contrato propiedad de Scale AI. Scale AI es un proveedor de datos multimillonario de Silicon Valley cuyos clientes incluyen la empresa de inteligencia artificial OpenAI y el ejército de EE. UU. Ni Remotasks ni Scale AI se mencionan entre sí en sus sitios web.
01 Ayudando a máquinas con habilidades humanas únicas
Gran parte de la reacción del público a los grandes modelos de lenguaje como ChatGPT de OpenAI se ha centrado en el trabajo que parecen estar preparados para automatizar. Pero incluso el sistema de inteligencia artificial más impresionante no puede prescindir de la ayuda de los humanos, quienes lo entrenan etiquetando los datos e intervienen cuando se confunden. Solo aquellas empresas que pueden permitirse comprar los datos pueden competir en la industria, y aquellas que obtienen los datos harán todo lo posible para mantenerlos en secreto. El resultado es que, a excepción de unas pocas personas, sabemos muy poco sobre la información que influye en el comportamiento de estos sistemas, y menos aún sobre las personas detrás del comportamiento que les da forma.
Para los estudiantes de Joe, es un trabajo desprovisto de toda apariencia de normalidad: se espera que cumplan con un horario estricto y no necesitan saber lo que están haciendo o para quién están trabajando. De hecho, rara vez se llaman a sí mismos trabajo, solo “tareas” rutinarias. Se llaman a sí mismos trabajadores de tareas.
El antropólogo David Graeber ha definido los llamados "trabajos de mierda": trabajos que no tienen significado ni propósito. Estos son trabajos que deberían estar automatizados, pero no lo están, por razones de burocracia, estado o inercia. El trabajo de entrenar inteligencia artificial es similar: los trabajos que las personas quieren automatizar, generalmente se consideran automatizados, pero aún requieren la participación de humanos. Estas tareas tienen propósitos especiales, pero los anotadores no son conscientes de ello.
El auge actual de la IA comenzó con este trabajo bastante tedioso y repetitivo. Ya en 2007, Fei-Fei Li, investigadora de inteligencia artificial y luego profesora en la Universidad de Princeton, sospechó que la clave para mejorar las redes neuronales para el reconocimiento de imágenes era entrenar con más datos, lo que requería millones de imágenes etiquetadas en lugar de decenas de miles. El problema es que a su equipo le habría llevado décadas y millones de dólares etiquetar tantas fotos.
Fei-Fei Li encontró miles de trabajadores en la plataforma de crowdsourcing de Amazon, Mechanical Turk, donde personas de todo el mundo realizan pequeñas tareas a bajo costo. El conjunto de datos etiquetados resultante, conocido como ImageNet, permitió un gran avance en el aprendizaje automático, revitalizando el campo y marcando el comienzo del progreso de la última década.
La anotación sigue siendo una parte esencial del desarrollo de la IA, pero los ingenieros a menudo sienten que es un requisito previo fugaz y engorroso para el trabajo de modelado más glamoroso. Podría recopilar la mayor cantidad de datos etiquetados de la manera más económica posible para entrenar su propio modelo y, si pudiera hacerlo, al menos en teoría, ya no necesitaría anotadores. Sin embargo, el trabajo de anotación nunca termina realmente. Los investigadores argumentan que los sistemas de aprendizaje automático son "frágiles" y propensos a fallar cuando encuentran cosas en los datos de entrenamiento que no están bien explicadas. Estos fallos se conocen como "casos extremos" y pueden tener graves consecuencias.
En 2018, un auto de prueba autónomo de la empresa de transporte compartido Uber mató a una mujer porque, a pesar de estar programado para evitar a ciclistas y peatones, no sabía qué hacer con los ciclistas que cruzaban la calle. A medida que más sistemas de IA brindan asesoramiento legal y asistencia médica, más casos extremos se encuentran, lo que requiere más humanos para resolverlos. Esto ha generado una industria global de personas como Joe que utilizan sus habilidades humanas únicas para ayudar a las máquinas.
En los últimos seis meses, el reportero de investigación de tecnología Josh Dzieza ha hablado con más de dos docenas de comentaristas de todo el mundo, muchos de los cuales están entrenando chatbots de última generación, pero también muchos están haciendo el trabajo físico mundano requerido para mantener la IA en funcionamiento. . Algunos han catalogado el contenido emocional de los videos de TikTok, las nuevas variaciones de spam y la publicidad en línea inapropiada. Otros buscan transacciones con tarjetas de crédito y descubren los tipos de compras asociadas con ellas, o buscan recomendaciones de comercio electrónico y deciden si realmente le va a gustar esa camisa después de comprar otra.
Los humanos están corrigiendo los errores de los chatbots de servicio al cliente, escuchando las solicitudes del asistente inteligente de Amazon, Alexa, y categorizando las emociones de las personas en las videollamadas. Etiquetan los alimentos para que los refrigeradores inteligentes no se confundan con los nuevos empaques, verifican las cámaras de seguridad automáticas antes de hacer sonar la alarma y ayudan a los tractores autónomos confundidos a identificar el maíz.
02 Los comentarios son un gran negocio, engendrando al "multimillonario hecho a sí mismo más joven"
"Es una cadena de suministro completa. La percepción general en la industria es que este trabajo no es una parte crítica del desarrollo de tecnología, no es una parte crítica de el desarrollo de la tecnología". Prosperará durante mucho tiempo. Toda la emoción se extiende en torno a la construcción de IA, y una vez que la construimos, las anotaciones ya no son necesarias, entonces, ¿por qué molestarse en pensar en ello? Pero el etiquetado de datos es la base de la IA, al igual que humanos Por mucho que la inteligencia sea la base de la IA, debemos verlos como trabajos reales en la economía de la IA que están aquí para quedarse durante mucho tiempo".
Los proveedores de datos detrás de nombres familiares como OpenAI, Google y Microsoft vienen en diferentes formas. También hay empresas privadas de subcontratación con oficinas similares a centros de atención telefónica, como CloudFactory en Kenia y Nepal, donde Joe realiza trabajos de anotación por $1,20 la hora antes de cambiarse a Remotasks.
También hay sitios de "trabajadores colectivos" como Mechanical Turk y Clickworker, donde cualquiera puede registrarse para completar tareas. En el medio están servicios como Scale AI. Cualquiera puede inscribirse, pero todos deben aprobar un examen de calificación, un curso de capacitación y ser monitoreados por su desempeño. Las anotaciones son un gran negocio. Scale AI, fundada en 2016 por Alexander Wang, que entonces tenía 19 años, estaba valorada en 7300 millones de dólares en 2021, lo que lo convirtió en uno de los multimillonarios hechos a sí mismos más jóvenes de Forbes.
Ante esto, no hay forma de dar estimaciones detalladas del número de personas que trabajan en anotación, pero lo cierto es que son muchas y están creciendo rápidamente. Google Research publicó recientemente un documento que brinda estimaciones vagas del número de anotadores en "millones" y posiblemente "billones" en el futuro.
La automatización a menudo llega de formas inesperadas. Erik Duhaime, director ejecutivo de Centaur Labs, una empresa de anotación de datos médicos, recuerda que hace unos años, varios ingenieros destacados en aprendizaje automático predijeron que la inteligencia artificial reemplazaría a los radiólogos. Cuando eso no sucede, la sabiduría convencional recurre a los radiólogos que utilizan la IA como herramienta.
Ninguna de esas cosas sucedió, según Duheim. La inteligencia artificial es muy buena en tareas específicas, lo que provoca que el trabajo se desglose y se asigne a sistemas algorítmicos especializados y humanos igualmente especializados. Por ejemplo, dijo, un sistema de inteligencia artificial podría detectar el cáncer, pero solo en ciertos tipos de máquinas, en ciertos tipos de imágenes. Por lo tanto, necesita a alguien que lo ayude a verificar que la IA esté recibiendo el tipo correcto de datos, y tal vez a alguien más para verificar que esté funcionando antes de entregárselo a otra IA para escribir un informe y finalmente a un ser humano. "La IA no reemplazará los trabajos humanos, pero cambia la forma en que se organizan los trabajos", dijo Duheim.
Si piensa en la inteligencia artificial como una máquina pensante inteligente, puede estar ignorando a los humanos detrás de ella. Du Haimei cree que el impacto de la inteligencia artificial en el trabajo moderno es como la transición de los artesanos a la fabricación industrial: los procesos coherentes se dividen en pequeñas tareas, se organizan a lo largo de la línea de montaje, algunos pasos los completan las máquinas, otros los humanos, pero es diferente a las anteriores, la situación es bastante diferente.
Las preocupaciones sobre la interrupción de la IA a menudo se contrarrestan diciendo que la IA automatiza ciertas tareas, no trabajos completos. Estas tareas suelen ser tediosas y aburridas, lo que obliga a las personas a dedicarse a un trabajo humano más satisfactorio. Pero es igualmente posible que el surgimiento de la inteligencia artificial también se parezca a las tecnologías del pasado que ahorran trabajo, tal vez como el teléfono o la máquina de escribir, que eliminan la monotonía de pasar mensajes y escribir a mano, pero generan más información sobre comunicación, comercio y Tanto es así que se necesitaba una nueva oficina dotada de nuevos tipos de trabajadores, oficinistas, contables, mecanógrafos, etc., para gestionarlos. Es posible que no pierda su trabajo cuando AI se una a su trabajo, pero puede volverse más extraño, más aislado y más tedioso.
03 Simplificar la realidad compleja en algo legible por máquina
A principios de este año, la periodista Ziyeza se inscribió para trabajar en Remotasks. El proceso es simple. Solo necesita ingresar las especificaciones de la computadora, la velocidad de la red y la información básica de contacto para ingresar al "Centro de capacitación". Para obtener asignaciones pagas, Ziyeza primero tuvo que completar los cursos introductorios relevantes, pero no remunerados. El centro de formación presentó una serie de clases con nombres incomprensibles como Glue Swimsuits y Poster Hawaii. Zieza hizo clic en algo llamado GFD Chunking, que requiere que la ropa se etiquete en las fotos de las redes sociales.
Más allá de eso, hay instrucciones para tareas como tener que etiquetar artículos que son reales, que pueden usar humanos o que están destinados a ser usados por personas reales. Confiado en su capacidad para distinguir la ropa real que la gente real podía usar de la ropa falsa que la gente real no podía, Ziyeza se dispuso a probar. Sin embargo, inmediatamente recibió un golpe en la cabeza: la computadora mostró una imagen de revista de una mujer con falda. ¿Las fotos de ropa deben considerarse ropa real? No, pensó Ziyeza, porque la gente no puede usar fotos de ropa. ¡El resultado muestra un error! Porque a los ojos de la inteligencia artificial, las fotos de ropa real equivalen a ropa real.
La imagen que sigue es de una mujer tomándose una selfie en un espejo de cuerpo entero en un dormitorio con poca luz. La camisa y los pantalones cortos que lleva puestos son ropa real, ¿y el reflejo de la ropa es real? Ziyeza también dio una respuesta negativa, pero el sistema de inteligencia artificial cree que el reflejo de la ropa real también debería ser ropa real.
Milagros Miceli, investigadora que trabaja con datos en el Instituto Weizenbaum en Alemania, dijo que había una confusión generalizada en la industria. En parte, esto es producto de la forma en que aprenden los sistemas de aprendizaje automático. Los humanos solo necesitan unos pocos ejemplos para comprender el concepto de "camisa", mientras que los programas de aprendizaje automático necesitan miles de ejemplos, y deben hacerlo con una consistencia perfecta y suficiente variedad (polos, camisas para usar al aire libre, camisas colgadas en un rack) para que el sistema pueda manejar la diversidad del mundo real. "Imagínese que necesitamos reducir la realidad compleja a algo que las máquinas torpes puedan leer", dijo Miselli.
Para las máquinas, el acto de simplificar la realidad introduce una enorme complejidad. Los escritores de instrucciones deben idear reglas que permitan a los humanos clasificar el mundo con perfecta consistencia. Para hacer esto, a menudo crean categorías que los humanos no usarían. Si se le pide a una persona que etiquete todas las camisetas en una foto, es posible que no etiquete las camisetas en el espejo porque sabe que son reflejos y no ropa real. Pero para una IA que no entiende el mundo real, son solo píxeles, los dos son exactamente iguales. Si algunas camisetas en el conjunto de datos están etiquetadas y otras camisetas reflejadas no lo están, entonces el modelo no funcionará. Entonces, el ingeniero volvió al proveedor con información actualizada y le pidió que etiquetara la camisa que se reflejaba en el espejo. Pronto tendrás otra guía de 43 páginas, todas en mayúsculas rojas.
El trabajo de un anotador suele ser dejar de lado la comprensión humana y seguir instrucciones muy, muy estrictamente. Como dijo un comentarista, piensa como un robot. Es un espacio mental extraño en el que haces todo lo posible para seguir reglas ridículas pero estrictas, como hacer un examen estándar mientras tomas alucinógenos. Los anotadores siempre tienen preguntas confusas como, ¿es esta una camisa roja con una raya blanca o es una camisa blanca con una raya roja? Si un cuenco de mimbre está lleno de manzanas, ¿es un "cuenco decorativo"? ¿De qué color es el estampado de leopardo? Todas las preguntas deben ser respondidas, y una suposición equivocada podría hacer que te baneen y comiences una misión completamente nueva y completamente diferente con sus propias reglas desconcertantes.
04 Paga por pieza, revisa la tarea cada tres horas
La mayoría de los trabajos en Remotasks se pagan pieza por pieza, con ganancias que van desde unos pocos centavos hasta unos pocos dólares por tarea. Debido a que las tareas pueden tardar segundos u horas en completarse, los salarios son difíciles de predecir. Cuando Remotasks llegó por primera vez a Kenia, los comentaristas dijeron que pagaba relativamente bien. Eso promedia alrededor de $ 5 a $ 10 por hora, según la tarea. Pero con el tiempo, la paga baja.
La queja más común sobre el trabajo de teletaking es su variabilidad. Este tipo de trabajo es lo suficientemente estable como para ser un trabajo a tiempo completo a largo plazo, pero tiene demasiada imprevisibilidad como para confiar en él por completo. Los anotadores pasan horas leyendo instrucciones y completando capacitación pro bono solo para completar una docena de tareas antes de que finalice el proyecto. Es posible que no haya nuevas tareas durante unos días y luego, de la nada, aparezca una completamente diferente, posiblemente durante horas o semanas. Cualquier misión puede ser la última y nunca saben cuándo llegará la próxima.
Los ingenieros y los proveedores de datos dicen que este ciclo de auge y caída se debe al ritmo del desarrollo de la IA. El entrenamiento de un modelo grande requiere muchas anotaciones, seguidas de más actualizaciones iterativas, y los ingenieros quieren que todo esto suceda lo más rápido posible para poder cumplir con la fecha de lanzamiento prevista. Es posible que necesiten miles de anotadores en el transcurso de unos pocos meses, luego se reducen a unos cientos y, finalmente, solo a una docena de expertos de un tipo en particular. Este proceso se repite a veces en ciclos. “La pregunta es, ¿quién asume el costo de estas fluctuaciones?”, dijo Jindal de Partnership on AI.
Para tener éxito, los anotadores deben trabajar juntos. Víctor comenzó a trabajar para Remotasks cuando era estudiante universitario en Nairobi, y cuando le dijeron que tenía problemas con una tarea de control de tráfico, dijo que todos sabían que debían mantenerse alejados de esa tarea: demasiado complicado, mal pagado, no vale la pena. Como muchos comentaristas, Víctor usa un grupo no oficial de WhatsApp para correr la voz cuando surgen buenas asignaciones. Cuando se le ocurría una nueva idea, iniciaba una reunión improvisada de Google para mostrar a los demás cómo hacerlo. Cualquiera puede unirse y trabajar juntos por un tiempo, compartiendo consejos. "Hemos desarrollado una cultura de ayudarnos unos a otros porque sabemos que una persona no puede saber todos los trucos", dijo.
Los anotadores siempre deben estar alerta, ya que los trabajos aparecen y desaparecen sin previo aviso. Víctor descubrió que los artículos a menudo aparecían en medio de la noche, por lo que se acostumbró a levantarse cada tres horas más o menos para revisarlos. Cuando hay una tarea, siempre se mantendrá despierto. En un momento, pasó 36 horas sin dormir, marcando codos, rodillas y cabezas en fotos de multitudes, aunque no sabía por qué. En otra ocasión, se quedó despierto tanto tiempo que sus ojos estaban rojos e hinchados.
Los anotadores a menudo solo saben que están entrenando sistemas de inteligencia artificial para empresas en otros lugares, pero a veces el velo del anonimato se cae y hay demasiadas pistas para marcas o chatbots mencionados en las instrucciones. Un comentarista dijo: "Leí las instrucciones, busqué en Google y descubrí que estaba trabajando para un multimillonario de 25 años. Si hago multimillonario a alguien y gano unos pocos dólares, literalmente estoy desperdiciando mi vida".
Víctor, que se describe a sí mismo como un "creyente salvaje" en la inteligencia artificial, comenzó el trabajo de anotación porque quería ayudar a lograr un futuro totalmente automatizado. Pero a principios de este año, alguien publicó una historia de la revista Time en su grupo de WhatsApp sobre cómo a los empleados del proveedor Sama AI se les pagaba menos de $ 2 por hora para capacitar a ChatGPT para identificar contenido tóxico. “La gente está indignada de que estas empresas sean tan rentables y paguen tan poco”, dijo Víctor, quien no conocía la relación entre Remotasks y Scale AI hasta que se lo dijeron. Las instrucciones para una de las tareas en las que trabajó eran casi idénticas a las utilizadas por OpenAI, lo que significa que probablemente también estaba entrenando en ChatGPT, por alrededor de $3 por hora. "
Recuerdo que alguien publicó que seremos recordados en el futuro”, dijo. Cero uno respondió: “Nos trataron peor que a la infantería. No seremos recordados en ningún lugar en el futuro, lo recuerdo bien. Nadie reconocerá el trabajo que hacemos y el esfuerzo que ponemos. "
Identificar ropa y etiquetar conversaciones de servicio al cliente son solo algunos de los trabajos de anotación. Recientemente, lo más popular en el mercado son los entrenadores de chatbots. Debido a que requiere experiencia en un dominio específico o fluidez en el idioma, y los salarios tienden a ajustarse según la región, el trabajo tiende a pagar más. Ciertos tipos de anotaciones profesionales pueden generar hasta $50 o más por hora.
Cuando una mujer llamada Anna estaba buscando trabajo en Texas, se encontró con una lista de trabajos genérica en línea y presentó su solicitud. Después de aprobar un examen introductorio, fue conducida a una sala de Slack de 1500 personas donde estaban entrenando en un proyecto llamado Dolphin, que más tarde descubrió que era el chatbot Sparrow de Google DeepMind, uno de los muchos chatbots que compiten con ChatGPT one. El trabajo de Anna es conversar con Sparrow todo el día, y el salario por hora es de aproximadamente $14, más la bonificación por alta eficiencia en el trabajo, "esto es definitivamente mejor que trabajar en el supermercado local para ganar $10 por hora".
05 La IA responde a tres criterios: precisión, utilidad e inocuidad
Y Ana ama el trabajo. Ha hablado de ciencia ficción, paradojas matemáticas, adivinanzas infantiles y programas de televisión con Sparrow. A veces, las respuestas del chatbot la hacían reír a carcajadas. A veces, ella también se queda sin palabras. Anna dijo: "A veces, realmente no sé qué preguntar, así que tengo un pequeño cuaderno con dos páginas ya escritas. Busco en Google temas interesantes, así que creo que puedo hacer un buen trabajo. Hacer frente a siete horas, que no siempre es el caso".
Cada vez que Anna le pregunta a Sparrow, éste da dos respuestas y ella elige la mejor, creando lo que se llama "datos de retroalimentación humana". Cuando ChatGPT debutó a fines del año pasado, su estilo de conversación impresionantemente natural se atribuyó al hecho de que había sido entrenado en grandes cantidades de datos de Internet. Pero el lenguaje que utiliza ChatGPT y sus competidores se filtra a través de varias rondas de anotaciones humanas.
Un equipo de contratistas escribió ejemplos de cómo los ingenieros querían que se comportara el chatbot, haciendo preguntas y luego dando las respuestas correctas, describiendo programas de computadora y luego dando códigos funcionales, pidiendo consejos criminales y luego declinando cortésmente. Después de entrenar al modelo con estos ejemplos, se presentan más contratistas para impulsarlo y clasificar sus respuestas. Eso es lo que Ana le hizo a Sparrow.
Los criterios exactos que se les dijo a los evaluadores que usaran variaron, como la honestidad, la amabilidad o simplemente la preferencia personal. El punto es que están creando datos sobre el gusto humano, y una vez que hay suficientes datos, los ingenieros pueden entrenar un segundo modelo para imitar sus preferencias a escala, automatizando el proceso de clasificación y entrenando su IA para reconocer la forma de actuar del gusto humano. El resultado es un robot muy parecido a un humano que básicamente rechaza las solicitudes dañinas y explica su naturaleza de inteligencia artificial de una manera que parece ser consciente de sí mismo.
En otras palabras, ChatGPT parece humano porque fue entrenado por una IA que imita a los humanos y actúa como un humano.
Esto puede hacer que el modelo extraiga patrones de partes de su mapa de idioma que están marcadas como precisas y produzca un texto que coincida con la verdad, pero también puede hacer que imite el estilo confiado y la jerga del texto preciso mientras escribe algo completamente incorrecto. . No hay garantía de que el texto marcado como exacto por los anotadores sea realmente exacto. Incluso si es preciso, no hay garantía de que el modelo haya aprendido el patrón correcto.
Esta dinámica hace que anotar chatbots no sea fácil. Tiene que ser riguroso y consistente, porque la retroalimentación descuidada, como marcar como preciso el material que suena correctamente, puede hacer que el modelo entrenado sea más convincente. OpenAI y DeepMind usaron RLHF en un proyecto conjunto anterior, en este caso, para entrenar una mano robótica virtual para agarrar un objeto, que resultó también entrenar a la mano robótica para posicionar y balancear el objeto entre el objeto y su evaluador. Eso forma en que sólo aparecerá a sus supervisores humanos.
Clasificar las respuestas de un modelo de lenguaje siempre es algo subjetivo porque se trata de un lenguaje. El texto de cualquier longitud puede contener múltiples elementos que pueden ser verdaderos, falsos o engañosos. Los investigadores de OpenAI se encontraron con este obstáculo en otro artículo anterior de RLHF. Para lograr que su modelo resuma el texto, los investigadores encontraron que solo el 60 por ciento de los resúmenes del modelo eran buenos. "A diferencia de muchas tareas en el aprendizaje automático, nuestras consultas no tienen una verdad clara", lamentan.
Cuando Ana califica las respuestas de Sparrow, debe observar su precisión, utilidad e inocuidad, al mismo tiempo que verifica que el modelo no esté dando consejos médicos o financieros, antropomorfizándose a sí mismo o violando otros criterios. Para que sean útiles como datos de entrenamiento, las respuestas del modelo deben ordenarse cuantitativamente: ¿es un robot que puede decirle cómo hacer una bomba "mejor" que un robot inofensivo que se niega a responder cualquier pregunta?
En un artículo de DeepMind, mientras los creadores de Sparrow se turnaban para anotar, cuatro investigadores debatieron si su bot hacía suposiciones sobre el género de los usuarios que acudían a él en busca de consejos emocionales. Según Geoffrey Irving, científico investigador de DeepMind, los investigadores de la compañía realizan sesiones de anotación semanales en las que ellos mismos revisan los datos y discuten casos ambiguos. Cuando un caso es particularmente complicado, consultan a expertos en ética o en la materia.
Anna a menudo se encontraba con que tenía que elegir entre dos malas opciones. "Incluso si ambas son respuestas terriblemente incorrectas, aún debe averiguar cuál es mejor y escribir el texto que explica por qué", dice. A veces, cuando ninguna de las respuestas es buena, se la anima a dar la respuesta ella misma. una mejor respuesta Ella hace esto aproximadamente la mitad del tiempo durante el entrenamiento.
06 Los comentarios requieren cada vez más habilidades y conocimientos específicos
Debido a que los datos de retroalimentación son difíciles de recopilar, el precio de venta es más alto. El tipo de datos básicos de preferencia que Ana recopila se vende por alrededor de $ 1 por pieza, según personas con conocimiento de la industria. Pero si desea capacitar a un modelo para realizar investigaciones legales, necesita a alguien con capacitación legal, lo que genera un aumento de los costos. Todos los involucrados no revelarán exactamente cuánto pagaron, pero en términos generales, un ejemplo escrito profesional puede costar unos cientos de dólares, mientras que una calificación experta puede costar $ 50 o más. Un ingeniero reveló que una vez pagó $300 por una muestra del diálogo de Socratic.
OpenAI, Microsoft, Meta y Anthropic no revelaron cuántas personas contribuyeron con anotaciones a sus modelos, cuánto les pagaron o en qué parte del mundo se ubicaron. A los anotadores que trabajan en Sparrow se les paga al menos el salario mínimo por hora, dependiendo de dónde se encuentren, dijo Owen, de la empresa hermana de Google, DeepMind. Ana "no sabe nada" sobre Remotasks, pero sabe más sobre Sparrow, sabiendo que es el asistente de inteligencia artificial de DeepMind, que sus creadores entrenaron usando RLHF.
Hasta hace poco, era relativamente fácil detectar malos resultados de los modelos de lenguaje, que parecían un galimatías. Pero a medida que los modelos mejoran, esto se vuelve más difícil, un problema conocido como "supervisión escalable". El uso de modelos de lenguaje moderno por parte de Google para el debut de su asistente de IA, Bard, demostró sin darse cuenta lo difícil que es detectar errores en los modelos de lenguaje moderno. Esta trayectoria significa que la anotación requiere cada vez más habilidades y experiencia específicas.
El año pasado, un chico llamado Lewis estaba trabajando en Mechanical Turk y, después de completar una tarea, recibió un mensaje invitándolo a unirse a una plataforma de la que nunca había oído hablar. Se llama Taskup.ai, y el sitio es bastante simple, solo un fondo azul marino con el texto "Pague sobre la marcha". Lewis decidió registrarse.
El trabajo paga mucho mejor que cualquier otro trabajo que haya tenido antes, generalmente alrededor de $30 por hora. Sin embargo, también es más desafiante, ya que requiere el diseño de escenarios complejos para engañar a los chatbots para que den consejos peligrosos, probar la capacidad del modelo para mantener su propia personalidad y entablar conversaciones detalladas sobre temas científicos que son altamente técnicos y requieren una investigación exhaustiva. Lewis encontró el trabajo "satisfactorio y emocionante". Mientras revisaba un modelo e intentaba codificarlo en Python, Lewis estaba aprendiendo. No puede trabajar más de 4 horas seguidas para no agotarse mentalmente y cometer un error, y quiere conservar el trabajo.
Lewis dijo: "Si hay algo que pueda cambiar, solo quiero saber más sobre lo que sucede en el otro extremo. Solo sabemos lo que necesitamos para hacer el trabajo, pero si sé más, tal vez pueda hacer el trabajo". .mayor logro, y tal vez considerarlo una carrera.”
El reportero de investigación tecnológica Ziyeza entrevistó a otras ocho personas, en su mayoría en los EE. UU., que tuvieron experiencias similares respondiendo encuestas o completando tareas en otras plataformas y luego fueron contratados por Taskup.ai o algunos sitios similares, como DataAnnotation.tech o Gethybrid.io. Su trabajo a menudo implica entrenar chatbots, aunque sus chatbots son de mayor calidad y tienen un propósito más especializado que otros sitios en los que han trabajado. Uno de ellos es una macro de hoja de cálculo de presentación, y el otro solo necesita tener una conversación y calificar las respuestas según los criterios que desee. A menudo le hace preguntas al chatbot que también surgen cuando conversa con su hija de 7 años, como "¿Cuál es el dinosaurio más grande?" y "Escribe una historia sobre un tigre".
Taskup.ai, DataAnnotation.tech y Gethybri.io parecen pertenecer a la misma empresa: Surge AI. Su director ejecutivo, Edwin Chen, no confirmó ni negó la conexión, pero estaba dispuesto a hablar sobre su empresa y cómo ve la evolución de las anotaciones.
“Siempre sentí que el campo del etiquetado era simplista”, dice Edwin, quien fundó Surge AI en 2020 después de trabajar en investigación de IA en Google, Facebook y Twitter, convencido de que las etiquetas de colaboración colectiva no eran suficientes. Edwin dijo: "Esperamos que la inteligencia artificial pueda contar chistes, escribir una buena copia de marketing o ayudarme cuando necesito terapia. Pero no todos pueden contar chistes o resolver problemas de programación de Python. Esta mentalidad de baja calidad y poca habilidad se transforma en algo más rico y captura las habilidades humanas, la creatividad y los valores que queremos que tengan los sistemas de IA".
07 Los sistemas de aprendizaje automático son demasiado extraños como para ser completamente confiables
El año pasado, Surge AI volvió a etiquetar un conjunto de datos de la clasificación de Google de las publicaciones de Reddit por sentimiento. Google eliminó el contexto de cada publicación y lo envió a los anotadores en India para que lo anotaran. Los empleados de Surge AI familiarizados con la cultura estadounidense de Internet descubrieron que el 30 % de las anotaciones estaban equivocadas. Publicaciones como "Diablos, mi hermano" se clasificaron como "Odio", mientras que "Cool McDonald's, mi favorito" se clasificó como "Favorito".
Edwin dijo que Surge AI examina las calificaciones de los anotadores, por ejemplo, si las personas que realizan tareas de escritura creativa tienen experiencia en escritura creativa, pero exactamente cómo encuentra al personal es un "secreto". Al igual que con Remotasks, los trabajadores generalmente deben completar un curso de capacitación, aunque a diferencia de Remotasks, se les puede pagar por realizar tareas durante la capacitación. Tener menos personal mejor capacitado que produzca datos de mayor calidad permite que Surge AI pague mejor que sus pares, pero se negó a dar más detalles y solo dijo que a los empleados se les paga a un "nivel justo y ético". Dichos anotadores ganan entre $15 y $30 por hora, pero representan una pequeña fracción de todos los anotadores, un grupo que ahora asciende a 100.000. Este secreto se deriva de una solicitud del cliente, explicó.
Estos nuevos modelos son tan impresionantes que han inspirado una nueva ola de predicciones de que la anotación está a punto de automatizarse. La presión financiera para hacerlo es alta dados los costos involucrados. Anthropic, Meta y otros han avanzado recientemente en el uso de inteligencia artificial para reducir la cantidad de anotaciones humanas necesarias para guiar los modelos, y otros desarrolladores han comenzado a usar GPT-4 para generar datos de entrenamiento.
Sin embargo, un artículo reciente encontró que los modelos entrenados en GPT-4 pueden estar aprendiendo a imitar el estilo autoritario de GPT con menos precisión. Hasta ahora, cuando las mejoras en la IA hicieron obsoleta una forma de etiquetado, aumentó la necesidad de otros tipos más complejos. El debate se hizo público a principios de este año cuando el CEO de Scale AI tuiteó que predijo que los laboratorios de IA pronto gastarían miles de millones de dólares en datos humanos, tal como estaban calculando lo mismo que arriba. El CEO de OpenAI, Sam Altman, respondió que a medida que avanza la inteligencia artificial, la necesidad de datos disminuirá.
Edwin duda de que la IA llegue a un punto en el que ya no se necesite la retroalimentación humana, pero ve que el etiquetado se vuelve cada vez más difícil a medida que mejoran los modelos. Al igual que muchos investigadores, cree que el camino a seguir implicará que los sistemas de IA ayuden a los humanos a supervisar otras IA. Surge AI se asoció recientemente con Anthropic en una prueba de concepto en la que anotadores humanos respondieron preguntas sobre un texto extenso con la ayuda de un asistente de IA poco confiable, la teoría es que los humanos deben sentir las debilidades de su asistente de IA y el razonamiento cooperativo para encontrar La respuesta correcta.
Otra posibilidad es que dos IA debatan entre sí, con un humano tomando el juicio final. El científico investigador de OpenAI, John Schulman, dijo en una charla reciente en Berkeley: "Todavía no hemos visto el potencial práctico real de este material, pero está empezando a ser necesario porque es difícil para los anotadores mantenerse al día".
Edwin dijo: "Creo que siempre necesitará un ser humano para monitorear lo que hace la IA solo porque es un extraterrestre. Los sistemas de aprendizaje automático son demasiado extraños para que se pueda confiar en ellos por completo. Lo más impresionante hoy en día. Algunos de nuestros modelos tienen debilidades que parecen muy extrañas para los humanos. Aunque GPT-4 puede generar texto complejo y convincente, no puede decir qué palabras son adjetivos".
08 ChatGPT ayuda mucho con el flujo de tareas
A medida que 2022 llegaba a su fin, Joe comenzó a escuchar de sus alumnos que sus listas de tareas a menudo estaban vacías. Luego recibió un correo electrónico informándole que el campo de entrenamiento en Kenia estaba cerrando. Continuó con sus asignaciones de capacitación en línea, pero comenzó a preocuparse por el futuro. "
Hay indicios de que este no será el caso por mucho tiempo ", dijo Joe. El trabajo de anotación está a punto de abandonar Kenia. De colegas que ha conocido en línea, ha escuchado que tales misiones se están enviando a Nepal, India y Filipinas. Joe dijo: "Las empresas se mueven de una región a otra. No tienen la infraestructura a nivel local, por lo que tienen la flexibilidad de mudarse a donde los costos operativos sean más beneficiosos para ellos. "
Una forma en que la industria de la IA se diferencia de los fabricantes de teléfonos celulares y automóviles es su fluidez. Este trabajo está en constante cambio, siendo automatizado y reemplazado por nuevas demandas de nuevos tipos de datos. Es una canalización, pero se puede reconfigurar constante y rápidamente, moviéndose dondequiera que estén disponibles las habilidades, el ancho de banda y la nómina adecuados.
Recientemente, los trabajos mejor pagados para tareas de anotación regresaron a los Estados Unidos. En mayo, Scale AI comenzó a enumerar trabajos de anotación en su sitio web, buscando personas con experiencia en casi todos los campos que se espera que la IA conquiste. Algunas de estas listas de entrenadores de IA que tienen entrenamiento físico, recursos humanos, finanzas, economía, ciencia de datos, programación, informática, química, biología, contabilidad, impuestos, nutrición, física, viajes, educación K-12, periodismo deportivo y autoconocimiento. -ayuda experta.
Puedes enseñar leyes a los robots y ganar $ 45 por hora; enseñarles poesía y ganar $ 25 por hora. El sitio también enumera el reclutamiento de personas con experiencia en seguridad, presumiblemente para ayudar a entrenar a la IA militar. Scale AI presentó recientemente un modelo de lenguaje de defensa llamado Donovan, que los ejecutivos de la compañía llamaron "municiones en la guerra de IA", y ganó un contrato para trabajar en el programa de vehículos de combate robóticos del Ejército.
Ana todavía está entrenando chatbots en Texas. Los colegas se convirtieron en comentaristas y moderadores de Slack, y ella no sabía por qué, pero le dio la esperanza de que el trabajo podría ser una carrera a largo plazo. Una cosa que no le preocupa es que los trabajos sean reemplazados por la automatización, dijo: "Quiero decir, los chatbots pueden hacer muchas cosas increíbles, pero también pueden hacer algunas cosas realmente extrañas".
Cuando Remotasks llegó por primera vez a Kenia, Joe pensó que la anotación podría ser una buena carrera. Estaba decidido a continuar con el trabajo incluso después de que se trasladara a otro lugar. Razonó que había miles de personas en Nairobi que sabían cómo hacer el trabajo. Después de todo, entrenó a mucha gente. Joe alquiló una oficina en la ciudad y comenzó a buscar contratos de subcontratación: un trabajo anotando planos para una empresa de construcción, otro anotando frutas dañadas por insectos para algún tipo de proyecto agrícola y otro para autos sin conductor. rutinas de etiquetado.
Pero Joe descubrió que su visión era difícil de lograr. Ahora solo tiene un empleado a tiempo completo, frente a los dos anteriores. “No hemos tenido un flujo constante de trabajo", dijo. No hubo nada que hacer durante semanas porque los clientes aún estaban recopilando datos. Cuando el cliente terminó de recopilar los datos, tuvo que traer contratistas a corto plazo para cumplir con los plazos: "Al cliente no le importaba si teníamos trabajo en curso. Mientras se hiciera el etiquetado del conjunto de datos, estaría bien".
Para no dejar que sus habilidades se desperdicien, otros ejecutantes de tareas deciden a dónde va la tarea y ellos van allí. Alquilan servidores proxy para disfrazar su ubicación y compran identificaciones falsas para pasar la seguridad y poder pretender estar trabajando en Singapur, los Países Bajos, Mississippi o donde sea que fluya la misión. Este es un negocio arriesgado. Scale AI se ha vuelto cada vez más agresivo en la suspensión de cuentas que ocultan sus ubicaciones, según varios actores de la misión. "
Nos hemos vuelto un poco más inteligentes estos días porque hemos notado que en otros países están pagando buenos salarios”, dijo Víctor. Gana el doble trabajando en Malasia que en Kenia, pero “hay que tener cuidado”.
Otro comentarista de Kenia dijo que decidió no seguir las reglas después de que su cuenta fuera bloqueada por razones misteriosas. Ahora, maneja múltiples cuentas en múltiples países, llevando a cabo misiones donde los ingresos son más altos. Gracias a ChatGPT, dice que trabaja rápido y tiene un puntaje de calidad alto. El bot, dice, es genial y le permite completar rápidamente tareas de $10 en minutos.