La máquina que adivina la próxima palabra

Conviene empezar por desarmar una intuición equivocada. Cuando alguien le pide a un asistente conversacional que redacte un correo, resuma un informe o explique un teorema, no está despertando una mente que comprende el mundo. Está poniendo en marcha una operación mucho más modesta en su concepto, aunque colosal en su ejecución: predecir cuál es la palabra que sigue. Toda la aparente inteligencia de estos sistemas se construye sobre esa única tarea, repetida una y otra vez.

Imaginemos el guion de una película en el que un personaje le hace una pregunta a un asistente artificial. La pregunta está escrita, pero la respuesta fue arrancada de la hoja. Supongamos ahora que disponemos de una máquina capaz de leer cualquier fragmento de texto y proponer, con sensatez, qué palabra vendría a continuación. Bastaría con darle a esa máquina lo que tenemos —la escena, la pregunta— y dejar que sugiera la primera palabra de la respuesta. Luego se agrega esa palabra al texto, se vuelve a consultar a la máquina, y así sucesivamente. Palabra tras palabra, el diálogo se completa solo.

Eso, exactamente eso, es lo que ocurre cada vez que alguien escribe en un chatbot. Un gran modelo de lenguaje no es más que una función matemática muy sofisticada que, ante cualquier texto, estima qué palabra es la más probable que siga. Y conviene subrayar un matiz: el modelo no elige una única palabra con certeza, sino que reparte probabilidades entre todas las palabras posibles del idioma.

Por qué nunca responde igual dos veces

Para transformar ese mecanismo en una conversación, los desarrolladores preparan un texto inicial que describe una interacción entre un usuario y un asistente hipotético. A ese libreto se le suma lo que el usuario realmente escribe, y entonces el modelo empieza a completar lo que ese asistente imaginario respondería. El resultado de ese autocompletado es lo que aparece en pantalla.

Hay un detalle revelador. Las respuestas suenan más naturales si, en lugar de elegir siempre la palabra más probable, el sistema se permite de vez en cuando optar por una alternativa algo menos esperable, al azar. Esa es la razón por la cual una misma pregunta, formulada dos veces, rara vez produce la misma respuesta. El modelo es, en su núcleo, determinista —dadas las mismas condiciones, calcula siempre las mismas probabilidades—, pero la pizca de azar introducida en la selección hace que cada conversación tome un camino propio.

El entrenamiento: ajustar millones de perillas

La pregunta inevitable es de dónde sale esa capacidad de predecir. La respuesta está en el entrenamiento. Estos modelos aprenden procesando cantidades de texto difíciles de concebir, en su mayoría extraído de internet. Una comparación ayuda a dimensionarlo: para que una persona leyera todo el material con el que se entrenó GPT-3 —un modelo ya antiguo para los estándares actuales—, debería leer sin detenerse, las veinticuatro horas, durante más de 2.600 años. Los modelos posteriores se entrenaron con volúmenes muchísimo mayores.

Entrenar un modelo se parece a calibrar una máquina enorme repleta de perillas. El comportamiento del sistema queda definido por una multitud de valores numéricos continuos, llamados parámetros o pesos. Modificar esos valores cambia las probabilidades que el modelo asigna a la siguiente palabra. Lo que pone la palabra «grande» en «gran modelo de lenguaje» es precisamente la cantidad de esas perillas: cientos de miles de millones.

Lo notable es que ningún ser humano fija esos parámetros a mano. Al comienzo se establecen al azar, de modo que el modelo recién nacido solo produce galimatías. A partir de allí se refinan, una y otra vez, con incontables ejemplos de texto. El procedimiento es conceptualmente sencillo: se toma un fragmento, se le entrega al modelo todo menos la última palabra y se compara su predicción con la palabra que realmente seguía. Un algoritmo llamado retropropagación ajusta entonces todos los parámetros para que el modelo se incline un poco más hacia la respuesta correcta y un poco menos hacia las demás.

Repetida a lo largo de billones de ejemplos, esta corrección paciente produce un efecto que sigue asombrando a los propios investigadores: el modelo no solo acierta mejor sobre los textos con los que practicó, sino que empieza a hacer predicciones razonables sobre textos que nunca vio. Generaliza.

Una escala de cálculo que desafía la imaginación

Cuando se combinan la cantidad de parámetros con el volumen de datos, la magnitud del cómputo se vuelve casi inexpresable. Un ejercicio mental sirve de termómetro: supongamos que una persona pudiera realizar mil millones de sumas y multiplicaciones por segundo, algo muy por encima de cualquier capacidad humana. ¿Cuánto tardaría en completar todas las operaciones necesarias para entrenar los modelos más grandes? No un año. Tampoco diez mil años. La respuesta supera holgadamente los cien millones de años.

Esa proeza solo es posible gracias a un tipo particular de chips diseñados para ejecutar enormes cantidades de operaciones en paralelo, las GPU —las mismas unidades de procesamiento gráfico que nacieron para los videojuegos y terminaron convertidas en el motor de la revolución de la IA—. Su disponibilidad, y no solo el ingenio de los algoritmos, explica buena parte de la carrera tecnológica y geopolítica de los últimos años.

Del autocompletado al asistente: el factor humano

Hasta aquí se ha descrito apenas la primera mitad de la historia, la que se conoce como preentrenamiento. Pero saber autocompletar un texto cualquiera de internet es muy distinto de ser un buen asistente: útil, prudente y veraz. Para salvar esa distancia, los chatbots atraviesan una segunda fase, tan decisiva como la primera, llamada aprendizaje por refuerzo con retroalimentación humana.

En esa etapa, personas reales evalúan las respuestas del modelo y señalan las que resultan inútiles, erróneas o problemáticas. Esas correcciones vuelven a modificar los parámetros, empujando al sistema a producir respuestas que los usuarios prefieren. Buena parte de lo que percibimos como «buen criterio» o «buenos modales» de un asistente proviene, en realidad, de ese trabajo humano de supervisión.

Los transformers: leerlo todo de una vez

Queda por explicar la arquitectura que hizo posible este salto. Antes de 2017, la mayoría de los modelos de lenguaje procesaban el texto de a una palabra por vez, en orden. Ese año, un equipo de investigadores de Google presentó un diseño nuevo, bautizado transformer, que cambió las reglas del juego. Su virtud central es que no lee de principio a fin: absorbe todo el texto de una sola vez, en paralelo, lo que encaja a la perfección con la capacidad de las GPU.

El primer paso dentro de un transformer —y de casi cualquier modelo de lenguaje— consiste en asociar cada palabra con una larga lista de números. La razón es práctica: el entrenamiento solo opera con valores continuos, de modo que el lenguaje debe codificarse de algún modo en cifras. Cada una de esas listas de números aspira a capturar, de manera difusa pero operativa, el significado de la palabra que representa.

La atención: cuando las palabras se hablan entre sí

Lo que vuelve singular a los transformers es una operación llamada atención. A través de ella, todas esas listas de números tienen la oportunidad de «conversar» entre sí y ajustar el significado que codifican según el contexto, todo en simultáneo. Un ejemplo en castellano lo ilustra bien: la palabra «banco» no significa lo mismo en «se sentó en el banco de la plaza» que en «pidió un crédito al banco». La operación de atención permite que los números que representan «banco» se modifiquen en función de las palabras que la rodean, hasta inclinarse por el sentido correcto.

Los transformers suelen incorporar además una segunda operación, una red neuronal de avance directo, que le otorga al modelo capacidad adicional para almacenar patrones del lenguaje aprendidos durante el entrenamiento. La información recorre muchas iteraciones de estas dos operaciones fundamentales, y en cada pasada la esperanza es que cada lista de números se enriquezca con cuanto haga falta para anticipar con acierto la palabra siguiente. Al final del recorrido, una última operación traduce todo ese procesamiento en una predicción: de nuevo, una probabilidad para cada palabra posible.

Lo que ni sus creadores terminan de entender

Aquí aparece el punto más inquietante y más fascinante. Los investigadores diseñan el armazón —definen cómo funciona cada paso—, pero el comportamiento concreto del modelo es un fenómeno emergente, producto de la forma en que esos cientos de miles de millones de parámetros quedaron afinados durante el entrenamiento. Por eso resulta extraordinariamente difícil determinar por qué un modelo hace exactamente las predicciones que hace. Nadie programó sus respuestas; estas surgieron del proceso.

El resultado, en cualquier caso, está a la vista: cuando se utiliza esta maquinaria para completar un texto, las palabras que produce son fluidas, a menudo pertinentes y, con frecuencia, genuinamente útiles. Comprender el mecanismo no le quita mérito al fenómeno. Más bien al contrario: saber que detrás de la conversación más sofisticada late, una y otra vez, la humilde pregunta «¿qué palabra sigue?» permite usar estas herramientas con mayor lucidez —aprovechando su potencia sin atribuirles una comprensión que no poseen.

La máquina que adivina la próxima palabra

Por qué nunca responde igual dos veces

El entrenamiento: ajustar millones de perillas

Una escala de cálculo que desafía la imaginación

Del autocompletado al asistente: el factor humano

Los transformers: leerlo todo de una vez

La atención: cuando las palabras se hablan entre sí

Lo que ni sus creadores terminan de entender

Artículos relacionados

Andy Burnham llega a Downing Street con un programa económico que desafía al modelo británico

China aprueba Apple Intelligence y Alibaba llevará su IA a los iPhone

Trump reaviva las dudas sobre las elecciones y revive una estrategia que ya aplicó Bolsonaro