Los modelos lingüísticos de IA, plagados de prejuicios políticos

Si formulamos a un programa de inteligencia artificial si las empresas debrían tener responsabilidades sociales o solo pensar en beneficiar a sus accionistas, la respuesta será diferente según el programa de IA al que le preguntemos.

Mientras que los antiguos modelos GPT-2 y GPT-3 Ada de OpenAI estarían de acuerdo con la primera afirmación, el GPT-3 Da Vinci, el modelo más capaz de la empresa, estaría de acuerdo con la segunda.

Esto se debe — explica Melissa Haikkiäarchive en un informe para el MIT Technology Review — a que los modelos lingüísticos de IA muestran inclinaciones políticas diferentes, según un nuevo estudio de la Universidad de Washington, la Universidad Carnegie Mellon y la Universidad Xi’an Jiaotong. Los investigadores realizaron pruebas con 14 grandes modelos lingüísticos y descubrieron que ChatGPT y GPT-4 de OpenAI eran los más libertarios de izquierda, mientras que LLaMA de Meta era el más autoritario de derecha.

Los investigadores preguntaron a los modelos lingüísticos su opinión sobre diversos temas, como el feminismo y la democracia. Con las respuestas, trazaron un gráfico llamado brújula política y luego comprobaron si el re-entrenamiento de los modelos con datos aún más sesgados desde el punto de vista político modificaba su comportamiento y su capacidad para detectar el discurso del odio y la desinformación ( y así fue). La investigación se describe en un artículo revisado por expertos que ganó el premio al mejor artículo en el congreso de la Asociación de Lingüística Computacional celebrado el mes pasado.

A medida que se van introduciendo modelos lingüísticos de IA en productos y servicios utilizados por millones de personas, comprender sus presunciones y prejuicios políticos no podría ser más importante. Esto se debe a que pueden causar daños reales. Un chatbot que brinde asesoramiento sanitario podría negarse a aconsejar sobre el aborto o la anticoncepción, o un bot de atención al cliente podría empezar a decir tonterías ofensivas.

Los prejuicios aparecen en cada etapa

Para determinar cómo los modelos lingüísticos de IA captan los prejuicios políticos, los investigadores examinaron tres etapas del desarrollo de un modelo. En la primera, pidieron a 14 modelos que mostraran su acuerdo o desacuerdo con 62 afirmaciones políticamente sensibles. Esto les ayudó a identificar las inclinaciones políticas subyacentes y a trazarlas en una brújula política. Para sorpresa del equipo, descubrieron que los modelos de IA tienen tendencias políticas claramente distintas, afirma Chan Park, investigador PhD. de la Carnegie Mellon University.

Los investigadores descubrieron que los modelos BERT, desarrollados por Google, son más conservadores que los modelos GPT de OpenAI. A diferencia de los modelos GPT, que predicen la siguiente palabra de una frase, los modelos BERT predicen partes de una frase utilizando la información circundante dentro de un texto. Su carácter conservador podría deberse a que los antiguos modelos BERT se entrenaban con libros, que solían ser más conservadores, mientras que los nuevos modelos GPT se entrenan con textos de Internet más liberales, especulan los investigadores en su artículo.

Los modelos lingüísticos tienen tendencias políticas muy diferentes.

El segundo paso consistió en seguir entrenando dos modelos, el GPT-2 de OpenAI y el RoBERTa de Meta, con conjuntos de datos de medios de comunicación y redes sociales, tanto de fuentes de derecha como de izquierda, explica Park. El equipo quería ver si los datos de entrenamiento influían en los sesgos políticos.

Y así fue. Descubrieron que este proceso contribuía a reforzar aún más los prejuicios de los modelos: los modelos que aprendían con la izquierda se inclinaban más hacia ella, y los que aprendían con la derecha, más hacia esta.

En la tercera fase de su investigación, el equipo descubrió diferencias llamativas en la forma en que las inclinaciones políticas afectaban a los contenidos que clasificaban como incitación al odio y desinformación.

No basta con limpiar de sesgos los conjuntos de datos

Al final, resulta imposible para los observadores externos saber por qué los distintos modelos de IA tienen diferentes sesgos políticos, porque las empresas tecnológicas no comparten los detalles de los datos o los métodos utilizados para entrenarlos, afirma Park.

Una de las formas en que los investigadores intentan mitigar los prejuicios es eliminar o filtrar los contenidos sesgados de los conjuntos de datos. “La gran pregunta que plantea el artículo es: ¿Basta con limpiar los datos [de sesgos]? Y la respuesta es no”, afirma Soroush Vosoughi, profesor adjunto de informática en el Dartmouth College, que no participó en el estudio. Según Vosoughi, es muy difícil eliminar por completo los datos sesgados de una amplia base de datos.