Latam-GPT, modelo de lenguaje abierto regional, se presentó en Santiago de Chile

Latam-GPT, el primer Gran Modelo de Lenguaje abierto de América Latina y el Caribe, se presentó el martes 10 de febrero en Santiago de Chile. El desarrollo fue coordinado por el Centro Nacional de Inteligencia Artificial (CENIA) y se planteó como una plataforma de código abierto orientada a educación, gestión pública e innovación productiva.

El proyecto fue liderado por CENIA con la colaboración del Ministerio de Ciencia, Tecnología, Conocimiento e Innovación de Chile, el Banco de Desarrollo de América Latina y el Caribe (CAF), Amazon Web Services (AWS) y el centro tecnológico Data Observatory. También participaron diversos Estados de la región y alianzas con academia, organismos internacionales y líderes tecnológicos.

La presentación contó con la presencia del presidente de Chile, Gabriel Boric; el ministro de Ciencia, Aldo Valle; el director de CENIA, Álvaro Soto; el Especialista Principal de Ciudades Inteligentes y Desarrollo Digital de CAF, Marcelo Facchina; el líder de Tecnología de AWS para el Cono Sur de América Latina, Rafael Mattje; y el director ejecutivo de Data Observatory, Rodrigo Roa.

En el evento, Boric vinculó el desarrollo del modelo con el rol del lenguaje en el contexto tecnológico actual. “No tenemos que temerle, no tenemos que verla sólo como amenaza, tenemos que verla como oportunidad”, dijo Gabriel Boric, presidente de Chile.

El modelo se diseñó para trabajar con idiomas, datos y contextos propios de América Latina y el Caribe. En ese marco, se buscó que comprenda matices culturales, lingüísticos y contextos históricos y políticos latinoamericanos, en contraste con sistemas entrenados principalmente con información en inglés.

En términos técnicos, Latam-GPT se desarrolló sobre una arquitectura base Llama 3.1 de 70 mil millones de parámetros y se complementó con un corpus regional obtenido bajo permisos. Para alcanzar una versión 1.0, el proceso incluyó recolección y curaduría de datos, además de etapas de pre-training y post-training, junto con benchmarks adaptados al contexto latinoamericano y documentación en materia ética y de gobernanza.

La construcción se apoyó en una colaboración entre instituciones públicas, académicas y tecnológicas, con más de 100 profesionales y más de 60 instituciones de 15 países. En total, se reunieron más de 300 mil millones de tokens de texto plano, equivalentes a alrededor de 230 mil millones de palabras, bajo permisos y licencias explícitas, con curaduría orientada a anonimizar datos y eliminar elementos tóxicos.

“Latam-GPT permite que América Latina se suba a la revolución de la IA como actor”, dijo Álvaro Soto, director de CENIA.