Basecamp Research presenta Trillion Gene Atlas y amplía datos genómicos para bioIA

Basecamp Research presentó Trillion Gene Atlas, una iniciativa científica orientada a generar y modelar datos biológicos a escala de billones de genes. El proyecto se lanzó en colaboración con Anthropic, Ultima Genomics y PacBio, y funcionará con infraestructura de IA de NVIDIA. La compañía planteó como meta ampliar 100 veces la diversidad genética evolutiva conocida mediante la recopilación de datos genómicos de más de 100 millones de especies en miles de sitios de todo el mundo.

El foco operativo del atlas es reunir datos de capacitación para que sistemas de IA aprendan de la evolución y puedan diseñar nuevos medicamentos a demanda. La recopilación se apoya en una red global de socios de biodiversidad, que aporta acceso a ecosistemas fuera del alcance de los laboratorios tradicionales. En paralelo, Basecamp Research busca comprimir más de dos décadas de recopilación y análisis de datos biológicos en menos de dos años.

En una entrevista en SXSW, Austin, Glen Gowers, cofundador y director ejecutivo de Basecamp Research, ubicó el punto de partida del proyecto: “Los modelos biológicos de IA actuales están entrenados en una pequeña parte de la vida en la Tierra”, dijo Glen Gowers, cofundador y director ejecutivo de Basecamp Research. El directivo agregó: “Trillion Gene Atlas amplía el universo genético conocido en varios órdenes de magnitud”.

La iniciativa se dio a conocer durante el Health Track en SXSW y la conferencia NVIDIA GTC en San José. En ese marco, la empresa sostuvo que, pese al aumento del tamaño de los modelos y de la potencia informática, la diversidad de datos sigue siendo un habilitador central para el progreso en el desarrollo de fármacos con IA y pruebas de rendimiento en condiciones reales. También señaló que los modelos base actuales basados en secuencias dependen de variantes de los mismos repositorios públicos y que el 80% se entrenó con una base pública con menos de 250 millones de secuencias.

Trillion Gene Atlas se apoya en el trabajo previo de los modelos base EDEN de Basecamp Research, lanzados en enero. EDEN se entrenó completamente en BaseData, una base de datos genómica patentada que actualmente es más de 10 veces más grande que todos los recursos públicos combinados, e incorporó 10 mil millones de genes nuevos para la ciencia en un millón de especies recién descubiertas. En la validación en laboratorio húmedo, el modelo mostró actividad zero-shot en células T humanas primarias sin necesidad de datos clínicos ni de origen humano, y registró resultados en modalidades como la inserción de genes programables por IA (aiPGI) y el diseño de péptidos antimicrobianos dirigidos con una tasa de aciertos del 97% contra patógenos prioritarios.

El componente de cómputo incluye el uso previsto de NVIDIA Parabricks para acelerar el ensamblaje metagenómico y procesar grandes volúmenes de datos genéticos a escala de petabase. Con procesamiento en paralelo, anotación automatizada y capacitación de modelos a gran escala, los socios apuntan a reducir a menos de dos años una tarea que antes habría demandado más de 20 años.

En el plano territorial, durante los últimos seis años Basecamp Research construyó una red de colaboradores científicos en 31 países y, como parte del lanzamiento del atlas, anunció nuevas alianzas en Chile y Argentina, además de una colaboración extendida en la Antártida.