Nested Learning, un giro en la evolución de los modelos de lenguaje

"Nested Learning, un giro en la evolución de los modelos de lenguaje"

Dr. Daniel Luna

Un equipo de investigadores presenta una arquitectura inspirada en el cerebro humano que redefine la memoria y la capacidad de automejora de la IA, abriendo la puerta a modelos realmente continuos y adaptativos.

Hasta ahora, el éxito alcanzado por los grandes modelos de lenguaje (LLMs) se ha visto limitado por un problema central: una vez que concluye la fase inicial de pre-entrenamiento, su naturaleza se vuelve esencialmente estática.

En los últimos días, de la mano de cuatro investigadores pertenecientes a Google Research, el área de la compañía tecnológica que se dedica a la investigación y desarrollo de machine learning e IA generativa, aparece la posible solución a este dilema. Ali Behrouz, Meisam Razaviyayn, Peiling Zhong y Vahab Mirrokni publicaron un artículo en el que señalan que los modelos actuales exhiben un patrón similar a la amnesia anterógrada debido a que su conocimiento se limita al contexto inmediato de la ventana (memoria de corto plazo) o al almacenado en las capas MLP mucho antes, al finalizar el entrenamiento previo (memoria de largo plazo congelada). El reto fundamental para su capacidad de automejora se plantea en la incapacidad de adquirir y consolidar nuevas habilidades de forma continua.

La investigación introduce a Nested Learning (NL), como un nuevo paradigma de aprendizaje que representa, de manera coherente, un modelo como un conjunto de problemas de optimización anidados, multinivel y/o paralelos.

Inspirados en la neurofisiología, los autores plantean que la clave consiste en asignar a cada nivel de optimización un “flujo de contexto” y una tasa de frecuencia distinta, de manera similar a la forma en la que el cerebro humano maneja la información en múltiples escalas de tiempo.

Los avances propuestos por la arquitectura son:

1. Deep Optimizers: el estudio afirma que los optimizadores universales basados en gradiente (como Adam o SGD con Momentum) en realidad son módulos de memoria asociativa cuyo objetivo es comprimir los gradientes. NL permitiría el diseño de optimizadores mucho más expresivos con memoria profunda o reglas de aprendizaje más potentes (como el Deep Momentum Gradient Descent).

2. Self-Modifying Titans: un modelo de secuencia novedoso que aprende su propio algoritmo de actualización, es decir, aprende a modificarse a sí mismo.

3. Continuum Memory System: una nueva arquitectura de memoria que rompe con la diferenciación tradicional entre memoria a largo/corto plazo. El CMS se formaliza como una cadena de bloques MLP donde los parámetros de cada bloque se actualizan a diferentes frecuencias, responsables de comprimir el conocimiento abstracto de su propio contexto.

De este último punto surge Hope, un modelo diseñado para tareas de aprendizaje continuo y que permite escalar a ventanas de contexto más amplias. A diferencia de las arquitecturas Titans que a pesar poseer una potente gestión de memoria solo cuentan con dos niveles de actualización, la variante propuesta puede optimizar su propia memoria a través de un proceso autorreferencial, creando “una arquitectura con niveles de aprendizaje infinitos y en bucle”, según palabras de los propios autores.

En las pruebas realizadas para demostrar su eficacia en diversas tareas de modelado de lenguaje y razonamiento de sentido común, públicas y de uso ordinario, los resultados demostraron que Hope presentó menor perplejidad y mayor precisión en comparación con los modelos recurrentes modernos y los transformers estándar.

¿Lo que viene?

Si el modelo de aprendizaje anidado propuesto funciona, estaríamos frente al nuevo paradigma que se anuncia en el título del artículo. Algunas de las implicancias concretas podrían traducirse en: modelos que aprenden del usuario y mejoran solos con la experiencia; personalización de la IA sin necesidad de reentrenamiento y sistemas más económicos y eficientes.

Nuevamente y para finalizar, cito a los investigadores, NL “ofrece una base sólida para cerrar la brecha entre las limitaciones de los LLMs actuales y la notable capacidad de aprendizaje continuo del cerebro humano”.

Nested Learning: The Illusion of Deep Learning Architectures

por: Ali Behrouz, Meisam Razaviyayn, Peiling Zhong y Vahab Mirrokni