Investigadores de inteligencia artificial de Google Research y Google DeepMind han ideado un método para mejorar un gran modelo de lenguaje (LLM) al integrar otros modelos de lenguaje.
Según el equipo de Google Research, la mejora de un LLM mediante la incorporación de otro lenguaje no solo optimiza el rendimiento en tareas actuales, sino que también posibilita nuevas funciones que los modelos por sí solos no podrían alcanzar.
Enseñando nuevos trucos a los viejos chatbots
Para llevar a cabo esta investigación, se empleó el LLM PaLM2-S de Google, un modelo que la empresa compara con GPT-4, la inteligencia artificial que respalda a ChatGPT de OpenAI.
PaLM2-S fue evaluado en solitario en los experimentos del equipo y luego nuevamente después de ser mejorado con modelos de lenguaje más pequeños y especializados. Las tareas incluyeron traducción, donde la versión mejorada mostró hasta un 13% de mejora.
En pruebas de codificación, el modelo híbrido exhibió mejoras significativas, según se expone en el artículo:
«De manera similar, cuando PaLM2-S se refuerza con un modelo específico para la codificación, observamos una mejora relativa del 40% sobre el modelo base en tareas de generación y explicación de código, al nivel de modelos completamente ajustados».
Implicaciones potencialmente significativas
A primera vista, los avances de rendimiento podrían tener repercusiones inmediatas en el sector de la inteligencia artificial. La mejora en tareas de traducción, por ejemplo, fue más evidente al traducir idiomas con poco soporte al inglés.
A nivel más amplio, esta línea de investigación podría abordar los problemas legales que amenazan a numerosos CEO en el sector de la IA: demandas que alegan que estos sistemas se entrenan con datos con derechos de autor.
Derechos de autor vs inteligencia artificial
Los creadores de algunos de los modelos de lenguaje más populares han sido demandados en numerosas ocasiones y acusados de entrenar estos sistemas con datos protegidos por derechos de autor.
La cuestión que los legisladores y los tribunales deberán abordar es si una empresa con fines de lucro puede utilizar legalmente estos datos para entrenar sus modelos de lenguaje.
En el peor de los casos, si los tribunales dictan que los desarrolladores no pueden utilizar estos datos los modelos entrenados con material con derechos de autor deben eliminarse.
Debido a los costos elevados asociados con el entrenamiento de grandes modelos de lenguaje y su dependencia de vastos conjuntos de datos, productos como ChatGPT podrían no ser viables en un entorno de inteligencia artificial más regulado en los Estados Unidos.
El nuevo método de mejora de LLM de Google resulta exitoso con el tiempo, es posible que muchos de los requisitos de escala y costos asociados con la creación o reentrenamiento de un LLM se puedan reducir significativamente.