IBM y NASA desarrollan modelos de lenguaje para mejorar el acceso al conocimiento científico

(research.ibm.com)

4 puntos por GN⁺ 2024-03-15 | Aún no hay comentarios. | Compartir por WhatsApp

IBM y NASA construyen modelos de lenguaje para mejorar la accesibilidad del conocimiento científico

IBM y NASA iniciaron una nueva colaboración para crear modelos de lenguaje eficientes a partir de literatura científica.
Estos modelos, basados en la arquitectura Transformer, pueden utilizarse en diversas aplicaciones como clasificación, extracción de entidades, respuesta a preguntas y recuperación de información.
Logran un alto rendimiento en distintos campos y pueden responder con rapidez, y fueron publicados como open source en Hugging Face para beneficio de la comunidad científica y académica.

Los modelos de lenguaje basados en transformadores, incluidos BERT, RoBERTa y las familias de modelos Slate y Granite de IBM, son muy importantes para las tareas de comprensión de lenguaje natural.
Estos modelos se basan en una comprensión estadística de cómo funciona el lenguaje, y se entrenan mediante la tarea de modelado de lenguaje enmascarado, que reconstruye oraciones restaurando palabras ocultas.
Los tokenizers, que descomponen las palabras en unidades que el modelo puede usar, cumplen un papel clave en el aprendizaje de vocabularios extensos.

IBM y NASA entrenaron los modelos con 60 mil millones de tokens a partir de un corpus de datos de astrofísica, ciencia planetaria, ciencias de la Tierra, física solar, y ciencias biológicas y físicas.
A diferencia de los tokenizers generales, el tokenizer especializado que desarrollaron puede reconocer términos científicos como "axes" y "polycrystalline".
De los 50,000 tokens procesados por el modelo, más de la mitad son únicos en comparación con el modelo RoBERTa de Hugging Face.

El modelo IBM-NASA, entrenado con vocabulario especializado por dominio, superó en un 5% al modelo abierto RoBERTa en BLURB, un benchmark popular para evaluar tareas biomédicas.
También mostró una mejora de 2.4% en la puntuación F1 en un benchmark interno de respuesta a preguntas científicas, y una mejora de 5.5% en una prueba interna de reconocimiento de entidades en ciencias de la Tierra.

Los modelos encoder entrenados pueden ajustarse finamente para muchas tareas de lenguaje no generativas y generar embeddings ricos en información para recuperación de documentos.

Estos modelos, usando alrededor de 268 millones de pares de texto, mostraron un desempeño sobresaliente al recuperar pasajes relevantes en un conjunto de prueba de aproximadamente 400 preguntas curadas por NASA.
Se lograron mejoras significativas gracias a los datos de entrenamiento especializados, el tokenizer personalizado y la metodología de entrenamiento.

En línea con el compromiso de IBM y NASA con una IA transparente, ambos modelos están disponibles en Hugging Face.
El modelo encoder puede ajustarse aún más para aplicaciones del sector espacial, y el modelo de búsqueda puede utilizarse en aplicaciones de recuperación de información para RAG.

Esta colaboración parece que ayudará mucho a mejorar el acceso al conocimiento científico. En particular, el desarrollo de modelos de lenguaje capaces de entender y procesar terminología especializada del ámbito científico será muy útil para los investigadores.
Al ofrecer los modelos como open source, se brinda a distintos investigadores y desarrolladores la oportunidad de usarlos y mejorarlos libremente, lo que puede contribuir a la democratización de la investigación en IA.
Sin embargo, para aprovechar de forma efectiva estos modelos avanzados, puede ser necesario contar con suficientes recursos computacionales y conocimientos especializados en modelado de IA. Esto podría representar una barrera de entrada para algunos investigadores o instituciones.
Entre los aspectos a considerar al adoptar esta tecnología están la complejidad del modelo, la cantidad de datos necesaria para el entrenamiento y el rendimiento del hardware capaz de procesarlo. Los beneficios de elegir este modelo incluyen una comprensión más profunda de la literatura científica y una recuperación de información más rápida, aunque requiere inversión en costos y recursos.