30 puntos por GN⁺ 2024-09-22 | 7 comentarios | Compartir por WhatsApp
  • Los modelos de inteligencia artificial (IA) generalmente se usan en línea, pero varias herramientas abiertas están cambiando eso
  • El bioinformático Chris Thorpe usa modelos de lenguaje grandes (LLM), una herramienta de IA, para convertir histo.fyi, una base de datos de moléculas del complejo mayor de histocompatibilidad (MHC), proteínas del sistema inmunitario, en resúmenes fáciles de leer
  • Thorpe ejecuta la IA en su laptop en lugar de usar LLM basados en la web como ChatGPT

Tendencias recientes en los LLM

  • Organizaciones están creando versiones de LLM con "pesos abiertos" para que los usuarios puedan descargarlas y ejecutarlas localmente si cuentan con suficiente capacidad de cómputo
  • Empresas tecnológicas también están creando versiones reducidas que pueden ejecutarse en hardware de consumo y que rivalizan con el desempeño de modelos grandes anteriores

Por qué los investigadores usan modelos locales

  • Reducción de costos
  • Protección de la confidencialidad de pacientes o empresas
  • Garantía de reproducibilidad
  • A medida que las computadoras se vuelven más rápidas y los modelos más eficientes, cada vez más personas ejecutarán IA en laptops o dispositivos móviles

Ejemplos recientes de modelos pequeños de pesos abiertos

  • Google DeepMind, Meta y Allen Institute for Artificial Intelligence, entre otros, han publicado modelos con miles de millones de parámetros
  • Microsoft publicó modelos de lenguaje pequeños como Phi-1, Phi-1.5, Phi-2, Phi-3 y Phi-3.5; algunos de ellos también pueden procesar imágenes
  • Sébastien Bubeck, vicepresidente de IA generativa en Microsoft, explicó que el desempeño de Phi-3 se debe a su conjunto de datos de entrenamiento

Desarrollo de aplicaciones personalizadas

  • Los investigadores pueden desarrollar aplicaciones personalizadas a partir de estas herramientas
  • Alibaba, de China, construyó un modelo llamado Qwen, y un científico biomédico de New Hampshire lo ajustó finamente con datos científicos para crear Turbcat-72b

Protección de la privacidad

  • Otra ventaja de los modelos locales es la protección de la privacidad
  • Enviar información personalmente identificable a servicios comerciales puede violar regulaciones de protección de datos
  • Cyril Zakka, médico y líder del equipo de salud de Hugging Face, usa modelos locales para generar datos de entrenamiento para otros modelos
  • Johnson Thomas, endocrinólogo del sistema de salud Mercy en Springfield, está desarrollando un sistema para transcribir y resumir conversaciones entre médicos y pacientes usando Whisper de OpenAI y Gemma 2 de Google DeepMind, con el fin de proteger la privacidad de los pacientes
  • CELLama, desarrollado por la farmacéutica Portrai en Seúl, usa LLM locales para condensar en oraciones resumidas información sobre la expresión génica de células y otras características, y destaca la privacidad como una ventaja clave

Uso de los modelos

  • Los investigadores se enfrentan a un panorama de opciones de LLM que cambia rápidamente
  • Thorpe actualmente usa Llama en su laptop y dice que los modelos locales tienen la ventaja de la reproducibilidad porque no cambian
  • Thorpe está escribiendo código para alinear moléculas MHC basándose en estructuras 3D y usa un modelo de pesos abiertos llamado ProtGPT2 para diseñar nuevas proteínas
  • Sin embargo, a veces una app local puede no ser suficiente, y Thorpe usa GitHub Copilot, basado en la nube, para programar

Cómo acceder

  • Es posible ejecutar LLM localmente usando software como Ollama, GPT4All y Llamafile
  • Dependiendo de las preferencias del usuario, se puede elegir entre una app o la línea de comandos
  • Stephen Hood, de Mozilla, dice que pronto los LLM locales serán lo suficientemente buenos para la mayoría de las aplicaciones

Opinión de GN+

  • Los LLM locales pueden ser una herramienta muy útil para los investigadores, por ventajas como la reducción de costos, la protección de la privacidad y la garantía de reproducibilidad
  • Sin embargo, a veces los servicios basados en la nube pueden ofrecer mejor desempeño, por lo que los investigadores deben elegir la herramienta adecuada según los requisitos de su aplicación
  • Como el desarrollo de los LLM locales avanza rápidamente, los investigadores necesitan seguir explorando y probando nuevos modelos y herramientas
  • También vale la pena considerar el desarrollo de modelos personalizados según el área de investigación. Por ejemplo, un investigador biomédico podría ajustar finamente un modelo con datos médicos para obtener mejor desempeño
  • Como los LLM locales aún están en una etapa temprana, los investigadores deben ser conscientes de los problemas y limitaciones que pueden surgir al usarlos. Por ejemplo, es necesario prestar atención a sesgos del modelo, calidad de los datos y consideraciones éticas

7 comentarios

 
savvykang 2024-09-24

Por ahora, sigue siendo algo caliente, lento e impreciso. Para ser de Nature, la calidad del artículo es baja.

 
yangeok 2024-09-24

¿No es lento y menos preciso cuando se ejecuta en el edge?,

 
kandk 2024-09-23

En realidad, salvo en dominios donde la latencia y la privacidad son un problema, no hay razón para usar edge computing (local)..
Ya casi todos los datos del mundo se procesan en AWS y Google, así que venir a hablar de privacidad a estas alturas no es más que una táctica de marketing de empresas que no tienen la tecnología para crear LLMs..

 
lcanon 2024-09-22

Aunque en el título del artículo de Nature aparece small, en la mayor parte del contenido la clave es local.

 
dohyun682 2024-09-22

Cada vez nos dicen que nos olvidemos de ChatGPT...

 
kandk 2024-09-23

jajaja

 
GN⁺ 2024-09-22
Comentarios de Hacker News
  • Recomendación de usar modelos locales

    • Recomiendan descargar Llamafile para quienes creen que los modelos locales son complicados o que su computadora no tiene suficiente rendimiento
    • También ofrecen Whisperfiles, lo que permite transcripción de voz en tiempo real
    • Con Twinny se puede tener autocompletado de código y chat solo en local
    • Gratis, privado y usable sin conexión
  • Experiencia usando LLM locales

    • Durante la caminata matutina, registran notas de voz y luego las convierten a texto con Whisper en local para después organizarlas con un LLM
    • Prefieren usarlo en local por privacidad
  • AMD Strix Halo APU

    • Está previsto el lanzamiento de dispositivos con AMD Strix Halo APU con 128 GB de memoria unificada y una NPU de 50 TOPS
    • Se espera que sea una alternativa a los modelos MacBook Pro
  • Problemas de licencia de Llama 3.1

    • Llama 3.1 no es de código abierto
    • Hace falta dejar clara la diferencia entre un modelo con licencia y el código abierto
  • Uso de Docker y Ollama

    • Usan Ollama en Docker y obtienen una experiencia similar a ChatGPT
    • Lo integran con notas de Obsidian para crear notas y usar búsqueda difusa
    • Lo usan como herramienta de apoyo para preguntas de salud mental y médicas
  • Rendimiento de los LLM locales

    • En una M1 Max, Llama 8bn corre a 25 tokens por segundo
    • En una Ryzen 5600h va más lento, a 10 tokens por segundo
    • Para resolver problemas usan ChatGPT o phind.com
    • No pueden usar proveedores en línea con información sensible
  • Experimento con LLM locales

    • Hicieron pruebas ejecutando Llama-3.1-8b-instruct en una Nvidia RTX 4060
    • Es posible cargar por completo en la GPU un contexto de 20k tokens
    • Las funciones multimodales de Gemini ofrecen mejor calidad, así que el valor de usar LLM locales es menor
  • Productos basados en LLM de grandes empresas

    • En el campo del diseño de circuitos es necesario usar modelos locales
    • Prefieren modelos locales para no depender de un proveedor específico como OpenAI
    • También en lo personal prefieren usar modelos locales
  • Datos de entrenamiento de LLM

    • Microsoft entrena LLM con contenido generado por LLM
    • Se logra en teléfonos móviles un rendimiento similar al de las primeras versiones de ChatGPT
  • Recomendación de especificaciones para ejecutar modelos pequeños

    • Piden recomendaciones de especificaciones para ejecutar modelos pequeños como Llama3.1 o Mistral-Nemo
    • Preguntan si tiene sentido esperar a que salgan nuevos equipos Mac, hardware de AMD o de Nvidia