4 puntos por GN⁺ 2023-12-03 | 1 comentarios | Compartir por WhatsApp

Primer aniversario del lanzamiento de ChatGPT: la persecución de los grandes modelos de lenguaje de código abierto

  • ChatGPT, lanzado a finales de 2022, trajo grandes cambios en todo el campo de la IA.
  • Al ajustar los grandes modelos de lenguaje (LLM) mediante aprendizaje supervisado y aprendizaje por refuerzo a partir de retroalimentación humana, demostró la capacidad de responder preguntas humanas y seguir instrucciones en una amplia variedad de tareas.
  • Tras este éxito, aumentó el interés por los LLM en la academia y la industria, muchas startups se están enfocando en los LLM, y los LLM de código abierto están avanzando rápidamente, al punto de que se afirma que en tareas específicas muestran un rendimiento igual o superior al de ChatGPT.

Impacto en la investigación y los negocios

  • Aunque los LLM de código cerrado (por ejemplo, GPT de OpenAI y Claude de Anthropic) generalmente muestran un rendimiento superior al de los modelos de código abierto, el avance de los LLM de código abierto es rápido y existen afirmaciones de que en algunas tareas han alcanzado un rendimiento equivalente o incluso mejor.
  • Estos avances tienen implicaciones importantes no solo para la investigación, sino también para los negocios.

Opinión de GN⁺

  • Con motivo del primer aniversario del lanzamiento de ChatGPT, es importante destacar que los grandes modelos de lenguaje de código abierto están avanzando rápidamente y que, en ciertas tareas, muestran un rendimiento similar o incluso mejor que ChatGPT.
  • Esto tiene un impacto significativo tanto en la investigación como en los negocios, y puede contribuir a impulsar la democratización y la innovación de la tecnología de IA.
  • Este artículo ofrece contenido interesante para quienes están interesados en el desarrollo de la tecnología de IA y en su impacto en la sociedad.

1 comentarios

 
GN⁺ 2023-12-03
Opinión de Hacker News
  • Modelos grandes y potentes publicados en los últimos días:

    • Qwen 72B (y 1.8B): contexto de 32K, entrenado con 3T tokens, licencia comercial para usuarios mensuales por debajo de 100 millones, rendimiento sólido en benchmarks
    • DeepSeek LLM 67B: contexto de 4K, 2T tokens, licencia Apache 2.0, muy fuerte en código (incluso mejor en comparación con DeepSeek Code 33B)
    • Modelos lanzados en China: Yi 34B (hay rumores de 100B), XVERSE-65B, Aquila2-70B, Yuan 2.0-102B
    • OpenChat 3.5: un modelo de 7b que logra resultados similares a ChatGPT de marzo de 2023, ventana de contexto de 8k, rango más alto que Llama-2-70b-chat en el leaderboard de Chatbot Arena
    • Los LLM de código abierto están liderando la industria, especialmente en eficiencia de parámetros y en ofrecer modelos útiles que los consumidores pueden ejecutar en su propio hardware
  • Demostración de capacidades de llama2 de 1.3 mil millones de parámetros ajustado finamente con qlora:

    • Inkbot genera grafos de conocimiento y devuelve una estructura adecuada en formato YAML, obteniendo mejores resultados que GPT4
    • Se proporcionan ejemplos para prompts simples y complejos
    • También realiza la función de resumir chunks
  • Parece que será necesario poner un router de prompts delante de varios modelos especializados (código, chat, matemáticas, SQL, salud, etc.):

    • Un modelo general envía solicitudes al router en ejecución
    • El prompt/pregunta se descompone, se clasifica y se envía a modelos expertos
    • Las respuestas regresan y son ensambladas por el modelo general
    • Pregunta sobre si hay proyectos similares en marcha
  • Actualmente, los modelos de alrededor de 70B están al nivel de ChatGPT 3.5, y aunque los modelos pequeños al principio pueden parecer similares, alucinan en una proporción mayor y carecen de conocimiento sobre el mundo

  • GPT 4 "entiende" a un nivel más profundo, y los modelos de código abierto todavía no se pueden comparar

  • La tecnología de código abierto tiene funciones de control de salida que OpenAI no implementa (por ejemplo, la gramática de llama.cpp o ControlNet), así que en este aspecto el código abierto va por delante de OpenAI

  • Experiencia compartida tras usar el modelo DeepSeek 67B:

    • Es suficiente como para reemplazar la necesidad de ChatGPT
  • Mistral OpenOrca es casi equivalente a GPT4-turbo en escritura creativa/análisis, y tiende a producir textos similares

  • A largo plazo, es casi inevitable que los LLM de código abierto se pongan al día, y aunque la comunidad open source tiene recursos mucho más limitados, ha acelerado enormemente el desarrollo de modelos de <30B parámetros

  • Según la experiencia personal, los LLM de código abierto todavía no alcanzan la calidad de GPT 3.5, pero ya son útiles hoy y pueden ejecutarse en una máquina local

  • Usa el plugin de Neovim gen.nvim para realizar tareas simples y ahorrar mucho tiempo

  • Expresa entusiasmo por el futuro

  • Está convencido de que los modelos de código abierto se están poniendo al día, ya que GPT4 ha retrocedido de forma constante durante el último mes