Primer aniversario del lanzamiento de ChatGPT: la persecución de los grandes modelos de lenguaje de código abierto
- ChatGPT, lanzado a finales de 2022, trajo grandes cambios en todo el campo de la IA.
- Al ajustar los grandes modelos de lenguaje (LLM) mediante aprendizaje supervisado y aprendizaje por refuerzo a partir de retroalimentación humana, demostró la capacidad de responder preguntas humanas y seguir instrucciones en una amplia variedad de tareas.
- Tras este éxito, aumentó el interés por los LLM en la academia y la industria, muchas startups se están enfocando en los LLM, y los LLM de código abierto están avanzando rápidamente, al punto de que se afirma que en tareas específicas muestran un rendimiento igual o superior al de ChatGPT.
Impacto en la investigación y los negocios
- Aunque los LLM de código cerrado (por ejemplo, GPT de OpenAI y Claude de Anthropic) generalmente muestran un rendimiento superior al de los modelos de código abierto, el avance de los LLM de código abierto es rápido y existen afirmaciones de que en algunas tareas han alcanzado un rendimiento equivalente o incluso mejor.
- Estos avances tienen implicaciones importantes no solo para la investigación, sino también para los negocios.
Opinión de GN⁺
- Con motivo del primer aniversario del lanzamiento de ChatGPT, es importante destacar que los grandes modelos de lenguaje de código abierto están avanzando rápidamente y que, en ciertas tareas, muestran un rendimiento similar o incluso mejor que ChatGPT.
- Esto tiene un impacto significativo tanto en la investigación como en los negocios, y puede contribuir a impulsar la democratización y la innovación de la tecnología de IA.
- Este artículo ofrece contenido interesante para quienes están interesados en el desarrollo de la tecnología de IA y en su impacto en la sociedad.
1 comentarios
Opinión de Hacker News
Modelos grandes y potentes publicados en los últimos días:
Demostración de capacidades de llama2 de 1.3 mil millones de parámetros ajustado finamente con qlora:
Parece que será necesario poner un router de prompts delante de varios modelos especializados (código, chat, matemáticas, SQL, salud, etc.):
Actualmente, los modelos de alrededor de 70B están al nivel de ChatGPT 3.5, y aunque los modelos pequeños al principio pueden parecer similares, alucinan en una proporción mayor y carecen de conocimiento sobre el mundo
GPT 4 "entiende" a un nivel más profundo, y los modelos de código abierto todavía no se pueden comparar
La tecnología de código abierto tiene funciones de control de salida que OpenAI no implementa (por ejemplo, la gramática de llama.cpp o ControlNet), así que en este aspecto el código abierto va por delante de OpenAI
Experiencia compartida tras usar el modelo DeepSeek 67B:
Mistral OpenOrca es casi equivalente a GPT4-turbo en escritura creativa/análisis, y tiende a producir textos similares
A largo plazo, es casi inevitable que los LLM de código abierto se pongan al día, y aunque la comunidad open source tiene recursos mucho más limitados, ha acelerado enormemente el desarrollo de modelos de <30B parámetros
Según la experiencia personal, los LLM de código abierto todavía no alcanzan la calidad de GPT 3.5, pero ya son útiles hoy y pueden ejecutarse en una máquina local
Usa el plugin de Neovim gen.nvim para realizar tareas simples y ahorrar mucho tiempo
Expresa entusiasmo por el futuro
Está convencido de que los modelos de código abierto se están poniendo al día, ya que GPT4 ha retrocedido de forma constante durante el último mes