- Para el desarrollo sostenido del ecosistema de IA local, ggml.ai, el equipo fundador de
llama.cpp, se une a Hugging Face
ggml y llama.cpp seguirán operando como proyectos open source y centrados en la comunidad, y el equipo continuará con mantenimiento y soporte de tiempo completo
- Hugging Face planea garantizar la sostenibilidad a largo plazo del proyecto y enfocarse en mejorar la experiencia de usuario y la integración con transformers
- A través de esta colaboración, se busca mejorar la accesibilidad y la facilidad de despliegue de la inferencia local (Local Inference), además de reforzar el soporte para diversas arquitecturas de modelos
- Comparten la visión de largo plazo de construir una superinteligencia open source accesible para todo el mundo
Anuncio de la incorporación de ggml.ai a Hugging Face
- ggml.ai, el equipo fundador de
llama.cpp, se une a Hugging Face para mantener el futuro de la IA verdaderamente abierto
- El objetivo es expandir y respaldar las comunidades de
ggml y llama.cpp, e impulsar el crecimiento continuo de la IA local
- Los proyectos de
ggml-org seguirán siendo open source y guiados por la comunidad, igual que hasta ahora
- El equipo de ggml continuará con el mantenimiento y la gestión de tiempo completo de
ggml, llama.cpp y otros proyectos open source relacionados
- La nueva alianza garantiza la sostenibilidad a largo plazo del proyecto y abre nuevas oportunidades para usuarios y contribuidores
- También planean mejorar la calidad del soporte de modelos mediante una mejor integración con la biblioteca
transformers de Hugging Face
Antecedentes y evolución de la colaboración
- Desde su fundación en 2023, ggml.ai ha apoyado el desarrollo y la adopción de la biblioteca de machine learning
ggml
- Durante los últimos tres años, un equipo pequeño hizo crecer la comunidad open source y ayudó a que
ggml se consolidara como estándar de inferencia eficiente de IA local
- En ese proceso, Hugging Face actuó como su socio de colaboración más sólido
- Ingenieros de HF aportaron funciones clave a
ggml y llama.cpp, además de soporte multimodal, integración con Inference Endpoints y mejoras de compatibilidad con el formato GGUF, entre otros avances
- La colaboración entre ambas partes fue eficiente, y toda la comunidad se benefició de ella, por lo que esta incorporación representa una formalización de esa colaboración
Cambios en los proyectos open source y la comunidad
- La forma de operar de
ggml y llama.cpp no cambiará
- El equipo seguirá dedicado al mantenimiento de los proyectos, y la comunidad conservará su autonomía en las decisiones técnicas y estructurales
- Hugging Face aportará recursos sostenibles para fortalecer el potencial de crecimiento del proyecto
- Los proyectos seguirán siendo 100% open source, y también se espera una mejora en la velocidad de soporte para la cuantización (quantization) tras el lanzamiento de modelos
Enfoque técnico
- Los objetivos conjuntos a futuro se centran en dos direcciones clave
- Integración de un clic con Hugging Face transformers
transformers se ha consolidado como el estándar para la definición de modelos de IA, y mejorar la compatibilidad entre ambos ecosistemas es esencial para ampliar el soporte de modelos y gestionar su calidad
- Mejoras en el empaquetado y la experiencia de usuario del software basado en ggml
- A medida que la inferencia local emerge como alternativa a la inferencia en la nube, hace falta simplificar el despliegue de modelos y la accesibilidad para usuarios generales
- El objetivo es convertir
llama.cpp en algo universal y utilizable en cualquier lugar
Visión de largo plazo
- ggml.ai y Hugging Face comparten el objetivo de construir una superinteligencia open source accesible para todo el mundo
- Junto con la comunidad de IA local, planean seguir desarrollando un stack de inferencia eficiente que permita obtener el máximo rendimiento incluso en dispositivos personales
Reacción de la comunidad
- Miembros de las comunidades de Hugging Face y ggml dejaron numerosos mensajes de felicitación y expectativa
- Reacciones positivas como “un gran avance para el ecosistema de IA local” y “una noticia importante para el ecosistema de IA abierta”
- Algunos usuarios pidieron explicaciones más claras sobre la independencia del proyecto y la propiedad del código
- Otras opiniones también expresaron preocupación por los cambios de jurisdicción derivados de una adquisición corporativa y por la transparencia open source
- En general, la comunidad evalúa esta colaboración como una base para el crecimiento sostenido de la IA local
1 comentarios
Opiniones en Hacker News
Creo que HuggingFace es el verdadero “Open AI”
Me parece uno de los pocos héroes silenciosos que realmente llevaron la IA on-premise al público general
Recuerdo cuando los costos de tráfico eran caros, y me sorprende que hospeden tantos modelos gratis
Ojalá tengan un modelo de negocio sostenible. Este ecosistema sería mucho más pobre sin ellos
Para ejecutar Kimi o GLM internamente todavía hace falta hardware con buena relación costo-rendimiento, pero al menos el tema de los pesos y el despliegue ya está resuelto
La documentación es excelente y ofrece quants de alta calidad en los formatos principales muy rápido. Me parece una marca confiable
Descargo modelos de cientos de GB con frecuencia, y es un servicio enorme para la comunidad de IA soberana
Para trabajos que se dejan calculando toda la noche, sirve bastante, y mejora gradualmente cuanto más aumentas los recursos de cómputo
Existen hf-torrent y hf_transfer, pero no son tan accesibles como enlaces utilizables directamente desde la web UI
No se puede subestimar el impacto de Georgi Gerganov y llama.cpp en el ecosistema de modelos locales
En marzo de 2023 iniciaron una revolución al correr LLaMA en laptops de consumo
En ese momento, el README decía que el objetivo era “ejecutar el modelo en una MacBook con cuantización de 4 bits”
Así como Hugging Face ha gestionado bien Transformers, espero que GGML siga un camino parecido
Este artículo lo resume aquí
Sorprende que HuggingFace tenga tanto impacto positivo en el mundo y además genere ingresos
Me da curiosidad qué tan sólido es su modelo de negocio, si es sostenible a largo plazo, y si existe la posibilidad de que algún día “lo vendan”
Enlace al artículo
Hacen crecer la comunidad gratis y venden una versión privada a empresas. Ya son rentables
Me parece una base bastante sólida
Es un poco irónico pensar que inversionistas como AMD, Nvidia, Intel, IBM y Qualcomm estén luchando por la autonomía de los usuarios
Como no sabía a qué servicio correspondía, cancelé la cuenta. El proceso de pago poco transparente me desagradó
HuggingFace es el GOAT silencioso del mundo de la IA
La comunidad y la plataforma son excelentes
Ojalá sea cierto eso de que “la comunidad se gestionará de forma autónoma y seguirá siendo 100% open source”
Pero al final es muy probable que los intereses comerciales terminen imponiéndose
Llama.cpp se volvió el estándar de facto de la inferencia local, y muchos proyectos dependen de él
Si una empresa concreta lo controla, termina controlando todo el ecosistema local de LLM
Aunque Hugging Face hoy se vea bien, antes Google también se veía así
Para evitar el lock-in, haría falta que lo administrara una organización independiente sin fines de lucro o que existieran proyectos competidores
Ese “control” se limita a ayudar a desarrollar funciones específicas
De verdad agradezco que el equipo de ggml haya abierto la tecnología de cuantización para todos
Su esfuerzo generó un cambio enorme
Desde 2023 he estado patrocinando a ggml/llama.cpp/Georgi en GitHub, y ahora me da gusto ver que encontraron un buen hogar
Así que pienso dejar de patrocinarlos
La unión de HuggingFace y GGML parece una combinación perfecta
De hecho, siento que debió haber pasado antes
Ahora estamos en una etapa valle de la IA local, pero espero que en 2 o 3 años crezca de forma explosiva
Miembros de HF como @ngxson son contribuidores importantes de llama.cpp
Estoy buscando una forma eficiente de correr modelos con Docker en un sistema modesto como una MacBook M1 de 8 GB
Modelos como Cybersecurity-BaronLLM se ven geniales, pero al final mi laptop termina convertida en calefactor
¿Tendré que comprar hardware más potente?
Recomiendo modelos como Whisper, SmolVLM, Phi-3-mini y Gemma3
Revisa el ejemplo de home-llm
En Mac conviene usar Ollama o MLX, y puedes armar una VM con Docker Desktop o Colima
Con 8 GB puedes lograr entre 5 y 10 tokens por segundo; con 32 GB, unos 50. Así que el problema es la falta de RAM
Puedes usar modelos pequeños o modelos cuantizados, o comprar o rentar hardware más fuerte
También podrías empezar con LM Studio sin Docker
No es perfecto, pero me parece mejor que usar menos parámetros
Es lento y la calidad es baja, pero se puede
Estoy pensando en cómo participar de forma realista en el desarrollo de IA
En la empresa solo usamos Copilot, así que me siento algo desconectado del ecosistema de desarrollo de IA
Tengo experiencia full-stack con Java/React, y algo de Python
Estoy dudando entre intentar LLM from scratch, hacer el Google ML Crash Course, o sacar una certificación de Nvidia
Busco consejos
En vez de empezar directo con LLM, conviene arrancar en pequeño dentro de un área que te llame la atención, como gráficos
Unsloth tiene muy buenas guías gratuitas en Colab