ggml.ai se une a Hugging Face para asegurar el desarrollo a largo plazo de la IA local

(github.com/ggml-org)

1 puntos por GN⁺ 2026-02-21 | 1 comentarios | Compartir por WhatsApp

Para el desarrollo sostenido del ecosistema de IA local, ggml.ai, el equipo fundador de llama.cpp, se une a Hugging Face
ggml y llama.cpp seguirán operando como proyectos open source y centrados en la comunidad, y el equipo continuará con mantenimiento y soporte de tiempo completo
Hugging Face planea garantizar la sostenibilidad a largo plazo del proyecto y enfocarse en mejorar la experiencia de usuario y la integración con transformers
A través de esta colaboración, se busca mejorar la accesibilidad y la facilidad de despliegue de la inferencia local (Local Inference), además de reforzar el soporte para diversas arquitecturas de modelos
Comparten la visión de largo plazo de construir una superinteligencia open source accesible para todo el mundo

Anuncio de la incorporación de ggml.ai a Hugging Face

ggml.ai, el equipo fundador de llama.cpp, se une a Hugging Face para mantener el futuro de la IA verdaderamente abierto
- El objetivo es expandir y respaldar las comunidades de ggml y llama.cpp, e impulsar el crecimiento continuo de la IA local
Los proyectos de ggml-org seguirán siendo open source y guiados por la comunidad, igual que hasta ahora
El equipo de ggml continuará con el mantenimiento y la gestión de tiempo completo de ggml, llama.cpp y otros proyectos open source relacionados
La nueva alianza garantiza la sostenibilidad a largo plazo del proyecto y abre nuevas oportunidades para usuarios y contribuidores
También planean mejorar la calidad del soporte de modelos mediante una mejor integración con la biblioteca transformers de Hugging Face

Antecedentes y evolución de la colaboración

Desde su fundación en 2023, ggml.ai ha apoyado el desarrollo y la adopción de la biblioteca de machine learning ggml
Durante los últimos tres años, un equipo pequeño hizo crecer la comunidad open source y ayudó a que ggml se consolidara como estándar de inferencia eficiente de IA local
En ese proceso, Hugging Face actuó como su socio de colaboración más sólido
- Ingenieros de HF aportaron funciones clave a ggml y llama.cpp, además de soporte multimodal, integración con Inference Endpoints y mejoras de compatibilidad con el formato GGUF, entre otros avances
La colaboración entre ambas partes fue eficiente, y toda la comunidad se benefició de ella, por lo que esta incorporación representa una formalización de esa colaboración

Cambios en los proyectos open source y la comunidad

La forma de operar de ggml y llama.cpp no cambiará
- El equipo seguirá dedicado al mantenimiento de los proyectos, y la comunidad conservará su autonomía en las decisiones técnicas y estructurales
Hugging Face aportará recursos sostenibles para fortalecer el potencial de crecimiento del proyecto
Los proyectos seguirán siendo 100% open source, y también se espera una mejora en la velocidad de soporte para la cuantización (quantization) tras el lanzamiento de modelos

Enfoque técnico

Los objetivos conjuntos a futuro se centran en dos direcciones clave
- Integración de un clic con Hugging Face transformers
  - transformers se ha consolidado como el estándar para la definición de modelos de IA, y mejorar la compatibilidad entre ambos ecosistemas es esencial para ampliar el soporte de modelos y gestionar su calidad
- Mejoras en el empaquetado y la experiencia de usuario del software basado en ggml
  - A medida que la inferencia local emerge como alternativa a la inferencia en la nube, hace falta simplificar el despliegue de modelos y la accesibilidad para usuarios generales
  - El objetivo es convertir llama.cpp en algo universal y utilizable en cualquier lugar

Visión de largo plazo

ggml.ai y Hugging Face comparten el objetivo de construir una superinteligencia open source accesible para todo el mundo
Junto con la comunidad de IA local, planean seguir desarrollando un stack de inferencia eficiente que permita obtener el máximo rendimiento incluso en dispositivos personales

Reacción de la comunidad

Miembros de las comunidades de Hugging Face y ggml dejaron numerosos mensajes de felicitación y expectativa
- Reacciones positivas como “un gran avance para el ecosistema de IA local” y “una noticia importante para el ecosistema de IA abierta”
Algunos usuarios pidieron explicaciones más claras sobre la independencia del proyecto y la propiedad del código
Otras opiniones también expresaron preocupación por los cambios de jurisdicción derivados de una adquisición corporativa y por la transparencia open source
En general, la comunidad evalúa esta colaboración como una base para el crecimiento sostenido de la IA local

1 comentarios

GN⁺ 2026-02-21

Opiniones en Hacker News

Creo que HuggingFace es el verdadero “Open AI”
Me parece uno de los pocos héroes silenciosos que realmente llevaron la IA on-premise al público general
Recuerdo cuando los costos de tráfico eran caros, y me sorprende que hospeden tantos modelos gratis
Ojalá tengan un modelo de negocio sostenible. Este ecosistema sería mucho más pobre sin ellos
Para ejecutar Kimi o GLM internamente todavía hace falta hardware con buena relación costo-rendimiento, pero al menos el tema de los pesos y el despliegue ya está resuelto
- Unsloth también debería entrar en esa lista de héroes silenciosos
  La documentación es excelente y ofrece quants de alta calidad en los formatos principales muy rápido. Me parece una marca confiable
- No me imagino cuánto tráfico maneja HF
  Descargo modelos de cientos de GB con frecuencia, y es un servicio enorme para la comunidad de IA soberana
- Si transmites los pesos desde SSD y extiendes la caché KV con swap, es lento pero puede correr en casi cualquier dispositivo
  Para trabajos que se dejan calculando toda la noche, sirve bastante, y mejora gradualmente cuanto más aumentas los recursos de cómputo
- No entiendo por qué no soportan BitTorrent
  Existen hf-torrent y hf_transfer, pero no son tan accesibles como enlaces utilizables directamente desde la web UI
- Sigo preguntándome por qué no usan torrents si literalmente es el caso de uso perfecto
No se puede subestimar el impacto de Georgi Gerganov y llama.cpp en el ecosistema de modelos locales
En marzo de 2023 iniciaron una revolución al correr LLaMA en laptops de consumo
En ese momento, el README decía que el objetivo era “ejecutar el modelo en una MacBook con cuantización de 4 bits”
Así como Hugging Face ha gestionado bien Transformers, espero que GGML siga un camino parecido
Este artículo lo resume aquí
- Me pregunto por qué tus comentarios siempre quedan fijados arriba
Sorprende que HuggingFace tenga tanto impacto positivo en el mundo y además genere ingresos
Me da curiosidad qué tan sólido es su modelo de negocio, si es sostenible a largo plazo, y si existe la posibilidad de que algún día “lo vendan”
- El artículo reciente del FT, “Why AI start-up Hugging Face turned down a $500mn Nvidia deal”, sirve como referencia
  Enlace al artículo
- El modelo de negocio es básicamente similar al de GitHub
  Hacen crecer la comunidad gratis y venden una versión privada a empresas. Ya son rentables
- También tienen hosting de pago (enterprise) y servicios de consultoría
  Me parece una base bastante sólida
- Me cuesta creer eso de “nunca se va a vender”
  Es un poco irónico pensar que inversionistas como AMD, Nvidia, Intel, IBM y Qualcomm estén luchando por la autonomía de los usuarios
- Probé HuggingFace una vez por un tutorial, y al registrarme me pidió datos de tarjeta; un mes después me llegó un cobro
  Como no sabía a qué servicio correspondía, cancelé la cuenta. El proceso de pago poco transparente me desagradó
HuggingFace es el GOAT silencioso del mundo de la IA
La comunidad y la plataforma son excelentes
- Sorprende que hayan construido una plataforma abierta y aun así generen ingresos, sin tácticas comerciales turbias
Ojalá sea cierto eso de que “la comunidad se gestionará de forma autónoma y seguirá siendo 100% open source”
Pero al final es muy probable que los intereses comerciales terminen imponiéndose
Llama.cpp se volvió el estándar de facto de la inferencia local, y muchos proyectos dependen de él
Si una empresa concreta lo controla, termina controlando todo el ecosistema local de LLM
Aunque Hugging Face hoy se vea bien, antes Google también se veía así
Para evitar el lock-in, haría falta que lo administrara una organización independiente sin fines de lucro o que existieran proyectos competidores
- Llama.cpp es open source, así que cualquiera puede hacer un fork
  Ese “control” se limita a ayudar a desarrollar funciones específicas
De verdad agradezco que el equipo de ggml haya abierto la tecnología de cuantización para todos
Su esfuerzo generó un cambio enorme
Desde 2023 he estado patrocinando a ggml/llama.cpp/Georgi en GitHub, y ahora me da gusto ver que encontraron un buen hogar
Así que pienso dejar de patrocinarlos
La unión de HuggingFace y GGML parece una combinación perfecta
De hecho, siento que debió haber pasado antes
Ahora estamos en una etapa valle de la IA local, pero espero que en 2 o 3 años crezca de forma explosiva
- En realidad, HuggingFace ya venía apoyando mucho el proyecto
  Miembros de HF como @ngxson son contribuidores importantes de llama.cpp
Estoy buscando una forma eficiente de correr modelos con Docker en un sistema modesto como una MacBook M1 de 8 GB
Modelos como Cybersecurity-BaronLLM se ven geniales, pero al final mi laptop termina convertida en calefactor
¿Tendré que comprar hardware más potente?
- Con 8 GB es difícil hacer inferencia compleja, pero los modelos pequeños sí son viables
  Recomiendo modelos como Whisper, SmolVLM, Phi-3-mini y Gemma3
  Revisa el ejemplo de home-llm
  En Mac conviene usar Ollama o MLX, y puedes armar una VM con Docker Desktop o Colima
  Con 8 GB puedes lograr entre 5 y 10 tokens por segundo; con 32 GB, unos 50. Así que el problema es la falta de RAM
- Al final necesitas un sistema suficientemente potente
  Puedes usar modelos pequeños o modelos cuantizados, o comprar o rentar hardware más fuerte
  También podrías empezar con LM Studio sin Docker
- Con 8 GB podrías correr hasta modelos de 32B con cuantización agresiva a nivel 2bit
  No es perfecto, pero me parece mejor que usar menos parámetros
- Este tipo de preguntas probablemente te las respondan mejor en r/LocalLLM
- Incluso con 8 GB puedes correr modelos gguf muy pequeños en CPU con llamafile
  Es lento y la calidad es baja, pero se puede
Estoy pensando en cómo participar de forma realista en el desarrollo de IA
En la empresa solo usamos Copilot, así que me siento algo desconectado del ecosistema de desarrollo de IA
Tengo experiencia full-stack con Java/React, y algo de Python
Estoy dudando entre intentar LLM from scratch, hacer el Google ML Crash Course, o sacar una certificación de Nvidia
Busco consejos
- Si no tienes un objetivo claro, lo mejor es construir por tu cuenta un proyecto pequeño que te interese
  En vez de empezar directo con LLM, conviene arrancar en pequeño dentro de un área que te llame la atención, como gráficos
- Te recomendaría estudiar fine-tuning de modelos o destilación de conocimiento (distillation)
  Unsloth tiene muy buenas guías gratuitas en Colab

ggml.ai se une a Hugging Face para asegurar el desarrollo a largo plazo de la IA local

Anuncio de la incorporación de ggml.ai a Hugging Face

Antecedentes y evolución de la colaboración

Cambios en los proyectos open source y la comunidad

Enfoque técnico

Visión de largo plazo

Reacción de la comunidad

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News