1 puntos por GN⁺ 2026-02-21 | 1 comentarios | Compartir por WhatsApp
  • Para el desarrollo sostenido del ecosistema de IA local, ggml.ai, el equipo fundador de llama.cpp, se une a Hugging Face
  • ggml y llama.cpp seguirán operando como proyectos open source y centrados en la comunidad, y el equipo continuará con mantenimiento y soporte de tiempo completo
  • Hugging Face planea garantizar la sostenibilidad a largo plazo del proyecto y enfocarse en mejorar la experiencia de usuario y la integración con transformers
  • A través de esta colaboración, se busca mejorar la accesibilidad y la facilidad de despliegue de la inferencia local (Local Inference), además de reforzar el soporte para diversas arquitecturas de modelos
  • Comparten la visión de largo plazo de construir una superinteligencia open source accesible para todo el mundo

Anuncio de la incorporación de ggml.ai a Hugging Face

  • ggml.ai, el equipo fundador de llama.cpp, se une a Hugging Face para mantener el futuro de la IA verdaderamente abierto
    • El objetivo es expandir y respaldar las comunidades de ggml y llama.cpp, e impulsar el crecimiento continuo de la IA local
  • Los proyectos de ggml-org seguirán siendo open source y guiados por la comunidad, igual que hasta ahora
  • El equipo de ggml continuará con el mantenimiento y la gestión de tiempo completo de ggml, llama.cpp y otros proyectos open source relacionados
  • La nueva alianza garantiza la sostenibilidad a largo plazo del proyecto y abre nuevas oportunidades para usuarios y contribuidores
  • También planean mejorar la calidad del soporte de modelos mediante una mejor integración con la biblioteca transformers de Hugging Face

Antecedentes y evolución de la colaboración

  • Desde su fundación en 2023, ggml.ai ha apoyado el desarrollo y la adopción de la biblioteca de machine learning ggml
  • Durante los últimos tres años, un equipo pequeño hizo crecer la comunidad open source y ayudó a que ggml se consolidara como estándar de inferencia eficiente de IA local
  • En ese proceso, Hugging Face actuó como su socio de colaboración más sólido
    • Ingenieros de HF aportaron funciones clave a ggml y llama.cpp, además de soporte multimodal, integración con Inference Endpoints y mejoras de compatibilidad con el formato GGUF, entre otros avances
  • La colaboración entre ambas partes fue eficiente, y toda la comunidad se benefició de ella, por lo que esta incorporación representa una formalización de esa colaboración

Cambios en los proyectos open source y la comunidad

  • La forma de operar de ggml y llama.cpp no cambiará
    • El equipo seguirá dedicado al mantenimiento de los proyectos, y la comunidad conservará su autonomía en las decisiones técnicas y estructurales
  • Hugging Face aportará recursos sostenibles para fortalecer el potencial de crecimiento del proyecto
  • Los proyectos seguirán siendo 100% open source, y también se espera una mejora en la velocidad de soporte para la cuantización (quantization) tras el lanzamiento de modelos

Enfoque técnico

  • Los objetivos conjuntos a futuro se centran en dos direcciones clave
    • Integración de un clic con Hugging Face transformers
      • transformers se ha consolidado como el estándar para la definición de modelos de IA, y mejorar la compatibilidad entre ambos ecosistemas es esencial para ampliar el soporte de modelos y gestionar su calidad
    • Mejoras en el empaquetado y la experiencia de usuario del software basado en ggml
      • A medida que la inferencia local emerge como alternativa a la inferencia en la nube, hace falta simplificar el despliegue de modelos y la accesibilidad para usuarios generales
      • El objetivo es convertir llama.cpp en algo universal y utilizable en cualquier lugar

Visión de largo plazo

  • ggml.ai y Hugging Face comparten el objetivo de construir una superinteligencia open source accesible para todo el mundo
  • Junto con la comunidad de IA local, planean seguir desarrollando un stack de inferencia eficiente que permita obtener el máximo rendimiento incluso en dispositivos personales

Reacción de la comunidad

  • Miembros de las comunidades de Hugging Face y ggml dejaron numerosos mensajes de felicitación y expectativa
    • Reacciones positivas como “un gran avance para el ecosistema de IA local” y “una noticia importante para el ecosistema de IA abierta”
  • Algunos usuarios pidieron explicaciones más claras sobre la independencia del proyecto y la propiedad del código
  • Otras opiniones también expresaron preocupación por los cambios de jurisdicción derivados de una adquisición corporativa y por la transparencia open source
  • En general, la comunidad evalúa esta colaboración como una base para el crecimiento sostenido de la IA local

1 comentarios

 
GN⁺ 2026-02-21
Opiniones en Hacker News
  • Creo que HuggingFace es el verdadero “Open AI”
    Me parece uno de los pocos héroes silenciosos que realmente llevaron la IA on-premise al público general
    Recuerdo cuando los costos de tráfico eran caros, y me sorprende que hospeden tantos modelos gratis
    Ojalá tengan un modelo de negocio sostenible. Este ecosistema sería mucho más pobre sin ellos
    Para ejecutar Kimi o GLM internamente todavía hace falta hardware con buena relación costo-rendimiento, pero al menos el tema de los pesos y el despliegue ya está resuelto

    • Unsloth también debería entrar en esa lista de héroes silenciosos
      La documentación es excelente y ofrece quants de alta calidad en los formatos principales muy rápido. Me parece una marca confiable
    • No me imagino cuánto tráfico maneja HF
      Descargo modelos de cientos de GB con frecuencia, y es un servicio enorme para la comunidad de IA soberana
    • Si transmites los pesos desde SSD y extiendes la caché KV con swap, es lento pero puede correr en casi cualquier dispositivo
      Para trabajos que se dejan calculando toda la noche, sirve bastante, y mejora gradualmente cuanto más aumentas los recursos de cómputo
    • No entiendo por qué no soportan BitTorrent
      Existen hf-torrent y hf_transfer, pero no son tan accesibles como enlaces utilizables directamente desde la web UI
    • Sigo preguntándome por qué no usan torrents si literalmente es el caso de uso perfecto
  • No se puede subestimar el impacto de Georgi Gerganov y llama.cpp en el ecosistema de modelos locales
    En marzo de 2023 iniciaron una revolución al correr LLaMA en laptops de consumo
    En ese momento, el README decía que el objetivo era “ejecutar el modelo en una MacBook con cuantización de 4 bits”
    Así como Hugging Face ha gestionado bien Transformers, espero que GGML siga un camino parecido
    Este artículo lo resume aquí

    • Me pregunto por qué tus comentarios siempre quedan fijados arriba
  • Sorprende que HuggingFace tenga tanto impacto positivo en el mundo y además genere ingresos
    Me da curiosidad qué tan sólido es su modelo de negocio, si es sostenible a largo plazo, y si existe la posibilidad de que algún día “lo vendan”

    • El artículo reciente del FT, “Why AI start-up Hugging Face turned down a $500mn Nvidia deal”, sirve como referencia
      Enlace al artículo
    • El modelo de negocio es básicamente similar al de GitHub
      Hacen crecer la comunidad gratis y venden una versión privada a empresas. Ya son rentables
    • También tienen hosting de pago (enterprise) y servicios de consultoría
      Me parece una base bastante sólida
    • Me cuesta creer eso de “nunca se va a vender”
      Es un poco irónico pensar que inversionistas como AMD, Nvidia, Intel, IBM y Qualcomm estén luchando por la autonomía de los usuarios
    • Probé HuggingFace una vez por un tutorial, y al registrarme me pidió datos de tarjeta; un mes después me llegó un cobro
      Como no sabía a qué servicio correspondía, cancelé la cuenta. El proceso de pago poco transparente me desagradó
  • HuggingFace es el GOAT silencioso del mundo de la IA
    La comunidad y la plataforma son excelentes

    • Sorprende que hayan construido una plataforma abierta y aun así generen ingresos, sin tácticas comerciales turbias
  • Ojalá sea cierto eso de que “la comunidad se gestionará de forma autónoma y seguirá siendo 100% open source”
    Pero al final es muy probable que los intereses comerciales terminen imponiéndose
    Llama.cpp se volvió el estándar de facto de la inferencia local, y muchos proyectos dependen de él
    Si una empresa concreta lo controla, termina controlando todo el ecosistema local de LLM
    Aunque Hugging Face hoy se vea bien, antes Google también se veía así
    Para evitar el lock-in, haría falta que lo administrara una organización independiente sin fines de lucro o que existieran proyectos competidores

    • Llama.cpp es open source, así que cualquiera puede hacer un fork
      Ese “control” se limita a ayudar a desarrollar funciones específicas
  • De verdad agradezco que el equipo de ggml haya abierto la tecnología de cuantización para todos
    Su esfuerzo generó un cambio enorme

  • Desde 2023 he estado patrocinando a ggml/llama.cpp/Georgi en GitHub, y ahora me da gusto ver que encontraron un buen hogar
    Así que pienso dejar de patrocinarlos

  • La unión de HuggingFace y GGML parece una combinación perfecta
    De hecho, siento que debió haber pasado antes
    Ahora estamos en una etapa valle de la IA local, pero espero que en 2 o 3 años crezca de forma explosiva

    • En realidad, HuggingFace ya venía apoyando mucho el proyecto
      Miembros de HF como @ngxson son contribuidores importantes de llama.cpp
  • Estoy buscando una forma eficiente de correr modelos con Docker en un sistema modesto como una MacBook M1 de 8 GB
    Modelos como Cybersecurity-BaronLLM se ven geniales, pero al final mi laptop termina convertida en calefactor
    ¿Tendré que comprar hardware más potente?

    • Con 8 GB es difícil hacer inferencia compleja, pero los modelos pequeños sí son viables
      Recomiendo modelos como Whisper, SmolVLM, Phi-3-mini y Gemma3
      Revisa el ejemplo de home-llm
      En Mac conviene usar Ollama o MLX, y puedes armar una VM con Docker Desktop o Colima
      Con 8 GB puedes lograr entre 5 y 10 tokens por segundo; con 32 GB, unos 50. Así que el problema es la falta de RAM
    • Al final necesitas un sistema suficientemente potente
      Puedes usar modelos pequeños o modelos cuantizados, o comprar o rentar hardware más fuerte
      También podrías empezar con LM Studio sin Docker
    • Con 8 GB podrías correr hasta modelos de 32B con cuantización agresiva a nivel 2bit
      No es perfecto, pero me parece mejor que usar menos parámetros
    • Este tipo de preguntas probablemente te las respondan mejor en r/LocalLLM
    • Incluso con 8 GB puedes correr modelos gguf muy pequeños en CPU con llamafile
      Es lento y la calidad es baja, pero se puede
  • Estoy pensando en cómo participar de forma realista en el desarrollo de IA
    En la empresa solo usamos Copilot, así que me siento algo desconectado del ecosistema de desarrollo de IA
    Tengo experiencia full-stack con Java/React, y algo de Python
    Estoy dudando entre intentar LLM from scratch, hacer el Google ML Crash Course, o sacar una certificación de Nvidia
    Busco consejos

    • Si no tienes un objetivo claro, lo mejor es construir por tu cuenta un proyecto pequeño que te interese
      En vez de empezar directo con LLM, conviene arrancar en pequeño dentro de un área que te llame la atención, como gráficos
    • Te recomendaría estudiar fine-tuning de modelos o destilación de conocimiento (distillation)
      Unsloth tiene muy buenas guías gratuitas en Colab