6 puntos por GN⁺ 2025-07-21 | 1 comentarios | Compartir por WhatsApp
  • Un artículo reciente de MIT Technology Review presentó la idea de comparar los LLM locales con Wikipedia como respaldo offline
  • Se compararon directamente los tamaños de archivo de los principales modelos LLM de la biblioteca Ollama y la capacidad de los paquetes de Wikipedia offline ofrecidos por Kiwix
  • Los archivos de LLM y los datos de Wikipedia tienen objetivos, fortalezas y debilidades distintos, por lo que no es fácil compararlos de forma simple, pero hay diferencias interesantes en términos de tamaño
  • Algunos LLM (modelos de 1~4GB) son más grandes que Simple English Wikipedia (aprox. 1GB), y Wikipedia completa (57GB) es más grande que los LLM grandes (20~32GB)
  • Además del tamaño de archivo, hay consideraciones prácticas como memoria y requisitos de CPU, por lo que la elección puede variar según el uso real

Comparación entre LLM locales y Wikipedia offline

Introducción y motivo de la comparación

  • MIT Technology Review presentó recientemente un artículo titulado "How to run an LLM on your laptop"
  • El artículo destaca que ejecutar un LLM localmente permite aprovechar conocimiento incluso en entornos offline
  • Resulta llamativa la analogía de Simon Willison: 'un LLM offline es como una versión resumida e incompleta de Wikipedia; en un escenario apocalíptico, tenerlo en una USB podría ayudar a reiniciar la sociedad'

Comparación del tamaño de modelos y datos

  • Se compararon varios modelos LLM de la biblioteca Ollama con los tamaños de archivo de los paquetes de Wikipedia offline ofrecidos por Kiwix
  • Para la comparación, se limitaron a modelos que pueden ejecutarse en hardware de consumo común y a datos de Wikipedia sin imágenes
  • Los principales resultados de la comparación son los siguientes:
    • Los resúmenes más pequeños
      • Best of Wikipedia (top 50 mil, resumen): 356.9MB
      • Simple English Wikipedia (resumen): 417.5MB
    • Modelos LLM representativos (pequeños)
      • Qwen 3 0.6B: 523MB
      • Deepseek-R1 1.5B: 1.1GB
      • Llama 3.2 1B: 1.3GB
    • Modelos LLM representativos (medianos a grandes)
      • Deepseek-R1 8B / Qwen 3 8B: 5.2GB
      • Gemma3n e4B: 7.5GB
      • Deepseek-R1 14B: 9GB
      • Qwen 3 14B: 9.3GB
    • Wikipedia completa
      • Wikipedia (completa): 57.18GB
  • Los 50 mil artículos principales de Wikipedia ocupan apenas 356.9MB
  • El LLM más pequeño (0.6B, Qwen) con 523MB es más grande que un simple resumen de Wikipedia
  • Wikipedia completa (57.18GB) es mucho más grande que el LLM más grande (20GB)

Límites de la comparación y puntos a considerar

  • La comparación directa es difícil: una enciclopedia (datos) y un LLM (modelo generativo) tienen propósitos y estructuras esencialmente distintos
  • El tamaño de archivo no es lo único importante: además del tamaño del archivo, los LLM requieren memoria y recursos de CPU al ejecutarse. Wikipedia offline es más fácil de usar en dispositivos de bajos recursos
  • Utilidad según el propósito real de uso: por ejemplo, se puede descargar solo el área de química o usar un LLM optimizado para hardware específico
  • Subjetividad en los criterios de selección: la selección de elementos usados en la comparación es subjetiva

Conclusión e implicaciones

  • Los 50 mil artículos principales de Wikipedia y el modelo Llama 3.2 3B tienen un tamaño de archivo similar
  • El paquete más pequeño de Wikipedia es incluso más pequeño que el LLM más pequeño, mientras que el archivo completo de Wikipedia es más grande que el LLM más grande
  • En entornos con suficiente almacenamiento, también vale la pena considerar descargar y usar tanto LLM como datos de Wikipedia

1 comentarios

 
GN⁺ 2025-07-21
Comentarios en Hacker News
  • La fortaleza de los LLM no está simplemente en almacenar o recuperar conocimiento, sino en la comprensión; no son solo datos como Wikipedia, sino que pueden entender preguntas ambiguas o imprecisas, explicarlas según el nivel del usuario y conectar distintas áreas. En una situación de reinicio de la sociedad, ese tipo de comprensión interactiva podría ser más valiosa. No sería solo una instantánea de conocimiento, sino una herramienta para que la gente lo use y aprenda
    • La idea de una computadora no confiable adorada como un dios en una sociedad preinformática recuerda a un episodio de Star Trek
    • No sé si los LLM sean “más” valiosos, pero sin duda son útiles. No me gusta mucho la forma actual de usar la IA; en el fondo parece autocompletado potenciado. Aun así, funciona muy bien como motor de búsqueda. Si le haces preguntas cortas a Copilot, a menudo da respuestas decentes. Pero si haces preguntas técnicas muy profundas, dice muchas tonterías. Siempre hay que estar alerta. Una vez le pedí que generara un archivo de repositorio de CentOS y en general estaba perfecto, pero puso gpgkey por http, lo que abría un agujero de seguridad
    • En el mundo ideal, uno debería leer críticamente las fuentes directas en vez de resúmenes de terceros. Todos lo aprenden y están de acuerdo en la escuela, pero pocos realmente lo hacen. Después de graduarse, mucha gente tiende a confiar solo en fuentes terciarias. Yo sí pude usar un LLM para encontrar corrientes historiográficas recientes sobre un tema y materiales que valía la pena consultar. En cambio, también he visto muchos casos de editores de Wikipedia que se ponen hostiles cuando alguien dice que Wikipedia es inexacta, y en la práctica me he encontrado mucho contenido engañoso si no se revisan las referencias
    • Eso asume que todavía quedan computadoras o smartphones. Imprimir y guardar Wikipedia o unos cuantos libros también podría ser un respaldo seguro. Pero si de verdad la sociedad se reiniciara, quizá también tendría sentido empezar de una forma completamente distinta
    • Creo que lo mejor es una combinación de Wikipedia offline, otras fuentes de información y un LLM local. Sería aún mejor si el LLM fuera conciso y diera enlaces relacionados. Los LLM con función de búsqueda suelen explicar demasiado; sería mejor que ofrecieran más enlaces para poder saltar a la información deseada
  • Lo de “reiniciar la sociedad con una sola memoria USB” fue solo un comentario lanzado al vuelo durante una entrevista, y no pensé que acabaría en el artículo enlace al artículo. Varias personas dijeron que tenía sentido meter Wikipedia en una USB, y estoy de acuerdo. El volcado de Wikipedia está en MySQL, pero parece más práctico convertirlo a SQLite y usar FTS. Además, ya es fácil conseguir USB de más de 1 TB, así que el espacio de almacenamiento casi no es problema
    • Parece el tipo de negocio que alguien podría montar: vender memorias USB precargadas con este tipo de conocimiento, incluso con una caja de protección contra pulsos electromagnéticos, lo que podría ayudar mucho en un desastre real. Creo que lo de mayor valor para preservar sería la información sobre riesgos de catástrofes a gran escala. Por temas de copyright no se podrían incluir libros como ‘Global Catastrophic Risks’, pero páginas web relacionadas como esta sí podrían rastrearse
    • Llevo más de 10 años cargando volcados locales de Wikipedia en el teléfono o en una PDA (en los últimos 5 años, incluso con imágenes). No solo sirve para prepararse para desastres, también ayuda mucho para usos offline. Últimamente los modelos como los LLM se han vuelto realmente útiles, así que espero que combinar un modelo local con Wikipedia en formato RAG produzca una buena sinergia
    • Cito de nuevo un comentario viejo: todos los libros digitalizados suman alrededor de 30 TB, o unos 5.5 TB comprimidos; caben en 3 tarjetas microSD de 2 TB. Por unos 750 dólares podrías llevar toda esa colección encima
    • Ni siquiera hace falta usar SQL; basta con usar Kiwix
    • Me molesta un poco que el artículo empiece de manera tan grandilocuente. Siento que los periodistas siempre encuadran las herramientas con una épica excesiva; da una sensación rara
  • Justo ahora estoy descargando wikipedia_en_all_maxi_2024-01.zim; quiero extraer páginas con libzim e integrarlas con un LLM. El archivo zim guarda las páginas como HTML y pesa unos 100 GB. La razón es que quiero emparejar una gran lista de juegos almacenada en un HDD (solo títulos, sin categorías aparte) con artículos de Wikipedia para organizarlos por género o información. En mis pruebas, el LLM (Mistral Small 3.2 quantized) sorprendentemente ordena muy bien el caos. Se puede ejecutar rápido desde un script personalizado con llama.cpp
    • En realidad, para este tipo de trabajo de vincular juegos con Wikipedia, consultar Wikidata es mucho más fácil. Incluso puede incluir juegos que todavía no existen en la Wikipedia en inglés
    • Este tipo de experiencia técnica concreta es exactamente la razón real por la que leo HN. Se siente fresco cuando alguien comparte con suficiente detalle algo que hizo por su cuenta. Yo también estoy intentando montar LLM por mi cuenta, y es la primera vez que veo un caso tan útil, así que siento que todavía tengo mucho que aprender. Gracias por la buena información
  • Los volcados de Wikipedia, arXiv y el código open source consisten en su mayoría en código ejecutable e información confiable, además de ser baratos y fáciles de buscar. Las apps FOSS se pueden usar de inmediato, y Wikipedia sirve para introducir o resumir temas. En cambio, los LLM, especialmente los modelos pequeños, inventan resultados, pero intentan responder incluso a preguntas poco limpias y (a veces) pueden leer directamente y resumir enormes cantidades de material fuente. En un entorno de trabajo offline, me parece mejor aprovechar al máximo las bibliotecas que ya existen, y sí se me ocurren casos reales de uso para un LLM como asistente de programación. Aun así, no tengo experiencia usando modelos locales, aunque en benchmarks dicen que Qwen3 32B sí sirve como apoyo para programar, así que quizá pueda aprovecharse en el futuro
  • Una fortaleza poco mencionada de los LLM es que permiten aprovechar conocimiento sin depender del idioma. La Wikipedia en inglés suele tener la mayoría del contenido, pero en otros idiomas no siempre es así. También pasa que cierta información que no está en la Wikipedia en inglés sí aparece en otras Wikipedias. Un LLM puede juntar todo eso y hacerlo accesible en distintos idiomas
  • Una empresa de IA destiló toda la web en un LLM para crear una computadora inteligente, entonces me pregunto por qué los humanos no pueden hacer una nueva super-Wikipedia de primer nivel incluyendo incluso las partes con copyright. Me pregunto por qué los niños no pueden hacer eso mejor que las empresas de IA
    • Eso es algo que en realidad ya hacíamos, solo que hoy en día las enciclopedias ya casi no se venden
    • Eso es una biblioteca
  • Quiero mencionar Wikipedia Monthly, un volcado mensual de Wikipedia: 205 GB en total para 341 idiomas, y 24 GB solo para inglés. Está convertido de markup de MediaWiki a texto limpio, así que sirve muy bien para indexación local y otros usos. Siento que Simple English Wikipedia es superficial y no muy precisa. Enlace al blog de Wikipedia Monthly
  • En las discusiones sobre la utilidad de los LLM siempre siento que falta el uso concreto según el contexto. Antes de la llegada de los LLM había criterios estrictos y conjuntos de evaluación en recuperación de información y machine learning, pero ahora, aunque los LLM se han vuelto más generales y capaces de resolver tareas más diversas, me sorprende que no haya más benchmarks comparando LLM contra otros métodos. También puede ser que yo no esté viendo algo por no conocer bien las tendencias de investigación
  • Hay mucha polémica sobre que los LLM dan información inexacta, pero creo que la mejor forma de una “base de datos de consulta de información para el día del juicio” sería una combinación de LLM + archivo de archivos. Paso 1: el LLM entiende la pregunta ambigua del humano y entrega una lista de conceptos clave y enlaces a artículos relevantes de Wikipedia u otras fuentes. Paso 2: el usuario puede verificar directamente la información confiable en esos documentos
    • Hasta yo, que soy bastante pesimista, creo que los LLM podrían servir bien como herramienta para traducir lenguaje humano a términos de búsqueda. Me parece ideal usarlos más como asesor o tutor que como intermediario. Al final, lo importante es que el usuario supere esas limitaciones
  • Los modelos con nombres como “$1-distill-$2” (a veces sin “-distill”) son modelos creados entrenando el modelo $2 con las salidas de $1 mediante “destilación de conocimiento (distillation)”, así que, a pesar del nombre, no son el propio $1. Los modelos que aparecen en el artículo, como “Deepseek-R1 1.5B”, en realidad no existen como tales; son de este tipo