Los pesos de los LLM a gran escala son parte de la historia

(antirez.com)

5 puntos por GN⁺ 2025-03-17 | 2 comentarios | Compartir por WhatsApp

Cada año desaparecen muchas páginas web antiguas, y eso es historia que se pierde para siempre
Internet Archive es uno de los activos más valiosos de la historia moderna
Sin embargo, varias empresas e instituciones están dificultando la supervivencia y preservación del archivo
El hecho de que la sede de Internet Archive esté ubicada en un antiguo edificio de iglesia es simbólico, y deberíamos considerarlo un lugar sagrado

Los tiempos en que los viejos programadores trabajaban en ensamblador Z80, las discusiones de la primera generación de internet y las subculturas formadas en los años 90 están desapareciendo poco a poco
La desaparición de blogs personales → desaparecen los registros de la vida y la conciencia de las personas
También están desapareciendo gradualmente artículos científicos, arte digital, videojuegos, datos climáticos y fuentes de noticias tempranas
Cuando desaparecen editoriales o sitios web, muchas veces esa información se pierde para siempre

Intentar preservar toda la información probablemente fracasará en la práctica
- Porque implica costos enormes en situaciones donde no hay beneficio económico
- El mundo actual está en una situación en la que es difícil invertir recursos en cosas que no generan dinero
La capacidad de compresión de información de los LLM (modelos de lenguaje de gran tamaño) no es perfecta, pero al menos puede cumplir un papel mínimo de preservación
- DeepSeek V3 ya está publicado y en uso como una versión con compresión con pérdida de internet

No se puede revertir toda pérdida, pero debemos apoyar a instituciones como Internet Archive
Al mismo tiempo, una tarea importante: preservar para que los pesos abiertos de los LLM no desaparezcan
Debemos garantizar que el contenido de Internet Archive quede incluido en los conjuntos de preentrenamiento de los LLM

2 comentarios

GN⁺ 2025-03-17

Opiniones de Hacker News

Me gusta el título "Big LLMs". Ahora estamos distinguiendo entre LLM grandes y LLM pequeños, y quizá también LLM medianos. Me gustaría proponer que los llamemos "Tall LLMs", "Grande LLMs" y "Venti LLMs"
El Internet Archive debería considerarse una de las partes más valiosas de la historia moderna. Sin embargo, muchas empresas y organizaciones están haciendo cada vez más difícil la supervivencia y acumulación de archivos. Entiendo que la sede del archivo esté ubicada en lo que antes era una iglesia. Esa es la mejor forma de pensar en él como un lugar sagrado. Hay un esfuerzo activo por crear un Internet Archive con base en Europa
El proyecto llamafile de Mozilla está diseñado para permitir preservar LLM con fines históricos. Entregan los pesos y todo el software necesario como un único ejecutable sin dependencias y determinista. Si guardas los llamafiles, incluso dentro de 50 años podrás obtener la misma salida que hoy. Ojalá apoyen a Mozilla para que este momento tan especial quede archivado para las futuras generaciones
Así como el mapa no es el territorio, un resumen no es el contenido ni el libro real en una biblioteca. Si quiero leer una publicación, un libro o un foro, quiero leer exactamente eso. No una imitación hecha por un misterioso algoritmo matemático
Extraño los buenos tiempos cuando armaba tablas de películas con enlaces a pósters usando text-davinci. Normalmente generaba URLs de imágenes en un bucket de s3. Los enlaces siempre funcionaban
Creo que está bien que no todo en internet quede archivado para siempre. En el pasado, la gente escribía en papel y la mayoría de eso no se archivaba. En algún momento simplemente desaparecía. Heredé muchas cajas de notas, libros y documentos de mis abuelos. La mayor parte no significaba nada para mí. Tuve que tirar muchas cosas y solo conservé algunos miles de páginas de documentos variados. Todo lo demás desapareció para siempre. Y probablemente está bien. Los archivos son muy importantes, pero hoy la parte más difícil es elegir qué archivar. Se agrega tanto contenido a internet cada segundo que solo una parte puede archivarse
Me pregunto si sería posible usar varios LLM distintos para reconstruir una versión aproximada del subconjunto común y popular de los datos de entrenamiento de internet. Me pregunto si alguien conoce referencias a artículos matemáticos sobre ese tipo de cosas
Esto no me dice mucho. Los rumores sin fuentes tienen un valor histórico limitado, y la mayoría de los modelos de la web con pesos disponibles parecen estar basados en Common Crawl, así que están disponibles para su preservación
Me gusta la narrativa de que los LLM preservan el conocimiento humano. Personalmente, quiero que todo el conocimiento y la información sean fáciles de acceder y de usar. Estoy seguro de que la mayoría de la gente siente lo mismo, pese a las decisiones de negocio constantes de los dueños de copyright de poner todo detrás de un pago o de un registro. Hay mucha gente a la que no le gusta que Google organice la información del mundo y prospere mediante anuncios, pero a largo plazo la información queda organizada y preservada en varios formatos de datos de internet. Al final, Google fue quien diseñó originalmente el transformer que hizo posibles los pesos de los LLM, y eso ahora también es parte de la historia
Los artículos científicos y los procesos desaparecen para siempre cuando una editorial quiebra y los sitios web cierran. No creo que las grandes editoriales científicas vayan a quebrar (por ahora, en nuestra época). Tienen mucho dinero

regentag 2025-03-18

"Un resumen no es el contenido ni el libro real de una biblioteca. Si quiero leer una publicación, un libro o un foro, quiero leer exactamente eso. No una imitación hecha con un misterioso algoritmo matemático"

Estoy de acuerdo con esto.

Los pesos de los LLM a gran escala son parte de la historia

Lecturas relacionadas

2 comentarios

Opiniones de Hacker News