Lo que aprendí sobre los LLM en 2024

(simonwillison.net)

22 puntos por GN⁺ 2025-01-01 | 1 comentarios | Compartir por WhatsApp

Resumen de todos los cambios relacionados con los LLM en 2024 por Simon Willison

Superamos por completo el límite de GPT-4
Algunos modelos de nivel GPT-4 corren en mi laptop
Caída brutal de precios en los LLM: cambios impulsados por la competencia y la eficiencia
Expansión de la visión multimodal, con la llegada de audio y video
Voz y modo de cámara en vivo: ciencia ficción hecha realidad
Creación de apps basada en prompts: una tecnología que ya es parte del día a día
Acceso gratuito a los mejores modelos, terminado apenas unos meses después
"Agentes": un concepto que sigue sin hacerse realidad
La importancia de las evaluaciones (Evals)
Apple Intelligence decepciona, pero la biblioteca MLX destaca
Escalado del razonamiento y auge de los modelos de "Reasoning"
¿El mejor LLM actual fue entrenado en China por menos de $6 millones?
Mejora del impacto ambiental
El impacto ambiental empeoró aún más
2024, el año del "Slop"
Los sorprendentes efectos de los datos sintéticos de entrenamiento
2024, un año en el que usar LLM se volvió más difícil
La distribución desigual del conocimiento
Hace falta una mejor crítica a los LLM

# Superamos por completo el límite de GPT-4

Situación en 2023: GPT-4 era considerado el mejor modelo de lenguaje, y otros laboratorios de IA no habían logrado superarlo. Se prestó mucha atención a los secretos técnicos de OpenAI.
Cambio en 2024: 18 organizaciones anunciaron modelos superiores a GPT-4. Actualmente, 70 modelos en el leaderboard de Chatbot Arena están por encima de GPT-4-0314 (lanzado en marzo de 2023).
Modelos clave y avances técnicos
- Google Gemini 1.5 Pro: lanzado en febrero de 2024
  - Ofrece resultados a nivel de GPT-4 y nuevas capacidades
  - Soporta una longitud de contexto de entrada de 1 millón de tokens (más tarde 2 millones)
  - Introdujo capacidad de entrada de video
  - Permite resolver problemas de programación y analizar libros completos gracias al manejo de entradas extensas
  - Fue una de las revelaciones importantes del keynote de Google I/O 2024
- Serie Anthropic Claude 3:
  - Claude 3 Opus: lanzado en marzo de 2024, llamó la atención por su alto rendimiento
  - Claude 3.5 Sonnet: lanzado en junio, con una versión mejorada anunciada el 22 de octubre
  - Incluso tras la mejora, el número de versión se mantuvo en 3.5; entre sus seguidores se le llamó Claude 3.6
Expansión de la longitud de contexto
- 2023: la mayoría de los modelos soportaban entre 4,096 y 8,192 tokens. Claude 2.1 era una excepción con 200 mil tokens
- 2024: los principales modelos ya soportan más de 100 mil tokens, y la serie Google Gemini llega hasta 2 millones de tokens
- Procesar datos de entrada largos permite resolver una gran variedad de problemas
- Es especialmente útil para analizar libros completos o resolver problemas a partir de código de ejemplo
Modelos y organizaciones que superaron a GPT-4
- Según el leaderboard de Chatbot Arena, las organizaciones con modelos que rinden por encima de GPT-4-0314 incluyen:
  - Google, OpenAI, Anthropic, Meta, Nvidia, Amazon, Cohere, DeepSeek, Zhipu AI, xAI y otras 18 organizaciones
- En el leaderboard, GPT-4-0314 actualmente se ubica alrededor del puesto 70

# Algunos modelos de nivel GPT-4 corren en mi laptop

Equipo usado: una MacBook Pro M2 con 64GB de RAM lanzada en 2023. Un equipo de casi dos años, la misma laptop en la que ejecuté un LLM por primera vez en marzo de 2023.
Cambio de rendimiento: al principio apenas podía correr modelos de nivel GPT-3, pero ahora también puede ejecutar modelos de nivel GPT-4.
- Qwen2.5-Coder-32B: noviembre de 2024, un modelo especializado en programación con licencia Apache 2.0.
- Meta Llama 3.3 70B: modelo de nivel GPT-4 lanzado en diciembre de 2024.
Importancia: resulta sorprendente que modelos de nivel GPT-4 puedan correr en una laptop y no solo en servidores de centros de datos con GPU de más de $40,000.
- Como usa casi toda la RAM de 64GB, es difícil hacer otras tareas al mismo tiempo.
- Esto es posible gracias a mejoras en la eficiencia de los modelos. Parece ser el resultado de las optimizaciones del último año.
- Aun así, se espera que todavía haya mucho margen para mejorar la eficiencia.
Modelos Meta Llama 3.2: no son de nivel GPT-4, pero los modelos de 1B y 3B muestran un rendimiento notable pese a su pequeño tamaño.
- Llama 3.2 3B: puede ejecutarse con la app gratuita MLC Chat para iOS.
- Puede correr en un iPhone con un tamaño menor a 2GB y generar 20 tokens por segundo.
- Ejemplo: ante la solicitud de una "trama de una película navideña de Netflix donde una periodista de datos se enamora de un alfarero local", genera una respuesta básica pero adecuada.
  - Título: "Love in the Clay"
  - Trama: la historia sigue a Jessica, quien regresa a su pueblo natal, Willow Creek, e investiga la historia local y los efectos de la gentrificación.
- El resultado es convencional, pero sigue siendo interesante que algo así pueda hacerse en un iPhone.

# Caída brutal de precios en los LLM: cambios impulsados por la competencia y la eficiencia

Precios a finales de 2023: los principales modelos de OpenAI tenían estos precios.
- GPT-4: $30/million input tokens
- GPT-4 Turbo: $10/mTok
- GPT-3.5 Turbo: $1/mTok
Cambios de precio en 2024:
- OpenAI o1: $30/mTok, el modelo más caro
- GPT-4o: $2.50/mTok (12 veces más barato que GPT-4)
- GPT-4o Mini: $0.15/mTok (alrededor de 7 veces más barato que GPT-3.5 y con mejor rendimiento)
- Anthropic Claude 3 Haiku: $0.25/mTok (lanzado en marzo, el modelo más barato de Anthropic)
- Google Gemini 1.5 Flash: $0.075/mTok
- Google Gemini 1.5 Flash 8B: $0.0375/mTok (27 veces más barato que GPT-3.5 Turbo)
Factores de la baja de precios:
- Más competencia: muchos proveedores de modelos entraron al mercado, intensificando la competencia por precio.
- Mayor eficiencia: la optimización del entrenamiento y la inferencia redujo el consumo energético.
  - Disminuyó la preocupación por el costo energético de ejecutar prompts individuales.
Eficiencia y costo ambiental:
- El aumento de eficiencia energética redujo parte de la preocupación ambiental.
- Pero el impacto ambiental de construir centros de datos sigue siendo un problema.
Cálculo de costos en un uso real:
- Cálculo del costo de generar descripciones para una biblioteca personal de fotos (68,000 imágenes) usando Google Gemini 1.5 Flash 8B.
  - Se requieren 260 input tokens y 100 output tokens por foto.
  - Total de input: 17,680,000 tokens * $0.0375/million = $0.66
  - Total de output: 6,800,000 tokens * $0.15/million = $1.02
  - Costo total: se pueden procesar 68,000 fotos por $1.68.
Ejemplo de descripción:
- Foto: dos mariposas alimentándose en una bandeja roja en la California Academy of Sciences.
- Descripción generada:
  - Una foto de dos mariposas comiendo fruta en una bandeja roja.
  - Incluso describe con detalle los colores y patrones de las mariposas.
- Costo: aproximadamente 0.0024 centavos, menos de una cuatrocentésima parte de un centavo.
Uno de los mayores cambios de 2024:
- La caída de precios y la reducción del costo energético están maximizando la utilidad de los LLM.

# Expansión de la visión multimodal, con la llegada de audio y video

Principales tendencias de 2024: los LLM multimodales (capaces de procesar distintas entradas además de texto, como imágenes, audio y video) se generalizaron.
- Casos de 2023:
  - OpenAI GPT-4 Vision: lanzado en el DevDay de noviembre de 2023.
  - Google Gemini 1.0: anunciado el 7 de diciembre de 2023.
- Lanzamientos principales de 2024:
  - Serie Anthropic Claude 3: lanzada en marzo.
  - Google Gemini 1.5 Pro: lanzado en abril (con soporte para procesar imágenes, audio y video).
  - Qwen2-VL: lanzado en septiembre.
  - Mistral Pixtral 12B: lanzado en septiembre.
  - Meta Llama 3.2: lanzado en septiembre (modelos de visión de 11B y 90B).
  - Funciones de entrada y salida de audio de OpenAI: añadidas en octubre.
  - Hugging Face SmolVLM: lanzado en noviembre.
  - Modelos de imagen y video Amazon Nova: lanzados en diciembre.
Herramientas y soporte multimodal:
- En octubre de 2024, actualicé personalmente la herramienta CLI de LLM que uso para que admitiera modelos multimodales.
- Añadí plugins capaces de procesar archivos adjuntos como imágenes, audio y video.
Importancia de los modelos multimodales:
- Las críticas de que la mejora de los LLM se ha ralentizado parecen pasar por alto los avances de los modelos multimodales.
- Ejecutar prompts usando imágenes, audio y video es un avance interesante que abre nuevas posibilidades de uso.

# Modo de voz y cámara en vivo, ciencia ficción hecha realidad

Aparición del modo de voz inicial:
- En septiembre de 2023, la app móvil de ChatGPT añadió una función de conversación por voz.
- Utilizaba los modelos Whisper (Speech-to-Text) y tts-1 (Text-to-Speech), pero el modelo en realidad solo procesaba texto.
Modo de voz de GPT-4o:
- En el nuevo modo de voz anunciado el 13 de mayo de 2024, el modelo GPT-4o es verdaderamente multimodal y admite entrada de audio y salida de voz natural.
- En la demo se usó una voz parecida a la de Scarlett Johansson, pero tras la controversia esa voz no se incluyó en el producto comercial.
- El retraso en el lanzamiento del modo de voz causó confusión, pero entre agosto y septiembre se desplegó gradualmente como ChatGPT Advanced Voice.
  - Experiencia de uso: al conversar con el modo de voz durante caminatas, la calidad del contenido mejoró mucho.
  - En experimentos usando la API de audio de OpenAI, se comprobaron diversas funciones de voz.
Características del modo de voz:
- Advanced Voice puede reproducir distintos acentos.
- Ejemplo: pedirle que hablara en español con un fuerte acento ruso como un pelícano pardo de California.
Modelos de voz multimodales de otras empresas:
- Google Gemini: admite entrada de audio y permite conversaciones por voz similares a ChatGPT.
- Amazon Nova: modo de voz anunciado con anticipación (previsto para lanzarse en el Q1 de 2025).
- Google NotebookLM (lanzado en septiembre de 2024): genera una conversación entre dos “conductores de pódcast” a partir del contenido de entrada. También permite instrucciones personalizadas.
Aparición del modo de video en vivo:
- En diciembre de 2024, el modo de voz de ChatGPT añadió la función de compartir la señal de la cámara.
- Permite conversar en tiempo real sobre lo que muestra la cámara.
- Google Gemini también ofreció una función similar en vista previa por la misma época.
Accesibilidad de la API:
- Tanto OpenAI como Google ofrecen API para estas funciones.
- En diciembre, OpenAI anunció la API WebRTC para simplificar el desarrollo de aplicaciones web basadas en voz.

# Creación de apps basada en prompts, una tecnología ya cotidiana

Potencial de GPT-4 en 2023:
- Con GPT-4 era posible generar aplicaciones interactivas completas en HTML, CSS y JavaScript.
- Herramientas como React también podían integrarse mediante mecanismos de compilación adicionales.
Introducción de Claude Artifacts en 2024:
- Una nueva función presentada a mitad del anuncio de Anthropic Claude 3.5 Sonnet.
- Permite a los usuarios crear apps bajo demanda que pueden ejecutarse directamente dentro de la interfaz de Claude.
- Ejemplo: una herramienta de extracción de URL creada con Claude.
  - Al introducir una URL, muestra de inmediato la lista extraída.
- Se compartió la experiencia de haber creado 14 herramientas pequeñas en una semana con Claude Artifacts.
Introducción de funciones similares por parte de la competencia:
- GitHub Spark: anunciado en octubre de 2024.
- Mistral Chat Canvas: añadido en noviembre de 2024.
- Steve Krause, de Val Town: implementó edición de apps en tiempo real usando modelos de Cerebras a una velocidad de procesamiento de 2,000 tokens por segundo.
- El equipo de Chatbot Arena: en diciembre introdujo un nuevo leaderboard en el que se genera la misma app con dos modelos y luego se vota.
Mis propios proyectos:
- En el proyecto Datasette, estoy desarrollando la posibilidad de generar y refinar widgets personalizados y visualizaciones de datos usando prompts.
- También implementé un patrón similar para escribir un solo programa en Python usando uv.
Perspectiva para 2025:
- Una vez resuelto el problema del sandboxing en navegadores, es muy probable que esta función venga integrada por defecto en diversos productos.

# Acceso gratuito a los mejores modelos, terminado en pocos meses

Oferta gratuita al inicio de 2024:
- GPT-4o, Claude 3.5 Sonnet y Gemini 1.5 Pro: los tres mejores modelos de ese momento se ofrecieron gratis a la mayoría de los usuarios.
- OpenAI publicó GPT-4o gratis en mayo de 2024.
- Claude 3.5 Sonnet estuvo disponible gratis desde su lanzamiento en junio.
- Hasta entonces, los usuarios gratuitos por lo general solo podían acceder a modelos del nivel de GPT-3.5, pero durante este período tuvieron la oportunidad de experimentar las verdaderas capacidades de los LLM de alto rendimiento.
Fin del acceso gratuito:
- OpenAI lanzó ChatGPT Pro y con ello terminó el acceso gratuito.
- ChatGPT Pro exige una suscripción mensual de $200 y da acceso a o1 Pro, su modelo más potente.
Perspectiva futura:
- La característica principal de la serie o1 es que ofrece mejores resultados usando más recursos de cómputo.
- Debido a esta estructura de costos, es poco probable que vuelva la era del acceso gratuito a los mejores modelos.

# “Agentes”, un concepto que todavía no se hace realidad

Ambigüedad del término:
- El término “agente” carece de una definición única y clara, y significa cosas distintas para cada persona.
- En general se divide en dos categorías:
  - agentes como el modelo de una agencia de viajes, que realizan tareas en nombre del usuario;
  - agentes basados en LLM que acceden a herramientas, ejecutan tareas iterativas y resuelven problemas.
- El término “autonomía” también se usa con frecuencia, pero sin una definición clara, lo que aumenta la confusión.
Límites conceptuales:
- “Agente” sigue siendo un concepto que parece quedarse en el “ya casi llega”.
- Se recopilaron 211 definiciones (a partir de una encuesta en Twitter) y se resumieron con el modelo Gemini-exp-1206, pero aun así no se llegó a un consenso claro.
Escepticismo sobre su utilidad:
- La utilidad práctica de los agentes está limitada por el problema de la “credulidad” de los LLM.
- Si no pueden distinguir entre verdad y ficción, herramientas como agencias de viajes, asistentes digitales o sistemas de investigación difícilmente pueden tomar decisiones significativas.
- Ejemplo: el caso en que Google Search resumió por error una película inexistente, “Encanto 2”, basándose en una wiki ficticia de fan fiction.
Prompt injection:
- Es un problema derivado de esa tendencia a dejarse engañar; se discute desde septiembre de 2022, pero en 2024 no hubo grandes avances.
Conclusión:
- La idea popular de los agentes parece depender, en la práctica, del propio AGI (inteligencia artificial general).
- Desarrollar modelos con confiabilidad garantizada sigue siendo un desafío extremadamente difícil.

# La importancia de las evaluaciones (Evals)

La evaluación surge como habilidad clave:
- En 2024, escribir buenas evaluaciones automáticas (Evals) se volvió la habilidad más importante en los sistemas basados en LLM.
- Contar con herramientas de evaluación sólidas permite adoptar nuevos modelos rápidamente, iterar mejor y desarrollar funciones confiables.
El enfoque de Anthropic:
- Amanda Askell: el secreto de un buen prompt de sistema es el desarrollo guiado por pruebas.
  - "No se trata de escribir el prompt de sistema y luego buscar pruebas, sino de escribir las pruebas y encontrar un prompt de sistema que las pase."
- Este enfoque desempeñó un papel clave en el desarrollo de Claude.
El caso de Vercel:
- Malte Ubl: al principio usaron enfoques complejos de preprocesamiento y posprocesamiento para proteger el prompt.
  - Después cambiaron de rumbo al darse cuenta de que la simplicidad del prompt, la evaluación, el modelo y la UX eran más importantes.
  - "Un prompt sin evaluación es como una máquina rota sin manual de instrucciones."
Exploración personal:
- Sigue investigando para encontrar los mejores patrones para implementar evaluaciones efectivas.
- Hasta ahora se ha enfatizado la importancia de las evaluaciones, pero faltan buenas guías sobre cómo implementarlas en la práctica.
- Personalmente usó el benchmark del "pelícano SVG en bicicleta", pero eso no sustituye una herramienta de evaluación adecuada.

# Apple Intelligence decepciona, pero la biblioteca MLX es excelente

Mejora de la experiencia usando ML en Mac:
- Una Mac con 64 GB de RAM es, en teoría, ideal para ejecutar modelos porque la CPU y la GPU pueden compartir memoria.
- Sin embargo, los usuarios de Mac han tenido muchas limitaciones debido a que los modelos y bibliotecas priorizan NVIDIA CUDA.
La innovación de la biblioteca MLX:
- MLX de Apple (un framework de arrays para Apple Silicon) permite ejecutar en Mac una amplia variedad de modelos compatibles con MLX con un rendimiento excelente.
- mlx-lm para Python: admite modelos compatibles con MLX y ofrece muy buen rendimiento.
- mlx-community de Hugging Face: ofrece más de 1,000 modelos convertidos al formato necesario.
- El proyecto mlx-vlm de Prince Canuma: permite ejecutar LLM de visión en Apple Silicon.
  - Recientemente se usó para ejecutar Qwen QvQ.
La decepción de Apple Intelligence:
- Cuando se anunció en junio de 2024, generó expectativas por su enfoque en aplicaciones de LLM centradas en la privacidad del usuario.
- En la práctica, las funciones lanzadas han sido limitadas y quedan cortas frente a las capacidades de los LLM de vanguardia.
  - Ejemplos:
    - Resúmenes de notificaciones que resumen mal los titulares de noticias.
    - Herramientas de asistencia de escritura con poca utilidad.
  - Aun así, Genmoji fue considerado una función ligeramente divertida.
El cambio de postura de los usuarios de Mac:
- Gracias a herramientas como MLX, ha aumentado mucho la satisfacción con la elección de la plataforma Mac.
- En particular, mejoró el entorno para ejecutar LLM en Apple Silicon.

# El auge de los modelos de "reasoning" con escalado en inferencia

Aparición de una nueva forma de LLM:
- En el cuarto trimestre de 2024, OpenAI presentó por primera vez sus modelos o1 (o1-preview, o1-mini) el 12 de septiembre.
- Son una evolución de la técnica chain-of-thought, diseñada para que el modelo resuelva problemas "pensando" mientras los procesa.
Características del modelo o1:
- Usa "reasoning tokens" para razonar sobre el problema; el usuario no ve ese proceso directamente, pero puede ver un resumen en la interfaz de ChatGPT.
- El rendimiento puede mejorar no solo aumentando la capacidad de cómputo durante el entrenamiento, sino también usando más cómputo en inferencia.
Escalabilidad del modelo:
- Usa recursos de cómputo adicionales en el momento de la inferencia para resolver problemas más difíciles.
- Esto representa una nueva forma de escalar la arquitectura tradicional de los modelos LLM.
El modelo posterior o3:
- Fue anunciado el 20 de diciembre de 2024 y registró resultados impresionantes en el benchmark ARC-AGI.
- Es posible que haya requerido más de $1,000,000 en costos de cómputo.
- Está previsto para lanzarse en enero de 2025. Debido a su costo de cómputo extremadamente alto, su uso real probablemente será limitado.
Otros anuncios importantes de modelos:
- Google: el 19 de diciembre lanzó gemini-2.0-flash-thinking-exp.
- Alibaba: el 28 de noviembre presentó el modelo QwQ (licencia Apache 2.0), ejecutable de forma local.
  - El 24 de diciembre presentó QvQ, un modelo de razonamiento visual, también ejecutable en local.
- DeepSeek: el 20 de noviembre ofreció el modelo DeepSeek-R1-Lite-Preview a través de una interfaz de chat.
Investigación relacionada y previsiones:
- Aunque Anthropic y Meta aún no han hecho anuncios oficiales de modelos, es muy probable que estén desarrollando modelos similares de escalado en inferencia.
- Meta publicó en diciembre un artículo relacionado titulado "Training Large Language Models to Reason in a Continuous Latent Space".
- Información adicional: recomienda Is AI progress slowing down? de Arvind Narayanan y Sayash Kapoor.

# ¿El mejor LLM actual fue entrenado en China por menos de $6 millones?

La noticia principal:
- En la Navidad de 2024, DeepSeek v3 se publicó en Hugging Face (sin archivo README al principio; al día siguiente se añadieron documentación y paper).
- Es un modelo masivo de 685B parámetros, mucho más grande que Llama 3.1 405B de Meta.
- Es el modelo más grande disponible bajo una licencia abierta.
Rendimiento:
- Tiene un rendimiento en benchmarks similar al de Claude 3.5 Sonnet.
- Ocupa el séptimo lugar en Chatbot Arena, justo detrás de Gemini 2.0 y los modelos 4o/o1 de OpenAI.
- Es el modelo con licencia abierta mejor posicionado.
Costo de entrenamiento:
- DeepSeek v3: 2,788,000 horas de GPU H800, con un costo aproximado de $5,576,000.
- Meta Llama 3.1 405B: 30,840,000 horas de GPU, 11 veces más costo que DeepSeek v3, pero con un rendimiento en benchmarks ligeramente inferior.
Impacto de las restricciones de exportación de GPU a China:
- Las restricciones de exportación de GPU impuestas por EE. UU. parecen haber impulsado fuertemente la optimización del entrenamiento.
- El entrenamiento eficiente en costos de DeepSeek v3 se considera resultado de esas optimizaciones.

# Mejora del impacto ambiental

Menor consumo energético gracias a una mayor eficiencia:
- A medida que la eficiencia de los modelos aumentó de forma considerable, el uso de energía y el impacto ambiental de ejecutar prompts cayeron drásticamente en los últimos años.
- OpenAI redujo el costo por prompt 100 veces frente a la era de GPT-3.
- Proveedores de modelos de bajo costo como Google Gemini y Amazon Nova también pueden operar prompts sin pérdidas.
Desde la perspectiva del usuario individual:
- El consumo energético de la mayoría de las ejecuciones de prompts es, en realidad, mínimo.
- Es posible que tengan menos impacto ambiental que conducir una corta distancia o ver un video de YouTube.
Reducción del costo de entrenamiento:
- El costo de entrenamiento de DeepSeek v3, por debajo de $6 millones, muestra que los costos de entrenamiento podrían seguir bajando.
- Ahora es posible entrenar de forma eficiente con menos recursos.
Comparación con modelos ineficientes:
- El costo energético de entrenar el modelo más grande de Llama 3 es comparable al de varios vuelos comerciales llenos de pasajeros entre Nueva York y Londres.
- Pero una vez completado el entrenamiento, millones de personas pueden usarlo sin costo adicional, por lo que a largo plazo sigue siendo eficiente.

# El impacto ambiental empeora aún más

Competencia por construir grandes centros de datos:
- Empresas líderes como Google, Meta, Microsoft y Amazon están invirtiendo decenas de miles de millones de dólares en construir centros de datos para satisfacer la demanda futura de modelos.
- Esta expansión de infraestructura tiene un gran impacto en la red eléctrica y en el medio ambiente.
- También hay debates sobre construir nuevas plantas de energía nuclear, pero eso podría tomar décadas.
Debate sobre la necesidad de infraestructura:
- El costo de entrenamiento de $6 millones de DeepSeek v3 y la caída en los precios de los LLM sugieren que esta expansión quizá no sea estrictamente necesaria.
- Pero casi no hay ejecutivos dispuestos a correr el riesgo de no construir infraestructura y que después resulte haber sido una mala decisión.
Analogía histórica:
- Puede compararse con el período en que se construyeron redes ferroviarias en todo el mundo en el siglo XIX.
- Implicó inversiones enormes e impacto ambiental, y muchas rutas se duplicaron, generando resultados innecesarios.
- Como resultado, provocó varias crisis financieras:
  - el Pánico de 1873, el Pánico de 1893, el Pánico de 1901 y la Railway Mania en el Reino Unido.
- La infraestructura quedó, pero también hubo quiebras masivas y daños ambientales.
Lección para el presente:
- La carrera por los centros de datos puede dejar infraestructura útil, pero existe el riesgo de una expansión innecesaria y de daños ambientales.

# 2024, el año del "slop"

Definición de "slop":
- Se consolidó como un término para referirse a contenido generado por IA no deseado y no revisado.
- Así como "spam" pasó a significar correo no deseado, "slop" también se volvió de uso tan extendido que llegó a aparecer en diccionarios.
Origen del término:
- La discusión comenzó con un tuit de @deepfates:
  - "Estamos viendo en tiempo real cómo 'slop' se convierte en un término establecido".
- En mayo de 2024, amplió el concepto y lo definió como "contenido generado por IA no solicitado y no revisado".
Reacción de los medios:
- En el NY Times y The Guardian citaron entrevistas sobre "slop":
  - "Necesitamos un término breve para hablar de la IA moderna. 'Ignora ese correo, es spam' y 'ignora ese artículo, es slop' son lecciones útiles".
Importancia del slop:
- Sirve para expresar de forma concisa las maneras en que se usa mal la IA generativa.
- Contribuye a que la IA se use de forma más eficiente y responsable.
Impacto cultural en 2024:
- "Slop" fue finalista para la palabra del año de Oxford, pero perdió frente a "brain rot".

# El sorprendente efecto de los datos de entrenamiento sintéticos

El concepto de "colapso del modelo":
- Se mencionó por primera vez en mayo de 2023 en el paper The Curse of Recursion y recibió más atención en julio de 2024 en Nature.
- La afirmación era: si el contenido generado por IA saturaba internet, los modelos terminarían entrenándose repetidamente con su propia salida y su rendimiento se degradaría.
- La realidad: ese colapso no ocurrió; en cambio, entrenar modelos con datos sintéticos se está volviendo cada vez más común.
Ventajas de los datos sintéticos:
- Explicadas en el Phi-4 Technical Report:
  - Los datos sintéticos no son un sustituto de los datos orgánicos, sino que ofrecen beneficios directos como:
    - Aprendizaje estructurado y gradual:
      - En los datos orgánicos, las relaciones entre tokens son complejas e indirectas, lo que dificulta el aprendizaje.
      - En cambio, los datos sintéticos permiten aprender patrones de razonamiento con más facilidad, porque el modelo de lenguaje los genera a partir de tokens previos.
    - El proceso de aprendizaje es más sistemático y predecible.
Casos donde modelos grandes ayudan a modelos pequeños:
- Los modelos de gran escala generan datos sintéticos para modelos más pequeños:
  - DeepSeek v3: utilizó datos de "razonamiento" generados por DeepSeek-R1.
  - Meta Llama 3.3 70B: fue afinado con más de 25 millones de ejemplos sintéticos.
La importancia del diseño de datos:
- El diseño de datos está emergiendo como el factor más importante en el entrenamiento de LLM.
- Ya no se usa el enfoque de antes de raspar indiscriminadamente todo internet para entrenar modelos.

# En 2024 se volvió más difícil usar LLM

Los LLM son herramientas complejas:
- Aunque por fuera parecen simples, en realidad son "herramientas para usuarios avanzados" que requieren comprensión profunda y experiencia.
- Se describen con la analogía de que están "disfrazadas para parecer cuchillos de cocina, cuando en realidad son herramientas tan complejas como una motosierra".
El problema empeoró en 2024:
- Los modelos se volvieron más potentes, pero siguen teniendo las mismas limitaciones y restricciones de siempre.
- Se introdujeron distintos sistemas, cada uno con soporte para herramientas diferentes (Python, JavaScript, búsqueda web, generación de imágenes, etc.).
- Para usarlos con eficacia, el usuario necesita entender las capacidades y limitaciones de cada herramienta.
Más complejidad entre sistemas:
- Ejemplo: en ChatGPT se puede ejecutar Python de dos maneras distintas.
- Para crear un Claude Artifact que se comunique con APIs externas, hace falta entender headers HTTP de CSP y CORS.
- El o1 de OpenAI funciona con capacidades limitadas, mientras que GPT-4o sí admite búsqueda web e intérprete de código.
  - Incluso dentro de la misma interfaz de ChatGPT, hay que entender las diferencias funcionales entre ambos modelos.
Límites de la experiencia de usuario:
- La UI básica de chat de los LLM ofrece una experiencia comparable a soltar a un principiante en una terminal de Linux.
- Mucha gente desarrolla modelos mentales erróneos sobre cómo funcionan los LLM y qué pueden hacer.
  - Por ejemplo, han aumentado los casos irracionales de usar capturas de pantalla de ChatGPT como prueba en discusiones.
Un problema doble:
- Mal uso: usuarios que, pese a las imperfecciones de los LLM, los interpretan como herramientas universales.
- Rechazo: incluso personas que los conocen bien dejan de usarlos por completo debido a sus fallas.
- Para aprovecharlos bien, es indispensable saber colaborar con una tecnología poderosa pero imperfecta.
Necesidad de contenido educativo:
- La educación del usuario es importante, pero actualmente es insuficiente.
- En lugar de depender de hilos exagerados de Twitter sobre IA, hace falta desarrollar materiales educativos más confiables.

# La distribución desigual del conocimiento

Lo conocido y lo desconocido:
- La mayoría de la gente conoce ChatGPT, pero muy pocas personas han oído hablar de Claude.
- La brecha de conocimiento entre quienes siguen activamente este campo y el otro 99% es enorme.
La velocidad del cambio:
- La velocidad del cambio tecnológico agrava todavía más esa brecha.
- En el último mes se introdujeron interfaces en vivo:
  - ahora se puede apuntar a algo con la cámara del teléfono y conversar por voz al respecto.
  - incluso se puede elegir una función que imite el papel de Santa Claus.
- Incluso muchas personas que se consideran entusiastas de la tecnología ni siquiera han probado estas funciones.
Impacto social y necesidad:
- Dado el impacto que esta tecnología puede tener en la sociedad actual y futura, una brecha de conocimiento tan grande no es saludable.
- Hace falta mucho más esfuerzo para mejorar esta situación.

# Necesitamos mejores críticas sobre los LLM

Resistencia hacia la tecnología:
- En algunas comunidades como Mastodon, Bluesky, Lobste.rs y Hacker News, incluso decir que “los LLM son útiles” puede generar controversia.
- Razones del rechazo a la tecnología:
  - Impacto ambiental.
  - Problemas éticos en los datos de entrenamiento.
  - Falta de confiabilidad.
  - Casos de uso negativos.
  - Posible impacto en los empleos.
Necesidad de crítica:
- Los LLM merecen ser criticados, y es importante discutir sus problemas, buscar soluciones y enseñar formas de uso responsable.
- El objetivo es ayudar a que los usos positivos superen a los impactos negativos.
Valor de una perspectiva escéptica:
- El exceso de hype ha agravado los problemas en los últimos dos años:
  - Se han extendido la desinformación y las expectativas exageradas.
  - Con frecuencia se toman malas decisiones.
- El pensamiento crítico es esencial para entender y usar correctamente esta tecnología.
Conversación con quienes toman decisiones:
- Hay que reconocer los buenos casos de uso de la herramienta y, al mismo tiempo, explicar cómo evitar trampas poco intuitivas.
- Afirmar que no existen buenos casos de uso pasa por alto el valor potencial de la tecnología.
Transmitir el mensaje correcto:
- Una crítica simplista como “una máquina de plagio que destruye el medio ambiente y siempre miente” no ayuda a resolver los problemas.
- Para descubrir y materializar el verdadero valor de los LLM, se necesita orientación y capacitación que no siempre son intuitivas.
Rol responsable:
- Quienes entienden esta tecnología tienen la responsabilidad de ayudar a otras personas a usarla correctamente.

1 comentarios

GN⁺ 2025-01-01

Opiniones de Hacker News

Muchas personas tienden a pensar que los LLMs no sirven después de usar ChatGPT 4. Sin embargo, Claude Sonnet 3.5 todavía puede ser útil
- La utilidad de los LLMs depende en gran medida de la capacidad de comunicación del usuario
- Con preguntas precisas y explicaciones de contexto se puede maximizar el rendimiento de los LLMs
- Son útiles para resolver rápidamente tareas aburridas
El término "agente" no tiene un significado claro y genera confusión
- La palabra de moda "agentic" puede resultar desagradable
Hay preocupación por la caída de precios de los LLM
- El nivel gratuito de Gemini sigue siendo atractivo, pero es difícil confiar en él
- Preocupa la posibilidad de que los precios vuelvan a subir en la primera mitad de 2025
El concepto de "agente" todavía no está claramente definido
- Se piensa que un verdadero "agente" debe incluir autonomía
No se está de acuerdo con la afirmación de que usar LLMs se ha vuelto más difícil
- Hay más opciones, pero eso no significa que usarlos se haya vuelto más difícil
- Para principiantes, se siguen dando básicamente las mismas indicaciones
Se ha vuelto más difícil juzgar qué es "bueno"
- Hay mucha manipulación de benchmarks, lo que genera confusión
- Personalmente, se busca construir un framework de pruebas propio
Hay personas que dejaron de usar LLMs por sus defectos
- Para aprovecharlos al máximo, hay que aprender a trabajar con una tecnología inestable pero poderosa
Algunos modelos de GPT-4 pueden ejecutarse incluso en laptops
- Esto significa que no necesariamente se requieren grandes centros de datos
- El valor de OpenAI podría haber sido sobreestimado
No se entiende por qué es algo especial que Apple use 64GB de DRAM
- Aunque los centros de datos ocupan la mayor parte de la capacidad de fabricación de RAM, surge la duda de cómo Apple consigue abastecerse de DRAM
Hay confusión sobre la estructura de costos de Google Gemini y Amazon Nova
- Hay afirmaciones de que se ofrecen a un precio inferior al costo energético, y también afirmaciones en sentido contrario
Existe la opinión de que los LLMs no son útiles para las tareas cotidianas
- Se argumenta que los nuevos modelos de LLM son solo mejoras sobrevaloradas
Se ha aprendido que los estándares morales y de excelencia en esta industria son bajos
Hay preguntas sobre el estado actual de empujar el "razonamiento" al espacio latente/neural
- Que el modelo converse consigo mismo tiene poca relación con la salida final y resulta ineficiente

Lo que aprendí sobre los LLM en 2024

# Superamos por completo el límite de GPT-4

# Algunos modelos de nivel GPT-4 corren en mi laptop

# Caída brutal de precios en los LLM: cambios impulsados por la competencia y la eficiencia

# Expansión de la visión multimodal, con la llegada de audio y video

# Modo de voz y cámara en vivo, ciencia ficción hecha realidad

# Creación de apps basada en prompts, una tecnología ya cotidiana

# Acceso gratuito a los mejores modelos, terminado en pocos meses

# “Agentes”, un concepto que todavía no se hace realidad

# La importancia de las evaluaciones (Evals)

# Apple Intelligence decepciona, pero la biblioteca MLX es excelente

# El auge de los modelos de "reasoning" con escalado en inferencia

# ¿El mejor LLM actual fue entrenado en China por menos de $6 millones?

# Mejora del impacto ambiental

# El impacto ambiental empeora aún más

# 2024, el año del "slop"

# El sorprendente efecto de los datos de entrenamiento sintéticos

# En 2024 se volvió más difícil usar LLM

# La distribución desigual del conocimiento

# Necesitamos mejores críticas sobre los LLM

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News