Panorama actual de los modelos generativos
(nrehiew.github.io)- Durante todo 2024 hubo grandes avances tanto en la generación de texto como de imágenes
- A diferencia de los primeros años, cuando OpenAI dominaba en solitario, hacia finales del año pasado distintos laboratorios como Anthropic, DeepSeek y Qwen estaban ampliando agresivamente el frente de competencia
- Se resumen las tendencias de investigación de 2024~2025 y se repasan brevemente las áreas con mayor potencial a futuro
“El foso construido solo con código cerrado no durará mucho
Incluso OpenAI no podrá impedir que otros lo alcancen
Al final, el verdadero foso es hacer crecer nuestra organización y cultura para formar talento capaz de innovar”
─ Liang Wenfeng, CEO de DeepSeek
# Language
- Los modelos de lenguaje a gran escala (LLM) son el núcleo del auge actual de la IA, y concentran la mayor parte de la investigación y la inversión
- En 2024 hubo avances importantes tanto en el rendimiento de los modelos como en nuevos paradigmas de escalado
- Architecture
- Se probaron nuevas arquitecturas (Mamba, xLSTM, etc.), pero al menos por ahora todo apunta a que el decoder-only Transformer seguirá siendo la corriente principal
- Dense Transformer
- Llama 3 es el ejemplo representativo, y Meta está optimizando al límite el vanilla Dense Transformer
- La forma conocida como Noam Transformer (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE, etc.) prácticamente se ha establecido como estándar
- Es probable que métodos como Multi Latent Attention (MLA) de DeepSeek reciban más atención, y también podrían aparecer técnicas que reemplacen o modifiquen RoPE
- Mixture-of-Experts
- Los rumores de que GPT-4 es un enorme MoE hicieron que esta línea resurgiera con fuerza en 2024
- En el ámbito open source, los representantes más destacados son Mixtral de Mistral y DeepSeek v2·v3
- MoE tiene la desventaja de que no es fácil de servir, pero DeepSeek está investigándolo activamente
- Se espera investigación en varias direcciones sobre mecanismos de routing, formas de aplicar MoE por capa e interpretabilidad de los expertos
- Tokenization
- Muchos opinan que hace falta una innovación que reemplace Byte Pair Encoding, pero como aún no presenta grandes problemas, su uso continúa
- Meta propuso dos intentos que llamaron la atención: procesar CoT en el latent space (byte-based) o entrenar Transformers a nivel de bytes
- En Byte Latent Transformer (BLT) se usa una estructura Encoder/Decoder para procesar entradas en bytes
- Existe preocupación de que la calidad del byte decoder pueda convertirse en un cuello de botella
- Reasoning
- En la segunda mitad de 2024 mejoró drásticamente la capacidad de razonamiento en matemáticas, ciencia y código (o1, o3, DeepSeek r1, etc.)
- Esto está relacionado con un nuevo paradigma de escalado llamado “inference-time compute”
- Consiste en que el modelo genera un Chain of Thought muy largo, y luego valida y aprovecha ese proceso por sí mismo
- No se conoce públicamente cómo fueron creados o1 y o3 de OpenAI, pero es muy probable que hayan usado enfoques de RL como el paper “Let’s Verify Step by Step”
- Se espera que Anthropic y otros laboratorios también presenten reasoners similares
- Hay interés en ver si este enfoque podrá salir del sesgo hacia STEM y aplicarse a dominios más amplios, como la escritura creativa
- Distillation
- Se especula que OpenAI no reveló el Chain of Thought al lanzar o1 porque volver a entrenar con salidas del modelo (como en DeepSeek v3, etc.) contribuye de forma importante a mejorar el rendimiento
- DeepSeek v3 no reproduce tal cual el largo CoT característico de un reasoner, pero parece distinguir modos internamente y razonar cuando la situación lo requiere
- También es un tema de investigación interesante si modelos pequeños (como o1-mini) pueden acercarse al rendimiento de los grandes, o si existe alguna técnica secreta de destilación en su interior
# Image
- En imágenes, muchos laboratorios pequeños y medianos se han sumado, acelerando la innovación
- Los principales modelos actuales (Flux, Stable Diffusion 3, MidJourney, Sora, etc.) se basan en Diffusion Transformer, y el framework dominante es Flow Matching
- Architecture
- Es común usar formas que combinan Diffusion Transformer con normalización adaptativa y estructuras MM-DIT
- Parece probable que en 2025 aumenten los intentos de reemplazar los text encoders basados en CLIP por LLM más compactos
- Framework
- Se ha formado una tendencia a preferir Flow Matching en lugar del enfoque probabilístico tradicional
- También podría resurgir el interés por los modelos AutoRegressive, y el paper sobre Visual Autoregressive Modelling recibió mucha atención
- Se estima que la técnica de generación de imágenes publicada por xAI también es autoregresiva, aunque no se conoce la razón específica
# Multimodality
- OpenAI, Anthropic y otros ya venían ofreciendo la capacidad de ingresar imágenes a los modelos, pero en la primera mitad de 2024 la investigación multimodal más abierta se volvió mucho más activa
- Visual Language Models
- Surgieron diversos VLM como Qwen y PaliGemma, utilizados para image captioning o document parsing
- La estructura que conecta un Vision Transformer con un LLM preentrenado se consolidó como estándar
- En 2025 se espera que estos VLM se integren en Omni-Models
- Omni-Modal Models
- OpenAI mostró con GPT-4o un caso que incluso generaba imágenes, pero no hubo una apertura completa
- En Chameleon y otros se probaron modelos de fusión temprana usando image tokenizer + detokenizer
- Hay debate a favor y en contra sobre tratar incluso las salidas no textuales como discrete tokens
- Circulan rumores de que Llama 4 ya se está entrenando como modelo omnimodal, lo que genera expectativas
# Agents and Human-AI Interfaces
- La definición de “AI Agent” es ambigua, pero aquí se llama agente, por ahora, al enfoque en el que se da a un LLM permiso para usar herramientas y alcanzar por sí mismo un objetivo
- Según el criterio de SWE-Bench, se espera que hacia finales de 2025 se automatice hasta cierto punto el debugging de código y la implementación de funcionalidades
- Sin embargo, aún es pronto para hablar de reemplazo de ingenieros, y probablemente se adopte primero en áreas con mayor tolerancia al error, como itinerarios de viaje o búsqueda de información
- Una UI de tipo editor como Cursor podría ser más adecuada para aprovechar agentes
- Como invocar agentes tiene un alto costo en tokens, todavía no está claro si los agentes totalmente autónomos serán eficientes en términos de costo-beneficio
# 2025
- Ya es común oír que el desarrollo de la IA va muy rápido, pero en la práctica los cambios son tan grandes que incluso cuesta medir esa velocidad
- Este texto solo cubrió brevemente el panorama centrado en texto e imágenes y algunos puntos esperados para 2025. Entre las áreas que no se alcanzaron a cubrir y que vale la pena seguir están:
- Optimización del entrenamiento (Muon, NanoGPT speedruns)
- Modelos de video (resolver problemas de consistencia y velocidad de inferencia)
- Cuantización (cuantización de 1 bit, precisión FP8 o inferior, etc.)
- Investigación sobre interpretabilidad de modelos
- Evaluación y benchmarks (se espera que aumenten las evaluaciones basadas en tareas reales como SWE-Bench)
- Ojalá en 2025 haya aún más avances
2 comentarios
Gracias.
Gracias por el resumen tan claro.