Panorama actual de los modelos generativos

xguru · 2025-01-06T10:21:01+09:00

Durante todo 2024 hubo grandes avances tanto en la generación de texto como de imágenes A diferencia de los primeros años, cuando OpenAI dominaba en solitario, hacia finales del año pasado distintos laboratorios como Anthropic, DeepSeek y Qwen estaban ampliando agresivamente el frente de competencia Se resumen las tendencias de investigación de 2024~2025 y se repasan brevemente las áreas con mayor potencial a futuro “El foso construido solo con código cerrado no durará mucho Incluso OpenAI no podrá impedir que otros lo alcancen Al final, el verdadero foso es hacer crecer nuestra organización y cultura para formar talento capaz de innovar” ─ Liang Wenfeng, CEO de DeepSeek # Language Los modelos de lenguaje a gran escala (LLM) son el núcleo del auge actual de la IA, y concentran la mayor parte de la investigación y la inversión En 2024 hubo avances importantes tanto en el rendimiento de los modelos como en nuevos paradigmas de escalado Architecture Se probaron nuevas arquitecturas (Mamba, xLSTM, etc.), pero al menos por ahora todo apunta a que el decoder-only Transformer seguirá siendo la corriente principal Dense Transformer Llama 3 es el ejemplo representativo, y Meta está optimizando al límite el vanilla Dense Transformer La forma conocida como Noam Transformer (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE, etc.) prácticamente se ha establecido como estándar Es probable que métodos como Multi Latent Attention (MLA) de DeepSeek reciban más atención, y también podrían aparecer técnicas que reemplacen o modifiquen RoPE Mixture-of-Experts Los rumores de que GPT-4 es un enorme MoE hicieron que esta línea resurgiera con fuerza en 2024 En el ámbito open source, los representantes más destacados son Mixtral de Mistral y DeepSeek v2·v3 MoE tiene la desventaja de que no es fácil de servir, pero DeepSeek está investigándolo activamente Se espera investigación en varias direcciones sobre mecanismos de routing, formas de aplicar MoE por capa e interpretabilidad de los expertos Tokenization Muchos opinan que hace falta una innovación que reemplace Byte Pair Encoding, pero como aún no presenta grandes problemas, su uso continúa Meta propuso dos intentos que llamaron la atención: procesar CoT en el latent space (byte-based) o entrenar Transformers a nivel de bytes En Byte Latent Transformer (BLT) se usa una estructura Encoder/Decoder para procesar entradas en bytes Existe preocupación de que la calidad del byte decoder pueda convertirse en un cuello de botella Reasoning En la segunda mitad de 2024 mejoró drásticamente la capacidad de razonamiento en matemáticas, ciencia y código (o1, o3, DeepSeek r1, etc.) Esto está relacionado con un nuevo paradigma de escalado llamado “inference-time compute” Consiste en que el modelo genera un Chain of Thought muy largo, y luego valida y aprovecha ese proceso por sí mismo No se conoce públicamente cómo fueron creados o1 y o3 de OpenAI, pero es muy probable que hayan usado enfoques de RL como el paper “Let’s Verify Step by Step” Se espera que Anthropic y otros laboratorios también presenten reasoners similares Hay interés en ver si este enfoque podrá salir del sesgo hacia STEM y aplicarse a dominios más amplios, como la escritura creativa Distillation Se especula que OpenAI no reveló el Chain of Thought al lanzar o1 porque volver a entrenar con salidas del modelo (como en DeepSeek v3, etc.) contribuye de forma importante a mejorar el rendimiento DeepSeek v3 no reproduce tal cual el largo CoT característico de un reasoner, pero parece distinguir modos internamente y razonar cuando la situación lo requiere También es un tema de investigación interesante si modelos pequeños (como o1-mini) pueden acercarse al rendimiento de los grandes, o si existe alguna técnica secreta de destilación en su interior # Image En imágenes, muchos laboratorios pequeños y medianos se han sumado, acelerando la innovación Los principales modelos actuales (Flux, Stable Diffusion 3, MidJourney, Sora, etc.) se basan en Diffusion Transformer, y el framework dominante es Flow Matching Architecture Es común usar formas que combinan Diffusion Transformer con normalización adaptativa y estructuras MM-DIT Parece probable que en 2025 aumenten los intentos de reemplazar los text encoders basados en CLIP por LLM más compactos Framework Se ha formado una tendencia a preferir Flow Matching en lugar del enfoque probabilístico tradicional También podría resurgir el interés por los modelos AutoRegressive, y el paper sobre Visual Autoregressive Modelling recibió mucha atención Se estima que la técnica de generación de imágenes publicada por xAI también es autoregresiva, aunque no se conoce la razón específica # Multimodality OpenAI, Anthropic y otros ya venían ofreciendo la capacidad de ingresar imágenes a los modelos, pero en la primera mitad de 2024 la investigación multimodal más abierta se volvió mucho más activa Visual Language Models Surgieron diversos VLM como Qwen y PaliGemma, utilizados para image captioning o document parsing La estructura que conecta un Vision Transformer con un LLM preentrenado se consolidó como estándar En 2025 se espera que estos VLM se integren en Omni-Models Omni-Modal Models OpenAI mostró con GPT-4o un caso que incluso generaba imágenes, pero no hubo una apertura completa En Chameleon y otros se probaron modelos de fusión temprana usando image tokenizer + detokenizer Hay debate a favor y en contra sobre tratar incluso las salidas no textuales como discrete tokens Circulan rumores de que Llama 4 ya se está entrenando como modelo omnimodal, lo que genera expectativas # Agents and Human-AI Interfaces La definición de “AI Agent” es ambigua, pero aquí se llama agente, por ahora, al enfoque en el que se da a un LLM permiso para usar herramientas y alcanzar por sí mismo un objetivo Según el criterio de SWE-Bench, se espera que hacia finales de 2025 se automatice hasta cierto punto el debugging de código y la implementación de funcionalidades Sin embargo, aún es pronto para hablar de reemplazo de ingenieros, y probablemente se adopte primero en áreas con mayor tolerancia al error, como itinerarios de viaje o búsqueda de información Una UI de tipo editor como Cursor podría ser más adecuada para aprovechar agentes Como invocar agentes tiene un alto costo en tokens, todavía no está claro si los agentes totalmente autónomos serán eficientes en términos de costo-beneficio # 2025 Ya es común oír que el desarrollo de la IA va muy rápido, pero en la práctica los cambios son tan grandes que incluso cuesta medir esa velocidad Este texto solo cubrió brevemente el panorama centrado en texto e imágenes y algunos puntos esperados para 2025. Entre las áreas que no se alcanzaron a cubrir y que vale la pena seguir están: Optimización del entrenamiento (Muon, NanoGPT speedruns) Modelos de video (resolver problemas de consistencia y velocidad de inferencia) Cuantización (cuantización de 1 bit, precisión FP8 o inferior, etc.) Investigación sobre interpretabilidad de modelos Evaluación y benchmarks (se espera que aumenten las evaluaciones basadas en tareas reales como SWE-Bench) Ojalá en 2025 haya aún más avances

(nrehiew.github.io)

20 puntos por xguru 2025-01-06 | 2 comentarios | Compartir por WhatsApp

Durante todo 2024 hubo grandes avances tanto en la generación de texto como de imágenes
A diferencia de los primeros años, cuando OpenAI dominaba en solitario, hacia finales del año pasado distintos laboratorios como Anthropic, DeepSeek y Qwen estaban ampliando agresivamente el frente de competencia
Se resumen las tendencias de investigación de 2024~2025 y se repasan brevemente las áreas con mayor potencial a futuro

“El foso construido solo con código cerrado no durará mucho
Incluso OpenAI no podrá impedir que otros lo alcancen
Al final, el verdadero foso es hacer crecer nuestra organización y cultura para formar talento capaz de innovar”
─ Liang Wenfeng, CEO de DeepSeek

# Language

Los modelos de lenguaje a gran escala (LLM) son el núcleo del auge actual de la IA, y concentran la mayor parte de la investigación y la inversión
En 2024 hubo avances importantes tanto en el rendimiento de los modelos como en nuevos paradigmas de escalado
Architecture
- Se probaron nuevas arquitecturas (Mamba, xLSTM, etc.), pero al menos por ahora todo apunta a que el decoder-only Transformer seguirá siendo la corriente principal
- Dense Transformer
  - Llama 3 es el ejemplo representativo, y Meta está optimizando al límite el vanilla Dense Transformer
  - La forma conocida como Noam Transformer (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE, etc.) prácticamente se ha establecido como estándar
  - Es probable que métodos como Multi Latent Attention (MLA) de DeepSeek reciban más atención, y también podrían aparecer técnicas que reemplacen o modifiquen RoPE
- Mixture-of-Experts
  - Los rumores de que GPT-4 es un enorme MoE hicieron que esta línea resurgiera con fuerza en 2024
  - En el ámbito open source, los representantes más destacados son Mixtral de Mistral y DeepSeek v2·v3
  - MoE tiene la desventaja de que no es fácil de servir, pero DeepSeek está investigándolo activamente
  - Se espera investigación en varias direcciones sobre mecanismos de routing, formas de aplicar MoE por capa e interpretabilidad de los expertos
Tokenization
- Muchos opinan que hace falta una innovación que reemplace Byte Pair Encoding, pero como aún no presenta grandes problemas, su uso continúa
- Meta propuso dos intentos que llamaron la atención: procesar CoT en el latent space (byte-based) o entrenar Transformers a nivel de bytes
- En Byte Latent Transformer (BLT) se usa una estructura Encoder/Decoder para procesar entradas en bytes
- Existe preocupación de que la calidad del byte decoder pueda convertirse en un cuello de botella
Reasoning
- En la segunda mitad de 2024 mejoró drásticamente la capacidad de razonamiento en matemáticas, ciencia y código (o1, o3, DeepSeek r1, etc.)
- Esto está relacionado con un nuevo paradigma de escalado llamado “inference-time compute”
  - Consiste en que el modelo genera un Chain of Thought muy largo, y luego valida y aprovecha ese proceso por sí mismo
- No se conoce públicamente cómo fueron creados o1 y o3 de OpenAI, pero es muy probable que hayan usado enfoques de RL como el paper “Let’s Verify Step by Step”
- Se espera que Anthropic y otros laboratorios también presenten reasoners similares
- Hay interés en ver si este enfoque podrá salir del sesgo hacia STEM y aplicarse a dominios más amplios, como la escritura creativa
Distillation
- Se especula que OpenAI no reveló el Chain of Thought al lanzar o1 porque volver a entrenar con salidas del modelo (como en DeepSeek v3, etc.) contribuye de forma importante a mejorar el rendimiento
- DeepSeek v3 no reproduce tal cual el largo CoT característico de un reasoner, pero parece distinguir modos internamente y razonar cuando la situación lo requiere
- También es un tema de investigación interesante si modelos pequeños (como o1-mini) pueden acercarse al rendimiento de los grandes, o si existe alguna técnica secreta de destilación en su interior

# Image

En imágenes, muchos laboratorios pequeños y medianos se han sumado, acelerando la innovación
Los principales modelos actuales (Flux, Stable Diffusion 3, MidJourney, Sora, etc.) se basan en Diffusion Transformer, y el framework dominante es Flow Matching
Architecture
- Es común usar formas que combinan Diffusion Transformer con normalización adaptativa y estructuras MM-DIT
- Parece probable que en 2025 aumenten los intentos de reemplazar los text encoders basados en CLIP por LLM más compactos
Framework
- Se ha formado una tendencia a preferir Flow Matching en lugar del enfoque probabilístico tradicional
- También podría resurgir el interés por los modelos AutoRegressive, y el paper sobre Visual Autoregressive Modelling recibió mucha atención
- Se estima que la técnica de generación de imágenes publicada por xAI también es autoregresiva, aunque no se conoce la razón específica

# Multimodality

OpenAI, Anthropic y otros ya venían ofreciendo la capacidad de ingresar imágenes a los modelos, pero en la primera mitad de 2024 la investigación multimodal más abierta se volvió mucho más activa
Visual Language Models
- Surgieron diversos VLM como Qwen y PaliGemma, utilizados para image captioning o document parsing
- La estructura que conecta un Vision Transformer con un LLM preentrenado se consolidó como estándar
- En 2025 se espera que estos VLM se integren en Omni-Models
Omni-Modal Models
- OpenAI mostró con GPT-4o un caso que incluso generaba imágenes, pero no hubo una apertura completa
- En Chameleon y otros se probaron modelos de fusión temprana usando image tokenizer + detokenizer
- Hay debate a favor y en contra sobre tratar incluso las salidas no textuales como discrete tokens
- Circulan rumores de que Llama 4 ya se está entrenando como modelo omnimodal, lo que genera expectativas

# Agents and Human-AI Interfaces

La definición de “AI Agent” es ambigua, pero aquí se llama agente, por ahora, al enfoque en el que se da a un LLM permiso para usar herramientas y alcanzar por sí mismo un objetivo
Según el criterio de SWE-Bench, se espera que hacia finales de 2025 se automatice hasta cierto punto el debugging de código y la implementación de funcionalidades
Sin embargo, aún es pronto para hablar de reemplazo de ingenieros, y probablemente se adopte primero en áreas con mayor tolerancia al error, como itinerarios de viaje o búsqueda de información
Una UI de tipo editor como Cursor podría ser más adecuada para aprovechar agentes
Como invocar agentes tiene un alto costo en tokens, todavía no está claro si los agentes totalmente autónomos serán eficientes en términos de costo-beneficio

# 2025

Ya es común oír que el desarrollo de la IA va muy rápido, pero en la práctica los cambios son tan grandes que incluso cuesta medir esa velocidad
Este texto solo cubrió brevemente el panorama centrado en texto e imágenes y algunos puntos esperados para 2025. Entre las áreas que no se alcanzaron a cubrir y que vale la pena seguir están:
- Optimización del entrenamiento (Muon, NanoGPT speedruns)
- Modelos de video (resolver problemas de consistencia y velocidad de inferencia)
- Cuantización (cuantización de 1 bit, precisión FP8 o inferior, etc.)
- Investigación sobre interpretabilidad de modelos
- Evaluación y benchmarks (se espera que aumenten las evaluaciones basadas en tareas reales como SWE-Bench)
Ojalá en 2025 haya aún más avances

2 comentarios

lonzino 2025-01-06

Gracias.

zkdlfrlwl2 2025-01-06

Gracias por el resumen tan claro.