20 puntos por xguru 2025-01-06 | 2 comentarios | Compartir por WhatsApp
  • Durante todo 2024 hubo grandes avances tanto en la generación de texto como de imágenes
  • A diferencia de los primeros años, cuando OpenAI dominaba en solitario, hacia finales del año pasado distintos laboratorios como Anthropic, DeepSeek y Qwen estaban ampliando agresivamente el frente de competencia
  • Se resumen las tendencias de investigación de 2024~2025 y se repasan brevemente las áreas con mayor potencial a futuro

    “El foso construido solo con código cerrado no durará mucho
    Incluso OpenAI no podrá impedir que otros lo alcancen
    Al final, el verdadero foso es hacer crecer nuestra organización y cultura para formar talento capaz de innovar”
    ─ Liang Wenfeng, CEO de DeepSeek

# Language

  • Los modelos de lenguaje a gran escala (LLM) son el núcleo del auge actual de la IA, y concentran la mayor parte de la investigación y la inversión
  • En 2024 hubo avances importantes tanto en el rendimiento de los modelos como en nuevos paradigmas de escalado
  • Architecture
    • Se probaron nuevas arquitecturas (Mamba, xLSTM, etc.), pero al menos por ahora todo apunta a que el decoder-only Transformer seguirá siendo la corriente principal
    • Dense Transformer
      • Llama 3 es el ejemplo representativo, y Meta está optimizando al límite el vanilla Dense Transformer
      • La forma conocida como Noam Transformer (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE, etc.) prácticamente se ha establecido como estándar
      • Es probable que métodos como Multi Latent Attention (MLA) de DeepSeek reciban más atención, y también podrían aparecer técnicas que reemplacen o modifiquen RoPE
    • Mixture-of-Experts
      • Los rumores de que GPT-4 es un enorme MoE hicieron que esta línea resurgiera con fuerza en 2024
      • En el ámbito open source, los representantes más destacados son Mixtral de Mistral y DeepSeek v2·v3
      • MoE tiene la desventaja de que no es fácil de servir, pero DeepSeek está investigándolo activamente
      • Se espera investigación en varias direcciones sobre mecanismos de routing, formas de aplicar MoE por capa e interpretabilidad de los expertos
  • Tokenization
    • Muchos opinan que hace falta una innovación que reemplace Byte Pair Encoding, pero como aún no presenta grandes problemas, su uso continúa
    • Meta propuso dos intentos que llamaron la atención: procesar CoT en el latent space (byte-based) o entrenar Transformers a nivel de bytes
    • En Byte Latent Transformer (BLT) se usa una estructura Encoder/Decoder para procesar entradas en bytes
    • Existe preocupación de que la calidad del byte decoder pueda convertirse en un cuello de botella
  • Reasoning
    • En la segunda mitad de 2024 mejoró drásticamente la capacidad de razonamiento en matemáticas, ciencia y código (o1, o3, DeepSeek r1, etc.)
    • Esto está relacionado con un nuevo paradigma de escalado llamado “inference-time compute”
      • Consiste en que el modelo genera un Chain of Thought muy largo, y luego valida y aprovecha ese proceso por sí mismo
    • No se conoce públicamente cómo fueron creados o1 y o3 de OpenAI, pero es muy probable que hayan usado enfoques de RL como el paper “Let’s Verify Step by Step”
    • Se espera que Anthropic y otros laboratorios también presenten reasoners similares
    • Hay interés en ver si este enfoque podrá salir del sesgo hacia STEM y aplicarse a dominios más amplios, como la escritura creativa
  • Distillation
    • Se especula que OpenAI no reveló el Chain of Thought al lanzar o1 porque volver a entrenar con salidas del modelo (como en DeepSeek v3, etc.) contribuye de forma importante a mejorar el rendimiento
    • DeepSeek v3 no reproduce tal cual el largo CoT característico de un reasoner, pero parece distinguir modos internamente y razonar cuando la situación lo requiere
    • También es un tema de investigación interesante si modelos pequeños (como o1-mini) pueden acercarse al rendimiento de los grandes, o si existe alguna técnica secreta de destilación en su interior

# Image

  • En imágenes, muchos laboratorios pequeños y medianos se han sumado, acelerando la innovación
  • Los principales modelos actuales (Flux, Stable Diffusion 3, MidJourney, Sora, etc.) se basan en Diffusion Transformer, y el framework dominante es Flow Matching
  • Architecture
    • Es común usar formas que combinan Diffusion Transformer con normalización adaptativa y estructuras MM-DIT
    • Parece probable que en 2025 aumenten los intentos de reemplazar los text encoders basados en CLIP por LLM más compactos
  • Framework
    • Se ha formado una tendencia a preferir Flow Matching en lugar del enfoque probabilístico tradicional
    • También podría resurgir el interés por los modelos AutoRegressive, y el paper sobre Visual Autoregressive Modelling recibió mucha atención
    • Se estima que la técnica de generación de imágenes publicada por xAI también es autoregresiva, aunque no se conoce la razón específica

# Multimodality

  • OpenAI, Anthropic y otros ya venían ofreciendo la capacidad de ingresar imágenes a los modelos, pero en la primera mitad de 2024 la investigación multimodal más abierta se volvió mucho más activa
  • Visual Language Models
    • Surgieron diversos VLM como Qwen y PaliGemma, utilizados para image captioning o document parsing
    • La estructura que conecta un Vision Transformer con un LLM preentrenado se consolidó como estándar
    • En 2025 se espera que estos VLM se integren en Omni-Models
  • Omni-Modal Models
    • OpenAI mostró con GPT-4o un caso que incluso generaba imágenes, pero no hubo una apertura completa
    • En Chameleon y otros se probaron modelos de fusión temprana usando image tokenizer + detokenizer
    • Hay debate a favor y en contra sobre tratar incluso las salidas no textuales como discrete tokens
    • Circulan rumores de que Llama 4 ya se está entrenando como modelo omnimodal, lo que genera expectativas

# Agents and Human-AI Interfaces

  • La definición de “AI Agent” es ambigua, pero aquí se llama agente, por ahora, al enfoque en el que se da a un LLM permiso para usar herramientas y alcanzar por sí mismo un objetivo
  • Según el criterio de SWE-Bench, se espera que hacia finales de 2025 se automatice hasta cierto punto el debugging de código y la implementación de funcionalidades
  • Sin embargo, aún es pronto para hablar de reemplazo de ingenieros, y probablemente se adopte primero en áreas con mayor tolerancia al error, como itinerarios de viaje o búsqueda de información
  • Una UI de tipo editor como Cursor podría ser más adecuada para aprovechar agentes
  • Como invocar agentes tiene un alto costo en tokens, todavía no está claro si los agentes totalmente autónomos serán eficientes en términos de costo-beneficio

# 2025

  • Ya es común oír que el desarrollo de la IA va muy rápido, pero en la práctica los cambios son tan grandes que incluso cuesta medir esa velocidad
  • Este texto solo cubrió brevemente el panorama centrado en texto e imágenes y algunos puntos esperados para 2025. Entre las áreas que no se alcanzaron a cubrir y que vale la pena seguir están:
    • Optimización del entrenamiento (Muon, NanoGPT speedruns)
    • Modelos de video (resolver problemas de consistencia y velocidad de inferencia)
    • Cuantización (cuantización de 1 bit, precisión FP8 o inferior, etc.)
    • Investigación sobre interpretabilidad de modelos
    • Evaluación y benchmarks (se espera que aumenten las evaluaciones basadas en tareas reales como SWE-Bench)
  • Ojalá en 2025 haya aún más avances

2 comentarios

 
lonzino 2025-01-06

Gracias.

 
zkdlfrlwl2 2025-01-06

Gracias por el resumen tan claro.