Lista de lectura de ingeniería de IA para 2025

(latent.space)

45 puntos por GN⁺ 2025-01-14 | 3 comentarios | Compartir por WhatsApp

Se seleccionaron 50 papers, modelos y blogs para ingenieros de IA, divididos en 10 áreas
Incluye las áreas de LLMs, benchmarks, prompting, RAG, agentes, generación de código, visión, voz, difusión y fine-tuning

Sección 1: LLMs de vanguardia

Modelos de OpenAI
- GPT1 (paper), GPT2 (paper), GPT3 (paper), Codex (paper), InstructGPT (paper), GPT4 (paper)
- GPT3.5 (introducción a ChatGPT), 4o (introducción a GPT-4o), o1 (preview de o1), o3 (system card)
Modelos de Anthropic y Google
- Claude 3 (paper), Gemini 1 (paper)
- Claude 3.5 Sonnet (detalles), Gemini 2.0 Flash (blog oficial), Flash Thinking (documentación de la API de Gemini), Gemma 2 (paper)
Familia LLaMA relacionada con Meta
- LLaMA 1 (paper), LLaMA 2 (paper), LLaMA 3 (paper)
- Modelos extendidos: Mistral 7B (paper), Mixtral (paper), Pixtral (paper)
Modelos de DeepSeek
- DeepSeek V1 (paper), Coder (paper), MoE (paper), V2 (paper), V3 (GitHub)
Apple Intelligence
- Apple Intelligence (paper) - modelo incluido en todas las Mac y iPhone
Modelos e investigación adicionales destacados
- Modelos LLM
  - Familia AI2: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
  - Otros: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Investigación sobre Scaling Laws
  - Scaling Laws: Kaplan, Chinchilla, Emergence, Mirage, Post-Chinchilla Laws
- Modelos de última generación:
  - o1, o3, R1, QwQ, QVQ, f1
- Investigación sobre modelos de razonamiento:
  - Let’s Verify Step By Step, STaR, charla de Noam Brown

Sección 2: Benchmarks y evaluación

MMLU
- MMLU (paper): el estándar de los benchmarks de conocimiento multidisciplinario
  - La investigación de vanguardia en 2025 usa MMLU Pro (paper), GPQA Diamond (paper) y BIG-Bench Hard (paper)
- GPQA (paper): enfocado en la generación de preguntas y la evaluación de respuestas correctas
- BIG-Bench (paper): benchmark a gran escala que incluye problemas de muchos tipos
MuSR (paper): evaluación en contexto largo
- Investigación relacionada: LongBench (paper), BABILong (paper), RULER (introducción)
- Problemas abordados: Lost in the Middle (paper), Needle in a Haystack (GitHub)
MATH (paper): colección de problemas de competencia matemática
- La investigación de vanguardia se enfoca en FrontierMath (paper) y en problemas de alta dificultad
- Subconjuntos: MATH Level 5, AIME, AMC10/AMC12
IFEval (paper): benchmark clave para evaluar el seguimiento de instrucciones
- Adopción oficial por parte de Apple (enlace)
- Benchmark relacionado: MT-Bench (paper)
ARC AGI (página oficial): benchmark de razonamiento abstracto y “test de IQ”
- Se mantiene relevante a largo plazo, a diferencia de otros benchmarks que se saturan rápidamente
Material adicional de referencia
- Latent Space: Benchmarks 101, Benchmarks 201
- Carlini, LMArena, Braintrust: análisis en profundidad sobre benchmarks
- Recursos sobre LLM: LLM-as-Judge, Applied LLMs
- Recursos de datasets: Datasets

Sección 3: Prompting, ICL y cadena de pensamiento

GPT-3 e In-Context Learning (ICL)
- Paper de GPT-3 (paper): introduce el concepto de In-Context Learning (ICL)
- ICL está estrechamente relacionado con el prompting, lo que permite que los LLM aprendan y apliquen conocimiento dentro del contexto
- Prompt Injection: manipulación de prompts y problemas de seguridad (resumen de Lilian Weng, serie de Simon Willison)
The Prompt Report: survey de papers sobre prompting
- Panorama general: resumen del desarrollo global de las técnicas de prompting y de las tendencias más recientes (podcast relacionado)
Chain-of-Thought (CoT):
- Modelado del proceso de razonamiento paso a paso
- Investigación relacionada:
  - Scratchpads (paper)
  - Let’s Think Step By Step (paper)
Tree of Thought:
- Introduce los conceptos de lookahead y backtracking
- Método eficaz para resolver problemas complejos (podcast relacionado)
Prompt Tuning:
- Permite ajustar el rendimiento del modelo sin prompts:
  - Prefix-Tuning (paper)
  - Ajuste de decodificación basado en entropía (GitHub)
  - Representation Engineering (blog)
Automatic Prompt Engineering:
- Método en el que el propio LLM genera y optimiza prompts
- Implementado en el framework DSPy (paper)
Además de los papers de investigación, las guías prácticas también son útiles:
- Blog de Prompt Engineering de Lilian Weng: Prompt Engineering blog
- Guía de prompting de Eugene Yan: Prompting guide
- Tutoriales y workshops de Anthropic:
  - Interactive Prompt Engineering Tutorial
  - AI Engineer Workshop

Sección 4: RAG (Retrieval-Augmented Generation)

Introduction to Information Retrieval: referencia clásica que cubre los fundamentos de la recuperación de información
- RAG es un problema de recuperación de información (IR), estrechamente relacionado con un campo con más de 60 años de historia
- Tecnologías principales:
  - TF-IDF, BM25: búsqueda basada en texto
  - FAISS, HNSW: búsqueda vectorial y búsqueda de vecinos cercanos
Meta RAG (artículo de 2020): primera aparición del término RAG
- HyDE (documentación)
- Chunking (investigación)
- Rerankers (blog de Cohere)
- Procesamiento de datos multimodales (YouTube)
MTEB: benchmark de evaluación de embeddings
- Controversias y limitaciones (discusión relacionada)
- Ejemplos de modelos de embeddings:
  - SentenceTransformers
  - OpenAI, Nomic Embed, ModernBERT Embed
  - Matryoshka Embeddings (blog de HuggingFace)
GraphRAG: integración de RAG y grafos de conocimiento de Microsoft
- GraphRAG:
  - integra grafos de conocimiento en el flujo de trabajo de RAG para ofrecer mejores resultados con datos privados
  - hecho open source (blog de Microsoft)
- Investigación relacionada:
  - ColBERT, ColPali, ColQwen
RAGAS: método simple de evaluación de RAG recomendado por OpenAI
- Nvidia FACTS Framework (artículo)
- Extrinsic Hallucinations in LLMs (investigación de Lilian Weng)
- Recall vs Precision de Jason Wei (tuit)
Materiales de aprendizaje y práctica de RAG
- LlamaIndex (documentación, curso)
- LangChain (documentación, video tutorial)
- Debate RAG vs Long Context:
  - artículo: comparación entre RAG y el enfoque de contexto largo

Sección 5: Agentes

SWE-Bench:
- Un benchmark representativo para la evaluación de agentes (centrado en código)
- Adoptado por Anthropic, Devin, OpenAI y otros, con gran atención
- Material relacionado:
  - SWE-Agent (paper)
  - SWE-Bench Multimodal (paper)
  - Konwinski Prize (sitio web)
- Comparación: WebArena (GitHub), SWE-Gym (tuit relacionado)
ReAct:
- El punto de partida de la investigación en LLM sobre uso de herramientas y llamadas a funciones
- Investigación relacionada:
  - Gorilla (leaderboard)
  - Toolformer (paper)
  - HuggingGPT (paper)
MemGPT:
- Enfoque de emulación de memoria a largo plazo
- Usos principales:
  - Las funciones de memoria y control de ChatGPT
  - La memoria episódica de LangGraph
- Sistemas relacionados:
  - MetaGPT (paper)
  - AutoGen (paper)
  - Smallville (GitHub)
Voyager:
- Enfoque de arquitectura cognitiva de Nvidia:
  - Mejora del rendimiento usando currículum, biblioteca de habilidades y sandbox
- Expansión del concepto:
  - Agent Workflow Memory (paper)
Building Effective Agents de Anthropic:
- Resumen clave del diseño de agentes en 2024
- Temas principales:
  - encadenamiento, enrutamiento, paralelización, orquestación, evaluación y optimización
- Material relacionado:
  - Investigación sobre agentes de Lilian Weng
  - Investigación sobre agentes LLM de Shunyu Yao
  - Panorama de agentes para 2025 de Chip Huyen
Material adicional de estudio y cursos
- Diseño de agentes más reciente de 2024: resumen de NeurIPS
- MOOC de UC Berkeley: curso de LLM Agents
- Debate sobre la definición de agente: consultar esta definición si es necesario

Sección 6: Generación de código (CodeGen)

The Stack paper
- Comenzó como la contraparte de código del dataset abierto The Pile
- Trabajo posterior:
  - The Stack v2: dataset mejorado
  - StarCoder: modelo optimizado de generación de código
Papers de modelos de código abiertos
- DeepSeek-Coder
- Qwen2.5-Coder
- CodeLlama
- Muchos consideran a Claude 3.5 Sonnet como el mejor modelo de código, pero no hay paper oficial
HumanEval/Codex
- Benchmark imprescindible del dominio de programación (actualmente saturado)
- Benchmarks alternativos modernos:
  - Aider
  - Codeforces
  - BigCodeBench
  - LiveCodeBench
  - SciCode
- SWE-Bench
  - Famoso por su evaluación centrada en agentes, pero costoso y más enfocado en evaluar agentes que modelos
AlphaCodeium
- Basado en el rendimiento de AlphaCode y AlphaCode2 de Google
- Mejora drásticamente el rendimiento de modelos existentes usando Flow Engineering
CriticGPT
- Enfocado en detectar problemas de seguridad que surgen durante la generación de código
  - El CriticGPT de OpenAI fue entrenado para identificar problemas de seguridad
  - Anthropic usa SAEs (Safety-relevant Activation Ensembles) para analizar rasgos del LLM que provocan problemas (investigación)
En la industria, la generación de código está desplazando su centro desde la investigación hacia la práctica:
- Uso de agentes de código como Devin (video)
- Consejos prácticos sobre generación de código (YouTube)

Sección 7: Visión

Investigación en visión basada en modelos no LLM
- YOLO:
  - Famoso como modelo de detección de objetos en tiempo real
  - Actualmente ha evolucionado hasta la v11 (GitHub)
  - Investigación reciente: los modelos transformer basados en DETR muestran un rendimiento superior a YOLO
- Nota: prestar atención a las distintas versiones de YOLO y a su linaje evolutivo (discusión relacionada)
CLIP:
- Un caso exitoso de modelo multimodal basado en ViT
- Modelos más recientes:
  - BLIP, BLIP2
  - SigLIP/PaliGemma
- CLIP sigue siendo un conocimiento de base importante
Benchmark MMVP:
- Evalúa las limitaciones de CLIP
- Versión multimodal: MMMU, SWE-Bench Multimodal
Segment Anything Model (SAM):
- Modelo representativo para segmentación de imágenes y video
- Investigación posterior: SAM 2 (podcast relacionado)
- Modelo complementario: GroundingDINO
Early Fusion vs Late Fusion:
- Late Fusion: LLaVA (podcast)
- Early Fusion:
  - Flamingo de Meta
  - Chameleon
  - AIMv2 de Apple
  - Core de Reka
- Material de referencia: flujo de investigación en visión multimodal
Trabajo reciente aún no publicado:
- GPT4V System Card y estudios derivados (paper)
- OpenAI 4o:
  - ajuste fino de visión en 4o
- Modelos más recientes:
  - Claude 3.5 Sonnet/Haiku
  - Gemini 2.0 Flash
  - o1
  - Otros modelos:
    - Pixtral
    - Llama 3.2
    - Moondream
    - QVQ

Sección 8: Voz

Whisper:
- Exitoso modelo de ASR de OpenAI
- Versiones principales:
  - Whisper v2 (discusión relacionada)
  - Whisper v3 (discusión relacionada)
  - Distil-Whisper (GitHub)
  - Whisper v3 Turbo (análisis)
- Whisper ofrece varios modelos con pesos abiertos, aunque algunas versiones no tienen paper
AudioPaLM:
- AudioPaLM de Google es una investigación previa al cambio de PaLM a Gemini
- Referencia: exploración de voz de Llama 3 de Meta (paper)
NaturalSpeech:
- Una de las investigaciones clave en TTS
- Recientemente actualizado a v3 (paper)
Kyutai Moshi:
- Modelo abierto de voz a texto full-duplex
- Demo de alta calidad (YouTube)
- Modelo de referencia: Hume OCTAVE (blog)
OpenAI Realtime API: The Missing Manual:
- Documentación no oficial sobre la API de voz en tiempo real de OpenAI
- Herramienta importante para trabajo reciente con agentes y en tiempo real
Recomendación de varias soluciones más allá de los grandes laboratorios:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- Referencia: State of Voice AI 2024
- Modelo de voz de NotebookLM:
  - El modelo no se ha publicado, pero sí se ofrece una explicación profunda del proceso de modelado
Gemini 2.0: modelo multimodal que integra voz y visión de forma natural
- Después de 2025: la convergencia entre las modalidades de voz y visión está evolucionando como una ruta clara

Sección 9: Difusión de imagen/video

Latent Diffusion:
- El paper fundamental de Stable Diffusion
- Versiones ampliadas:
  - SD2 (anuncio oficial)
  - SDXL y SD3
- Actualmente el equipo está desarrollando BFL Flux
Serie DALL-E de OpenAI:
- DALL-E, DALL-E-2, DALL-E-3
Serie Imagen de Google:
- Imagen, Imagen 2, Imagen 3
- Referencia: Ideogram
Consistency Models:
- Trabajo de destilación de modelos de difusión
- Extensiones:
  - LCMs
  - Actualización más reciente: sCMs
Sora:
- Herramienta de texto a video de OpenAI (sin paper oficial)
- Referencias:
  - paper de DiT (mismos autores)
  - OpenSora: modelo competidor basado en open weights
  - resumen de Lilian Weng
ComfyUI:
- Ha ganado atención como interfaz de usuario para modelos de visión (entrevista relacionada)
Áreas especializadas:
- Text Diffusion: modelos de difusión basados en texto
- Music Diffusion: difusión para generación musical
- Autoregressive Image Generation: generación autorregresiva de imágenes
Competencia de open weights:
- Text-to-Video Arena
Comprender las tendencias más recientes:
- Uso de modelos Stable Diffusion y DALL-E
- Investigación sobre la convergencia entre las modalidades de texto y video

Sección 10: Ajuste fino de modelos (Finetuning)

LoRA/QLoRA:
- El estándar para ajuste fino de modelos de bajo costo
- Aplicaciones principales:
  - También compatible con modelos locales y con 4o de OpenAI (ver podcast)
  - FSDP+QLoRA: material educativo
DPO:
- Compatible con Preference Finetuning de OpenAI
- Popular como alternativa a PPO (paper), aunque con un rendimiento algo menor
ReFT:
- Se enfoca en las características (features) del modelo en lugar de hacer ajuste fino a algunas capas existentes
- Enfoque eficiente de ajuste fino
Orca 3/AgentInstruct:
- Método adecuado para generar datos sintéticos
- Investigación relacionada:
  - Synthetic Data Picks de NeurIPS
Ajuste con RL:
- RL Finetuning for o1 de OpenAI es un material importante, aunque controvertido
- Investigación relacionada:
  - Let’s Verify Step By Step
  - charla de Noam Brown
Notebooks de Unsloth:
- Ofrece notebooks centrados en la práctica en GitHub
Guía de HuggingFace:
- How to fine-tune open LLMs: guía profunda sobre todo el proceso de ajuste fino

Cierre de la lista de lectura 2025 para ingenieros de IA

Esta lista puede parecer extensa e intimidante, pero está bien si la abandonas a medio camino. Lo importante es volver a empezar
Seguirá actualizándose durante 2025 para mantener la información al día
También está bien crear tu propio método de aprendizaje, pero consultar cómo leer papers en una hora puede ayudarte
Puedes revisar consejos de lectura y aprendizaje aquí
Aprender junto con la comunidad
- Grupos de Discord y Telegram:
  - Grupo de Discord de Krispin: https://app.discuna.com/invite/ai_engineer
  - Grupo de Telegram de Fed of Flow AI, activo en NYC: Telegram de AI NYC
  - Únete a la comunidad de Discord de Latent Space: enlace de invitación a Discord
- Compartir notas y destacados:
  - Blog iniciado por el lector Niels: notas sobre la lista de lectura 2025 para ingenieros de IA

3 comentarios

kipsong133 2025-01-16

Viéndolo así, todavía hay muchísimos materiales que vale la pena revisar con mucho detalle.

GN⁺ 2025-01-14

Comentarios en Hacker News

La mayoría de los papers se enfocan más en adquirir conocimiento que en lograr una comprensión profunda. Si no estás familiarizado con el tema, es mejor empezar con libros de texto en lugar de papers. El más reciente de Bishop, "Deep Learning: Foundations and Concepts (2024)", y "AI Engineering (2024)" de Chip Huyen son buenos recursos. También se recomiendan "Dive into Deep Learning" y los materiales de fast.ai
No está claro qué significa la profesión de "AI Engineer", pero es válido preguntarse si de verdad hace falta leer papers de investigación. Si no trabajas en la frontera de la IA, leer papers puede no tener mucho sentido. Es más importante entender las respuestas de los LLM y construir apps fáciles de usar. Al usar las API de OpenAI o Groq, saber la diferencia entre "multi head attention" y "single head attention" no resulta especialmente útil
Armar una lista es una tarea difícil. Hay muchos candidatos adecuados además de los elegidos, así que conviene verla como un currículo y entender que los papers relevantes del momento son punteros móviles, no referencias fijas. Un club de lectura de papers trabaja con una lista de lectura específica
La mayoría de los métodos de instruction fine-tuning de los modelos open source provienen de Alpaca. También deberían incluirse papers sobre Alpaca y sobre generación de datos sintéticos
En vez de perder tiempo leyendo y tratando de entender papers sobre IA y LLM, es mejor leer sobre ELIZA e intentar construirlo por cuenta propia. Hay que enfocarse en tensores, vectores, campos, lingüística, arquitectura de computadoras y redes
La lista de lectura es de hace aproximadamente un año. En 2025, habría que enfocarse en técnicas como KTO, RLOO y DPO. En 2025, habría que concentrarse solo en destilación y optimización. CoT no es algo nuevo; la clave es el CoT modificado
Es interesante que el término "AI" haya sido absorbido casi por completo por los avances recientes en DL. No hay menciones de Russell & Norvig, Minsky, Shannon o Lenat. Si te interesa una introducción a temas más amplios de IA, la mayoría de los programas de posgrado usan el mismo libro
Es una gran investigación. Si se combina con el curso de abajo, se puede obtener el mejor resultado
Es una excelente lista

francomoon7 2025-01-16

¿Qué significa exactamente construir Eliza por tu cuenta?