Lista de lectura de ingeniería de IA para 2025
(latent.space)- Se seleccionaron 50 papers, modelos y blogs para ingenieros de IA, divididos en 10 áreas
- Incluye las áreas de LLMs, benchmarks, prompting, RAG, agentes, generación de código, visión, voz, difusión y fine-tuning
Sección 1: LLMs de vanguardia
- Modelos de OpenAI
- GPT1 (paper), GPT2 (paper), GPT3 (paper), Codex (paper), InstructGPT (paper), GPT4 (paper)
- GPT3.5 (introducción a ChatGPT), 4o (introducción a GPT-4o), o1 (preview de o1), o3 (system card)
- Modelos de Anthropic y Google
- Claude 3 (paper), Gemini 1 (paper)
- Claude 3.5 Sonnet (detalles), Gemini 2.0 Flash (blog oficial), Flash Thinking (documentación de la API de Gemini), Gemma 2 (paper)
- Familia LLaMA relacionada con Meta
- Modelos de DeepSeek
- Apple Intelligence
- Apple Intelligence (paper) - modelo incluido en todas las Mac y iPhone
- Modelos e investigación adicionales destacados
- Modelos LLM
- Familia AI2: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
- Otros: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Investigación sobre Scaling Laws
- Scaling Laws: Kaplan, Chinchilla, Emergence, Mirage, Post-Chinchilla Laws
- Modelos de última generación:
- Investigación sobre modelos de razonamiento:
- Modelos LLM
Sección 2: Benchmarks y evaluación
- MMLU
- MuSR (paper): evaluación en contexto largo
- Investigación relacionada: LongBench (paper), BABILong (paper), RULER (introducción)
- Problemas abordados: Lost in the Middle (paper), Needle in a Haystack (GitHub)
- MATH (paper): colección de problemas de competencia matemática
- La investigación de vanguardia se enfoca en FrontierMath (paper) y en problemas de alta dificultad
- Subconjuntos: MATH Level 5, AIME, AMC10/AMC12
- IFEval (paper): benchmark clave para evaluar el seguimiento de instrucciones
- ARC AGI (página oficial): benchmark de razonamiento abstracto y “test de IQ”
- Se mantiene relevante a largo plazo, a diferencia de otros benchmarks que se saturan rápidamente
- Material adicional de referencia
- Latent Space: Benchmarks 101, Benchmarks 201
- Carlini, LMArena, Braintrust: análisis en profundidad sobre benchmarks
- Recursos sobre LLM: LLM-as-Judge, Applied LLMs
- Recursos de datasets: Datasets
Sección 3: Prompting, ICL y cadena de pensamiento
- GPT-3 e In-Context Learning (ICL)
- Paper de GPT-3 (paper): introduce el concepto de In-Context Learning (ICL)
- ICL está estrechamente relacionado con el prompting, lo que permite que los LLM aprendan y apliquen conocimiento dentro del contexto
- Prompt Injection: manipulación de prompts y problemas de seguridad (resumen de Lilian Weng, serie de Simon Willison)
- The Prompt Report: survey de papers sobre prompting
- Panorama general: resumen del desarrollo global de las técnicas de prompting y de las tendencias más recientes (podcast relacionado)
- Chain-of-Thought (CoT):
- Tree of Thought:
- Introduce los conceptos de lookahead y backtracking
- Método eficaz para resolver problemas complejos (podcast relacionado)
- Prompt Tuning:
- Automatic Prompt Engineering:
- Método en el que el propio LLM genera y optimiza prompts
- Implementado en el framework DSPy (paper)
- Además de los papers de investigación, las guías prácticas también son útiles:
- Blog de Prompt Engineering de Lilian Weng: Prompt Engineering blog
- Guía de prompting de Eugene Yan: Prompting guide
- Tutoriales y workshops de Anthropic:
Sección 4: RAG (Retrieval-Augmented Generation)
- Introduction to Information Retrieval: referencia clásica que cubre los fundamentos de la recuperación de información
- RAG es un problema de recuperación de información (IR), estrechamente relacionado con un campo con más de 60 años de historia
- Tecnologías principales:
- TF-IDF, BM25: búsqueda basada en texto
- FAISS, HNSW: búsqueda vectorial y búsqueda de vecinos cercanos
- Meta RAG (artículo de 2020): primera aparición del término RAG
- HyDE (documentación)
- Chunking (investigación)
- Rerankers (blog de Cohere)
- Procesamiento de datos multimodales (YouTube)
- MTEB: benchmark de evaluación de embeddings
- Controversias y limitaciones (discusión relacionada)
- Ejemplos de modelos de embeddings:
- SentenceTransformers
- OpenAI, Nomic Embed, ModernBERT Embed
- Matryoshka Embeddings (blog de HuggingFace)
- GraphRAG: integración de RAG y grafos de conocimiento de Microsoft
- GraphRAG:
- integra grafos de conocimiento en el flujo de trabajo de RAG para ofrecer mejores resultados con datos privados
- hecho open source (blog de Microsoft)
- Investigación relacionada:
- ColBERT, ColPali, ColQwen
- GraphRAG:
- RAGAS: método simple de evaluación de RAG recomendado por OpenAI
- Nvidia FACTS Framework (artículo)
- Extrinsic Hallucinations in LLMs (investigación de Lilian Weng)
- Recall vs Precision de Jason Wei (tuit)
- Materiales de aprendizaje y práctica de RAG
- LlamaIndex (documentación, curso)
- LangChain (documentación, video tutorial)
- Debate RAG vs Long Context:
- artículo: comparación entre RAG y el enfoque de contexto largo
Sección 5: Agentes
- SWE-Bench:
- Un benchmark representativo para la evaluación de agentes (centrado en código)
- Adoptado por Anthropic, Devin, OpenAI y otros, con gran atención
- Material relacionado:
- Comparación: WebArena (GitHub), SWE-Gym (tuit relacionado)
- ReAct:
- El punto de partida de la investigación en LLM sobre uso de herramientas y llamadas a funciones
- Investigación relacionada:
- Gorilla (leaderboard)
- Toolformer (paper)
- HuggingGPT (paper)
- MemGPT:
- Enfoque de emulación de memoria a largo plazo
- Usos principales:
- Las funciones de memoria y control de ChatGPT
- La memoria episódica de LangGraph
- Sistemas relacionados:
- Voyager:
- Enfoque de arquitectura cognitiva de Nvidia:
- Mejora del rendimiento usando currículum, biblioteca de habilidades y sandbox
- Expansión del concepto:
- Agent Workflow Memory (paper)
- Enfoque de arquitectura cognitiva de Nvidia:
- Building Effective Agents de Anthropic:
- Resumen clave del diseño de agentes en 2024
- Temas principales:
- encadenamiento, enrutamiento, paralelización, orquestación, evaluación y optimización
- Material relacionado:
- Investigación sobre agentes de Lilian Weng
- Investigación sobre agentes LLM de Shunyu Yao
- Panorama de agentes para 2025 de Chip Huyen
- Material adicional de estudio y cursos
- Diseño de agentes más reciente de 2024: resumen de NeurIPS
- MOOC de UC Berkeley: curso de LLM Agents
- Debate sobre la definición de agente: consultar esta definición si es necesario
Sección 6: Generación de código (CodeGen)
- The Stack paper
- Comenzó como la contraparte de código del dataset abierto The Pile
- Trabajo posterior:
- The Stack v2: dataset mejorado
- StarCoder: modelo optimizado de generación de código
- Papers de modelos de código abiertos
- DeepSeek-Coder
- Qwen2.5-Coder
- CodeLlama
- Muchos consideran a Claude 3.5 Sonnet como el mejor modelo de código, pero no hay paper oficial
- HumanEval/Codex
- Benchmark imprescindible del dominio de programación (actualmente saturado)
- Benchmarks alternativos modernos:
- SWE-Bench
- Famoso por su evaluación centrada en agentes, pero costoso y más enfocado en evaluar agentes que modelos
- AlphaCodeium
- Basado en el rendimiento de AlphaCode y AlphaCode2 de Google
- Mejora drásticamente el rendimiento de modelos existentes usando Flow Engineering
- CriticGPT
- Enfocado en detectar problemas de seguridad que surgen durante la generación de código
- El CriticGPT de OpenAI fue entrenado para identificar problemas de seguridad
- Anthropic usa SAEs (Safety-relevant Activation Ensembles) para analizar rasgos del LLM que provocan problemas (investigación)
- Enfocado en detectar problemas de seguridad que surgen durante la generación de código
- En la industria, la generación de código está desplazando su centro desde la investigación hacia la práctica:
Sección 7: Visión
- Investigación en visión basada en modelos no LLM
- YOLO:
- Nota: prestar atención a las distintas versiones de YOLO y a su linaje evolutivo (discusión relacionada)
- CLIP:
- Un caso exitoso de modelo multimodal basado en ViT
- Modelos más recientes:
- CLIP sigue siendo un conocimiento de base importante
- Benchmark MMVP:
- Evalúa las limitaciones de CLIP
- Versión multimodal: MMMU, SWE-Bench Multimodal
- Segment Anything Model (SAM):
- Modelo representativo para segmentación de imágenes y video
- Investigación posterior: SAM 2 (podcast relacionado)
- Modelo complementario: GroundingDINO
- Early Fusion vs Late Fusion:
- Trabajo reciente aún no publicado:
- GPT4V System Card y estudios derivados (paper)
- OpenAI 4o:
- Modelos más recientes:
Sección 8: Voz
- Whisper:
- Exitoso modelo de ASR de OpenAI
- Versiones principales:
- Whisper v2 (discusión relacionada)
- Whisper v3 (discusión relacionada)
- Distil-Whisper (GitHub)
- Whisper v3 Turbo (análisis)
- Whisper ofrece varios modelos con pesos abiertos, aunque algunas versiones no tienen paper
- AudioPaLM:
- AudioPaLM de Google es una investigación previa al cambio de PaLM a Gemini
- Referencia: exploración de voz de Llama 3 de Meta (paper)
- NaturalSpeech:
- Una de las investigaciones clave en TTS
- Recientemente actualizado a v3 (paper)
- Kyutai Moshi:
- OpenAI Realtime API: The Missing Manual:
- Documentación no oficial sobre la API de voz en tiempo real de OpenAI
- Herramienta importante para trabajo reciente con agentes y en tiempo real
- Recomendación de varias soluciones más allá de los grandes laboratorios:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- Referencia: State of Voice AI 2024
- Modelo de voz de NotebookLM:
- El modelo no se ha publicado, pero sí se ofrece una explicación profunda del proceso de modelado
- Gemini 2.0: modelo multimodal que integra voz y visión de forma natural
- Después de 2025: la convergencia entre las modalidades de voz y visión está evolucionando como una ruta clara
Sección 9: Difusión de imagen/video
- Latent Diffusion:
- El paper fundamental de Stable Diffusion
- Versiones ampliadas:
- SD2 (anuncio oficial)
- SDXL y SD3
- Actualmente el equipo está desarrollando BFL Flux
- Serie DALL-E de OpenAI:
- Serie Imagen de Google:
- Consistency Models:
- Sora:
- Herramienta de texto a video de OpenAI (sin paper oficial)
- Referencias:
- paper de DiT (mismos autores)
- OpenSora: modelo competidor basado en open weights
- resumen de Lilian Weng
- ComfyUI:
- Ha ganado atención como interfaz de usuario para modelos de visión (entrevista relacionada)
- Áreas especializadas:
- Text Diffusion: modelos de difusión basados en texto
- Music Diffusion: difusión para generación musical
- Autoregressive Image Generation: generación autorregresiva de imágenes
- Competencia de open weights:
- Comprender las tendencias más recientes:
- Uso de modelos Stable Diffusion y DALL-E
- Investigación sobre la convergencia entre las modalidades de texto y video
Sección 10: Ajuste fino de modelos (Finetuning)
- LoRA/QLoRA:
- El estándar para ajuste fino de modelos de bajo costo
- Aplicaciones principales:
- También compatible con modelos locales y con 4o de OpenAI (ver podcast)
- FSDP+QLoRA: material educativo
- DPO:
- Compatible con Preference Finetuning de OpenAI
- Popular como alternativa a PPO (paper), aunque con un rendimiento algo menor
- ReFT:
- Se enfoca en las características (features) del modelo en lugar de hacer ajuste fino a algunas capas existentes
- Enfoque eficiente de ajuste fino
- Orca 3/AgentInstruct:
- Método adecuado para generar datos sintéticos
- Investigación relacionada:
- Synthetic Data Picks de NeurIPS
- Ajuste con RL:
- RL Finetuning for o1 de OpenAI es un material importante, aunque controvertido
- Investigación relacionada:
- Let’s Verify Step By Step
- charla de Noam Brown
- Notebooks de Unsloth:
- Ofrece notebooks centrados en la práctica en GitHub
- Guía de HuggingFace:
- How to fine-tune open LLMs: guía profunda sobre todo el proceso de ajuste fino
Cierre de la lista de lectura 2025 para ingenieros de IA
- Esta lista puede parecer extensa e intimidante, pero está bien si la abandonas a medio camino. Lo importante es volver a empezar
- Seguirá actualizándose durante 2025 para mantener la información al día
- También está bien crear tu propio método de aprendizaje, pero consultar cómo leer papers en una hora puede ayudarte
- Puedes revisar consejos de lectura y aprendizaje aquí
- Aprender junto con la comunidad
- Grupos de Discord y Telegram:
- Grupo de Discord de Krispin: https://app.discuna.com/invite/ai_engineer
- Grupo de Telegram de Fed of Flow AI, activo en NYC: Telegram de AI NYC
- Únete a la comunidad de Discord de Latent Space: enlace de invitación a Discord
- Compartir notas y destacados:
- Blog iniciado por el lector Niels: notas sobre la lista de lectura 2025 para ingenieros de IA
- Grupos de Discord y Telegram:
3 comentarios
Viéndolo así, todavía hay muchísimos materiales que vale la pena revisar con mucho detalle.
Comentarios en Hacker News
La mayoría de los papers se enfocan más en adquirir conocimiento que en lograr una comprensión profunda. Si no estás familiarizado con el tema, es mejor empezar con libros de texto en lugar de papers. El más reciente de Bishop, "Deep Learning: Foundations and Concepts (2024)", y "AI Engineering (2024)" de Chip Huyen son buenos recursos. También se recomiendan "Dive into Deep Learning" y los materiales de fast.ai
No está claro qué significa la profesión de "AI Engineer", pero es válido preguntarse si de verdad hace falta leer papers de investigación. Si no trabajas en la frontera de la IA, leer papers puede no tener mucho sentido. Es más importante entender las respuestas de los LLM y construir apps fáciles de usar. Al usar las API de OpenAI o Groq, saber la diferencia entre "multi head attention" y "single head attention" no resulta especialmente útil
Armar una lista es una tarea difícil. Hay muchos candidatos adecuados además de los elegidos, así que conviene verla como un currículo y entender que los papers relevantes del momento son punteros móviles, no referencias fijas. Un club de lectura de papers trabaja con una lista de lectura específica
La mayoría de los métodos de instruction fine-tuning de los modelos open source provienen de Alpaca. También deberían incluirse papers sobre Alpaca y sobre generación de datos sintéticos
En vez de perder tiempo leyendo y tratando de entender papers sobre IA y LLM, es mejor leer sobre ELIZA e intentar construirlo por cuenta propia. Hay que enfocarse en tensores, vectores, campos, lingüística, arquitectura de computadoras y redes
La lista de lectura es de hace aproximadamente un año. En 2025, habría que enfocarse en técnicas como KTO, RLOO y DPO. En 2025, habría que concentrarse solo en destilación y optimización. CoT no es algo nuevo; la clave es el CoT modificado
Es interesante que el término "AI" haya sido absorbido casi por completo por los avances recientes en DL. No hay menciones de Russell & Norvig, Minsky, Shannon o Lenat. Si te interesa una introducción a temas más amplios de IA, la mayoría de los programas de posgrado usan el mismo libro
Es una gran investigación. Si se combina con el curso de abajo, se puede obtener el mejor resultado
Es una excelente lista
¿Qué significa exactamente construir Eliza por tu cuenta?