- Se seleccionaron 50 papers, modelos y blogs para ingenieros de IA, divididos en 10 áreas
- Incluye las áreas de LLMs, benchmarks, prompting, RAG, agentes, generación de código, visión, voz, difusión y fine-tuning
Sección 1: LLMs de vanguardia
- Modelos de OpenAI
- Modelos de Anthropic y Google
- Familia LLaMA relacionada con Meta
- Modelos de DeepSeek
- Apple Intelligence
- Apple Intelligence (paper) - modelo incluido en todas las Mac y iPhone
- Modelos e investigación adicionales destacados
- Modelos LLM
- Familia AI2: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
- Otros: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Investigación sobre Scaling Laws
- Modelos de última generación:
- Investigación sobre modelos de razonamiento:
Sección 2: Benchmarks y evaluación
- MMLU
- MMLU (paper): el estándar de los benchmarks de conocimiento multidisciplinario
- La investigación de vanguardia en 2025 usa MMLU Pro (paper), GPQA Diamond (paper) y BIG-Bench Hard (paper)
- GPQA (paper): enfocado en la generación de preguntas y la evaluación de respuestas correctas
- BIG-Bench (paper): benchmark a gran escala que incluye problemas de muchos tipos
- MuSR (paper): evaluación en contexto largo
- MATH (paper): colección de problemas de competencia matemática
- La investigación de vanguardia se enfoca en FrontierMath (paper) y en problemas de alta dificultad
- Subconjuntos: MATH Level 5, AIME, AMC10/AMC12
- IFEval (paper): benchmark clave para evaluar el seguimiento de instrucciones
- Adopción oficial por parte de Apple (enlace)
- Benchmark relacionado: MT-Bench (paper)
- ARC AGI (página oficial): benchmark de razonamiento abstracto y “test de IQ”
- Se mantiene relevante a largo plazo, a diferencia de otros benchmarks que se saturan rápidamente
- Material adicional de referencia
Sección 3: Prompting, ICL y cadena de pensamiento
- GPT-3 e In-Context Learning (ICL)
- Paper de GPT-3 (paper): introduce el concepto de In-Context Learning (ICL)
- ICL está estrechamente relacionado con el prompting, lo que permite que los LLM aprendan y apliquen conocimiento dentro del contexto
- Prompt Injection: manipulación de prompts y problemas de seguridad (resumen de Lilian Weng, serie de Simon Willison)
- The Prompt Report: survey de papers sobre prompting
- Panorama general: resumen del desarrollo global de las técnicas de prompting y de las tendencias más recientes (podcast relacionado)
- Chain-of-Thought (CoT):
- Modelado del proceso de razonamiento paso a paso
- Investigación relacionada:
- Scratchpads (paper)
- Let’s Think Step By Step (paper)
- Tree of Thought:
- Introduce los conceptos de lookahead y backtracking
- Método eficaz para resolver problemas complejos (podcast relacionado)
- Prompt Tuning:
- Permite ajustar el rendimiento del modelo sin prompts:
- Prefix-Tuning (paper)
- Ajuste de decodificación basado en entropía (GitHub)
- Representation Engineering (blog)
- Automatic Prompt Engineering:
- Método en el que el propio LLM genera y optimiza prompts
- Implementado en el framework DSPy (paper)
- Además de los papers de investigación, las guías prácticas también son útiles:
Sección 4: RAG (Retrieval-Augmented Generation)
- Introduction to Information Retrieval: referencia clásica que cubre los fundamentos de la recuperación de información
- RAG es un problema de recuperación de información (IR), estrechamente relacionado con un campo con más de 60 años de historia
- Tecnologías principales:
- TF-IDF, BM25: búsqueda basada en texto
- FAISS, HNSW: búsqueda vectorial y búsqueda de vecinos cercanos
- Meta RAG (artículo de 2020): primera aparición del término RAG
- MTEB: benchmark de evaluación de embeddings
- GraphRAG: integración de RAG y grafos de conocimiento de Microsoft
- GraphRAG:
- integra grafos de conocimiento en el flujo de trabajo de RAG para ofrecer mejores resultados con datos privados
- hecho open source (blog de Microsoft)
- Investigación relacionada:
- RAGAS: método simple de evaluación de RAG recomendado por OpenAI
- Materiales de aprendizaje y práctica de RAG
Sección 5: Agentes
- SWE-Bench:
- Un benchmark representativo para la evaluación de agentes (centrado en código)
- Adoptado por Anthropic, Devin, OpenAI y otros, con gran atención
- Material relacionado:
- Comparación: WebArena (GitHub), SWE-Gym (tuit relacionado)
- ReAct:
- El punto de partida de la investigación en LLM sobre uso de herramientas y llamadas a funciones
- Investigación relacionada:
- MemGPT:
- Enfoque de emulación de memoria a largo plazo
- Usos principales:
- Sistemas relacionados:
- Voyager:
- Enfoque de arquitectura cognitiva de Nvidia:
- Mejora del rendimiento usando currículum, biblioteca de habilidades y sandbox
- Expansión del concepto:
- Agent Workflow Memory (paper)
- Building Effective Agents de Anthropic:
- Resumen clave del diseño de agentes en 2024
- Temas principales:
- encadenamiento, enrutamiento, paralelización, orquestación, evaluación y optimización
- Material relacionado:
- Material adicional de estudio y cursos
Sección 6: Generación de código (CodeGen)
- The Stack paper
- Comenzó como la contraparte de código del dataset abierto The Pile
- Trabajo posterior:
- Papers de modelos de código abiertos
- HumanEval/Codex
- Benchmark imprescindible del dominio de programación (actualmente saturado)
- Benchmarks alternativos modernos:
- SWE-Bench
- Famoso por su evaluación centrada en agentes, pero costoso y más enfocado en evaluar agentes que modelos
- AlphaCodeium
- Basado en el rendimiento de AlphaCode y AlphaCode2 de Google
- Mejora drásticamente el rendimiento de modelos existentes usando Flow Engineering
- CriticGPT
- Enfocado en detectar problemas de seguridad que surgen durante la generación de código
- El CriticGPT de OpenAI fue entrenado para identificar problemas de seguridad
- Anthropic usa SAEs (Safety-relevant Activation Ensembles) para analizar rasgos del LLM que provocan problemas (investigación)
- En la industria, la generación de código está desplazando su centro desde la investigación hacia la práctica:
- Uso de agentes de código como Devin (video)
- Consejos prácticos sobre generación de código (YouTube)
Sección 7: Visión
- Investigación en visión basada en modelos no LLM
- YOLO:
- Famoso como modelo de detección de objetos en tiempo real
- Actualmente ha evolucionado hasta la v11 (GitHub)
- Investigación reciente: los modelos transformer basados en DETR muestran un rendimiento superior a YOLO
- Nota: prestar atención a las distintas versiones de YOLO y a su linaje evolutivo (discusión relacionada)
- CLIP:
- Un caso exitoso de modelo multimodal basado en ViT
- Modelos más recientes:
- CLIP sigue siendo un conocimiento de base importante
- Benchmark MMVP:
- Segment Anything Model (SAM):
- Early Fusion vs Late Fusion:
- Trabajo reciente aún no publicado:
- GPT4V System Card y estudios derivados (paper)
- OpenAI 4o:
- Modelos más recientes:
- Claude 3.5 Sonnet/Haiku
- Gemini 2.0 Flash
- o1
- Otros modelos:
Sección 8: Voz
- Whisper:
- Exitoso modelo de ASR de OpenAI
- Versiones principales:
- Whisper ofrece varios modelos con pesos abiertos, aunque algunas versiones no tienen paper
- AudioPaLM:
- AudioPaLM de Google es una investigación previa al cambio de PaLM a Gemini
- Referencia: exploración de voz de Llama 3 de Meta (paper)
- NaturalSpeech:
- Una de las investigaciones clave en TTS
- Recientemente actualizado a v3 (paper)
- Kyutai Moshi:
- Modelo abierto de voz a texto full-duplex
- Demo de alta calidad (YouTube)
- Modelo de referencia: Hume OCTAVE (blog)
- OpenAI Realtime API: The Missing Manual:
- Documentación no oficial sobre la API de voz en tiempo real de OpenAI
- Herramienta importante para trabajo reciente con agentes y en tiempo real
- Recomendación de varias soluciones más allá de los grandes laboratorios:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- Referencia: State of Voice AI 2024
- Modelo de voz de NotebookLM:
- Gemini 2.0: modelo multimodal que integra voz y visión de forma natural
- Después de 2025: la convergencia entre las modalidades de voz y visión está evolucionando como una ruta clara
Sección 9: Difusión de imagen/video
- Latent Diffusion:
- El paper fundamental de Stable Diffusion
- Versiones ampliadas:
- Actualmente el equipo está desarrollando BFL Flux
- Serie DALL-E de OpenAI:
- Serie Imagen de Google:
- Consistency Models:
- Trabajo de destilación de modelos de difusión
- Extensiones:
- Sora:
- Herramienta de texto a video de OpenAI (sin paper oficial)
- Referencias:
- ComfyUI:
- Áreas especializadas:
- Competencia de open weights:
- Comprender las tendencias más recientes:
- Uso de modelos Stable Diffusion y DALL-E
- Investigación sobre la convergencia entre las modalidades de texto y video
Sección 10: Ajuste fino de modelos (Finetuning)
- LoRA/QLoRA:
- El estándar para ajuste fino de modelos de bajo costo
- Aplicaciones principales:
- DPO:
- ReFT:
- Se enfoca en las características (features) del modelo en lugar de hacer ajuste fino a algunas capas existentes
- Enfoque eficiente de ajuste fino
- Orca 3/AgentInstruct:
- Método adecuado para generar datos sintéticos
- Investigación relacionada:
- Ajuste con RL:
- RL Finetuning for o1 de OpenAI es un material importante, aunque controvertido
- Investigación relacionada:
- Notebooks de Unsloth:
- Ofrece notebooks centrados en la práctica en GitHub
- Guía de HuggingFace:
Cierre de la lista de lectura 2025 para ingenieros de IA
- Esta lista puede parecer extensa e intimidante, pero está bien si la abandonas a medio camino. Lo importante es volver a empezar
- Seguirá actualizándose durante 2025 para mantener la información al día
- También está bien crear tu propio método de aprendizaje, pero consultar cómo leer papers en una hora puede ayudarte
- Puedes revisar consejos de lectura y aprendizaje aquí
- Aprender junto con la comunidad
- Grupos de Discord y Telegram:
- Compartir notas y destacados:
3 comentarios
Viéndolo así, todavía hay muchísimos materiales que vale la pena revisar con mucho detalle.
Comentarios en Hacker News
La mayoría de los papers se enfocan más en adquirir conocimiento que en lograr una comprensión profunda. Si no estás familiarizado con el tema, es mejor empezar con libros de texto en lugar de papers. El más reciente de Bishop, "Deep Learning: Foundations and Concepts (2024)", y "AI Engineering (2024)" de Chip Huyen son buenos recursos. También se recomiendan "Dive into Deep Learning" y los materiales de fast.ai
No está claro qué significa la profesión de "AI Engineer", pero es válido preguntarse si de verdad hace falta leer papers de investigación. Si no trabajas en la frontera de la IA, leer papers puede no tener mucho sentido. Es más importante entender las respuestas de los LLM y construir apps fáciles de usar. Al usar las API de OpenAI o Groq, saber la diferencia entre "multi head attention" y "single head attention" no resulta especialmente útil
Armar una lista es una tarea difícil. Hay muchos candidatos adecuados además de los elegidos, así que conviene verla como un currículo y entender que los papers relevantes del momento son punteros móviles, no referencias fijas. Un club de lectura de papers trabaja con una lista de lectura específica
La mayoría de los métodos de instruction fine-tuning de los modelos open source provienen de Alpaca. También deberían incluirse papers sobre Alpaca y sobre generación de datos sintéticos
En vez de perder tiempo leyendo y tratando de entender papers sobre IA y LLM, es mejor leer sobre ELIZA e intentar construirlo por cuenta propia. Hay que enfocarse en tensores, vectores, campos, lingüística, arquitectura de computadoras y redes
La lista de lectura es de hace aproximadamente un año. En 2025, habría que enfocarse en técnicas como KTO, RLOO y DPO. En 2025, habría que concentrarse solo en destilación y optimización. CoT no es algo nuevo; la clave es el CoT modificado
Es interesante que el término "AI" haya sido absorbido casi por completo por los avances recientes en DL. No hay menciones de Russell & Norvig, Minsky, Shannon o Lenat. Si te interesa una introducción a temas más amplios de IA, la mayoría de los programas de posgrado usan el mismo libro
Es una gran investigación. Si se combina con el curso de abajo, se puede obtener el mejor resultado
Es una excelente lista
¿Qué significa exactamente construir Eliza por tu cuenta?