45 puntos por GN⁺ 2025-01-14 | 3 comentarios | Compartir por WhatsApp
  • Se seleccionaron 50 papers, modelos y blogs para ingenieros de IA, divididos en 10 áreas
  • Incluye las áreas de LLMs, benchmarks, prompting, RAG, agentes, generación de código, visión, voz, difusión y fine-tuning

Sección 1: LLMs de vanguardia

Sección 2: Benchmarks y evaluación

  • MMLU
    • MMLU (paper): el estándar de los benchmarks de conocimiento multidisciplinario
      • La investigación de vanguardia en 2025 usa MMLU Pro (paper), GPQA Diamond (paper) y BIG-Bench Hard (paper)
    • GPQA (paper): enfocado en la generación de preguntas y la evaluación de respuestas correctas
    • BIG-Bench (paper): benchmark a gran escala que incluye problemas de muchos tipos
  • MuSR (paper): evaluación en contexto largo
  • MATH (paper): colección de problemas de competencia matemática
    • La investigación de vanguardia se enfoca en FrontierMath (paper) y en problemas de alta dificultad
    • Subconjuntos: MATH Level 5, AIME, AMC10/AMC12
  • IFEval (paper): benchmark clave para evaluar el seguimiento de instrucciones
    • Adopción oficial por parte de Apple (enlace)
    • Benchmark relacionado: MT-Bench (paper)
  • ARC AGI (página oficial): benchmark de razonamiento abstracto y “test de IQ”
    • Se mantiene relevante a largo plazo, a diferencia de otros benchmarks que se saturan rápidamente
  • Material adicional de referencia

Sección 3: Prompting, ICL y cadena de pensamiento

Sección 4: RAG (Retrieval-Augmented Generation)

Sección 5: Agentes

  • SWE-Bench:
    • Un benchmark representativo para la evaluación de agentes (centrado en código)
    • Adoptado por Anthropic, Devin, OpenAI y otros, con gran atención
    • Material relacionado:
    • Comparación: WebArena (GitHub), SWE-Gym (tuit relacionado)
  • ReAct:
    • El punto de partida de la investigación en LLM sobre uso de herramientas y llamadas a funciones
    • Investigación relacionada:
  • MemGPT:
  • Voyager:
    • Enfoque de arquitectura cognitiva de Nvidia:
      • Mejora del rendimiento usando currículum, biblioteca de habilidades y sandbox
    • Expansión del concepto:
      • Agent Workflow Memory (paper)
  • Building Effective Agents de Anthropic:
    • Resumen clave del diseño de agentes en 2024
    • Temas principales:
      • encadenamiento, enrutamiento, paralelización, orquestación, evaluación y optimización
    • Material relacionado:
  • Material adicional de estudio y cursos

Sección 6: Generación de código (CodeGen)

  • The Stack paper
    • Comenzó como la contraparte de código del dataset abierto The Pile
    • Trabajo posterior:
  • Papers de modelos de código abiertos
  • HumanEval/Codex
    • Benchmark imprescindible del dominio de programación (actualmente saturado)
    • Benchmarks alternativos modernos:
    • SWE-Bench
      • Famoso por su evaluación centrada en agentes, pero costoso y más enfocado en evaluar agentes que modelos
  • AlphaCodeium
    • Basado en el rendimiento de AlphaCode y AlphaCode2 de Google
    • Mejora drásticamente el rendimiento de modelos existentes usando Flow Engineering
  • CriticGPT
    • Enfocado en detectar problemas de seguridad que surgen durante la generación de código
      • El CriticGPT de OpenAI fue entrenado para identificar problemas de seguridad
      • Anthropic usa SAEs (Safety-relevant Activation Ensembles) para analizar rasgos del LLM que provocan problemas (investigación)
  • En la industria, la generación de código está desplazando su centro desde la investigación hacia la práctica:
    • Uso de agentes de código como Devin (video)
    • Consejos prácticos sobre generación de código (YouTube)

Sección 7: Visión

Sección 8: Voz

  • Whisper:
  • AudioPaLM:
    • AudioPaLM de Google es una investigación previa al cambio de PaLM a Gemini
    • Referencia: exploración de voz de Llama 3 de Meta (paper)
  • NaturalSpeech:
    • Una de las investigaciones clave en TTS
    • Recientemente actualizado a v3 (paper)
  • Kyutai Moshi:
    • Modelo abierto de voz a texto full-duplex
    • Demo de alta calidad (YouTube)
    • Modelo de referencia: Hume OCTAVE (blog)
  • OpenAI Realtime API: The Missing Manual:
    • Documentación no oficial sobre la API de voz en tiempo real de OpenAI
    • Herramienta importante para trabajo reciente con agentes y en tiempo real
  • Recomendación de varias soluciones más allá de los grandes laboratorios:
  • Gemini 2.0: modelo multimodal que integra voz y visión de forma natural
    • Después de 2025: la convergencia entre las modalidades de voz y visión está evolucionando como una ruta clara

Sección 9: Difusión de imagen/video

Sección 10: Ajuste fino de modelos (Finetuning)

Cierre de la lista de lectura 2025 para ingenieros de IA

3 comentarios

 
kipsong133 2025-01-16

Viéndolo así, todavía hay muchísimos materiales que vale la pena revisar con mucho detalle.

 
GN⁺ 2025-01-14
Comentarios en Hacker News
  • La mayoría de los papers se enfocan más en adquirir conocimiento que en lograr una comprensión profunda. Si no estás familiarizado con el tema, es mejor empezar con libros de texto en lugar de papers. El más reciente de Bishop, "Deep Learning: Foundations and Concepts (2024)", y "AI Engineering (2024)" de Chip Huyen son buenos recursos. También se recomiendan "Dive into Deep Learning" y los materiales de fast.ai

  • No está claro qué significa la profesión de "AI Engineer", pero es válido preguntarse si de verdad hace falta leer papers de investigación. Si no trabajas en la frontera de la IA, leer papers puede no tener mucho sentido. Es más importante entender las respuestas de los LLM y construir apps fáciles de usar. Al usar las API de OpenAI o Groq, saber la diferencia entre "multi head attention" y "single head attention" no resulta especialmente útil

  • Armar una lista es una tarea difícil. Hay muchos candidatos adecuados además de los elegidos, así que conviene verla como un currículo y entender que los papers relevantes del momento son punteros móviles, no referencias fijas. Un club de lectura de papers trabaja con una lista de lectura específica

  • La mayoría de los métodos de instruction fine-tuning de los modelos open source provienen de Alpaca. También deberían incluirse papers sobre Alpaca y sobre generación de datos sintéticos

  • En vez de perder tiempo leyendo y tratando de entender papers sobre IA y LLM, es mejor leer sobre ELIZA e intentar construirlo por cuenta propia. Hay que enfocarse en tensores, vectores, campos, lingüística, arquitectura de computadoras y redes

  • La lista de lectura es de hace aproximadamente un año. En 2025, habría que enfocarse en técnicas como KTO, RLOO y DPO. En 2025, habría que concentrarse solo en destilación y optimización. CoT no es algo nuevo; la clave es el CoT modificado

  • Es interesante que el término "AI" haya sido absorbido casi por completo por los avances recientes en DL. No hay menciones de Russell & Norvig, Minsky, Shannon o Lenat. Si te interesa una introducción a temas más amplios de IA, la mayoría de los programas de posgrado usan el mismo libro

  • Es una gran investigación. Si se combina con el curso de abajo, se puede obtener el mejor resultado

  • Es una excelente lista

 
francomoon7 2025-01-16

¿Qué significa exactamente construir Eliza por tu cuenta?