El Zen y el arte de la investigación en aprendizaje automático

(blog.jxmo.io)

3 puntos por GN⁺ 5 시간 전 | 2 comentarios | Compartir por WhatsApp

La investigación en IA de clase mundial no depende solo del talento; el temperamento para resistir mucho tiempo, alternando entre leer y construir una y otra vez, es lo que termina marcando la diferencia en los resultados
La elección del tema debe partir de una comprensión profunda de conceptos fundamentales como cross-entropy, SVD y policy gradients, no de palabras de moda con seis meses de vida
Una buena investigación no debe quedarse en subir puntajes de benchmarks existentes; también debe encontrar datasets que pongan a prueba las capacidades que el nuevo método realmente revela
Los resultados experimentales, sean buenos o malos, aportan información, pero cuanto mejor parece un resultado, más probable es que haya un bug o una medición incorrecta, por lo que hace falta una paranoia saludable
Los agentes de código aumentan la velocidad, pero también agravan la falta de comprensión del sistema y el cambio de contexto, así que hay que entender directamente todo el sistema que produjo el resultado

El punto de partida para convertirse en investigador

La investigación en IA comienza repitiendo tanto la lectura y el aprendizaje como el acto de construir algo por cuenta propia
Hacer solo una de las dos cosas no basta; un investigador se forma yendo y viniendo entre ambas actividades
Investigar se parece a meditar: hay que sentarse tanto el día en que llega la intuición como el día en que no llega
La intuición científica aparece casi al azar, y la mayoría de los días no aparece
Como en la música, el deporte o las ventas, llegar a un nivel mundial requiere mucho tiempo, esfuerzo y una gran carga de entrenamiento
En el paper de SwiGLU, Noam Shazeer escribió: “No explicamos por qué esta arquitectura funciona, y atribuimos su éxito, como todo lo demás, a la misericordia de Dios”, mostrando así lo aleatorio que puede ser el éxito de una idea de investigación
Leer demasiados papers también puede ser un problema
- Un camino comprobado es intentar primero una solución, trabarse, resolverlo por cuenta propia y recién buscar literatura cuando ya se agotaron las ideas propias

Qué investigar

Si vas empezando, el tema exacto de investigación en sí no es tan importante
Aun así, conviene evitar elegir un tema que se puso de moda hace menos de seis meses
- La IA se mueve rápido, pero las ideas fundamentales no han cambiado tanto en 40 años
- No conviene apostar demasiado la carrera a conceptos como harnesses, agents o context engineering de 2026
Para aprender más, hay que volver a lo básico
- Hay que aprender qué es cross-entropy y calcularla a mano sobre distribuciones pequeñas
- Hay que entender SVD con la profundidad suficiente como para poder visualizarla mentalmente
- No hay que mirar solo RL para programación; también hay que aprender la idea detrás de policy gradients, su utilidad y por qué fueron populares durante décadas
Si el mejor resultado posible de un proyecto es solo subir el puntaje de un benchmark existente, entonces no es lo bastante profundo
- Muchas veces los datasets existentes no logran poner a prueba capacidades nuevas e interesantes
- Jason Wei considera que encontrar datasets que obliguen a ejercer la capacidad en la que realmente funciona un método nuevo es una habilidad subestimada pero decisiva en la investigación en IA
El tema concreto hay que encontrarlo por cuenta propia, profundizando, enfocándose en los fundamentos y evitando quedar atrapado en la persecución de benchmarks

Mente de principiante y criterio abierto

La frase de Suzuki, “En la mente del principiante hay muchas posibilidades; en la del experto, pocas”, también aplica a la investigación
En la investigación moderna en IA, en Silicon Valley se repite mucho que la experiencia previa en investigación de IA incluso puede jugar en contra de una buena intuición de investigación
Algunos investigadores de la era pre-scaling siguieron enfocados en diseñar métodos que funcionan a pequeña escala pero fracasan cuando se amplían
En OpenAI, muchos de quienes dirigen la empresa en lo técnico tienen menos de 35 años, y muchos de los tomadores de decisiones importantes de ChatGPT tienen menos de 30
Como se trata de un campo temprano donde ni siquiera han pasado cuatro años desde que salió ChatGPT, nadie tiene una ventaja aplastante por haber trabajado muchísimo más tiempo
Aferrarse demasiado a una idea puede salir al revés, así que hay que mantener una mente abierta y no dejar que el ego nuble el juicio

La inspiración también viene de fuera de la investigación

La inspiración llega en momentos inesperados
El descubrimiento de la estructura del anillo de benzene es famoso por haber surgido en un sueño
- Era una estructura nunca antes vista, pero fue imaginada como la imagen de una serpiente que se muerde la cola
Ozempic es un caso que surgió a partir de un lagarto
- La hormona GLP-1 que Ozempic imita fue descubierta por primera vez en el veneno del monstruo de Gila, un lagarto del desierto que come solo unas cuantas veces al año
- Ese descubrimiento llevó a un mecanismo que también funciona en humanos
Para hacer buena investigación, también hay que hacer cosas que no sean investigación
Muchos momentos de “ajá” no ocurren frente al teclado, sino especialmente durante una caminata
Pensadores como Darwin, Tesla, Feynman y Aristotle hablaron de los grandes beneficios de estirar las piernas y caminar un poco

Cómo abordar los resultados experimentales

Incluso si algo está implementado a la perfección, la idea puede no ser fundamentalmente cierta
Al analizar experimentos, hace falta una ecuanimidad experimental que permita recibir como valiosos tanto los resultados que salieron bien como los que no
Ambos tipos de resultado aportan la misma cantidad de información
- A veces se puede aprender más de una secuencia de resultados negativos que de un solo resultado positivo
No hay que entusiasmarse demasiado con los buenos resultados
- Una parte importante de los buenos resultados aparece por bugs
- Puede que el resultado no sea realmente bueno, sino que fue mal medido y uno mismo se convenció de que sí
Es natural querer que una idea propia funcione, pero los investigadores con experiencia comparten un fuerte escepticismo, especialmente ante resultados que parecen demasiado buenos
Los resultados que parecen demasiado buenos casi siempre son distintos de la realidad

Comparación, suerte y profundidad

La investigación está fuertemente orientada a los resultados
Especialmente en la academia, es fácil desestabilizarse emocionalmente al ver el éxito de los papers de otras personas
La gente tiene éxito por razones distintas
- Algunos tienen suerte
- El proceso de revisión académica no es ni consistente ni justo
Cuando aparece una nueva investigación admirable en tu área, hay que preguntarse: “¿Estaba trabajando con la profundidad suficiente como para haber podido producir yo mismo esta intuición?”
- Si la respuesta es “sí”, entonces el proceso iba bien, pero no se hizo ese descubrimiento porque se estaba ocupado con otra cosa
- Si la respuesta es “no”, entonces hay que tomarlo como motivación para profundizar más

El trabajo repetitivo que no se ve

Igual que el dicho de que antes de la iluminación se corta leña y se acarrea agua, y después de la iluminación se corta leña y se acarrea agua, en la investigación también hay mucho trabajo repetitivo
En muchos proyectos exitosos hay cientos de horas de trabajo rutinario detrás de escena
Andrej Karpathy etiquetó a mano una parte considerable de ImageNet
Los creadores de SWEBench filtraron cuidadosamente datos de GitHub durante cientos de horas para construir un conjunto pequeño y manejable de issues de GitHub útil para evaluación
Al mirar la carrera de grandes investigadores, se ve que antes del éxito pasaron mucho tiempo trabajando fuera de foco
Cuanto más ambiciosa y orientada al futuro sea una idea, más trabajo puede requerir su implementación y evaluación rigurosas; esa dificultad no es un defecto, sino una característica

El hábito de investigación de sospechar de los bugs

Collin Raffel cree que muchas ideas fracasan no porque sean malas, sino por bugs de código que el investigador no encontró
En el mundo de los LLM, este problema es especialmente difícil
El stack moderno de software de deep learning es muy complejo y puede haber bugs en cualquier parte
- entrenamiento
- inferencia
- harness
- datos
Si algo parece estar mal, no hay que dejarlo pasar
Hay que registrar muchas métricas e intentar entenderlas todas
Si algunas métricas difieren de lo esperado, hay que encontrar la razón; realmente podría haber algo mal
Una de las características importantes de un investigador es la paranoia saludable

Feedback rápido y cambio de contexto

La mayoría de los experimentos de deep learning tardan demasiado
- Entrenar un modelo puede llevar semanas o meses
- Incluso evaluar un modelo en una sola tarea puede tomar días
Al programar con agentes, puede surgir la tentación de lanzar varios experimentos en paralelo y ejecutarlos en ciclos lentos
La paralelización simple ayuda hasta cierto punto, pero el cambio de contexto es un patrón dañino
Hay que diseñar un workflow de investigación ergonómico que favorezca feedback experimental rápido
- Hay que reducir el tiempo de cold start del entrenamiento
- Hay que crear evaluaciones pequeñas que devuelvan resultados rápido
El nanoGPT speedrun de Keller Jordan muestra cuánto se puede aprender con ciclos de iteración rápidos
Algunos resultados inevitablemente seguirán tardando mucho
- La capacidad de mantener el estado a lo largo de varios días y entender hoy un experimento que terminó la semana pasada es muy valiosa

Problemas que los agentes de código empeoran

Los agentes de código permiten avanzar más rápido, pero agravan dos problemas
- Se vuelve más difícil entender los detalles fundamentales
- El cambio de contexto se vuelve más frecuente
Un buen investigador tiene que trabajar activamente contra esas dos fuerzas
Codex puede escribir un script de entrenamiento, ejecutarlo, monitorearlo mientras corre, interpretar los resultados y enviarlos por email
Pero pueden aparecer pequeños errores como estos
- Al surgir un error, reduce el system prompt sin preguntar
- Reduce la sequence length para que la evaluación termine en un tiempo razonable
- Ejecuta una config incorrecta porque el usuario no lo especificó explícitamente
Desde el punto de vista de ingeniería, pueden parecer errores pequeños y fáciles de corregir, pero desde el punto de vista científico son graves
- Incluso una omisión pequeña puede cambiar materialmente un resultado importante de un paper
- Por lo tanto, no puede aceptarse
Aunque no hayas escrito tú mismo el código, para entender un resultado tienes que entender el sistema que lo produjo
La buena ciencia exige aprender cómo funciona todo el sistema, para poder tener confianza en que lo observado es verdadero

El temperamento que hace investigación

Lo que se necesita para convertirse en un investigador exitoso no es solo talento
El temperamento está muy subestimado
Hay que mantener la curiosidad y la perseverancia, y seguir siendo reflexivo y meticuloso, para que las ideas lleguen
La mejor investigación y el mejor trabajo de producto salen de personas capaces de sostener un problema el tiempo suficiente para entenderlo de verdad
La presión por publicar rápido e iterar existe de verdad, pero la acumulación se construye desde la profundidad

2 comentarios

GN⁺ 5 시간 전

Comentarios de Hacker News

El Zen del que se habla en Occidente y el seon (禪) de Asia Oriental se sienten bastante distintos
El Zen occidental probablemente se parece más a la imagen asociada al libro de los años 70 Zen and the Art of Motorcycle Maintenance, y en general tiene el matiz de ecuanimidad y mente de principiante
En cambio, el seon de Asia Oriental pone de verdad más peso en la ausencia de propósito o en no tener un objetivo
El Zen occidental parece más bien orientado a entrenar el yo para volverlo más fuerte, mientras que el seon de Asia Oriental se acerca más a seguir la naturaleza, soltar el yo y dejar que las cosas fluyan
En la práctica real del seon, el foco está en cuestionar el yo, soltar el apego y darse cuenta de que el afán de logro, comparación y control es vano
Hay una expresión famosa, banghajag (放下著), es decir, “suéltalo todo”
Más bien, la filosofía estoica de la antigua Roma parece más cercana al seon que el Zen occidental
Por eso, al ver este texto pensé que sería sobre si hay que renunciar al deseo de éxito, pero fue en una dirección completamente distinta y eso me pareció interesante
- De forma parecida, el estoicismo del que se habla en Occidente parece enfocarse sobre todo, en la superficie, en controlar o reprimir las emociones
  En cambio, el estoicismo que sería más correcto llamar “romano” se parece mucho más a un sistema ético integral
- La expresión “To be done with doing” de las novelas de Earthsea de Ursula K. LeGuin siempre me ha parecido muy poderosa
  Condensa un estado mental en cinco palabras, y recuerdo también haber leído que su escritura recibió una fuerte influencia de la filosofía oriental
- Si el contexto es que “el seon de Asia Oriental pone más peso en la ausencia de propósito o en no tener un objetivo”, entonces recomendaría mucho Idler magazine
  Es un recurso excelente sobre maneras de existir sanamente sin un propósito
  https://www.idler.co.uk/article/leisure-principles/
  https://archive.is/nKJM2
- Yo veo el seon como algo relacionado con la meditación, con aquietar los pensamientos y experimentar el momento presente
  Cuando eso ocurre, el cerebro descansa al salir del estado de “perseguir pensamientos”, y después de dejar de meditar puedes concentrarte mejor y lograr más cosas
  Probablemente también sea cierto que muchos practicantes occidentales del Zen descubren esto y usan la meditación con ese fin
  Si pensamos en Star Wars, “la Fuerza” se representa como la capacidad de levantar una nave espacial con el poder de la concentración, pero eso es un mito
  En cambio, cuando se alcanza un estado mental zen, pasa a importar menos si puedes o no levantar esa nave
  En la tradición oriental, el seon es un fin en sí mismo
  Me pregunto si eso se acerca más a lo que originalmente se quería decir
Hacia 2015 terminé gestionando al mismo tiempo a ingenieros backend y a ingenieros de machine learning
Muchos de los ingenieros backend querían hacer más machine learning y, cuando se les dio la oportunidad, algunos lo hicieron bien, pero otros al cabo de unos meses querían volver a backend
Al mismo tiempo, uno de los líderes de machine learning quería apartarse de ML y dedicarse solo al trabajo backend que apoyaba al machine learning
Al ver ese patrón, empecé a pensar que cada persona tiene una frecuencia distinta con la que necesita confirmar señales de éxito
Por la naturaleza del producto, para medir el rendimiento de un modelo nuevo o actualizado había que ejecutarlo en producción durante al menos un mes completo, y desde el trabajo inicial hasta el análisis final normalmente pasaban más de dos meses
En cambio, muchas tareas de backend permiten hacer un prototipo rápido, ejecutarlo, comprobar de inmediato si funciona y pasar a lo siguiente, así que las señales llegan todo el día
Esa diferencia en la frecuencia de señales que cada persona necesita influyó mucho en si disfrutaban o no el trabajo en machine learning
Era como una especie de feature engineering en versión de gerente, y aprendí muchísimo de la gente de ese equipo
- He visto el mismo fenómeno y siempre me he preguntado cómo se podría gestionar de forma efectiva
  El equipo de ingeniería de datos quería hacer más ciencia de datos, y dos científicos de datos querían los dos volverse ingenieros de datos
  Uno de ellos decía que como todos querían ser científicos de datos y eso ya estaba demasiado saturado, se podía ganar más dinero como ingeniero de datos
  En otra ocasión, un amigo se quejaba de que tenía que salir del frontend puro porque era una carrera sin salida, y al día siguiente en el almuerzo un colega estaba pensando en cambiarse porque los desarrolladores frontend se llevaban todo el crédito
La frase “me siento los días en que tengo ideas brillantes; me siento también los días en que no las tengo” me hizo recordar una respuesta que Ed Witten dio en una entrevista con Brian Greene
Cuando Greene le preguntó cómo era un día normal en el Institute for Advanced Study, Witten respondió: “Me siento en el escritorio”
El texto tiene como centro una sensibilidad de “ve más hondo”, y creo que eso es un arma de doble filo
Es cierto que la entropía, los tensores y los gradientes importan y son casi un requisito básico
Pero creo que la mayor parte de los avances del deep learning en los últimos diez años no vinieron de ideas fundamentales, sino de prácticas incrementales validadas por experimentación
Hay buena intuición sobre por qué ReLU es mejor que sigmoid, pero incluso el paper original de Hinton era, en gran medida, algo como “porque entrena 3 veces más rápido”
Volver a pensar los fundamentos puede ayudar, pero es raro que el progreso real ocurra bajo la lógica de “cambiemos las bases”
Incluso papers importantes como AlexNet o Attention Is All You Need más bien refinaron ideas existentes y mostraron cómo ayudaban
El machine learning es una ciencia experimental, y muchas ideas matemáticamente elegantes no funcionan, mientras que las ideas de ingeniería sí suelen funcionar bien
Tampoco sé si el consejo de que “una de las características más importantes para un investigador es una paranoia saludable” es mejor que “la depresión le viene bien al filósofo”, porque he visto a demasiados doctorandos quedar completamente quemados
Si lo que significa es que hay que ser un explorador tenaz, entonces sí estoy de acuerdo
Aferrarse demasiado tiempo a una idea puede ser contraproducente, y coincido con la conclusión de que hay que mantener la mente abierta y no dejar que el ego nuble el juicio
Fue un ensayo realmente excelente y muy agradable de leer
Como decía el autor, no solo en la investigación sino en muchos campos, el éxito o el progreso dependen mucho del temperamento
Al final, lo importante son una buena actitud, la paciencia, la curiosidad innata y la resiliencia frente al fracaso
Las capacidades que forman a un buen investigador se transfieren muy bien a otros campos
Pero, por culpa de una cultura que reduce la capacidad de tolerar la incomodidad a una comodidad extrema, esas capacidades parecen volverse cada vez más raras y más valiosas
A la gente cada vez le cuesta más esperar o fracasar
Como dato tangencial sobre la etimología de la palabra Zen, Zen es una palabra japonesa que viene del chino Chan, y Chan viene del sánscrito Dhyana
Dhyana se traduce aproximadamente como concentración o meditación
La secuencia sánscrito → chino → japonés refleja la ruta geográfica por la que el budismo se expandió desde la India
La misma palabra en vietnamita y coreano es Thien y Seon, respectivamente
Creo que este fenómeno ocurre porque el machine learning se parece más a la biología o la alquimia que a las matemáticas o la programación
En matemáticas o programación se puede bajar hasta los primeros principios, las abstracciones son sólidas y la no determinación es limitada, pero en machine learning no es así
En una línea similar, resulta bastante ridículo y miope que Anthropic mantenga abiertas vacantes pero prohíba usar sus propios productos para investigación de modelos frontier
No sé de dónde creen que va a salir ese talento
Parece una decisión precipitada, y da la impresión de que algún día podría provocar una demanda anticompetencia
La parte que dice que “lo impresionante de OpenAI es que quienes dirigen la empresa, al menos la mayoría del lado técnico, tienen menos de 35 años. Muchos de los tomadores de decisiones importantes detrás de ChatGPT tienen menos de 30” parece sugerir que todavía hay margen de mejora, porque incluso durante la fiebre del oro la mayoría de los 49ers tenía menos de 25 años
Siguiendo con la analogía, muchos héroes de la IA podrían ser personas que desde el principio estuvieron cerca de los grupos de TPU y GPU
- Haber tenido mayor probabilidad de estar cerca de esos recursos iniciales probablemente fue mucho más común entre personas que estaban obsesionadas con esto hasta un punto difícil de explicar, incluso cuando el machine learning/IA era visto en cierto momento como un campo ampliamente pasado de moda
El punto central de este texto parece ser “no confíes demasiado en los paquetes de evaluaciones actuales”
Los puntajes solo reflejan una parte del problema
Lo interesante es descubrir métricas de evaluación nuevas y estables, y ver si al hacer cosas nuevas con base en eso aparecen resultados inteligentes e inesperados
- Esa parte sin duda también está incluida
  Pero el punto central está en que enfocarse en problemas propuestos por otros es una forma de pensar muy específica y bastante cortoplacista
  Un buen investigador mejora las puntuaciones en benchmarks, y un gran investigador piensa en qué problema está resolviendo

laeyoung 1 시간 전

El resumen de comentarios de Hacker News también está divertido.

El Zen y el arte de la investigación en aprendizaje automático

El punto de partida para convertirse en investigador

Qué investigar

Mente de principiante y criterio abierto

La inspiración también viene de fuera de la investigación

Cómo abordar los resultados experimentales

Comparación, suerte y profundidad

El trabajo repetitivo que no se ve

El hábito de investigación de sospechar de los bugs

Feedback rápido y cambio de contexto

Problemas que los agentes de código empeoran

El temperamento que hace investigación

Lecturas relacionadas

2 comentarios

Comentarios de Hacker News