Cómo usa la IA en la vida diaria y en el trabajo un cofundador de OpenAI

(stdy.blog)

46 puntos por spilist2 2025-03-04 | 3 comentarios | Compartir por WhatsApp

Resumen con capturas de How I use LLMs, la clase de IA para público general de Andrej Karpathy, cofundador de OpenAI, publicada el 28/2
Se hizo porque el video tiene mucho valor por sus distintos materiales de visualización y los ejemplos reales de uso de Karpathy, así que un simple resumen escrito no transmite bien la esencia del video

Hay varios tipos de LLM

ChatGPT es el más famoso y el que tiene más funciones. Además, también son conocidos estos:

Gemini de Google
Meta AI de Meta
Copilot de MS
Claude de Anthropic
Grok de xAI
Perplexity
DeepSeek de China
Le Chat de Mistral, de Francia

Cómo funciona ChatGPT

Un LLM se parece a un archivo zip con compresión con pérdida de 1 TB de todos los documentos de internet. Dentro hay una red neuronal artificial con billones de parámetros que va soltando probabilísticamente el “siguiente carácter”.

Ese archivo comprimido se crea con dos grandes tipos de entrenamiento.

Preentrenamiento: cuesta decenas de millones de dólares y toma más de 3 meses. Como es caro, no se puede hacer con frecuencia, y por eso existe el knowledge cutoff.

Postentrenamiento: ajuste fino con mucho menor costo. Hace que no solo escupa documentos de internet, sino que funcione como un Assistant que responde preguntas del usuario.

Aprendizaje supervisado con respuestas modelo (Supervised Fine-Tuning)
Aprendizaje por refuerzo basado en preferencias humanas sobre las respuestas generadas (Reinforcement Learning from Human Feedback)
Aprendizaje por refuerzo basado en respuestas ideales del Assistant a preguntas humanas (Reinforcement Learning on Conversation)

Cuando en ChatGPT se crea una nueva sesión y el usuario escribe un mensaje, eso se tokeniza y entra como input del modelo, y a partir de ahí el LLM genera el siguiente token. Además, toda esa conversación (input del usuario y output de ChatGPT) se guarda dentro de la Context Window.

La Context Window es parecida a la memoria de trabajo humana (Working Memory) y, como en las personas, también tiene límites. Cuanto más larga se vuelve, aumenta un poco la probabilidad de dar información inexacta y también se encarece un poco más generar la siguiente respuesta (= se vuelve más lento).

Por eso, si no es realmente necesario, mantener una misma sesión durante demasiado tiempo no suele ser una gran decisión.

Cuándo conviene usar un modelo de “Thinking”

Es un modelo al que, sobre un LLM ya entrenado con preentrenamiento/postentrenamiento, se le añadió aprendizaje por refuerzo para que pueda responder problemas complejos de STEM (ciencia, tecnología, ingeniería y matemáticas) mediante un proceso largo de razonamiento.

Como “piensa” mientras genera varios tokens, cuesta más tiempo y dinero, pero a cambio la precisión para responder problemas complejos sube de forma notable.

Ojo: que un modelo “piense” no garantiza que resuelva bien un problema, y al revés, un modelo sin “thinking” también puede resolverlo correctamente. (En un problema complejo de debugging que dio Karpathy, todos los modelos de thinking acertaron y ChatGPT-4o falló, pero Sonnet 3.5, Gemini 2.0 Pro y Grok 3 también acertaron sin Thinking).

Karpathy dice que primero prueba con un modelo non-thinking, que responde rápido, y si la respuesta le parece dudosa entonces usa Thinking.

Herramientas que ayudan al LLM

Búsqueda en internet

Hay modelos que pueden buscar en internet y otros que no. (No necesariamente solo búsqueda). Siempre hay que usarlos sabiendo qué puede hacer cada modelo.

La búsqueda es necesaria, sobre todo, porque por el Knowledge Cutoff no pueden responder con datos recientes. En los primeros días de ChatGPT esto no se podía hacer, y Perplexity rompió esa barrera y atrajo a muchos usuarios.

Según la consulta del usuario, el sistema decide “esto hay que buscarlo”, tokeniza los resultados de internet y responde con eso ya metido en la Context Window. (A veces puede ser necesario pedir explícitamente que busque).

Karpathy últimamente muchas veces pregunta a Perplexity en vez de googlear. Ya tiene el hábito de pensar “este tipo de información se la tengo que preguntar a Perplexity”.

Cosas que parece que podrías averiguar buscando en Google y haciendo clic en unas pocas ligas de arriba (si hoy abre la bolsa, cuándo se filmó la temporada 3 de White Lotus, etc.)
Información que cambia constantemente y necesita estar actualizada (si Vercel da soporte a Postgresql, qué están haciendo ahora los actores de Single’s Inferno temporada 4, etc.)

Deep Research

Dicho de forma simple, es búsqueda en internet + Thinking. Si es largo, puede estar buscando durante decenas de minutos, y luego organiza con Thinking la información obtenida para producir un reporte.

Una característica de Deep Research de ChatGPT es que, para hacer un mejor reporte, antes pregunta cuál es la intención de quien consulta y en qué se debe enfocar. Perplexity también tiene una función similar de deep research, y Grok3 tiene “deep search”. Cada uno difiere en velocidad y calidad.

Igual que con la búsqueda en internet, también aquí hay que tener cuidado porque la respuesta puede no ser exacta. Conviene revisar directamente las fuentes, pero aun así es “un borrador muy útil”.

Karpathy ha hecho unas 20 investigaciones profundas, y le pareció que la respuesta de ChatGPT fue la mejor porque era la más larga en información significativa. Algunos de los temas que le planteó fueron:

Entender cierto ingrediente de suplementos para la salud
Entre Brave Browser y Arc Browser, cuál es mejor en seguridad y privacidad
¿Cuál es la tecnología más reciente para aumentar la esperanza de vida de los ratones? ¿Qué tipos de intervención se han probado? Yo vengo del mundo de ML y estoy acostumbrado a definir y mejorar métricas de evaluación. ¿La longevidad de los ratones también se evalúa así?
Hazme una tabla de todos los laboratorios importantes de investigación en LLM dentro de EE. UU.: cuándo se fundaron, cuánta gente trabaja ahí y si han recibido buen financiamiento.

Intérprete de código

El LLM escribe código, lo ejecuta y luego mete el resultado en el contexto para responder. Hay Python y también JavaScript. Bien usado, es muy potente. Es como tener un junior muy capaz.

Hacer análisis de datos con ChatGPT 4o
Crear con Claude una app de flashcards que resume el contenido de un libro
Crear con Claude un diagrama Mermaid que visualiza el contenido de un libro
Crear un juego de tres en raya con Cursor y mejorarlo agregando efectos para el ganador solo chateando

Modalidad

No solo se intercambia texto con un LLM; también se puede trabajar con audio, imágenes y video.

Entrada y salida de audio

Para entrada de audio, Karpathy usa apps de dictado en Mac como SuperWhisper, WisprFlow, MacWhisper. Dice que ahora más o menos la mitad de lo que antes tecleaba lo dice hablando.

La salida de audio normalmente viene como función dentro de la app. También sirve para leer la pantalla en voz alta.

Pero estas herramientas, en el fondo, siguen intercambiando texto. Como primero hacen Speech-to-Text y luego Text-to-Speech, son lentas.

También es posible interactuar con el LLM realmente solo con audio. Es decir, tokenizar la información de audio. A esto Karpathy lo llama True Audio, y en ChatGPT se llama Advanced Voice Mode.

Video de demostración de conversación donde le hace hablar con distintos acentos y velocidades, e incluso imitar sonidos de animales

Grok3 también ofrece Advanced Voice Mode en su app móvil. Tiene varios modos sin filtro, como modo sexy o modo con groserías, y en ese sentido puede ser más divertido e interesante.

Video de demostración de conversación de Karpathy con Grok3

NotebookLM también permite subir archivos para analizarlos y, con base en ese contenido, hacer que varios presentadores conduzcan un pódcast con voces naturales. Incluso se puede intervenir entre medio y hacer preguntas libremente (Interactive Mode).

Karpathy solía crear y escuchar pódcasts sobre áreas donde no tiene mucha especialidad pero sí curiosidad. Los pódcasts que hizo así también los subió a Spotify con el nombre de Histories of Mysteris

Entrada y salida de imágenes

Karpathy tiene el hábito de, cuando usa OCR, primero verificar que realmente leyó bien y solo después preguntar por el contenido. Eso porque siempre existe la posibilidad de que haya leído algo mal.

Usos reales: revisar información nutricional de suplementos, análisis e interpretación de sangre, obtener una versión en LaTeX de una fórmula, interpretar memes, etc.

La salida de imágenes se hace con DALLE, IdeoGram y otros. La generación de imágenes no es una función integrada del LLM, sino que este envía un prompt a un modelo aparte y luego trae de vuelta la imagen generada.

Entrada y salida de video

Como con el audio, se puede responder usando Advanced Voice + Video como entrada. Es posible en la app móvil. Más que meter video real como input al LLM, probablemente lo que hace es tomar el video por ciertos fotogramas y convertirlo en entradas de imagen.

Karpathy no lo usa mucho personalmente, pero le parece bueno porque incluso personas con poco trasfondo técnico, como la generación de sus padres, pueden hacer preguntas y obtener respuestas de inmediato.

Video de demostración

Para salida de video existen varios modelos, incluyendo Sora. Karpathy siente que por ahora Google Veo 2 es el más realista.

Comparación de 9 modelos de video

Funciones adicionales

Memoria

Durante el intercambio con el usuario, si hay algo de lo que el sistema piensa “si recuerdo esto podré responder mejor”, o si el usuario pide explícitamente que lo recuerde, se guarda con el mensaje Memory Updated
= Se puede pensar que eso entra en la Context Window cada vez que se crea un chat nuevo. También se puede ver y administrar la lista completa

Customize

Si se guarda cómo llamar al usuario, en qué trabaja, cómo quiere que se le responda, etc., eso también entra en la context window al responder
Como Karpathy está aprendiendo coreano últimamente, está experimentando con poner ahí información relacionada

Custom GPTs

Karpathy está usando varios GPTs que creó para estudiar coreano. Usa prompts simples con Few-Shot.

Korean Vocabulary Extractor: descompone una oración en coreano y extrae términos

Korean Detailed Translator: parecido al anterior, pero traduce haciendo correspondencia palabra por palabra

KoreanCap: si le das una captura de imagen, hace OCR, traduce y además desglosa palabra por palabra incluyendo la pronunciación

3 comentarios

halfenif 2025-03-06

> 'Escupe' probabilísticamente la 'siguiente letra'

No se me ocurre una descripción más adecuada que esa.

ned0909 2025-03-05

Es curioso estudiar coreano.

stadia 2025-03-04

https://youtube.com/watch/… Véalo con subtítulos