Reseña de Andrej Karpathy sobre GPT-4.5

xguru · 2025-02-28T10:00:02+09:00

Hoy OpenAI lanzó GPT-4.5 La razón por la que esperamos casi 2 años desde el lanzamiento de GPT-4 es que esta versión brinda la oportunidad de medir cuantitativamente qué tanta mejora se obtiene al entrenar simplemente un modelo más grande Cada versión ".5" implica aproximadamente 10 veces más cómputo de preentrenamiento Proceso de evolución de los modelos GPT GPT-1 → casi no podía generar oraciones con sentido GPT-2 → estaba en un nivel de juguete torpe GPT-2.5 → en la práctica se saltó y se pasó directo a GPT-3 GPT-3 → mostró avances interesantes GPT-3.5 → avanzó lo suficiente como para lanzarse como producto real y desató el boom de ChatGPT GPT-4 → mejoró más, pero fue difícil encontrar un punto de "wow" claramente marcado En particular, al comparar GPT-4 vs GPT-3.5: La selección de palabras es más creativa y entiende mejor los matices del prompt Las analogías son más adecuadas y su sentido del humor mejora un poco También mejora la comprensión en áreas de conocimiento poco comunes y baja ligeramente la frecuencia de alucinaciones En general, se sentía como si todo hubiera mejorado un 20% Fue una mejora como cuando sube el agua y todos los barcos flotan Impresiones de las pruebas de GPT-4.5 GPT-4.5 pasó por 10 veces más preentrenamiento que GPT-4 Y tras probarlo, se repite de nuevo el mismo patrón de ese 20% Todo mejoró un poco Pero no hay un "punto claro de innovación" que se pueda señalar con precisión Aun así, es un indicador interesante e importante para medir la pendiente general de mejora de los modelos GPT-4.5 todavía no es un modelo de "razonamiento" A GPT-4.5 solo se le aplicaron preentrenamiento, aprendizaje supervisado (SFT) y RLHF Por eso, no mejora en problemas que requieren razonamiento lógico, como matemáticas o programación En estas áreas se necesita aprendizaje por refuerzo (RL) y entrenamiento de pensamiento sistemático, y por ahora el modelo OpenAI o1 muestra el mejor rendimiento Es muy probable que OpenAI tome GPT-4.5 como base y le aplique aprendizaje por refuerzo para convertirlo en un modelo que "piense" Con eso buscarían mejorar sus capacidades en matemáticas, lógica y programación Fortaleza de GPT-4.5: EQ Mejora en tareas donde no importa tanto el razonamiento lógico sino el conocimiento del mundo, la creatividad, la analogía y el sentido del humor, es decir, la inteligencia emocional (EQ) Por eso quiere hacer un experimento interactivo: "votación comparando GPT-4 vs GPT-4.5" Eligió prompts para evaluar 5 tipos de sentido del humor Para cada prompt, comparará las respuestas de GPT-4 y GPT-4.5 Hará el experimento en X (Twitter) usando imágenes (prompts y respuestas) + función de encuesta Después de 8 horas revelará qué respuesta corresponde a cada modelo

(x.com)

3 puntos por xguru 2025-02-28 | Aún no hay comentarios. | Compartir por WhatsApp

Hoy OpenAI lanzó GPT-4.5
La razón por la que esperamos casi 2 años desde el lanzamiento de GPT-4 es que esta versión brinda la oportunidad de medir cuantitativamente qué tanta mejora se obtiene al entrenar simplemente un modelo más grande
- Cada versión ".5" implica aproximadamente 10 veces más cómputo de preentrenamiento
Proceso de evolución de los modelos GPT
- GPT-1 → casi no podía generar oraciones con sentido
- GPT-2 → estaba en un nivel de juguete torpe
- GPT-2.5 → en la práctica se saltó y se pasó directo a GPT-3
- GPT-3 → mostró avances interesantes
- GPT-3.5 → avanzó lo suficiente como para lanzarse como producto real y desató el boom de ChatGPT
- GPT-4 → mejoró más, pero fue difícil encontrar un punto de "wow" claramente marcado
En particular, al comparar GPT-4 vs GPT-3.5:
- La selección de palabras es más creativa y entiende mejor los matices del prompt
- Las analogías son más adecuadas y su sentido del humor mejora un poco
- También mejora la comprensión en áreas de conocimiento poco comunes y baja ligeramente la frecuencia de alucinaciones
- En general, se sentía como si todo hubiera mejorado un 20%
- Fue una mejora como cuando sube el agua y todos los barcos flotan

Impresiones de las pruebas de GPT-4.5

GPT-4.5 pasó por 10 veces más preentrenamiento que GPT-4
Y tras probarlo, se repite de nuevo el mismo patrón de ese 20%
Todo mejoró un poco
- Pero no hay un "punto claro de innovación" que se pueda señalar con precisión
- Aun así, es un indicador interesante e importante para medir la pendiente general de mejora de los modelos

GPT-4.5 todavía no es un modelo de "razonamiento"

A GPT-4.5 solo se le aplicaron preentrenamiento, aprendizaje supervisado (SFT) y RLHF
Por eso, no mejora en problemas que requieren razonamiento lógico, como matemáticas o programación
En estas áreas se necesita aprendizaje por refuerzo (RL) y entrenamiento de pensamiento sistemático, y por ahora el modelo OpenAI o1 muestra el mejor rendimiento
Es muy probable que OpenAI tome GPT-4.5 como base y le aplique aprendizaje por refuerzo para convertirlo en un modelo que "piense"
Con eso buscarían mejorar sus capacidades en matemáticas, lógica y programación

Fortaleza de GPT-4.5: EQ

Mejora en tareas donde no importa tanto el razonamiento lógico sino el conocimiento del mundo, la creatividad, la analogía y el sentido del humor, es decir, la inteligencia emocional (EQ)

Por eso quiere hacer un experimento interactivo: "votación comparando GPT-4 vs GPT-4.5"

Eligió prompts para evaluar 5 tipos de sentido del humor
Para cada prompt, comparará las respuestas de GPT-4 y GPT-4.5
Hará el experimento en X (Twitter) usando imágenes (prompts y respuestas) + función de encuesta
Después de 8 horas revelará qué respuesta corresponde a cada modelo