- Hoy OpenAI lanzó GPT-4.5
- La razón por la que esperamos casi 2 años desde el lanzamiento de GPT-4 es que esta versión brinda la oportunidad de medir cuantitativamente qué tanta mejora se obtiene al entrenar simplemente un modelo más grande
- Cada versión ".5" implica aproximadamente 10 veces más cómputo de preentrenamiento
- Proceso de evolución de los modelos GPT
- GPT-1 → casi no podía generar oraciones con sentido
- GPT-2 → estaba en un nivel de juguete torpe
- GPT-2.5 → en la práctica se saltó y se pasó directo a GPT-3
- GPT-3 → mostró avances interesantes
- GPT-3.5 → avanzó lo suficiente como para lanzarse como producto real y desató el boom de ChatGPT
- GPT-4 → mejoró más, pero fue difícil encontrar un punto de "wow" claramente marcado
- En particular, al comparar GPT-4 vs GPT-3.5:
- La selección de palabras es más creativa y entiende mejor los matices del prompt
- Las analogías son más adecuadas y su sentido del humor mejora un poco
- También mejora la comprensión en áreas de conocimiento poco comunes y baja ligeramente la frecuencia de alucinaciones
- En general, se sentía como si todo hubiera mejorado un 20%
- Fue una mejora como cuando sube el agua y todos los barcos flotan
Impresiones de las pruebas de GPT-4.5
- GPT-4.5 pasó por 10 veces más preentrenamiento que GPT-4
- Y tras probarlo, se repite de nuevo el mismo patrón de ese 20%
- Todo mejoró un poco
- Pero no hay un "punto claro de innovación" que se pueda señalar con precisión
- Aun así, es un indicador interesante e importante para medir la pendiente general de mejora de los modelos
GPT-4.5 todavía no es un modelo de "razonamiento"
- A GPT-4.5 solo se le aplicaron preentrenamiento, aprendizaje supervisado (SFT) y RLHF
- Por eso, no mejora en problemas que requieren razonamiento lógico, como matemáticas o programación
- En estas áreas se necesita aprendizaje por refuerzo (RL) y entrenamiento de pensamiento sistemático, y por ahora el modelo OpenAI o1 muestra el mejor rendimiento
- Es muy probable que OpenAI tome GPT-4.5 como base y le aplique aprendizaje por refuerzo para convertirlo en un modelo que "piense"
- Con eso buscarían mejorar sus capacidades en matemáticas, lógica y programación
Fortaleza de GPT-4.5: EQ
- Mejora en tareas donde no importa tanto el razonamiento lógico sino el conocimiento del mundo, la creatividad, la analogía y el sentido del humor, es decir, la inteligencia emocional (EQ)
Por eso quiere hacer un experimento interactivo: "votación comparando GPT-4 vs GPT-4.5"
Aún no hay comentarios.