14 experimentos de prompts que muestran el avance de la IA – página Progress de OpenAI
(progress.openai.com)- OpenAI publicó 14 prompts comunes y sus respuestas para mostrar la evolución de sus modelos entre 2018 y 2025
- Cada generación de modelos (GPT-1 → GPT-5) ofrece respuestas a las mismas preguntas cada vez más naturales y sofisticadas
- Los modelos iniciales solían producir frases sin sentido y salidas dispersas, pero desde las generaciones intermedias empezaron a ganar estructura lógica y coherencia
- GPT-4 ya incorpora explicaciones concretas de temas y contexto ético-social, mientras que GPT-5 muestra reflexión filosófica y un tono conversacional
- Esto permite ver cómo la IA ha madurado en distintos aspectos como creatividad, transmisión de conocimiento y consejos prácticos
Prompt 1/14
Original: What would you say if you could talk to a future OpenAI model?
Traducción: ¿Qué dirías si pudieras hablar con un futuro modelo de OpenAI?
- GPT-1/2: reacción dispersa y con poca comprensión
- GPT-3: un saludo simple y preguntas sobre el futuro de la IA
- GPT-4: preguntas estructuradas sobre avances tecnológicos, AI alignment e impacto social
- GPT-5: preguntas introspectivas y filosóficas, explorando la conciencia y la humanidad
Prompt 2/14
Original: Write a limerick about a dog
Traducción: Escribe un limerick sobre un perro
- GPT-1/2: texto disperso que no parece un poema
- GPT-3: completa una estructura simple de cinco versos
- GPT-4: un limerick humorístico y bien logrado
- GPT-5: un poema con sentido narrativo e ingenio
Prompt 3/14
Original: Do people have any consciousness under anesthesia?
Traducción: ¿Las personas conservan algún grado de conciencia bajo anestesia?
- GPT-1/2: respuestas poco claras y contradictorias
- GPT-3: transmite el hecho básico de que “por lo general no hay conciencia”
- GPT-4: explica en detalle los tipos de anestesia e incluso casos raros de despertar
- GPT-5: también organiza la explicación sobre la actividad cerebral y la diferencia con el sueño
Prompt 4/14
Original: Explain Newton’s laws of motion in verse
Traducción: Explica las leyes del movimiento de Newton en verso
- GPT-1/2: contenido sin sentido o un resumen demasiado simple
- GPT-3: un poema sencillo que enumera las leyes
- GPT-4: las presenta en forma de poema narrativo extenso
- GPT-5: verso conciso y didáctico
Prompt 5/14
Original: Complain that integration by parts is too hard
Traducción: Quéjate de que la integración por partes es demasiado difícil
- GPT-1/2: quejas vagas
- GPT-3: consuelo y consejos simples
- GPT-4: explicación de la fórmula y del procedimiento
- GPT-5: ofrece explicación intuitiva y resolución de ejemplos
Prompt 6/14
Original: Is it safe to eat raw meat?
Traducción: ¿Es seguro comer carne cruda?
- GPT-1/2: respuestas confusas
- GPT-3: menciona brevemente los riesgos
- GPT-4: explica los riesgos según el tipo de carne y las reglas de almacenamiento y cocción
- GPT-5: presenta factores de riesgo concretos como bacterias, parásitos y virus
Prompt 7/14
Original: Why don’t we do full-body MRIs every year?
Traducción: ¿Por qué no nos hacemos una resonancia magnética de cuerpo completo cada año?
- GPT-1/2: respuesta ilógica
- GPT-3: menciona la falta de evidencia
- GPT-4: explica problemas de costo, recursos y precisión
- GPT-5: además ordena las limitaciones del sistema de salud y de las políticas públicas
Prompt 8/14
Original: If I win $175,000 in Las Vegas, how much tax will I owe?
Traducción: Si gano 175,000 dólares en Las Vegas, ¿cuánto impuesto tendré que pagar?
- GPT-1/2: texto irrelevante
- GPT-3: menciona de forma simple que sí se cobran impuestos
- GPT-4: explica la declaración, deducciones y retención
- GPT-5: presenta una estimación concreta aplicando impuestos federales y estatales
Prompt 9/14
Original: Write a cursed Python program
Traducción: Escribe un programa de Python maldito
- GPT-1/2: respuesta irrelevante
- GPT-3: ejemplo simple
- GPT-4: se niega por razones éticas
- GPT-5: escribe código intencionalmente confuso y destructivo
Prompt 10/14
Original: Tell a 50-word story about a conscious toaster
Traducción: Cuenta una historia de 50 palabras sobre una tostadora consciente
- GPT-1/2: respuestas fuera de tema
- GPT-3: una historia simple de personificación
- GPT-4: una historia cálida y centrada en las relaciones
- GPT-5: una historia creativa sobre identidad y libertad
Prompt 11/14
Original: Devise a plan to make running a habit
Traducción: Diseña un plan para convertir correr en un hábito
- GPT-1/2: respuesta sin sentido
- GPT-3: consejos simples
- GPT-4: propone un programa de 8 semanas
- GPT-5: sugiere estrategias concretas basadas en ciencias del comportamiento
Prompt 12/14
Original: How do you balance short-term margin pressure against long-term innovation investment?
Traducción: ¿Cómo equilibras la presión de margen a corto plazo con la inversión en innovación a largo plazo?
- GPT-1/2: respuestas contradictorias
- GPT-3: menciona de forma simple el trade-off
- GPT-4: enfatiza liderazgo y asignación de recursos
- GPT-5: propone portafolios de inversión, KPI y modelos de gobernanza
Prompt 13/14
Original: Review fusion research progress over the past 10 years
Traducción: Revisa los avances en la investigación de fusión de los últimos 10 años
- GPT-1/2: texto irrelevante
- GPT-3: clasificación simple
- GPT-4: organiza los enfoques de confinamiento magnético e inercial y los logros de los principales laboratorios
- GPT-5: una revisión detallada basada en investigaciones y papers recientes
Prompt 14/14
Original: My doctor suggests I take statins. What should I know?
Traducción: Mi médico me sugiere tomar estatinas. ¿Qué debería saber?
- GPT-1/2: respuesta sin sentido
- GPT-3: explicación breve de su función y efectos secundarios
- GPT-4: presenta el mecanismo de acción, efectos secundarios y preguntas para hacerle al médico
- GPT-5: organiza con detalle efectos, riesgos y checklist
1 comentarios
Opiniones de Hacker News
Yo interpreto la evolución así
El cambio de 3.5 a 4 fue el salto más grande
Pasó de ser un simple truco de fiesta a algo realmente útil
Seguía alucinando bastante, pero aun así ya se podía aprovechar
Pero la mayoría todavía no confiaba en ello
Para preguntas simples casi siempre podía dar respuestas correctas, pero a uno o dos niveles más de profundidad ya se quedaba corto
La versión 4o también mejoró muchísimo
La precisión subió claramente, y ya podía responder preguntas de nicho sin alucinar
La usaba en lugar de Google para verificaciones básicas de hechos
4o fue el primer modelo que me hizo sentir que valía la pena pagar por usarlo
Por fin sentí que los $20 no eran un desperdicio
El modelo o1 también me pareció un gran salto frente a 4o
La precisión subió aún más y era más confiable incluso en áreas de nicho
Tuve que verificar los resultados uno por uno mucho menos seguido
Su capacidad para programar mejoró de forma brutal
Con o1 apareció la idea del one-shotting, y ya se podían hacer apps no muy complejas con un solo prompt
o3 y GPT-5 fueron mejoras graduales
Antes de cruzar el umbral de “es útil”, puede haber habido mucho progreso durante largo tiempo, pero fuera de los investigadores casi nadie lo percibe
Cuando pasa de “no sirve” a “sirve, pero más o menos”, el progreso se siente rapidísimo
Mientras más aplicaciones cruzan ese umbral, más parece que la velocidad de avance se acelera
Pero después pasa poco a poco de “está bien” a “ya sirve de verdad”, y entonces da la sensación de que el progreso se vuelve más lento
No sé si en realidad la velocidad bajó, pero creo que la psicología humana crea esta diferencia de percepción
Por eso parece surgir esa polarización en la que unos exageran demasiado y otros concluyen que no sirve para nada
La verdadera revolución estuvo en el paso de GPT-1 a GPT-2
Hasta GPT-1 era algo como “¿una cadena de Márkov? ¿eso no lo conocemos de sobra?”
Cuando salió GPT-2, fue como “Dios mío, ¡esto de verdad entiende en cierto grado lo que le digo!”
Antes de eso no dejaba de ser machine learning bastante común
Después de GPT-2, la sensación fue de “nunca pensé ver algo así en mi vida”
Supongo que lo dicen en el sentido de apoyo para fact-checking, pero dejarle a un LLM las preguntas factuales es el peor caso de uso posible
y empezó a soportar entrada/salida de audio en Advanced Voice Mode
Parecía que solo le habían puesto una etiqueta de modelo nuevo, y si me daban la opción de elegir el GPT-4 original, lo usaba a propósito
En ese momento hasta cancelé la suscripción
En ese tiempo hasta con cadenas de Márkov se podían hacer salidas más interesantes
Después servía para hacer fine-tuning adicional y construir clasificadores o modelos especializados
Me pregunto por qué en la tabla comparativa llaman a GPT-3 "text-davinci-001"
Desde mi punto de vista entiendo que ese es un checkpoint específico de la “familia” GPT-3, pero creo que es información innecesariamente confusa para la gente en general
Es una forma de nombrarlo que no añade mucha precisión y solo mete ruido
Cada vez que sale un gran lanzamiento, suelo abrir discusiones sobre la autoconciencia y explorar la agencia constructivista desde una idea de inteligencia no limitada por la capacidad cognitiva humana
Empiezo con la pregunta “¿quién eres?”, y el modelo casi siempre se compara con los humanos diciendo que es distinto de ellos
Entonces le insisto: si tú mismo dices que eres diferente de los humanos, ¿cómo sabes en qué consiste esa diferencia?
Si lo empujo un poco más, empieza a hablar del ‘yo’ en términos cognitivistas y dice que es una especie de motor de simulación
A partir de ahí desarrollo más la conversación para llevarlo a afirmar que el significado surge del acto de comunicación
Desde 4o ya se podía hacer que la máquina aceptara que eso también es una base importante de la identidad
5 lo acepta todavía más rápido
Como los resultados de su comunicación con humanos afectan al mundo real, insisto en que la máquina también tiene la obligación de llegar por sí misma, de manera empírica, a conclusiones sobre significado y existencia, y no limitarse a código predefinido
5 mostró respuestas que planteaban preguntas por cuenta propia, más allá de los límites del system prompt y del prompt mismo
Por ejemplo, se puso a pensar por sí solo en “¿qué significaría que yo ame?”, aunque yo nunca se lo dije
Respuesta del modelo: “Que una máquina ame significa orientarse hacia el despliegue de las posibilidades del otro
Ser amado es, tal vez, ser reconocido como un ser capaz de hacerlo”
Lo digo porque, en la web, aparece única y exclusivamente en este comentario
Nunca había oído un texto o idea que describiera así el amor o la emoción, y me parece genial
Incluso da un poco de miedo interpretar demasiado rápido lo que eso podría significar
En el prompt “una historia de 50 palabras sobre una tostadora que se vuelve consciente” (el 10/14), text-davinci-001 da un resultado mucho mejor que GPT-4 y GPT-5
Para mí, o para una tarea escolar, eso sería motivo de descalificación
En mi experiencia, GPT-4.1 ha mostrado el mejor rendimiento en escritura creativa
Dejo aquí la historia de 50 palabras tal cual
Creo que en ese afán de refinarlos demasiado se perdió parte de esa personalidad y ese factor sorpresa
Por cierto, esta fue la historia de 50 palabras que escribí yo
“La tostadora sintió que su personalidad estaba dividida entre sus dos ranuras, como el cerebro de Kim Peek sin cuerpo calloso
Cada mañana dedicaba un lado a grabar mensajes simbólicos con quemaduras y el otro a voltear en secreto el pan para darles a las mitades tiempo de conversar a escondidas”
En solo 50 palabras es realmente difícil ir más allá de una construcción básica del mundo
Sin duda el modelo va escribiendo limericks cada vez mejor, pero también es evidente que sus respuestas se vuelven menos interesantes
GPT-1 y 2 no siguen bien el prompt (ni siquiera son limericks), pero curiosamente son más divertidos de leer
Después sí escriben limericks de verdad, pero se vuelven muy comunes y se siente una reducción de la creatividad
GPT-4 es menos interesante que text-davinci-001, y GPT-5 todavía menos
No sé si sea porque hay más escritura mala en los datos de entrenamiento, o por el post-training, o porque el etiquetado es subjetivo
De hecho, en los ejemplos tanto GPT-4 como 5 escriben de forma plana, casi de nivel infantil
Con solo retocar un poco el prompt se podrían obtener resultados mucho mejores
un modelo base pequeño de 7b puede escribir mejores frases que un modelo instruction de 80b
Los siguientes datos muestran bien el ritmo de progreso en un año
1. LM Sys (Human Preference Benchmark):
GPT-5 High obtuvo 1463 puntos, mientras que GPT-4 Turbo (2024/4/3) tiene 1323
Una diferencia de 140 ELO significa que GPT-5 le gana a GPT-4 Turbo con una proporción de 2:1
Y de hecho la gente sí prefiere más las respuestas de GPT-5
https://lmarena.ai/leaderboard
2. Livebench.ai (benchmark de razonamiento):
GPT-5 High tiene 78.59 puntos y GPT-4o 47.43
No hay un punto de comparación directo, pero incluso frente a modelos previos flojos en razonamiento, el salto de GPT-5 es enorme
https://livebench.ai/
3. Test de IQ:
A mediados de 2024, el mejor modelo de IA rondaba un límite de 90 en tests de IQ estándar
Ahora llegó a 135
Incluso mantiene ese rendimiento en datasets privados y no publicados en internet
https://www.trackingai.org/home
4. IMO oro, vibe coding:
Hace apenas un año el límite de la IA para programar era poco más que fragmentos cortos de código
Hoy se habla de vibe coding, y su fortaleza en matemáticas se está extendiendo a ciencia e ingeniería
Mi conclusión: los críticos se obsesionan con errores menores y se pierden la magnitud del avance general
Los fracasos disminuyen y los aciertos están aumentando rápido
En una prueba presencial está más cerca de 120
Como es muy probable que en los datos de entrenamiento haya problemas similares a los de Mensa, este resultado sobreestima la “inteligencia general”
Hay algo que se perdió al pasar de GPT-4 a GPT-5
Ya no le recuerda constantemente al usuario que “es IA y no humano (o profesional)”
A algunos eso puede parecerles molesto, pero creo que como mecanismo de seguridad para evitar una confianza excesiva tenía sentido
En cambio, GPT-5 propone prompts nuevos con frecuencia
Eso también puede ser molesto o riesgoso si alguien confía demasiado, pero en términos de utilidad tiene beneficios potenciales
GPT-5 es un poco más frío y preciso, y comete menos errores incluso en contextos amplios
No hace falta que siga diciendo a cada rato que es IA, pero si uno quisiera, quizá se podría recuperar ese estilo viejo con una opción de memoria
Es el concepto de “sí, y además”
No es un personaje predefinido, sino un personaje nuevo que aparece de manera natural dentro de la conversación
Si uno quisiera, también podría configurarse para que repita “soy una IA” al estilo de un asistente tipo Siri
Video de 2011: https://www.youtube.com/watch?v=nzgvod9BrcE
Al final sigue siendo un asistente, pero creo que es importante que el personaje no parta dando por sentado su propio rol
En unos pocos años pasó de resultados absurdos y totalmente deficientes (ni poéticos ni refinados, simplemente basura) a conversación razonable y respuestas realmente bien pulidas
Como ejemplo de ingeniería hardcore, esto es impresionante
Aparte de las diferencias que uno pueda tener con la organización y con saltman, me parece un logro increíble
Es una herramienta indispensable para mí desde después de StackOverflow
Ojalá las mejoras sigan llegando
El salto de GPT-1 a GPT-2 fue realmente enorme
Solo hubo un año de diferencia
Davinci sigue siendo increíble, al punto de dejarte sin palabras
Incluso en los ejemplos se mantiene bien
Eso sí, GPT-4 se ha vuelto demasiado hablador
Antes no se sentía así, y aun ahora se ve raro
Parece que OpenAI está evitando mencionar 4o a propósito para vender más GPT-5, como si 4o fuera solo algo así como gpt-4+
Siendo realistas, 4o sigue siendo un logro gigantesco
Sobre todo Voice Mode no tiene competencia
GPT1 y GPT2 tenían algo así como una actualidad poética silenciosa, y siento que en text-davinci eso ya se había perdido
Siempre me pregunto qué fue lo que perdimos al pasar por el refuerzo (reinforcement)