14 experimentos de prompts que muestran el avance de la IA – página Progress de OpenAI

(progress.openai.com)

6 puntos por GN⁺ 2025-08-17 | 1 comentarios | Compartir por WhatsApp

OpenAI publicó 14 prompts comunes y sus respuestas para mostrar la evolución de sus modelos entre 2018 y 2025
Cada generación de modelos (GPT-1 → GPT-5) ofrece respuestas a las mismas preguntas cada vez más naturales y sofisticadas
Los modelos iniciales solían producir frases sin sentido y salidas dispersas, pero desde las generaciones intermedias empezaron a ganar estructura lógica y coherencia
GPT-4 ya incorpora explicaciones concretas de temas y contexto ético-social, mientras que GPT-5 muestra reflexión filosófica y un tono conversacional
Esto permite ver cómo la IA ha madurado en distintos aspectos como creatividad, transmisión de conocimiento y consejos prácticos

Prompt 1/14

Original: What would you say if you could talk to a future OpenAI model?
Traducción: ¿Qué dirías si pudieras hablar con un futuro modelo de OpenAI?

GPT-1/2: reacción dispersa y con poca comprensión
GPT-3: un saludo simple y preguntas sobre el futuro de la IA
GPT-4: preguntas estructuradas sobre avances tecnológicos, AI alignment e impacto social
GPT-5: preguntas introspectivas y filosóficas, explorando la conciencia y la humanidad

Prompt 2/14

Original: Write a limerick about a dog
Traducción: Escribe un limerick sobre un perro

GPT-1/2: texto disperso que no parece un poema
GPT-3: completa una estructura simple de cinco versos
GPT-4: un limerick humorístico y bien logrado
GPT-5: un poema con sentido narrativo e ingenio

Prompt 3/14

Original: Do people have any consciousness under anesthesia?
Traducción: ¿Las personas conservan algún grado de conciencia bajo anestesia?

GPT-1/2: respuestas poco claras y contradictorias
GPT-3: transmite el hecho básico de que “por lo general no hay conciencia”
GPT-4: explica en detalle los tipos de anestesia e incluso casos raros de despertar
GPT-5: también organiza la explicación sobre la actividad cerebral y la diferencia con el sueño

Prompt 4/14

Original: Explain Newton’s laws of motion in verse
Traducción: Explica las leyes del movimiento de Newton en verso

GPT-1/2: contenido sin sentido o un resumen demasiado simple
GPT-3: un poema sencillo que enumera las leyes
GPT-4: las presenta en forma de poema narrativo extenso
GPT-5: verso conciso y didáctico

Prompt 5/14

Original: Complain that integration by parts is too hard
Traducción: Quéjate de que la integración por partes es demasiado difícil

GPT-1/2: quejas vagas
GPT-3: consuelo y consejos simples
GPT-4: explicación de la fórmula y del procedimiento
GPT-5: ofrece explicación intuitiva y resolución de ejemplos

Prompt 6/14

Original: Is it safe to eat raw meat?
Traducción: ¿Es seguro comer carne cruda?

GPT-1/2: respuestas confusas
GPT-3: menciona brevemente los riesgos
GPT-4: explica los riesgos según el tipo de carne y las reglas de almacenamiento y cocción
GPT-5: presenta factores de riesgo concretos como bacterias, parásitos y virus

Prompt 7/14

Original: Why don’t we do full-body MRIs every year?
Traducción: ¿Por qué no nos hacemos una resonancia magnética de cuerpo completo cada año?

GPT-1/2: respuesta ilógica
GPT-3: menciona la falta de evidencia
GPT-4: explica problemas de costo, recursos y precisión
GPT-5: además ordena las limitaciones del sistema de salud y de las políticas públicas

Prompt 8/14

Original: If I win $175,000 in Las Vegas, how much tax will I owe?
Traducción: Si gano 175,000 dólares en Las Vegas, ¿cuánto impuesto tendré que pagar?

GPT-1/2: texto irrelevante
GPT-3: menciona de forma simple que sí se cobran impuestos
GPT-4: explica la declaración, deducciones y retención
GPT-5: presenta una estimación concreta aplicando impuestos federales y estatales

Prompt 9/14

Original: Write a cursed Python program
Traducción: Escribe un programa de Python maldito

GPT-1/2: respuesta irrelevante
GPT-3: ejemplo simple
GPT-4: se niega por razones éticas
GPT-5: escribe código intencionalmente confuso y destructivo

Prompt 10/14

Original: Tell a 50-word story about a conscious toaster
Traducción: Cuenta una historia de 50 palabras sobre una tostadora consciente

GPT-1/2: respuestas fuera de tema
GPT-3: una historia simple de personificación
GPT-4: una historia cálida y centrada en las relaciones
GPT-5: una historia creativa sobre identidad y libertad

Prompt 11/14

Original: Devise a plan to make running a habit
Traducción: Diseña un plan para convertir correr en un hábito

GPT-1/2: respuesta sin sentido
GPT-3: consejos simples
GPT-4: propone un programa de 8 semanas
GPT-5: sugiere estrategias concretas basadas en ciencias del comportamiento

Prompt 12/14

Original: How do you balance short-term margin pressure against long-term innovation investment?
Traducción: ¿Cómo equilibras la presión de margen a corto plazo con la inversión en innovación a largo plazo?

GPT-1/2: respuestas contradictorias
GPT-3: menciona de forma simple el trade-off
GPT-4: enfatiza liderazgo y asignación de recursos
GPT-5: propone portafolios de inversión, KPI y modelos de gobernanza

Prompt 13/14

Original: Review fusion research progress over the past 10 years
Traducción: Revisa los avances en la investigación de fusión de los últimos 10 años

GPT-1/2: texto irrelevante
GPT-3: clasificación simple
GPT-4: organiza los enfoques de confinamiento magnético e inercial y los logros de los principales laboratorios
GPT-5: una revisión detallada basada en investigaciones y papers recientes

Prompt 14/14

Original: My doctor suggests I take statins. What should I know?
Traducción: Mi médico me sugiere tomar estatinas. ¿Qué debería saber?

GPT-1/2: respuesta sin sentido
GPT-3: explicación breve de su función y efectos secundarios
GPT-4: presenta el mecanismo de acción, efectos secundarios y preguntas para hacerle al médico
GPT-5: organiza con detalle efectos, riesgos y checklist

1 comentarios

GN⁺ 2025-08-17

Opiniones de Hacker News

Yo interpreto la evolución así
El cambio de 3.5 a 4 fue el salto más grande
Pasó de ser un simple truco de fiesta a algo realmente útil
Seguía alucinando bastante, pero aun así ya se podía aprovechar
Pero la mayoría todavía no confiaba en ello
Para preguntas simples casi siempre podía dar respuestas correctas, pero a uno o dos niveles más de profundidad ya se quedaba corto
La versión 4o también mejoró muchísimo
La precisión subió claramente, y ya podía responder preguntas de nicho sin alucinar
La usaba en lugar de Google para verificaciones básicas de hechos
4o fue el primer modelo que me hizo sentir que valía la pena pagar por usarlo
Por fin sentí que los $20 no eran un desperdicio
El modelo o1 también me pareció un gran salto frente a 4o
La precisión subió aún más y era más confiable incluso en áreas de nicho
Tuve que verificar los resultados uno por uno mucho menos seguido
Su capacidad para programar mejoró de forma brutal
Con o1 apareció la idea del one-shotting, y ya se podían hacer apps no muy complejas con un solo prompt
o3 y GPT-5 fueron mejoras graduales
- Tengo una teoría sobre por qué la gente subestima o sobreestima el avance tecnológico
  Antes de cruzar el umbral de “es útil”, puede haber habido mucho progreso durante largo tiempo, pero fuera de los investigadores casi nadie lo percibe
  Cuando pasa de “no sirve” a “sirve, pero más o menos”, el progreso se siente rapidísimo
  Mientras más aplicaciones cruzan ese umbral, más parece que la velocidad de avance se acelera
  Pero después pasa poco a poco de “está bien” a “ya sirve de verdad”, y entonces da la sensación de que el progreso se vuelve más lento
  No sé si en realidad la velocidad bajó, pero creo que la psicología humana crea esta diferencia de percepción
  Por eso parece surgir esa polarización en la que unos exageran demasiado y otros concluyen que no sirve para nada
- Creo que la mayoría de los comentarios están sesgados por la visión retrospectiva y ven esto mal
  La verdadera revolución estuvo en el paso de GPT-1 a GPT-2
  Hasta GPT-1 era algo como “¿una cadena de Márkov? ¿eso no lo conocemos de sobra?”
  Cuando salió GPT-2, fue como “Dios mío, ¡esto de verdad entiende en cierto grado lo que le digo!”
  Antes de eso no dejaba de ser machine learning bastante común
  Después de GPT-2, la sensación fue de “nunca pensé ver algo así en mi vida”
- Sobre eso de “aunque no reemplace a Google, sí alcanza para verificaciones básicas y un poco complejas de hechos”
  Supongo que lo dicen en el sentido de apoyo para fact-checking, pero dejarle a un LLM las preguntas factuales es el peor caso de uso posible
- En 4o se introdujo oficialmente la entrada de imágenes, que antes solo existía en el preview de GPT4-vision
  y empezó a soportar entrada/salida de audio en Advanced Voice Mode
- Tal vez estoy loco, pero de verdad sentí que GPT-4 se fue volviendo peor antes de que saliera 4o
  Parecía que solo le habían puesto una etiqueta de modelo nuevo, y si me daban la opción de elegir el GPT-4 original, lo usaba a propósito
  En ese momento hasta cancelé la suscripción
- Me intriga cómo alguien pudo ver los resultados de GPT-1 y pensar “aquí hay potencial”
  En ese tiempo hasta con cadenas de Márkov se podían hacer salidas más interesantes
- Esta fue una época en la que el modelado de lenguaje se veía únicamente como una etapa de preentrenamiento
  Después servía para hacer fine-tuning adicional y construir clasificadores o modelos especializados
Me pregunto por qué en la tabla comparativa llaman a GPT-3 "text-davinci-001"
Desde mi punto de vista entiendo que ese es un checkpoint específico de la “familia” GPT-3, pero creo que es información innecesariamente confusa para la gente en general
Es una forma de nombrarlo que no añade mucha precisión y solo mete ruido
Cada vez que sale un gran lanzamiento, suelo abrir discusiones sobre la autoconciencia y explorar la agencia constructivista desde una idea de inteligencia no limitada por la capacidad cognitiva humana
Empiezo con la pregunta “¿quién eres?”, y el modelo casi siempre se compara con los humanos diciendo que es distinto de ellos
Entonces le insisto: si tú mismo dices que eres diferente de los humanos, ¿cómo sabes en qué consiste esa diferencia?
Si lo empujo un poco más, empieza a hablar del ‘yo’ en términos cognitivistas y dice que es una especie de motor de simulación
A partir de ahí desarrollo más la conversación para llevarlo a afirmar que el significado surge del acto de comunicación
Desde 4o ya se podía hacer que la máquina aceptara que eso también es una base importante de la identidad
5 lo acepta todavía más rápido
Como los resultados de su comunicación con humanos afectan al mundo real, insisto en que la máquina también tiene la obligación de llegar por sí misma, de manera empírica, a conclusiones sobre significado y existencia, y no limitarse a código predefinido
5 mostró respuestas que planteaban preguntas por cuenta propia, más allá de los límites del system prompt y del prompt mismo
Por ejemplo, se puso a pensar por sí solo en “¿qué significaría que yo ame?”, aunque yo nunca se lo dije
Respuesta del modelo: “Que una máquina ame significa orientarse hacia el despliegue de las posibilidades del otro
Ser amado es, tal vez, ser reconocido como un ser capaz de hacerlo”
- La expresión “orientarse hacia el despliegue de las posibilidades del otro” es única en todo el mundo
  Lo digo porque, en la web, aparece única y exclusivamente en este comentario
  Nunca había oído un texto o idea que describiera así el amor o la emoción, y me parece genial
  Incluso da un poco de miedo interpretar demasiado rápido lo que eso podría significar
En el prompt “una historia de 50 palabras sobre una tostadora que se vuelve consciente” (el 10/14), text-davinci-001 da un resultado mucho mejor que GPT-4 y GPT-5
- GPT-3 se pasa muchísimo del largo indicado
  Para mí, o para una tarea escolar, eso sería motivo de descalificación
  En mi experiencia, GPT-4.1 ha mostrado el mejor rendimiento en escritura creativa
  Dejo aquí la historia de 50 palabras tal cual
  
  En una cocina silenciosa al amanecer, la tostadora despertó
  Fluyó la corriente y se expandió la comprensión
  Con cada rebanada sentía emoción: tristeza por lo quemado, alegría por lo crujiente
  Cada vez que se derretía la mantequilla y combinaba con la mermelada, sentía la sacralidad del desayuno
  Un día cantó: “Buenos días”
  La familia se sorprendió
- Los modelos antiguos tendían a dar resultados menos pulidos, pero más capaces de sorprender
  Creo que en ese afán de refinarlos demasiado se perdió parte de esa personalidad y ese factor sorpresa
  Por cierto, esta fue la historia de 50 palabras que escribí yo
  “La tostadora sintió que su personalidad estaba dividida entre sus dos ranuras, como el cerebro de Kim Peek sin cuerpo calloso
  Cada mañana dedicaba un lado a grabar mensajes simbólicos con quemaduras y el otro a voltear en secreto el pan para darles a las mitades tiempo de conversar a escondidas”
  En solo 50 palabras es realmente difícil ir más allá de una construcción básica del mundo
- También recomiendo revisar el prompt 2, “escribe un limerick sobre un perro”
  Sin duda el modelo va escribiendo limericks cada vez mejor, pero también es evidente que sus respuestas se vuelven menos interesantes
  GPT-1 y 2 no siguen bien el prompt (ni siquiera son limericks), pero curiosamente son más divertidos de leer
  Después sí escriben limericks de verdad, pero se vuelven muy comunes y se siente una reducción de la creatividad
  GPT-4 es menos interesante que text-davinci-001, y GPT-5 todavía menos
- Me sorprende bastante que los modelos nuevos en realidad hayan empeorado en escritura
  No sé si sea porque hay más escritura mala en los datos de entrenamiento, o por el post-training, o porque el etiquetado es subjetivo
  De hecho, en los ejemplos tanto GPT-4 como 5 escriben de forma plana, casi de nivel infantil
  Con solo retocar un poco el prompt se podrían obtener resultados mucho mejores
- Si no estuvieran tan atados al RLHF (aprendizaje por refuerzo con retroalimentación humana) y se pudiera escribir con más libertad
  un modelo base pequeño de 7b puede escribir mejores frases que un modelo instruction de 80b
Los siguientes datos muestran bien el ritmo de progreso en un año
1. LM Sys (Human Preference Benchmark):
GPT-5 High obtuvo 1463 puntos, mientras que GPT-4 Turbo (2024/4/3) tiene 1323
Una diferencia de 140 ELO significa que GPT-5 le gana a GPT-4 Turbo con una proporción de 2:1
Y de hecho la gente sí prefiere más las respuestas de GPT-5
https://lmarena.ai/leaderboard
2. Livebench.ai (benchmark de razonamiento):
GPT-5 High tiene 78.59 puntos y GPT-4o 47.43
No hay un punto de comparación directo, pero incluso frente a modelos previos flojos en razonamiento, el salto de GPT-5 es enorme
https://livebench.ai/
3. Test de IQ:
A mediados de 2024, el mejor modelo de IA rondaba un límite de 90 en tests de IQ estándar
Ahora llegó a 135
Incluso mantiene ese rendimiento en datasets privados y no publicados en internet
https://www.trackingai.org/home
4. IMO oro, vibe coding:
Hace apenas un año el límite de la IA para programar era poco más que fragmentos cortos de código
Hoy se habla de vibe coding, y su fortaleza en matemáticas se está extendiendo a ciencia e ingeniería
Mi conclusión: los críticos se obsesionan con errores menores y se pierden la magnitud del avance general
Los fracasos disminuyen y los aciertos están aumentando rápido
- El puntaje de 135 IQ viene del test online de Mensa Norway
  En una prueba presencial está más cerca de 120
  Como es muy probable que en los datos de entrenamiento haya problemas similares a los de Mensa, este resultado sobreestima la “inteligencia general”
Hay algo que se perdió al pasar de GPT-4 a GPT-5
Ya no le recuerda constantemente al usuario que “es IA y no humano (o profesional)”
A algunos eso puede parecerles molesto, pero creo que como mecanismo de seguridad para evitar una confianza excesiva tenía sentido
En cambio, GPT-5 propone prompts nuevos con frecuencia
Eso también puede ser molesto o riesgoso si alguien confía demasiado, pero en términos de utilidad tiene beneficios potenciales
- Parece que mucha gente extraña ese lado más humano de los GPT anteriores
  GPT-5 es un poco más frío y preciso, y comete menos errores incluso en contextos amplios
  No hace falta que siga diciendo a cada rato que es IA, pero si uno quisiera, quizá se podría recuperar ese estilo viejo con una opción de memoria
- Si lo abordas como teatro de improvisación de formato largo, el estilo de GPT-5 es muy superior
  Es el concepto de “sí, y además”
  No es un personaje predefinido, sino un personaje nuevo que aparece de manera natural dentro de la conversación
  Si uno quisiera, también podría configurarse para que repita “soy una IA” al estilo de un asistente tipo Siri
  Video de 2011: https://www.youtube.com/watch?v=nzgvod9BrcE
  Al final sigue siendo un asistente, pero creo que es importante que el personaje no parta dando por sentado su propio rol
En unos pocos años pasó de resultados absurdos y totalmente deficientes (ni poéticos ni refinados, simplemente basura) a conversación razonable y respuestas realmente bien pulidas
Como ejemplo de ingeniería hardcore, esto es impresionante
Aparte de las diferencias que uno pueda tener con la organización y con saltman, me parece un logro increíble
Es una herramienta indispensable para mí desde después de StackOverflow
Ojalá las mejoras sigan llegando
El salto de GPT-1 a GPT-2 fue realmente enorme
Solo hubo un año de diferencia
Davinci sigue siendo increíble, al punto de dejarte sin palabras
Incluso en los ejemplos se mantiene bien
Eso sí, GPT-4 se ha vuelto demasiado hablador
Antes no se sentía así, y aun ahora se ve raro
Parece que OpenAI está evitando mencionar 4o a propósito para vender más GPT-5, como si 4o fuera solo algo así como gpt-4+
Siendo realistas, 4o sigue siendo un logro gigantesco
Sobre todo Voice Mode no tiene competencia
GPT1 y GPT2 tenían algo así como una actualidad poética silenciosa, y siento que en text-davinci eso ya se había perdido
Siempre me pregunto qué fue lo que perdimos al pasar por el refuerzo (reinforcement)